Correlação de Pearson: entenda esse coeficiente

correlação de Pearson é um teste estatístico que pode ser usado no cotidiano de profissionais diversos. Por norma, é empregada para manusear e obter entendimento sobre as variáveis indicadas.

Com ela, é possível compreender sobre a aplicabilidade das mais variadas fórmulas, principalmente as utilizadas por cientistas de dados. Isso é fundamental para quem deseja se tornar um profissional especialista e multidisciplinar na área, em um mercado cada vez mais competitivo.

Por isso, preparamos um guia completo sobre o que é a correlação de Pearson e como usar a fórmula para obter os resultados desejados, sem dar margem para erros.

Por que correlação de Pearson?

A fórmula quantitativa também pode ser chamada r de Pearson ou de coeficiente de correlação produto-momento. Mas, por que “Pearson”? 

Logicamente, a fórmula recebe este nome devido às descobertas de Karl Pearson. Este contribuiu significativamente para os estudos na área de exatas. Contudo, essas não se limitam ao campo da estatística, mas permeiam por outras áreas como ciências sociais. 

Para que serve o coeficiente de correlação linear?

coeficiente de correlação de Pearson (r) é um teste cujo objetivo é medir o grau de correlação linear entre duas variáveis quantitativas, atributo ou característica de determinado assunto.

A mensuração pode ser em relação à direção ou intensidade. Intensidade trata do relacionamento entre as variáveis indicadas. Já a direção é o tipo de correlação (positiva ou direta; negativa ou inversa).

Na prática, é um índice dimensional “r” com valores que variam dos extremos entre -1 e +1, resultando na intensidade de uma relação linear entre dois conjuntos de dados. Se não houver linearidade entre os elementos associados, o coeficiente não será apresentado adequadamente. Logo, isso pode causar impactos nos resultados.

Importante saber que o coeficiente (resultado “r”) não tem unidade física de definição, sendo adimensional (número puro).

Para que serve o coeficiente de correlação linear?

coeficiente de correlação de Pearson (r) é um teste cujo objetivo é medir o grau de correlação linear entre duas variáveis quantitativas, atributo ou característica de determinado assunto.

A mensuração pode ser em relação à direção ou intensidade. Intensidade trata do relacionamento entre as variáveis indicadas. Já a direção é o tipo de correlação (positiva ou direta; negativa ou inversa).

Na prática, é um índice dimensional “r” com valores que variam dos extremos entre -1 e +1, resultando na intensidade de uma relação linear entre dois conjuntos de dados. Se não houver linearidade entre os elementos associados, o coeficiente não será apresentado adequadamente. Logo, isso pode causar impactos nos resultados.

Importante saber que o coeficiente (resultado “r”) não tem unidade física de definição, sendo adimensional (número puro).

Como calcular o coeficiente de correlação de Pearson?

Calcular o coeficiente de correlação de Pearson é muito simples e de fácil entendimento. Para isto, você deve possuir:

  • Duas medidas provenientes de uma mesma unidade amostral e
  •  Duas unidades dependentes avaliadas de forma quantitativa (em números).

É válido também pontuar que, na correlação linear simples, estão envolvidas no cálculo somente duas variáveis.

Portanto, essa atividade matemática pode ser realizada através de uma fórmula manual (como exemplificada a seguir) ou ainda utilizando algumas ferramentas computadorizadas, o Python ou Excel.

Fórmula Manual

O teste para encontrar o coeficiente de correlação de Pearson pode ser feito seguindo a seguinte fórmula:

Análise de correlação de Pearson no Python

Considerada a mais utilizada pelos engenheiros de dados, Python é uma linguagem open source de alto nível e que pode ser utilizada para calcular o coeficiente de correlação linear de Pearson.

O primeiro passo é ir ao menu lateral esquerdo. Posteriormente, na guia Files, clique em “Upload“, depois no conjunto de dados em formato (.csv). Assim, clique duas vezes no respectivo arquivo, depois em “ok” e o programa selecionará os dados.

O segundo passo é escolher e realizar a importação das bibliotecas que serão utilizadas, podendo ser:

  • Pandas,
  • Numpy,
  • Seaborn,
  • Scipy e/ou
  • Stats Models.

Coeficiente na correlação de Pearson no Excel

Com os dados em mãos, você pode montar uma tabela em um editor de planilhas. É possível, portanto, realizar o cálculo no Microsoft Excel ou Google Spreadsheets.

Calcular a correlação em Excel é uma das formas mais fáceis e rápidas de se aplicar a fórmula. O resultado aqui é gerado automaticamente.

Antes de fazer a análise, no entanto, é preciso realizar a extração dos dados medidos. Geralmente é esperada a construção de estruturas e soluções para o armazenamento, processamento e integração de dados, contidos estes em um Big Data.

Vamos fornecer um exemplo que ilustra o cálculo da correlação:

Abaixo, gostaríamos de saber se a idade tem relação ou não com o aumento do peso dos indivíduos.

Em uma coluna ao lado foi inserida a fórmula “=correl” (coluna+linhas X;coluna+linhas Y).

Planilha calculando a correlação de Pearson
Planilha calculando a correlação de Pearson

Assim, o valor obtido é o seu coeficiente de correlação. Para deixar ainda mais prático, é importante ter em mente que no ato do cálculo a ordem dos fatores não importa.

Porém, quando se trata de mais de duas variáveis é interessante utilizar outro método igualmente simples.

Siga o passo a passo:

  1. Abrir a aba “Dados” e clicar em “Analisar dados”;
  2. Será aberta uma caixa de seleção com várias análises estatísticas. Selecione “Correlação”;
  3. Na próxima caixa de seleção que for aberta, você seleciona os dados e opções de plotagem do resultado;
  4.  Você pode escolher por exibir os resultados na mesma planilha ou em outra;
  5. Por fim, será aberta a matriz de correlação.

Como fazer um gráfico de dispersão no Excel 

No Excel, também pode ser feito o gráfico de dispersão. Aliás, a ferramenta é muito útil para verificar de forma visual a existência ou não de relação entre duas variáveis.

  1. Insira os dados nas colunas,
  2. Selecione as colunas e linhas que serão analisadas,
  3. Clique no índice em inserir e
  4. Posteriormente, selecione gráfico e clique na “dispersão”.

Confira abaixo:

modelo de Gráfico de dispersão no Excel

Matriz de correlação de Pearson

Na prática, é a forma de disposição ordenada de um conjunto de elementos para análise estatística em planilhas (linhas e colunas).

A tabela formulada por essa análise indica a correlação entre todos os pares das variáveis exibidas. O profissional de Data Science a utiliza, portanto, para uma observação dos dados antes de começar a análise quantitativa.

Quando a análise envolve grande número de variáveis e há interesse em conhecer a correlação duas a duas, é comum a construção de uma matriz de correlações.

Como interpretar os valores do resultado?

Após a aplicação das fórmulas você chegará ao valor do coeficiente. Mas, como interpretá-lo? Confira a seguir!

Quanto mais próxima dos extremos, mais forte ela é (tem associação). Quanto mais ao meio, próximo ao zero, mais fraca ela se torna. Logo, não há associação ou relação.

Veja o esquema abaixo para entender melhor:

Coeficiente maior que zero

R = 1 Significa uma correlação perfeita positiva entre as duas variáveis.

Coeficiente menor que zero

R = -1 Significa uma correlação negativa perfeita entre as duas variáveis — Isto é, se uma aumenta, a outra sempre diminui.

Coeficiente igual a zero

R = 0 Significa que as duas variáveis não dependem linearmente uma da outra. No entanto, pode existir outra dependência que seja “não linear”. Assim, o resultado r=0 deve ser investigado por outros meios.

Quem pode utilizar a correlação de Pearson?

teste de correlação de Pearson é usado para quem busca verificar se uma medida tem relação com a outra, ou seja, se são conexas. Profissionais das mais diversas áreas aplicam as fórmulas para verificar interdependência entre variáveis.

Quais os desafios da Correlação de Pearson? 

O coeficiente de correlação de Pearson é muito sensível a valores extremos de dados. Um valor único que seja muito diferente dos outros valores de um conjunto pode mudar consideravelmente o valor do coeficiente. 

E o que fazer se isso ocorrer? Identifique a causa do valor extremo e faça a correção dos erros de entrada de dados ou de medidas. Ou ainda, retire os valores de dados associados a eventos atípicos, sendo causas especiais.

Posteriormente, refaça a análise com os dados ajustados.

É importante você saber que, ao utilizar o coeficiente de correlação, ele não é uma medida resistente e pode ser influenciado pela existência nos dados de alguns valores estranhos ou outliers.

Outliers

Na estatística, os Outliers são valores muito maiores ou menores que os restantes. A interpretação, portanto, deve ser cuidadosa. 

Aliás, a representação prévia dos dados num diagrama cartesiano de dispersão, antes de efetuar o cálculo do coeficiente de correlação de Pearson, permite a identificação da existência de outliers.

Lurking Variables

O termo lurking variables, ou em português variável à espreita, quer dizer que existe uma variável desconhecida e não controlada. Contudo, ela tem um efeito importante sobre as variáveis analisadas. 

De forma objetiva, é considerada uma variável estranha e que pode provocar resultados tendenciosos ou análises enganosas como resultado final.

Onde aprofundar os conhecimentos em estatística?

O seu sonho é se tornar referência na sua área? Saiba que a pós-graduação em Engenharia de Dados do IGTI é para você! Temos plena certeza de que esse investimento irá te transformar em um profissional capacitado o suficiente para disputar vagas no mercado brasileiro (setor público e privado) ou no exterior.

De acordo com levantamento feito em 2021 pela empresa INTERA (rhtech de recrutamento digital), a área de dados é uma das mais bem remuneradas com salários iniciais que variam entre R$7 mil a R$16 mil.

Aproveite a oportunidade, pois há muitas vagas disponíveis no mercado. Contudo, são poucos os profissionais capacitados!

spot_img

Continue Aprendendo

spot_img