Correlação: Medidas, Cálculo e Método

Depois de ler este artigo, você aprenderá sobre: - 1. Medidas de Correlação 2. Cálculo de Correlação 3. Métodos.

Medidas de Correlação:

Coeficiente de Correlação de Karl Pearson (observações individuais) :

Para calcular o grau ou extensão da correlação e direção da correlação, o método de Karl Pearson é o mais satisfatório.

Simbolicamente, sua formulação é como abaixo:

onde dx é o desvio de vários itens da primeira variável a partir de uma média presumida e dy, os desvios correspondentes da segunda variável da média assumida e N conotam o número de pares de itens.

A aplicação da fórmula é explicada com referência aos seguintes dados hipotéticos:

Cálculo do Coeficiente de Correlação em uma Série Contínua:

No caso de uma série contínua, os dados são classificados em uma tabela de frequência bidirecional. A computação do coeficiente de correlação em relação aos dados agrupados é baseada na presunção de que cada item que cai dentro de um determinado intervalo de classe é considerado como caindo exatamente no valor médio dessa classe.

Como ilustração, devemos calcular o coeficiente ou correlação com os seguintes dados:

A fórmula para o cálculo do coeficiente de correlação neste caso terá a seguinte forma:

A única mudança na fórmula acima, em comparação com a anterior, é a introdução de f, que significa frequência.

Aplicando a fórmula na Tabela 18.50 obtemos:

Método de Diferença de Classificação de Correlação:

Onde a medição direta do fenômeno em estudo não é possível, por exemplo, de características como eficiência, honestidade, inteligência, etc., o método de diferença de posição é aplicado para descobrir a extensão da correlação.

A fórmula para calcular a correlação de classificação é:

onde R denota coeficiente de correlação de postos entre ranks pareados, D denota as diferenças entre os ranks pareados e N representa o número de pares.

Vamos, com a ajuda do exemplo a seguir, ilustrar a aplicação da fórmula acima:

Cálculo do Coeficiente de Correlação pelo Método de Diferença de Classificação :

(Quando houver dois ou mais itens com o mesmo valor) :

Se houver mais de um item com o mesmo valor, uma classificação comum será dada a esses itens. Esta classificação é a média das classificações que esses itens teriam, se houvesse uma pequena diferença em seus valores. Suponha que as notas obtidas por cinco alunos sejam 70, 66, 66, 65, 63, respectivamente.

Se estas marcas estiverem dispostas em ordem decrescente, o número 70 receberá o primeiro grau, 66 o segundo, o terceiro e 63 o quarto. Como os dois alunos do exemplo têm uma pontuação igual, sua classificação é 2. Agora eles receberão a classificação média desses níveis que esses alunos teriam assegurado se tivessem diferido um pouco do outro.

Nesta suposição, a classificação de ambos os itens seria 2 + 3/2. isto é, 2.5 e o posto do próximo item (65) seria 4. Assim, o coeficiente de correlação de postos precisaria de uma correção porque a fórmula acima [R = 1 6ΣD ² / N (N ² -1) é baseada na suposição de que as fileiras de vários itens são diferentes.

Onde há mais de um item com o mesmo valor, um fator de correção, 1/12 (t ³ -t) é adicionado ao valor de zd ², onde t. representa o número de itens cujas fileiras são comuns. Esse fator de correção é adicionado quantas vezes o número de itens com classificações comuns ocorrer.

Isso é explicado no exemplo a seguir:

Análise de Dados e Interpretação

Exemplo:

Calcule o coeficiente de correlação de postos a partir dos seguintes dados:

No conjunto de dados acima da série X, o número 60 ocorre três vezes. A classificação de todos os três itens é 5, que é a média de 4, 5 e 6, os níveis que esses itens teriam assegurado se tivessem diferido um pouco do outro. Outros números 68 na série X e 70 na série Y, ocorreram duas vezes. Suas fileiras são respectivamente 2, 5 e 1, 5.

Portanto:

A fórmula modificada para o coeficiente de correlação de postos seria assim:

onde n representa o número de itens repetidos. Em relação ao exemplo acima, a fórmula será:

Uma precaução relativa ao significado e implicação de um coeficiente de correlação é bastante justificada. O coeficiente de correlação, por si só uma estimativa de relação muito útil, não deve ser tomado como uma prova absoluta de associação entre variáveis relevantes, na medida em que sua interpretação depende em grande medida do tamanho da amostra selecionada para o estudo, como também, sobre a natureza dos dados coletados.

Um coeficiente de correlação aparentemente alto, digamos, de 0, 80 (+) pode ser bastante enganador se o erro padrão indicativo da flutuação da amostra for relativamente grande ou, ao contrário, um coeficiente aparentemente baixo de 0, 45 (+) pode sugerir que a relação entre as variáveis pode bem ser ignorada, mas no plano da realidade, esta indicação pode ser novamente errônea, já que o coeficiente de correlação para certas variáveis pode ser tipicamente tão baixo que o coeficiente de correlação acima, ou seja, 0, 45 em comparação precisaria ser considerado relativamente alto para a classe de dados em questão.

No entanto, a convenção estatística decreta que o coeficiente de correlação variando de 1 a 0, 7 (+) seja tomado como uma indicação de correlação 'alta' ou significativa, que varia de 0, 7 a 0, 4 (+) como substancial, que entre 0, 4 e 0, 2 (+ ) tão baixo quanto abaixo de 0, 2 (+) como insignificante.

Também é necessário ressaltar que uma alta correlação entre duas variáveis não constitui, por si só, uma prova de que elas estão relacionadas casualmente. Uma correlação significativa entre as variáveis - por exemplo, entre renda e tamanho da família ou o tamanho de uma instituição educacional e o desempenho dos alunos - dificilmente oferece qualquer indicação de que um relacionamento casual ocorra entre eles.

Suponhamos que descobrimos que uma renda mais alta é inversamente correlacionada com o número de questões (crianças), ou seja, quanto maior a renda dos pais, menor o número de questões (o coeficiente de correlação é, digamos, 0, 8, estatisticamente alto). estaremos errados e injustificados ao dizer que a renda mais alta é a causa da menor fertilidade.

Foi apontado anteriormente que uma inferência de causalidade é justificada apenas se três tipos de prova, variação concomitante, ordem temporal e eliminação de qualquer outra variável como condição determinante do efeito hipotético, puderem ser asseguradas.

No presente caso, as inferências a seguir podem possivelmente ser levadas em consideração pela pronunciada correlação evidente entre as variáveis de renda e número de filhos:

(a) um pode estar causando o outro,

(b) Ambas as variáveis podem ser os efeitos de alguma outra causa ou causas, e

(c) A associação pode ser uma mera ocorrência casual. As inferências causais podem obviamente ser muito seguramente estabelecidas em uma situação experimental.

Consideramos isso ao lidar com projetos experimentais. Nas ciências sociais, é muito difícil configurar experimentos, portanto os estudos devem ser não experimentais. Procedimentos analíticos, no entanto, foram concebidos para extrair inferências sobre relação causal em estudos não experimentais.

O pesquisador social está bastante interessado em estimar o grau de associação entre atributos, isto é, entre variáveis que são definidas qualitativamente; por exemplo, ele pode querer averiguar o grau de associação entre o atributo sexual e a preferência política ou entre a natividade e a atitude em relação a uma determinada questão social.

Basicamente, o problema de associação é de correlação, mas a associação entre atributos pode não ser facilmente passível de tratamento matemático, como no caso das medidas quantitativas de variáveis. Uma medida de tal associação entre atributos é o coeficiente de previsibilidade relativa (PR), que é, na verdade, um coeficiente de correlação qualitativo.