Correlação: Significado, Tipos e sua Computação

Depois de ler este artigo, você aprenderá sobre: ​​- 1. Definições de Correlação 2. Significado de Correlação 3. Necessidade 4. Tipos 5. Métodos de Computação.

Definições de Correlação:

Se a mudança em uma variável parece ser acompanhada por uma mudança na outra variável, as duas variáveis ​​são consideradas correlacionadas e essa interdependência é chamada de correlação ou covariação.

Em suma, a tendência de variação simultânea entre duas variáveis ​​é chamada de correlação ou covariação. Por exemplo, pode existir uma relação entre as alturas e os pesos de um grupo de alunos, espera-se que os resultados dos alunos em dois assuntos diferentes tenham uma interdependência ou relação entre eles.

Para medir o grau de relacionamento ou covariação entre duas variáveis ​​é o assunto da análise de correlação. Assim, correlação significa a relação ou “união” ou correspondência entre duas variáveis.

Na estatística, a correlação é um método para determinar a correspondência ou proporcionalidade entre duas séries de medidas (ou pontuações). Simplificando, a correlação indica a relação de uma variável com a outra.

Significado da Correlação:

Para medir o grau de associação ou relação entre duas variáveis ​​quantitativamente, é utilizado um índice de relacionamento e é denominado como coeficiente de correlação.

Coeficiente de correlação é um índice numérico que nos informa em que medida as duas variáveis ​​estão relacionadas e em que medida as variações em uma variável mudam com as variações na outra. O coeficiente de correlação é sempre simbolizado por r ou ρ (Rho).

A noção 'r' é conhecida como coeficiente de correlação de momento do produto ou coeficiente de correlação de Karl Pearson. O símbolo 'ρ' (Rho) é conhecido como coeficiente de correlação de diferenças de classificação ou coeficiente de correlação de postos de Spearman.

O tamanho de ' r ' indica a quantidade (ou grau ou extensão) de correlação entre duas variáveis. Se a correlação for positiva, o valor de ' r ' é + ve e, se a correlação for negativa, o valor de V é negativo. Assim, os sinais do coeficiente indicam o tipo de relação. O valor de V varia de +1 a -1.

A correlação pode variar entre correlação positiva perfeita e correlação negativa perfeita. O topo da escala indicará correlação positiva perfeita e começará a partir de +1 e então passará por zero, indicando ausência completa de correlação.

A parte inferior da escala terminará em -1 e indicará correlação negativa perfeita. Assim, a medida numérica da correlação é fornecida pela escala que vai de +1 a -1.

[NB - O coeficiente de correlação é um número e não uma porcentagem. Geralmente é arredondado para duas casas decimais].

Necessidade de correlação:

Correlação dá significado a uma construção. A análise correlacional é essencial para a pesquisa psico-educacional básica. Na verdade, a maior parte da pesquisa psicológica básica e aplicada é de natureza correlacional.

A análise correlacional é necessária para:

(i) Encontrar características de testes psicológicos e educacionais (confiabilidade, validade, análise de itens, etc.).

(ii) Teste se certos dados são consistentes com hipóteses.

(iii) Prever uma variável com base no conhecimento do (s) outro (s).

(iv) Construindo modelos e teorias psicológicas e educacionais.

(v) Agrupar variáveis ​​/ medidas para interpretação parcimoniosa de dados.

(vi) Realização de testes estatísticos multivariados (T 2 de Hoteling; MANOVA, MANCOVA, Análise Discriminante, Análise Fatorial).

(vii) Isolando a influência das variáveis.

Tipos de Correlação:

Em uma distribuição bivariada, a correlação pode ser:

1. Correlação Positiva, Negativa e Zero; e

2. Linear ou Curvilínea (não linear).

1. Positivo, Negativo ou Zero Correlação:

Quando o aumento em uma variável (X) é seguido por um aumento correspondente na outra variável (Y); Diz-se que a correlação é uma correlação positiva. As correlações positivas variam de 0 a +1; o limite superior, ou seja, +1, é o coeficiente de correlação positivo perfeito.

A correlação positiva perfeita especifica que, para cada aumento unitário em uma variável, há um aumento proporcional na outra. Por exemplo, "Calor" e "Temperatura" têm uma correlação positiva perfeita.

Se, por outro lado, o aumento em uma variável (X) resulta em uma diminuição correspondente na outra variável (Y), a correlação é chamada de correlação negativa.

A correlação negativa varia de 0 a - 1; o limite inferior dando a correlação negativa perfeita. A correlação negativa perfeita indica que, para cada aumento unitário em uma variável, existe uma diminuição proporcional da unidade na outra.

Correlação zero significa que não há relação entre as duas variáveis ​​X e Y; isto é, a mudança em uma variável (X) não está associada à mudança na outra variável (Y). Por exemplo, peso corporal e inteligência, tamanho do sapato e salário mensal; A correlação zero é o ponto médio do intervalo - 1 a + 1.

2. Correlação Linear ou Curvilínea:

A correlação linear é a razão de mudança entre as duas variáveis, na mesma direção ou direção oposta, e a representação gráfica da variável uma em relação a outra variável é reta.

Considere outra situação. Primeiro, com o aumento de uma variável, a segunda variável aumenta proporcionalmente até certo ponto; depois disso, com um aumento na primeira variável, a segunda variável começa a diminuir.

A representação gráfica das duas variáveis ​​será uma linha curva. Tal relação entre as duas variáveis ​​é denominada como a correlação curvilínea.

Métodos de Computação Coeficiente de Correlação:

Na facilidade de dados desagrupados da distribuição bivariada, os três métodos a seguir são usados ​​para calcular o valor do coeficiente de correlação:

1. Método do diagrama de dispersão.

2. Momento de Produto da Pearson Coeficiente de Correlação.

3. Ordem de Classificação de Spearman Coeficiente de Correlação.

1. Método do Diagrama de Dispersão:

Diagrama de dispersão ou diagrama de pontos é um dispositivo gráfico para tirar certas conclusões sobre a correlação entre duas variáveis.

Ao preparar um diagrama de dispersão, os pares observados de observações são plotados por pontos em um papel de gráfico em um espaço bidimensional, tomando as medidas na variável X ao longo do eixo horizontal e na variável Y ao longo do eixo vertical.

A colocação desses pontos no gráfico revela a mudança na variável quanto a se eles mudam na mesma direção ou nas direções opostas. É um método muito simples, mas simples, de correlação computacional.

As frequências ou pontos são plotados em um gráfico, usando escalas convenientes para as duas séries. Os pontos plotados tenderão a se concentrar em uma faixa de maior ou menor largura de acordo com seu grau. 'A linha de melhor ajuste' é desenhada com a mão livre e sua direção indica a natureza da correlação. Diagramas de dispersão, como exemplo, mostrando vários graus de correlação são mostrados na Fig. 5.1 e na Fig. 5.2.

Se a linha for para cima e este movimento ascendente for da esquerda para a direita, ela mostrará correlação positiva. Da mesma forma, se as linhas se moverem para baixo e sua direção for da esquerda para a direita, ela mostrará correlação negativa.

O grau de inclinação indicará o grau de correlação. Se os pontos plotados forem amplamente espalhados, isso mostrará ausência de correlação. Este método descreve simplesmente o 'fato' de que a correlação é positiva ou negativa.

2. Momento do Produto Pearson Coeficiente de Correlação:

O coeficiente de correlação, r, é freqüentemente chamado de “Pearson r”, após o professor Karl Pearson, que desenvolveu o método produto-momento, seguindo o trabalho anterior de Gallon e Bravais.

Coeficiente de correlação como razão:

O coeficiente de correlação do momento do produto pode ser pensado essencialmente como aquela razão que expressa a extensão em que as mudanças em uma variável são acompanhadas por - ou dependentes de mudanças em uma segunda variável.

Como ilustração, considere o seguinte exemplo simples que mostra as alturas e pesos de cinco estudantes universitários:

A altura média é de 69 polegadas, o peso médio de 170 libras, e o é de 2, 24 polegadas e o é 13, 69 libras, respectivamente. Na coluna (4) o desvio (x) da altura de cada aluno a partir da altura média, e na coluna (5) o desvio, (y) do peso de cada aluno a partir do peso médio é dado. O produto desses desvios pareados (xy) na coluna (6) é uma medida da concordância entre as alturas individuais e os pesos. Quanto maior a soma da coluna xy, maior o grau de correspondência. No exemplo acima, o valor de ∑xy / N é 55/5 ou 11. Onde a concordância perfeita, ou seja, r = ± 1, 00, o valor de ∑ xy / N excede o limite máximo.

Assim, ∑ xy / N não produziria uma medida adequada de relação entre xe y. A razão é que tal média não é uma medida estável, pois não é independente das unidades em que a altura e o peso foram expressos.

Em consequência, este rácio variará se forem empregados centímetros e quilogramas em vez de polegadas e libras. Uma maneira de evitar o problema - alguma questão de diferenças em unidades é expressar cada desvio como um escore σ ou escore padrão ou escore Z, isto é, dividir cada x e y por seu próprio σ.

Cada desvio xey é então expresso como uma razão e é um número puro, independente das unidades de teste. A soma dos produtos da coluna de pontuações (9) dividida por N produz uma razão que é uma expressão estável de relação. Essa relação é o coeficiente de correlação “momento do produto”. Em nosso exemplo, seu valor de 0, 36 indica uma correlação positiva bastante alta entre a altura e o peso nessa pequena amostra.

O estudante deve notar que a nossa razão ou coeficiente é simplesmente o produto médio dos escores σ das medidas X e Y correspondentes, ou seja,

Natureza de r xy :

(i) xy é um momento de produto

(ii) r xy é uma razão, = r xy .

(iii) r xy pode ser + ve ou - ligado por limites - 1.00 a + 1.00.

(iv) r xy pode ser considerado como uma média aritmética (r xy é a média dos produtos de pontuação padrão).

(v) r xy não é afetado por qualquer transformação linear de pontuações em X ou Y ou em ambos.

(vi) Quando as variáveis ​​estão na forma de pontuação padrão, r dá uma medida da quantidade média de mudança em uma variável associada à mudança de uma unidade da outra variável.

(vii) r xy = √b yx b xy onde b yx = coeficiente de regressão de Y em X, b xy = coeficiente de regressão de X em Y. r xy = raiz quadrada das inclinações das linhas de regressão.

(viii) r xy não é influenciado pela magnitude das médias (as pontuações são sempre relativas).

(ix) r xy não pode ser calculado se uma das variáveis ​​não tiver variância S 2 x ou S 2 Y = 0

(x) r xy de 60 implica a mesma magnitude de relação que r xy = - .60. O sinal fala sobre a direção do relacionamento e a magnitude sobre a força do relacionamento.

(xi) df para r xy é N - 2, que é usado para testar a significância de r xy . A significância do teste de r está testando a significância da regressão. A linha de regressão envolve inclinação e interceptação, portanto, 2 df é perdido. Então, quando N = 2, r xy é + 1, 00 ou - 1, 00, pois não há liberdade para variação de amostragem no valor numérico de r.

A. Computação de r xy (dados desagrupados) :

Aqui, usar a fórmula para cálculo de r depende de “onde os desvios são obtidos”. Em situações diferentes, os desvios podem ser obtidos a partir da média real ou a partir de zero ou de AM. O Tipo de Fórmula convenientemente aplicado para o cálculo da correlação de coeficiente depende do valor médio (em fração ou total).

(i) A Fórmula de r quando os Desvios são retirados dos Meios das Duas Distribuições X e Y.

Onde r xy = Correlação entre X e Y

x = desvio de qualquer pontuação X da média no teste X

y = desvio do correspondente escore Y da média no teste Y.

∑xy = Soma de todos os produtos dos desvios (X e Y)

σ x e σ y = Desvios padrão da distribuição do escore X e Y.

em que x e y são desvios dos meios reais e ∑x 2 e ∑y 2 são as somas dos desvios quadrados em xey tomados dos dois meios.

Esta fórmula é preferida:

Eu. Quando os valores médios de ambas as variáveis ​​não estão em fração.

ii. Quando descobrir a correlação entre séries curtas e desagrupadas (digamos, vinte e cinco casos ou mais).

iii. Quando desvios devem ser tomados dos meios reais das duas distribuições.

Os passos necessários estão ilustrados na Tabela 5.1. Eles são enumerados aqui:

Passo 1:

Listar em colunas paralelas as pontuações X e Y emparelhadas, certificando-se de que as pontuações correspondentes estão juntas.

Passo 2:

Determine os dois meios M x e M y . Na tabela 5.1, estes são 7, 5 e 8, 0, respectivamente.

Etapa 3:

Determine para cada par de pontuações os dois desvios x e y. Verifique-os encontrando somas algébricas, que devem ser zero.

Passo 4:

Quadrado todos os desvios e lista em duas colunas. Isto é para o propósito de calcular σ x e σ y .

Passo 5:

Some os quadrados dos desvios para obter ∑x 2 e 2y 2 Find xy product e some-os para ∑xy.

Passo 6:

A partir desses valores, calcule σ x e σ y .

Uma solução alternativa e mais curta:

Existe uma rota alternativa e mais curta que omite o cálculo de σ x e σ y, caso não sejam necessários para qualquer outra finalidade.

Aplicando Fórmula (28):

(ii) O cálculo de r xy a partir de pontuações originais ou pontuações brutas:

É um outro procedimento com dados desagrupados, que não requer o uso de desvios. Ele lida inteiramente com pontuações originais. A fórmula pode parecer proibitiva, mas é realmente fácil de aplicar.

Esta fórmula é preferida:

Eu. Quando calcular r das pontuações brutas diretas.

ii. Pontos originais quando os dados são pequenos desagrupados.

iii. Quando os valores médios estão em frações.

iv. Quando boa máquina de calcular está disponível.

X e Y são pontuações originais nas variáveis ​​X e Y. Outros símbolos dizem o que é feito com eles.

Seguimos os passos ilustrados na Tabela 5.2:

Passo 1:

Quadrado todas as medições X e Y.

Passo 2:

Encontre o produto XY para cada par de pontuações.

Etapa 3:

Soma os X, os Y, os X 2, os Y 2 e os XY.

Passo 4:

Aplique a fórmula (29):

(ii) Cálculo de r xy quando desvios são obtidos da Média Assumida:

A fórmula (28) é útil no cálculo de r diretamente a partir de duas séries de pontuações desagrupadas, mas tem as desvantagens, pois requer “método longo” de cálculo de médias e σ . Os desvios xey quando tomados dos meios reais são geralmente decimais e a multiplicação e quadratura desses valores é frequentemente uma tarefa tediosa.

Por essa razão - mesmo quando se trabalha com séries curtas desagrupadas - muitas vezes é mais fácil assumir meios, calcular desvios desses AMs e aplicar a fórmula (30).

Esta fórmula é preferida:

Eu. Quando os meios reais são geralmente decimais e a multiplicação e quadratura destes valores é frequentemente uma tarefa tediosa.

ii. Quando desvios são obtidos de AM's.

iii. Quando queremos evitar frações.

As etapas na computação de r podem ser descritas da seguinte maneira:

Passo 1:

Encontre a média do Teste 1 (X) e a média do Teste 2 (Y). As médias mostradas na Tabela 5.3 M X = 62, 5 e M Y = 30, 4 respectivamente.

Passo 2:

Escolha AM's de X e Y, ou seja, AM X como 60.0 e AM Y como 30.0.

Etapa 3:

Encontre o desvio de cada pontuação no Teste 1 de seu AM, 60.0, e insira-o na coluna x '. Em seguida, encontre o desvio de cada pontuação no Teste 2 de seu AM, 30.0, e insira-o na coluna y '.

Passo 4:

Esquadre todos os x 'e todos eles' e insira esses quadrados na coluna x ' 2 e y' 2, respectivamente. Totalize estas colunas para obter ∑x ' 2 e ∑y' 2 .

Passo 5:

Multiplique x 'e y' e insira esses produtos (com o devido sinal) na coluna x'y '. Coluna x'y 'total, levando em conta os sinais, para obter ∑x'y'.

Passo 6:

As correções, C x e C y, são encontradas subtraindo AM X de M x e AM y de M y . Então, C x encontrado como 2, 5 (62, 5 - 60, 0) e C y como 0, 4 (30, 4 - 30, 0).

Passo 7:

Substituto para ∑x'y ', 334, para ∑x' 2, 670 e para ∑y ' 2, 285 na fórmula (30), como mostrado na Tabela 5.3, e resolva para r xy.

Propriedades de r :

1. O valor do coeficiente de correlação r permanece inalterado quando uma constante é adicionada a uma ou ambas as variáveis:

Para observar o efeito sobre a correlação de coeficiente r quando uma constante é adicionada a uma ou ambas as variáveis, consideramos um exemplo.

Agora, adicionamos uma pontuação de 10 a cada pontuação em X e 20 para cada pontuação de Y e representamos essas pontuações por X 'e Y' respectivamente.

Os cálculos para calcular r para pares originais e novos de observações são dados na Tabela 5.4:

Usando a fórmula (29), o coeficiente de correlação da pontuação original será:

A mesma fórmula para novas pontuações pode ser escrita como:

Assim, observamos que o valor do coeficiente de correlação r permanece inalterado quando uma constante é adicionada a uma ou ambas as variáveis.

2. O valor do coeficiente de correlação r permanece inalterado quando uma constante é subtraída de uma ou ambas as variáveis:

Os alunos podem examinar isso tomando um exemplo. Quando cada pontuação de uma ou ambas as variáveis ​​é subtraída por uma constante, o valor do coeficiente de correlação r também permanece inalterado.

3. O valor do coeficiente de correlação r permanece inalterado quando um ou ambos os conjuntos de valores variados são multiplicados por alguma constante:

Para observar o efeito de multiplicar as variáveis ​​por alguma constante no valor de r, multiplicamos arbitrariamente as pontuações originais dos conjuntos primeiro e segundo no exemplo anterior por 10 e 20, respectivamente.

O r entre X 'e Y' pode então ser calculado como abaixo:

A correlação do coeficiente entre X 'e Y' será:

Assim, observamos que o valor do coeficiente de correlação r permanece inalterado quando uma constante é multiplicada por um ou ambos os conjuntos de valores de variáveis.

4. O valor de r permanecerá inalterado mesmo quando um ou ambos os conjuntos de valores de variação forem divididos por alguma constante:

Os alunos podem examinar isso tomando um exemplo.

B. Coeficiente de Correlação em Dados Agrupados :

Quando o número de pares de medições (N) em duas variáveis ​​X e Y são grandes, até mesmo moderadas em tamanho, e quando nenhuma máquina de calcular está disponível, o procedimento habitual é agrupar dados em X e Y e formar um diagrama de dispersão ou diagrama de correlação, que também é chamado de distribuição de freqüência bidirecional ou distribuição de freqüência bivariada.

A escolha do tamanho do intervalo de classe e limites de intervalos segue as mesmas regras que foram dadas anteriormente. Para esclarecer a ideia, consideramos um dado bivariado relacionado aos escores obtidos por uma turma de 20 alunos no exame de Física e Matemática.

Preparando um Diagrama de Dispersão:

Na configuração de um agrupamento duplo de dados, uma tabela é preparada com colunas e linhas. Aqui, classificamos cada par de variáveis ​​simultaneamente nas duas classes, uma representando a pontuação em Física (X) e a outra em Matemática (Y), como mostrado na Tabela 5.6.

As pontuações de 20 alunos em Física (X) e Matemática (Y) são mostradas na Tabela abaixo:

Podemos facilmente preparar uma tabela de distribuição de frequência bivariada, colocando os valores para cada par de pontuações. A construção de um diagrama de dispersão é bem simples. Temos que preparar uma tabela como mostrado no diagrama acima.

Ao longo da margem esquerda, os intervalos de classe da distribuição X são distribuídos de baixo para cima (em ordem crescente). Ao longo do topo do diagrama, os c.i da distribuição Y são deitados da esquerda para a direita (em ordem ascendente).

Cada par de pontuações (ambos em X e Y) é representado por uma contagem na respectiva célula. O estudante número 1 conseguiu 32 em Física (X) e 25 em Matemática (Y). Sua pontuação de 32 em (X) coloca-o na última linha e 25 em (Y) coloca-o na segunda coluna. Assim, para o par de pontuações (32, 25), um registro será marcado na segunda coluna da quinta linha.

De maneira semelhante, no caso do aluno nº 2, para as pontuações (34, 41), colocaremos um registro na 4ª coluna da 5ª linha. Da mesma forma, 20 contagens serão colocadas nas respectivas linhas e colunas. (As linhas representarão as pontuações X e as colunas representarão as pontuações em Y).

Ao longo da margem direita, a coluna f x, o número de casos em cada ci, da distribuição X são tabulados e ao longo da parte inferior do diagrama na linha fy o número de casos em cada ci, de distribuição Y são tabulado.

O total de f x coluna é 20 e o total de fy row também é 20. Na verdade, é uma distribuição bivariada porque representa a distribuição conjunta de duas variáveis. O diagrama de dispersão é então uma "tabela de correlação".

Cálculo de r de uma tabela de correlação:

O esboço a seguir das etapas a serem seguidas no cálculo de r será melhor compreendido se o aluno se referir constantemente à Tabela 5.7 ao ler cada passo:

Passo 1:

Construa um diagrama de dispersão para as duas variáveis ​​a serem correlacionadas e, a partir dele, crie uma tabela de correlação.

Passo 2:

Conte as freqüências de cada ci de distribuição - X e escreva na coluna fx. Conte as freqüências para cada ci de distribuição - Y e preencha a linha fy.

Etapa 3:

Assuma uma média para a distribuição X e marque a ci em linhas duplas. Na tabela de correlação fornecida, vamos supor a média na ci, 40 - 49 e colocar linhas duplas como mostrado na tabela. Os desvios acima da linha de AM serão (+ ve) e os desvios abaixo serão (- ve).

O desvio contra a linha de AM, isto é, contra o ci onde assumimos a média é marcado como 0 (zero) e acima disso os d' s são anotados como +1, +2. 13 e abaixo d é anotado para ser - 1. Agora coluna dx é preenchida. Então multiplique f x . e dx de cada linha para obter fdx . Multiplique dx e fdx de cada linha para obter fdx 2 .

[Nota: Ao computar o SD no método do significado assumido nós estávamos assumindo uma média, marcando os d's e computando fd e fd 2 . Aqui também o mesmo procedimento é seguido.]

Passo 4:

Adote o mesmo procedimento da etapa 3 e calcule dy, fdy and fdy 2 . Para a distribuição -Y, vamos supor a média no ci 20-29 e colocar linhas duplas para marcar a coluna como mostrado na tabela. Os desvios para a esquerda desta coluna serão negativos e certos serão positivos.

Assim, d para a coluna onde a média é assumida é marcada como 0 (zero) e o d à sua esquerda é marcado como - 1 e d' s à sua direita são marcados com +1, +2 e +3. Agora a coluna dy está preenchida. Multiplique os valores de fy e dy de cada coluna para obter fdy . Multiplique os valores de dy e fdy para cada coluna para obter 2 .

Passo 5:

Como esta fase é importante, devemos marcar cuidadosamente o cálculo de dy para diferentes ci's de distribuição X e dx para diferentes ci's de distribuição -Y.

dy para diferentes ci 's de distribuição - X: Na primeira linha, 1 f está abaixo da coluna, 20-29 cujo dy é 0 (Olhe para a parte inferior. A entrada dy desta linha é 0). Novamente 1 f está sob a coluna, 40-49, cujo dy é + 2. Então dy para a primeira linha = (1 x 0) + (1 x 2) = + 2.

Na segunda fila, descobrimos que:

1 f está sob a coluna, 40-49, cujo dy é + 2 e

2 f s estão sob a coluna, 50-59 cujos dy 's são + 3 cada.

Então dy para a segunda linha = (1 x 2) + (2 x 3) = 8.

Na terceira fila,

2 f s estão sob a coluna, 20-29 cujos dy 's são 0 cada,

2 f s estão sob a coluna, 40-49 cujos dy 's são +2 cada, e 1 f está sob a coluna, 50-59 cujo dy é +3.

Então dy para a terceira linha = (2 x 0) + (2 x 2) + (1 X 3) = 7.

Na quarta linha,

3 f s estão sob a coluna, 20-29 cujos dy 's são 0 cada,

2 f s estão sob a coluna, 30-39 cujos dy 's são +1 cada, e 1 f está sob a coluna, 50-59 cujo dy é + 3,

Então dy para a quarta linha = (3 x 0) + (2 x 1) + (1 x 3) = 5.

Da mesma forma na 5ª linha

dy para a quinta linha = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx para diferentes ci, 'v de distribuição - Y:

Na primeira coluna,

2 f s estão contra a linha, 30-39 cuja dx é - 1.

Então dx da primeira coluna = (2 x - 1) = - 2

Na segunda coluna,

1 f é contra o ci, 70-79 cuja dx é +3,

2 f s são contra o ci, 50-59 cujos dx 's são +1 cada,

3 f s são contra o ci, 40-49 cujos dx 's são 0 cada,

1 f é contra o ci, 30-39, cujo dx é - 1.

Então dx para a segunda coluna = (1 x 3) + (2 x 1) + (3 x 0) + (1 x - 1) = 4. Na terceira coluna,

dx para a 3ª coluna = 2 × 0 = 0

Na quarta coluna,

dx para a 4ª coluna = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

Na quinta coluna,

dx para a quinta coluna = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Passo 6:

Agora, calcule dx.dy cada linha de distribuição - X multiplicando as entradas dx de cada linha pelas entradas dy de cada linha. Em seguida, calcule dx.dy para cada coluna de distribuição - Y multiplicando as entradas dy de cada coluna pelas entradas dx de cada coluna.

Passo 7:

Agora, pegue a soma algébrica dos valores das colunas fdx, fdx 2, dy e dx.dy (para distribuição - X). Pegue a soma algébrica dos valores das linhas fdy, fdy 2, dx e dx.dy (para distribuição - Y)

Etapa 8:

∑. dx.dy da distribuição X = ∑ dx.dy da distribuição Y

fdx = total da linha dx (ou seja, ∑ dx )

fdy = total da coluna dy (ie ∑ dy )

Etapa 9:

Os valores dos símbolos encontrados

fdx = 13, ∑ fd 2 x = 39

fdy = 22, ∑ fd 2 y = 60

dx.dy = 29 e N = 20.

Para calcular o coeficiente de correlação em uma tabela de correlação, a seguinte fórmula pode ser aplicada:

Podemos assinalar que no denominador da fórmula (31) aplicamos a fórmula para um x e um y com a exceção de no i's. Podemos notar aqui que Cx, C y, σ x, σ v são todos expressos em unidades de intervalos de classe (isto é, na unidade de i). Assim, enquanto calculamos σ x e σ y, nenhum i é usado. Isso é desejável porque todos os desvios do produto, isto é, ∑ dx.dy, estão em unidades de intervalo.

Assim, calculamos:

Interpretação do Coeficiente de Correlação:

O simples cálculo de correlação não tem qualquer significado até e a menos que determinemos qual deve ser o tamanho do coeficiente para ser significativo, e o que a correlação nos diz sobre os dados? O que queremos dizer com o valor obtido do coeficiente de correlação?

Interpretação errônea do coeficiente de correlação:

Às vezes, interpretamos erroneamente o valor do coeficiente de correlação e estabelecemos a relação de causa e efeito, ou seja, uma variável que causa a variação na outra variável. Na verdade, não podemos interpretar dessa maneira a menos que tenhamos uma base lógica sólida.

O coeficiente de correlação dá-nos uma determinação quantitativa do grau de relação entre duas variáveis ​​X e Y, não informação quanto à natureza da associação entre as duas variáveis. A causação implica uma sequência invariável - A sempre leva a B, enquanto a correlação é simplesmente uma medida de associação mútua entre duas variáveis.

Por exemplo, pode haver uma alta correlação entre desajuste e ansiedade:

Mas, com base na alta correlação, não podemos dizer que o desajuste cause ansiedade. Pode ser possível que a ansiedade elevada seja a causa do desajuste. Isso mostra que o desajuste e a ansiedade são variáveis ​​mutuamente associadas. Considere outro exemplo.

Existe uma alta correlação entre a aptidão em um assunto na escola e a realização no assunto. No final dos exames da escola, isso refletirá uma relação causal? Pode ser que sim ou que não.

Aptidão no estudo do sujeito definitivamente causa variação na realização do assunto, mas o alto aproveitamento do aluno no assunto não é o resultado da alta aptidão apenas; pode ser devido às outras variáveis ​​também.

Assim, ao interpretar o tamanho do coeficiente de correlação em termos de causa e efeito, é apropriado se e somente se as variáveis ​​sob investigação fornecem uma base lógica para tal interpretação.

Fatores que influenciam o tamanho do Coeficiente de Correlação:

Também devemos estar cientes dos seguintes fatores que influenciam o tamanho do coeficiente de correlação e podem levar a erros de interpretação:

1. O tamanho de “r” é muito dependente da variabilidade dos valores medidos na amostra correlacionada. Quanto maior a variabilidade, maior será a correlação, sendo todo o resto igual.

2. O tamanho de 'r' é alterado quando um investigador seleciona um grupo extremo de sujeitos para comparar esses grupos com relação a determinado comportamento. “R” obtido a partir dos dados combinados de grupos extremos seria maior que o “r” obtido de uma amostra aleatória do mesmo grupo.

3. A adição ou descarte de casos extremos do grupo pode levar a alterações no tamanho de “r”. A adição do caso extremo pode aumentar o tamanho da correlação, enquanto a queda dos casos extremos diminuirá o valor de “r”.

Usos do momento do produto r:

A correlação é um dos procedimentos analíticos mais utilizados no campo da Avaliação e Avaliação Educacional e Psicológica. É útil em:

Eu. Descrever o grau de correspondência (ou relacionamento) entre duas variáveis.

ii. Previsão de uma variável - a variável dependente com base na variável independente.

iii. Validando um teste; por exemplo, um teste de inteligência em grupo.

iv. Determinar o grau de objetividade de um teste.

v. Orientação educacional e vocacional e na tomada de decisões.

vi. Determinando a confiabilidade e validade do teste.

vii. Determinar o papel de vários correlatos para uma determinada habilidade.

viii. Técnica de análise fatorial para determinar a carga fatorial das variáveis ​​subjacentes nas habilidades humanas.

Suposições do momento do produto r :

1. distribuição normal:

As variáveis ​​das quais queremos calcular a correlação devem ser distribuídas normalmente. A suposição pode ser estabelecida a partir de amostragem aleatória.

2. Linearidade:

A correlação produto-momento pode ser mostrada em linha reta, conhecida como correlação linear.

3. séries contínuas:

Medição de variáveis ​​em séries contínuas.

4. Homoscedasticidade:

Deve satisfazer a condição de homocedasticidade (variabilidade igual).

3. Coeficiente de correlação de Spearman:

Existem algumas situações em Educação e Psicologia onde os objetos ou indivíduos podem ser classificados e organizados em ordem de mérito ou proficiência em duas variáveis ​​e quando estes dois conjuntos de fileiras covardam ou têm concordância entre eles, medimos os graus de relacionamento por correlação de rank .

Novamente, há problemas em que a relação entre as medições feitas é não-linear e não pode ser descrita pelo momento-produto r.

Por exemplo, a avaliação de um grupo de alunos com base na capacidade de liderança, a ordenação de mulheres em um concurso de beleza, os alunos classificados em ordem de preferência ou as imagens podem ser classificadas de acordo com seus valores estéticos. Os funcionários podem ser classificados por supervisores sobre o desempenho no trabalho.

Crianças em idade escolar podem ser classificadas por professores sobre o ajuste social. Nesses casos, objetos ou indivíduos podem ser classificados e organizados em ordem de mérito ou proficiência em duas variáveis. Spearman desenvolveu uma fórmula chamada Coeficiente de Correlação de Classificação para medir a extensão ou o grau de correlação entre dois conjuntos de classificações.

Este coeficiente de correlação é denotado pela letra grega ρ (chamada Rho) e é dado como:

onde, ρ = rho = coeficiente de correlação de Spearman

D = Diferença entre filas emparelhadas (em cada caso)

N = Número total de itens / indivíduos classificados.

Características do Rho (ρ):

1. No Coeficiente de Correlação de Classificação, as observações ou medições da variável bivariada são baseadas na escala ordinal na forma de classificações.

2. O tamanho do coeficiente é diretamente afetado pelo tamanho das diferenças de classificação.

(uma) Se as classificações forem as mesmas para ambos os testes, cada diferença de ranks será zero e, em última análise, D2 será zero. Isso significa que a correlação é perfeita; ou seja, 1, 00.

b) Se as diferenças de classificação forem muito grandes e a fração for maior que uma, a correlação será negativa.

Suposições de Rho (ρ):

Eu. N é pequeno ou os dados estão muito distorcidos.

ii. São livres, ou independentes, de algumas características da distribuição da população.

iii. Em muitas situações, são usados ​​métodos de classificação, nos quais as medidas quantitativas não estão disponíveis.

iv. Embora medidas quantitativas estejam disponíveis, as classificações são substituídas para reduzir o trabalho aritmético.

v. Tais testes são descritos como não paramétricos.

vi. Em tais casos, os dados são compostos por conjuntos de números ordinais, 1º, 2º, 3º… .Nº. Estes são substituídos pelos números cardinais 1, 2, 3, ……, N para fins de cálculo. A substituição de números cardinais por números ordinais sempre pressupõe igualdade de intervalos.

I. Calculando ρ das pontuações dos testes:

Exemplo 1:

Os dados a seguir dão as notas de 5 alunos em Matemática e Ciências Gerais, respectivamente:

Calcule a correlação entre as duas séries de pontuações do teste pelo método de diferença de classificação.

O valor do coeficiente de correlação entre as pontuações em matemática e ciências gerais é positivo e moderado.

Etapas do Cálculo do Coeficiente de Correlação de Spearman:

Passo 1:

Liste os alunos, nomes ou seus números de série na coluna 1.

Passo 2:

Na coluna 2 e 3, escreva as pontuações de cada aluno ou indivíduo nos testes I e II.

Etapa 3:

Pegue um conjunto de pontos da coluna 2 e atribua uma classificação de 1 à pontuação mais alta, que é 9, uma classificação de 2 à próxima pontuação mais alta, que é 8 e assim por diante, até que a pontuação mais baixa obtenha uma classificação igual a N; que é 5.

Passo 4:

Pegue o II conjunto de pontuações da coluna 3 e atribua a classificação 1 à pontuação mais alta. No segundo conjunto, a pontuação mais alta é 10; hence obtain rank 1. The next highest score of B student is 8; hence his rank is 2. The rank of student C is 3, the rank of E is 4, and the rank of D is 5.

Passo 5:

Calculate the difference of ranks of each student (column 6).

Passo 6:

Check the sum of the differences recorded in column 6. It is always zero.

Passo 7:

Each difference of ranks of column 6 is squared and recorded in column 7. Get the sum ∑D 2 .

Step 8:

Put the value of N and 2D 2 in the formula of Spearman's co-efficient of correlation.

2. Calculating from Ranked Data:

Exemplo 2:

In a speech contest Prof. Mehrotra and Prof. Shukla, judged 10 pupils. Their judgements were in ranks, which are presented below. Determine the extent to which their judgements were in agreement.

The value of co-efficient of correlation is + .83. This shows a high degree of agreement between the two judges.

3. Calculating ρ (Rho) for tied Ranks:

Exemplo 3:

The following data give the scores of 10 students on two trials of test with a gap of 2 weeks in Trial I and Trial II.

Compute the correlation between the scores of two trials by rank difference method:

The correlation between Trial I and II is positive and very high. Look carefully at the scores obtained by the 10 students on Trial I and II of the test.

Do you find any special feature in the scores obtained by the 10 students? Probably, your answer will be “yes”.

In the above table in column 2 and 3 you will find that more than one students are getting the same scores. In column 2 students A and G are getting the same score viz. 10. In column 3, the students A and B, C and F and G and J are also getting the same scores, which are 16, 24 and 14 respectively.

Definitely these pairs will have the same ranks; known as Tied Ranks. The procedure of assigning the ranks to the repeated scores is somewhat different from the non-repeated scores.

Look at column 4. Student A and G have similar scores of 10 each and they possess 6th and 7th rank in the group. Instead of assigning the 6th and 7th rank, the average of the two rank ie 6.5 (6 + 7/2 = 13/2) has been assigned to each of them.

The same procedure has been followed in respect of scores on Trial II. In this case, ties occur at three places. Students C and F have the same score and hence obtain the average rank of (1 + 2/2 = 1.5). Student A and B have rank position 5 and 6; hence are assigned 5.5 (5 + 6/2) rank each. Similarly student G and J have been assigned 7.5 (7 + 8/2) rank each.

If the values are repeated more than twice, the same procedure can be followed to assign the ranks:

Por exemplo:

if three students get a score of 10, at 5th, 6th and 7th ranks, each one of them will be assigned a rank of 5 + 6 + 7/3= 6.

The rest of the steps of procedure followed for calculation of ρ (rho) are the same as explained earlier.

Interpretation:

The value of ρ can also be interpreted in the same way as Karl Pearson's Coefficient of Correlation. It varies between -1 and + 1. The value + 1 stands for a perfect positive agreement or relationship between two sets of ranks while ρ = – 1 implies a perfect negative relationship. In case of no relationship or agreement between ranks, the value of ρ = 0.

Advantages of Rank Difference Method:

1. The Spearman's Rank Order Coefficient of Correlation computation is quicker and easier than (r) computed by the Pearson's Product Moment Method.

2. It is an acceptable method if data are available only in ordinal form or number of paired variable is more than 5 and not greater than 30 with minimum or a few ties in ranks.

3. It is quite easy to interpret p.

Limitações:

1. When the interval data are converted into rank-ordered data the information about the size of the score differences is lost; eg in the Table 5.10, if D in Trial II gets scores from 18 up to 21, his rank remains only 4.

2. If the number of cases are more, giving ranks to them becomes a tedious job.