Correlação nas Estatísticas

Depois de ler este artigo, você aprenderá sobre: ​​- 1. Definições de Correlação 2. Tipos de Correlação 3. Coeficiente.

Definições de Correlação:

Dicionário Collins de Estatística:

“Interdependência entre duas ou mais variáveis ​​aleatórias. Se duas variáveis ​​são tais que, quando uma muda, a outra o faz de maneira relacionada, diz-se que estão correlacionadas. ”

Dicionário de Educação, CV Bom:

"Correlação é a tendência de observações correspondentes em duas ou mais séries para variar em conjunto a partir das médias de suas respectivas séries que é ter uma posição relativa similar."

MA Tuttle:

"Correlação é uma análise da co-variação entre duas ou mais variáveis".

Caraxton e Cowden:

“Quando a relação é de natureza qualitativa, a ferramenta estatística aproximada para descobrir e medir a relação e expressá-la em uma fórmula breve é ​​conhecida como correlação.” No campo da educação, para vários propósitos práticos, educadores e psicólogos tentaram conhecer a extensão da relação entre habilidades em diferentes disciplinas escolares.

Pelo método de correlação podemos estudar os diferentes problemas que envolvem a relação entre as habilidades dos alunos, tais como aritmética e compreensão de leitura, entre avaliação em um teste de inteligência e médias de curso, entre altura e peso das crianças, etc.

Portanto, a correlação estatística é definida como um grau em que as pontuações emparelhadas de dois ou mais conjuntos de medidas tendem a variar em conjunto. A medida do grau de concomitância é expressa como um coeficiente de correlação. Na pesquisa educacional e psicológica, a análise correlacional é muito essencial.

A seguir estão alguns dos principais campos em que é amplamente utilizado:

(a) É usado para testar em que medida os dados são consistentes com as hipóteses.

(b) Predição de uma variável com base em outra (s) variável (s) relacionada (s)

(c) Identificar variável (s) extrínseca (s) e isolar seu efeito em um experimento.

(d) É usado para determinar a confiabilidade e validade dos resultados do teste.

(e) Para calcular mais estatísticas com base no coeficiente de correlação.

Tipos de Correlação:

Para ter uma compreensão clara do conceito de correlação, devemos discutir diferentes tipos de correlações.

Em uma distribuição bivariada, os relacionamentos podem ser categorizados em diferentes tipos:

(a) Correlação Positiva

(b) Correlação Negativa

(c) acordo zero ou nenhuma relação

(d) Correlação Linear

(e) Correlação não Linear ou Curva-Linear.

(a) Correlação Positiva:

Quando o aumento ou diminuição em uma variável traz aumento ou diminuição correspondente na outra variável, diz-se que a relação é Correlação Positiva. Quando cada aumento ou diminuição da unidade em uma variável é seguido pelo aumento ou diminuição proporcional da outra variável, a relação é Correlação Positiva Perfeita.

Um relacionamento positivo varia de 0 a +1. Quando é +1, a correlação é uma correlação positiva perfeita.

Suponha que 100 alunos tenham exatamente a mesma posição em dois testes - os alunos que pontuaram primeiro nas pontuações de um teste primeiro no outro, o aluno que ocupa o segundo lugar no primeiro teste também ocupa o segundo lugar no segundo teste. Esta correspondência de um para um é válida em toda a lista.

Então a relação é perfeita, já que a posição relativa de cada sujeito é exatamente a mesma em um teste como no outro e o coeficiente de correlação é + 1, 00.

Pode ser ilustrado com a ajuda do seguinte exemplo:

Exemplo:

No Quadro A acima, pontua primeiro no Teste-1 e também no Teste-2. E igualmente B segundo, C terceiro, D quarto e E quinto nos dois testes. Aqui nós observamos que o aumento de marcas de um estudante em um assunto corresponde ao aumento proporcional de marcas em outro assunto. Essa correlação é chamada de correlação positiva perfeita.

Se o aumento das notas de um aluno no 1º teste corresponder ao aumento de notas no segundo teste, mas não proporcionalmente, é uma correlação positiva, podemos ilustrá-lo com a ajuda dos seguintes gráficos:

(b) Correlação Negativa:

Quando um alto grau de um traço ou variável está associado a um baixo grau de outro, é chamado de correlação negativa. Onde o aumento em uma variável resulta em diminuição em outra variável e vice-versa, diz-se que a relação é negativa. A correlação negativa pode variar de 0 a -1.

Quando cada unidade de aumento em uma variável traz redução unitária proporcional na outra variável, o relacionamento é chamado de correlação negativa perfeita e o coeficiente de correlação é indicado por -1. Podemos explicar isso com a ajuda do exemplo a seguir.

Suponha que em um teste 5 alunos A, B, C, D e E obtiveram marcas de 80, 75, 70, 65 e 60. No segundo teste eles conseguiram, 40, 45, 50, 55 e 60, respectivamente.

No exemplo acima, o aluno A que obteve as notas mais altas no Teste 1 garantiu as notas mais baixas no Teste 2. O aluno B, que está em segundo no Teste 1, está ao lado da parte inferior (4º) do Teste-2. Aqui cada aluno fica tão longe do topo da lista no Teste-1 como na parte inferior da lista no Teste-2.

Assim, a correspondência entre o aproveitamento no Teste 1 e no Teste 2 é regular e definida, mas a direção do relacionamento é inversa, porque o aumento de marcas de um indivíduo em um assunto corresponde à diminuição de marcas em outro. Esse relacionamento é uma correlação negativa perfeita.

Pode ser ilustrado com a ajuda dos seguintes gráficos:

(c) Acordo Zero ou Não-Correlação:

Quando não há relação sistemática entre dois conjuntos de escores ou variáveis, nesse caso, é conhecido como concordância zero ou não-correlação. Isso significa que, em correlação zero, há correspondência entre as pontuações feitas pelos membros do grupo nos dois conjuntos de pontuações. A mudança em uma variável não está de forma alguma associada à mudança de outra variável.

Por exemplo, o tamanho do calçado e o rendimento mensal das pessoas, a altura do indivíduo e a sua inteligência, etc., não estão de todo relacionados. Como uma correlação zero indica que não há relação consistente, ela é expressa por um coeficiente de 0, 00. Também podemos explicar esse conceito com a ajuda de um diagrama, como mostrado na Fig. 12.3.

d) Correlação Linear:

Quando a relação entre duas variáveis ​​é proporcional e pode ser descrita por uma linha reta, é chamada de Correlação Linear. Suponha que cinco pessoas digam A, B, C, D e E. O salário mensal dessas pessoas é Rps. 4000, Rs. 5000, Rs. 6000, Rs. 7000 e Rs. 8000 respectivamente.

Então, sua renda anual será de 12 vezes o salário mensal. Se traçarmos um gráfico mostrando os salários mensais no eixo X e a renda anual no eixo Y, o resultado será um gráfico linear como na Fig. 12.4-1, 2. Essa relação é chamada de Correlação Linear. .

(e) Correlação Linear da Curva:

Quando a relação entre as variáveis ​​não é proporcional ao longo da série e pode ser descrita por uma linha de curva é chamada de correlação linear de curva. Também é conhecido como correlação não linear. Por exemplo, primeiro com o aumento na variável 'A' a segunda variável 'B' aumenta até um ponto particular, após o que com um aumento na variável-A a variável-B diminui.

Se esta correlação entre a variável A e a variável B representada graficamente o resultado for uma linha curva (Fig. 12.4-3, 4).

Coeficiente de correlação:

O método estatístico no qual a relação é expressa em uma escala quantitativa é chamado de coeficiente de correlação. É um índice numérico que nos diz em que medida as duas variáveis ​​estão relacionadas e em que medida as variações em uma variável mudam com as variações na outra.

“Coeficiente de correlação é um número puro, variando normalmente de + 1 a 0 a 1, que denota o grau de relação existente entre duas (ou mais) séries de observações” - CV Good.

O coeficiente de correlação é designado de duas maneiras. No momento do produto de Karl Pearson, ele é expresso como 'r'. Na correlação de diferença de Spearman, ela é expressa como 'p' (rho). Uma correlação positiva indica que uma grande quantidade de uma variável tende a acompanhar grandes quantidades da outra. Portanto, uma correlação positiva perfeita é expressa por um coeficiente de 1, 00.

Assim, uma correlação positiva varia de 9, 00 a + 1, 00. Uma correlação negativa indica que uma pequena quantidade da variável tende a acompanhar uma grande quantidade da outra. Isso é um alto grau de um traço pode estar associado com baixo grau de outro.

Uma correlação negativa perfeita é expressa por um coeficiente de - 1, 00. Assim, uma correlação negativa varia de zero a - 1, 00. Quando as duas variáveis ​​não estão relacionadas, o coeficiente é expresso como zero.

Interpretação do Coeficiente de Correlação:

O valor de r que obtemos que indica apenas que exit é um relacionamento. Mas isso não indica se é significativo ou não. Portanto, testamos o significado de r em 0, 05 e 0, 01 de confiança em relação a seus graus de liberdade ou 'df'. Em uma relação bivariada, o df é contado como (N-2).

Por exemplo, se r = 0, 55 e N = 50 para interpretar o r, temos que entrar na tabela - C. Aqui df = (N — 2) = (50—2) = 48. Entrando na tabela, descobrimos que no df = 50 (mais próximo do df 48) o valor no nível .05 é .273 e em .01 nível é 0, 354.

Nosso valor de r 0, 55 é maior que esses dois valores. Portanto, o r é significativo tanto no nível 0, 05 quanto no nível 0, 01. Portanto, se o valor de r for maior que o valor de um nível significativo, ele será significativo e, se for menor que o valor de nível significativo, será insignificante.

Propriedades de r:

1. Se um número constante for adicionado a uma ou ambas as variáveis, o coeficiente de correlação permanecerá inalterado.

2. Se um número constante é subtraído de uma ou ambas as variáveis, o coeficiente de correlação permanece inalterado.

3. Se um número constante for multiplicado por uma ou ambas as variáveis, o coeficiente de correlação permanece inalterado.

4. Se ambas as variáveis ​​e uma forem divididas por um número constante, o coeficiente de correlação permanecerá inalterado.

Usos do Coeficiente de Correlação (r):

1. Para descobrir o grau de relação ou inter dependência entre duas variáveis ​​r é usado.

2. Para prever a variável dependente da variável independente r é usado.

3. Para determinar a confiabilidade de um resultado de teste r é usado.

4. Para determinar a validade dos resultados dos testes r é usado.

5. Para tomar decisões em orientação educacional e profissional r é usado.

6. Para calcular outras estatísticas, como análise fatorial, previsão de regressão e correlação múltipla, etc., é necessário.

Cálculo do Coeficiente de Correlação:

Existem dois métodos de calcular o coeficiente de correlação de uma distribuição bivariada.

1. Método de Diferença de Classificação de Spearman:

O coeficiente de correlação é valioso para Educação e Psicologia como uma medida da relação entre os resultados dos testes e outras medidas de desempenho. Mas em muitas situações não temos pontuações. Temos que trabalhar com dados nos quais as diferenças em um determinado atributo podem ser expressas apenas por classificações ou pela classificação de um indivíduo em várias categorias descritivas.

Assim, as diferenças entre indivíduos em muitas características podem ser expressas classificando os assuntos em ordem de mérito, quando tais diferenças não podem ser medidas diretamente. Por classificação queremos dizer colocar os indivíduos em ordem de mérito.

Por exemplo, as pessoas podem ser classificadas em ordem de mérito por honestidade, capacidade atlética, habilidade de vendas ou ajuste social quando é impossível medir esses comportamentos complexos.

Ao computar a correlação entre dois conjuntos de classificações, métodos especiais foram criados. Quando temos apenas alguns escores (n é muito pequeno) com dois conjuntos, é aconselhável classificar esses escores e calcular o coeficiente de correlação (ρ) pelo Método de Diferença de Classificação de Pearson.

Suposições de ρ:

Os dados estão muito distorcidos ou são muito pequenos.

Quando a medição quantitativa não é possível.

Os dados são livres ou independentes de algumas características da distribuição da população

Os dados estão em escala ordinal.

Computação de ρ:

Exemplo 1:

Descubra o coeficiente de correlação entre dois conjuntos de pontuações por método de diferença de ranks.

Dada a seguir são as notas de 5 alunos em História e Geografia, respectivamente:

Solução:

Passo 1

Classifique o 1º conjunto de pontuações, a partir do Rank 1 até a pontuação mais alta e escreva as classificações na coluna R 1 (coluna 4).

Passo 2

Classifique o segundo conjunto de pontuações - começando do Rank-1 até a pontuação mais alta e escreva as classificações na coluna R2 (coluna 5)

Etapa 3

Descobrir D deduzindo R 2 de R 1 ie (R 1 - R 2 ) na col. 6

Passo 4

Descubra D 2 ao enquadrar o D (col-7). Em seguida, calcule ∑ D 2 adicionando os valores na col. 7

Passo 5

Coloque a fórmula e obtenha o resultado

Portanto, o coeficiente de correlação entre os escores da História e Geografia é 0, 43.

Computação de p quando os dados estão em rankings.

Exemplo:

Determinar até que ponto seus julgamentos estavam de acordo.

Em uma competição de música, dois juízes classificaram 8 alunos conforme abaixo:

Solução:

Passo 1:

Como as pontuações estão nas fileiras, descubra D deduzindo os Graus de Juiz-2 de Ranks of Judge-1.

Passo 2:

Descubra D 2 e ∑D 2 .

Etapa 3:

Coloque o valor na fórmula e obtenha o resultado.

Então o ponto de concordância entre os julgamentos é 0, 90. Computação p para ranks vinculados

Exemplo:

Calcule o coeficiente de correlação entre as pontuações dos dois conjuntos no método de diferença de classificação.

Abaixo são dadas as pontuações de 8 alunos em dois testes paralelos:

Solução:

Passo 1:

Classifique as pontuações no Teste-1. No Teste-1 E está em primeiro lugar, C está em 2º, A e F obtêm a mesma pontuação. É claro que esses dois alunos devem preencher o terceiro e quarto escalão. Então, classificamos os dois 3 + 4/2 = 3.5. O próximo B está em 5º. D e G obtiveram o mesmo escore. Então, suas fileiras serão

e H será classificado em 8º.

Passo 2:

Da mesma maneira que classificamos as pontuações no Teste 1, classifique as pontuações no Teste-2.

Etapa 3:

Calcule D deduzindo R 2 de R 1

Passo 4:

Calcule D 2 e descubra ∑ D 2

Passo 5:

Coloque a fórmula e obtenha o resultado

Portanto, o coeficiente de correlação entre os escores de dois testes é de 0, 87.

Méritos do método de diferença de classificação:

1. Ele fornece uma maneira rápida e conveniente de estimar a correlação quando N é pequeno.

2. Quando os dados estão em escala ordinal naquele momento, usamos o método de diferença de ranks para estimar a correlação.

Deméritos do método de diferença de classificação:

1. Método de diferença de classificação leva em conta posições na série. Não faz concessões para lacunas entre as pontuações adjacentes. Por exemplo, as pontuações de três alunos são 90, 89 e 70 em um teste. Eles seriam classificados 1, 2 e 3, embora a diferença entre 90 e 89 seja muito menor do que a diferença entre 89 e 70.

2. A precisão pode ser perdida na conversão de pontuações em classificações, especialmente quando há vários laços.

3. É difícil calcular p de dados quando N é grande, digamos, mais de 30.

2. Método do Momento de Produto de Karl Pearson:

Outro método eficiente para estimar o coeficiente de correlação é desenvolvido por Karl Pearson, que é popularmente conhecido como coeficiente de correlação de momento do Produto. É chamado momento do produto porque “a soma dos desvios da média (elevada a alguma potência) e dividida por N é chamada de momento. Quando os desvios correspondentes em V e y são multiplicados juntos, somados e divididos por N

o termo momento do produto é usado. ”

Simbolicamente, o coeficiente de correlação do momento do produto é designado por 'r'.

O coeficiente de correlação no momento do produto é:

Suposições de correlação de momento do produto:

1. distribuição normal:

As variáveis ​​das quais queremos calcular a correlação devem ser distribuídas normalmente. A suposição pode ser estabelecida a partir de amostragem aleatória.

2. Linearidade em correlação:

A correlação do momento do produto pode ser mostrada em linha reta, que é conhecida como correlação linear.

3. séries contínuas:

A medição das variáveis ​​deve estar em uma escala contínua.

Cálculo da Correlação do Momento do Produto:

O coeficiente de correlação do momento do produto pode ser calculado em duas situações diferentes:

(a) Quando os dados são desagrupados

(b) Quando os dados são agrupados

(a) Computação de r a partir de dados desagrupados:

A computação do coeficiente de correlação em dados desagrupados geralmente é feita de duas maneiras:

(i) Quando desvios são tomados de meios

(ii) Cálculo dos escores brutos ou escores originais.

(i) Estimativa da correlação do momento do produto quando os desvios são obtidos das médias.

A fórmula usada para calcular r de dados desagrupados quando os desvios são obtidos das médias das duas distribuições X e Y é a seguinte:

Exemplo:

Calcular o coeficiente de correlação dos escores de 12 alunos em um teste de inglês e MIL no momento do momento do produto.

Solução:

Passo 1

Encontre a média das pontuações em inglês (X) e média das pontuações em MIL (Y). Aqui M x = 62, 5, M y = 30, 4.

Passo 2

Encontre o desvio (x) de cada pontuação no teste de inglês (Tabela-12.6, col-4) e desvio (y) de cada pontuação no teste de MIL (Tabela-12.6, col-5)

Etapa 3

Quadrado de todos os x se todos os y e descobrir x 2 e y 2 . Adicione os x 2 s na col. 6 e y 2 s em col. 7 e descubra ∑x 2 e ∑y 2 .

Passo 4

Multiplique os desvios da variável X (col. 4) com os desvios da variável Y (col. 5) com a devida atenção aos sinais algébricos para obter xy (col. 8). Em seguida, adicione os valores na col. 8 e obtenha ∑xy.

Passo 5

Coloque o valor na fórmula e obtenha o resultado.

Assim, o coeficiente de correlação entre os escores em inglês e os escores em AMI dos 12 alunos é de 0, 78.

(ii) Cálculo do coeficiente de correlação do momento do produto a partir de pontuações originais ou pontuações brutas:

Sem calcular os desvios, também podemos calcular r de notas brutas ou diretamente de pontuações originais.

Neste caso, aplicamos a seguinte fórmula:

Exemplo:

Calcular o coeficiente de correlação dos dois conjuntos de escores obtidos a partir de um teste de Matemática e Ciência de 10 alunos no método do momento do produto:

Solução:

Passo 1

Quadrado todos os X se Y

Passo 2

Encontre o produto de X e Y pela multiplicação de cada X por Y correspondente.

Etapa 3

Adicione os X s (col. 1), Y s (col. 2), X 2 (col. 3), Y 2 (col. 4) e XY (col. 5) para obter ∑X, ∑Y, ∑X 2 ∑Y 2 e ∑XY respectivamente.

Passo 4

Coloque esses valores na fórmula e obtenha o resultado.

Portanto, o coeficiente de correlação entre os dois conjuntos de pontuação é de 0, 92.

(b) Computação de r de dados agrupados:

O método que discutimos na seção acima pode ser empregado quando o N é pequeno. Mas quando N é grande, computar r no método acima é trabalhoso e demorado. Podemos superar a dificuldade organizando os dados na forma de um diagrama ou gráfico conhecido como 'diagrama de dispersão' ou 'grama de dispersão'. Também é conhecido como distribuição de frequência bidirecional ou distribuição de frequência bivariada. Vamos considerar como preparar um diagrama de dispersão.

Como preparar um diagrama de dispersão:

Por exemplo, 50 alunos do 9º ano do Ensino Médio obtiveram as seguintes notas em um teste de inteligência em grupo (X) e teste de álgebra (Y).

Vamos construir um diagrama de dispersão para essas pontuações.

Vamos usar os intervalos de classe do teste de inteligência ao longo da margem esquerda, de cima para baixo do diagrama (Fig. 12.5) e os intervalos de classe do teste de álgebra ao longo do topo do diagrama, da esquerda para a direita.

Suponha que queremos traçar as pontuações do primeiro aluno no diagrama. O primeiro aluno tem um escore de inteligência de 48 e um escore algébrico de 173. Aqui temos que colocar uma contagem na célula correspondente aos intervalos de aula, 45-49 na inteligência e 170-179 no teste de álgebra.

Da mesma forma, temos que contabilizar os 50 alunos de acordo com as duas pontuações, teste de inteligência e teste de álgebra. Então as contagens de cada célula serão contadas e traduzidas no número. Posteriormente, os números de cada linha serão adicionados e a freqüência para cada intervalo de classe do teste de inteligência (variável X) f x será encontrada.

Por exemplo, na Fig. 12.5 o f x para a 1ª linha é 1, 2ª linha 6, 3ª linha 7 e da mesma forma 8ª linha 2. Da mesma maneira, os números de células de cada coluna serão adicionados e a freqüência para cada intervalo de classe de teste de álgebra (variável Y) f y será determinado.

Por exemplo, o f y da 1ª coluna é 3, 2ª coluna 1, 3ª coluna 2 e da mesma forma a 10ª coluna é 2. Depois de todos os registros terem sido listados, a frequência em cada célula é adicionada e inserida no diagrama. O diagrama de dispersão é, então, uma tabela de correlação.

Computação de 'r' da Tabela de Correlação:

Quando N é grande ou mesmo moderado em tamanho, é fácil calcular r agrupando os dados em uma distribuição de freqüência bivariada e calculando o r tomando desvios da média presumida em vez da média real.

A fórmula para calcular a partir de dados agrupados no método de média assumida é a seguinte:

Vamos calcular r xy da tabela de correlação encontrada no diagrama de dispersão.

Uma vez que a tabela de correlação esteja preparada, podemos descobrir o r usando a fórmula:

Passo 1

Adicione as frequências de cada coluna de pontuação de álgebra e obtenha fy . Em seguida, adicione as freqüências de cada linha do teste de inteligência e obtenha f x .

Passo 2

Assuma uma média para as pontuações do teste de inteligência (como já discutimos na média de computação no método de média assumida) e desenhe uma linha dupla dessa coluna para torná-la distinta.

Da mesma forma, assuma uma média para as pontuações dos testes de álgebra e desenhe uma linha dupla daquela linha para torná-la distinta. Neste problema atual para o teste de inteligência, o ponto médio do IC 40-44, isto é, 42, e para o teste de álgebra, o ponto médio do CI 140-149, isto é, 144, 5, são tomados como meios assumidos. Agora podemos tirar x 'e y' deste ponto, como indicado na fig.

Etapa 3

Multiplique o x ' x com f x e descubra fx' e da mesma forma, multiplique o y 'por fy e descubra'.

Passo 4

Multiplique a coluna fx 'column por x' e obtenha fx ' 2 e fy' row com y 'e obtenha fy' 2 .

Passo 5

A próxima tarefa é descobrir fx'y '. Multiplique o x 'da coluna com o y' da linha de uma célula particular, dando a devida ponderação aos sinais algébricos. Escreva o produto no canto superior da célula dentro de um suporte.

Em seguida, multiplique a freqüência da célula com o produto e obtenha o valor de fx'y 'dessa célula e anote-a no canto inferior esquerdo da célula.

Por exemplo, a freqüência da célula 20—24 e 180-189 é 1. Aqui x 'é —4 e y' é +4, o produto de x 'e y' é —16. Multiplicando o produto - 16 com a freqüência celular 1, obtemos fx'y '= -16 para aquela célula.

Da mesma forma podemos calcular o fx'y 'para todas as células. Adicionando os valores das células em linha, podemos obter os valores da coluna fx'y '. Adicionando esses valores, obtemos ∑fx'y '. Para verificar a exatidão, adicione os valores de fx'y 'na coluna para obter a linha fx'y' e adicionando esses valores, também podemos obter ∑fx'y '(veja a Tabela 12.8)

Passo 6

Adicione o valor de fx ', fx' 2, fy 'e fy' 2 e obtenha ∑fx ', ∑fx' 2, ∑fy 'e ∑fy' 2 'respectivamente.

Passo-7

Coloque os valores na fórmula e obtenha o resultado.