Determinando a confiabilidade de um teste: 4 métodos

Existem quatro procedimentos em uso comum para calcular o coeficiente de confiabilidade (às vezes chamado de autocorrelação) de um teste. São eles: 1. Teste-Reteste (Repetição) 2. Formas Alternativas ou Paralelas 3. Técnica da Metade da Divisão 4. Equivalência Racional.

1. Método Teste-Reteste:

Para estimar a confiabilidade por meio do método de teste-reteste, o mesmo teste é administrado duas vezes ao mesmo grupo de alunos com um dado intervalo de tempo entre as duas administrações do teste.

Os resultados dos testes resultantes são correlacionados e esse coeficiente de correlação fornece uma medida de estabilidade, ou seja, indica a estabilidade dos resultados do teste ao longo de um período de tempo. Por isso, é também conhecida como uma medida de estabilidade.

A estimativa de confiabilidade neste caso varia de acordo com o intervalo de tempo permitido entre as duas administrações. O método de correlação do momento do produto é um método significativo para estimar a confiabilidade de dois conjuntos de pontuações.

Assim, uma alta correlação entre dois conjuntos de pontuações indica que o teste é confiável. Significa que as pontuações obtidas na primeira administração se assemelham às pontuações obtidas na segunda administração do mesmo teste.

Neste método, o intervalo de tempo desempenha um papel importante. Se for muito pequeno, digamos um dia ou dois, a consistência dos resultados será influenciada pelo efeito de transferência, ou seja, os alunos se lembrarão de alguns dos resultados da primeira administração para a segunda.

Se o intervalo de tempo for longo, digamos um ano, os resultados não serão apenas influenciados pela desigualdade de procedimentos e condições de teste, mas também pelas mudanças reais nos alunos ao longo desse período de tempo.

O intervalo de tempo de reteste não deve ser superior a seis meses. O intervalo de tempo da quinzena de reteste (2 semanas) fornece um índice preciso de confiabilidade.

Vantagens:

O método de autocorrelação ou teste-reteste, para estimar o coeficiente de confiabilidade, é geralmente utilizado. Vale a pena usar em situações diferentes convenientemente. Um teste de comprimento adequado pode ser usado após um intervalo de vários dias entre os testes sucessivos.

Desvantagens:

1. Se o teste for repetido imediatamente, muitos sujeitos se lembrarão de suas primeiras respostas e gastarão seu tempo em novos materiais, tendendo assim a aumentar suas pontuações - às vezes por um bom negócio.

2. Além dos efeitos imediatos de memória, a prática e a confiança induzida pela familiaridade com o material quase certamente afetarão os resultados quando o teste for realizado pela segunda vez.

3. O índice de confiabilidade assim obtido é menos preciso.

4. Se o intervalo entre os testes for bastante longo (mais de seis meses), o fator de crescimento e a maturidade afetarão os escores e tenderão a baixar o índice de confiabilidade.

5. Se o teste for repetido imediatamente ou após um pouco de intervalo de tempo, pode haver a possibilidade de efeito de transferência / efeito de transferência / memória / efeito de prática.

6. Ao repetir o mesmo teste, no mesmo grupo na segunda vez, deixa os alunos desinteressados ​​e, portanto, eles não gostam de participar de todo o coração.

7. Às vezes, a uniformidade não é mantida, o que também afeta os resultados dos testes.

8. Chances de discutir algumas questões após a primeira administração, o que pode aumentar os escores na segunda administração afetando a confiabilidade.

2. Método das formas alternativas ou paralelas:

A estimativa da confiabilidade por meio do método da forma equivalente envolve o uso de duas formas diferentes, mas equivalentes, do teste. Confiabilidade de forma paralela também é conhecida como confiabilidade de forma alternativa ou confiabilidade de forma equivalente ou confiabilidade de forma comparável.

Neste método, duas formas paralelas ou equivalentes de um teste são usadas. Por formas paralelas queremos dizer que as formas são equivalentes no que diz respeito ao conteúdo, objetivos, formato, nível de dificuldade e valor discriminante dos itens, duração do teste, etc.

Os testes paralelos têm pontuações médias iguais, variâncias e inter-relações entre os itens. Ou seja, duas formas paralelas devem ser homogêneas ou semelhantes em todos os aspectos, mas não uma duplicação de itens de teste. Deixe as duas formas serem a Forma A e a Forma B.

O coeficiente de confiabilidade pode ser considerado como a correlação de coeficiente entre as pontuações em duas formas equivalentes de teste. As duas formas equivalentes são possivelmente similares em conteúdo, grau, processos mentais testados e nível de dificuldade e em outros aspectos.

Uma forma do teste é administrada aos alunos e ao terminar imediatamente outra forma de teste é fornecida ao mesmo grupo. Os escores assim obtidos são correlacionados, o que dá a estimativa de confiabilidade. Assim, a confiabilidade encontrada é chamada de coeficiente de equivalência.

Gulliksen 1950: definiu testes paralelos como testes com médias iguais, variância igual e inter-relações iguais.

Guilford: O método de forma alternativa indica tanto a equivalência de conteúdo quanto a estabilidade de desempenho.

Vantagens:

Este procedimento tem certas vantagens sobre o método de teste-reteste:

1. Aqui o mesmo teste não é repetido.

2. Memória, prática, efeitos de transferência e fatores de memória são minimizados e não afetam as pontuações.

3. O coeficiente de confiabilidade obtido por este método é uma medida da estabilidade temporal e da consistência da resposta a diferentes amostras de itens ou formas de teste. Assim, este método combina dois tipos de confiabilidade.

4. Útil para a confiabilidade dos testes de desempenho.

5. Este método é um dos métodos apropriados para determinar a confiabilidade dos testes educacionais e psicológicos.

Limitações:

1. É difícil ter duas formas paralelas de um teste. Em certas situações (ou seja, no Rorschach) é quase impossível.

2. Quando os testes não são exatamente iguais em termos de dificuldade de conteúdo, duração, a comparação entre dois conjuntos de pontuações obtidas desses testes pode levar a decisões errôneas.

3. Fatores práticos e de transição não podem ser completamente controlados.

4. Além disso, administrar dois formulários cria simultaneamente o tédio. É por isso que as pessoas preferem esses métodos nos quais apenas uma administração do teste é necessária.

5. As condições de teste durante a administração do Formulário B podem não ser as mesmas. Além disso, os testículos podem não estar em um estado físico, mental ou emocional semelhante nos dois momentos da administração.

6. Os resultados dos testes da segunda forma do teste são geralmente altos.

Embora formas paralelas construídas de maneira difícil, cuidadosa e cautelosa nos dariam uma medida razoavelmente satisfatória de confiabilidade. Para testes padronizados bem feitos, o método de forma paralela é geralmente a maneira mais satisfatória de determinar a confiabilidade.

3. Método Split-Half ou Método de Teste Sub-dividido:

O método Split-half é uma melhoria em relação aos dois métodos anteriores e envolve as características de estabilidade e equivalência. O acima discutido dois métodos de estimar a confiabilidade às vezes parece difícil.

Pode não ser possível usar o mesmo teste duas vezes e obter formas equivalentes de teste. Portanto, para superar essas dificuldades e reduzir o efeito de memória, bem como para economizar o teste, é desejável estimar a confiabilidade por meio de uma única administração do teste.

Neste método, o teste é administrado uma vez na amostra e é o método mais apropriado para testes homogêneos. Esse método fornece a consistência interna de uma pontuação de teste.

Todos os itens do teste são geralmente organizados em ordem crescente de dificuldade e administrados uma vez na amostra. Depois de administrar o teste, ele é dividido em duas partes ou partes iguais ou semelhantes ou iguais.

As pontuações são organizadas ou são feitas em dois conjuntos obtidos a partir de números ímpares de itens e até mesmo números de itens separadamente. Como por exemplo, um teste de 100 itens é administrado.

As pontuações de indivíduo com base em 50 itens de números ímpares como 1, 3, 5, .. 99 e pontuações baseadas em números pares 2, 4, 6… 10 são organizadas separadamente. Na parte 'A', itens de números ímpares são atribuídos e a parte 'B' consistirá de número par de itens.

Depois de obter duas pontuações em números ímpares e pares de itens de teste, calcula-se o coeficiente de correlação. É realmente uma correlação entre duas metades equivalentes de pontuações obtidas em uma sessão. Para estimar a confiabilidade, usa-se a fórmula de Profecia de Spearman-Brown.

A fórmula de Spearman-Brown é dada por:

em que r 11 = a confiabilidade de todo o teste.

r 11/22 = coeficiente de correlação entre dois meios testes.

Exemplo 1:

Um teste contém 100 itens. Todos esses itens são organizados em ordem de dificuldade à medida que se vai do primeiro ao centésimo. Os alunos respondem ao teste e o teste é pontuado.

As pontuações são obtidas pelos alunos em número ímpar de itens e o número de itens é totalizado separadamente. O coeficiente de correlação encontrado entre esses dois conjuntos de pontuações é de 0, 8.

A confiabilidade de todo o teste (ou)

Ao usar esta fórmula, deve-se ter em mente que a variação das metades ímpares e pares deve ser igual, ou seja,

Se isso não for possível, as fórmulas de Flanagan e Rulon podem ser empregadas. Essas fórmulas são mais simples e não envolvem o cálculo do coeficiente de correlação entre duas metades.

Vantagens:

1. Aqui não estamos repetindo o teste ou usando a forma paralela dele e, portanto, o testado não é testado duas vezes. Como tal, o efeito de carry over ou efeito de prática não está lá.

2. Neste método, as flutuações da capacidade do indivíduo, devido às condições ambientais ou físicas, são minimizadas.

3. Por causa da administração única do teste, as funções e problemas do dia-a-dia não interferem.

4. A dificuldade de construir formas paralelas de teste é eliminada.

Limitações:

1. Um teste pode ser dividido em duas metades iguais de várias maneiras e o coeficiente de correlação em cada caso pode ser diferente.

2. Este método não pode ser usado para estimar a confiabilidade dos testes de velocidade.

3. Como o inseguro é administrado uma vez, os erros de chance podem afetar os escores nas duas metades da mesma maneira e, assim, tendem a tornar o coeficiente de confiabilidade muito alto.

4. Este método não pode ser usado em testes de energia e testes heterogêneos.

Apesar de todas essas limitações, o método da metade dividida é considerado o melhor de todos os métodos para medir a confiabilidade dos testes, pois os dados para determinar a confiabilidade são obtidos ocasionalmente e, assim, reduzem o tempo, o trabalho e as dificuldades envolvidas no segundo caso. ou administração repetida.

4. Método de Equivalência Racional:

Esse método também é conhecido como “Confiabilidade Kuder-Richardson” ou “Consistência entre itens”. É um método baseado em administração única. Baseia-se na consistência das respostas a todos os itens.

A maneira mais comum de encontrar consistência entre itens é através da fórmula desenvolvida por Kuder e Richardson (1937). Este método permite calcular a inter-correlação dos itens do teste e a correlação de cada item com todos os itens do teste. J. Cronbach chamou isso de coeficiente de consistência interna.

Neste método, assume-se que todos os itens possuem valor de dificuldade igual ou igual, a correlação entre os itens é igual, todos os itens medem essencialmente a mesma habilidade e o teste é homogêneo por natureza.

Como o método da metade-metade, este método também fornece uma medida de consistência interna.

A fórmula mais popular é Kuder-Richardson, ou seja, KR-21, que é dada abaixo:

q = - p

p = 1 - q

Um exemplo nos ajudará a calcular p e q.

Exemplo 2:

60 alunos apareceram em um teste e, dentre eles, 40 alunos responderam corretamente a um item específico do teste.

p = 40/60 = 2/3

Isso significa que uma parte dos alunos deu uma resposta correta a um item específico do teste. Em qual 20 estudantes deram a resposta incorreta àquele artigo.

Assim q = 20/60 ou 1 - 40/60

Para cada item, vamos descobrir o valor de peq, em seguida, pq é somado sobre todos os itens para obter ∑pq. Multiplique peq para cada item e soma para todos os itens. Isso dá ∑pq.

Vantagens:

1. Este coeficiente fornece algumas indicações de quão internamente consistentes ou homogêneos são os itens dos testes.

2. A equivalência racional é superior à técnica da metade dividida em certos aspectos teóricos, mas a diferença real nos coeficientes de confiabilidade encontrados pelos dois métodos é freqüentemente insignificante.

3. O método Split-half mede simplesmente a equivalência, mas o método de equivalência racional mede a equivalência e a homogeneidade.

4. Método econômico como o teste é administrado uma vez.

5. Não requer a administração de duas formas equivalentes de testes, nem requer dividir os testes em duas metades iguais.

Limitações:

1. O coeficiente obtido por este método é geralmente um pouco menor que os coeficientes obtidos por outros métodos.

2. Se os itens dos testes não forem altamente homogêneos, esse método produzirá um coeficiente de confiabilidade menor.

3. Kuder-Richardson e o método da metade dividida não são apropriados para o teste de velocidade.

4. Fórmula de KR diferente rende índice de confiabilidade diferente.