4 Critérios Essenciais de um Bom Teste

Este artigo lança luz sobre os quatro critérios essenciais de um bom teste. Os critérios são: - 1. Confiabilidade 2. Validade 3. Objetividade 4. Usabilidade.

Critério # 1. Confiabilidade:

O significado do dicionário de confiabilidade é consistência, dependência ou confiança. Um procedimento de medição é confiável na medida em que a medição repetida fornece resultados consistentes para o indivíduo.

Um teste é considerado confiável se produzir resultados consistentes em sua administração sucessiva. Assim, pela confiabilidade de um teste, queremos dizer quão confiável ou fiel é o teste. Para expressar de uma maneira geral, se um instrumento de medição mede consistentemente, é confiável.

Quando um teste é confiável, as pontuações feitas pelos membros de um grupo após o novo teste com o mesmo teste ou com formas alternativas do mesmo teste diferirão muito pouco ou nada dos valores originais.

Exemplo 1:

Se uma testemunha dá a mesma declaração sobre uma questão quando perguntada repetidamente por um advogado no tribunal, nós depositamos confiança em sua declaração e consideramos sua declaração confiável.

Exemplo 2:

Se um relógio permanecer 10 minutos atrasado todos os dias em comparação com o horário do Hindustão, então podemos dizer que o relógio é um instrumento confiável.

Exemplo 3:

Suponha que pedimos a Amit para relatar sua data de nascimento. Ele relata que é 13 de julho de 1985. Depois de um lapso de tempo, fizemos a mesma pergunta e ele relatou o mesmo, ou seja, 13 de julho de 1985.

Podemos colocar a questão de novo e de novo, e se a resposta é a mesma, sentimos que a declaração de Amit é confiável.

Definições:

1. Thorndike:

É a consistência de um teste com o qual se mede o que é suposto ser medido. A confiabilidade do teste é geralmente considerada como o grau em que o teste está livre de erros de compensação.

2. Gronlund e Linn:

Confiabilidade refere-se à consistência das medições - ou seja, quão consistentes os resultados dos testes ou outros resultados da avaliação são de uma medida para outra.

3. Anastasi:

Confiabilidade refere-se à consistência das pontuações obtidas pelos mesmos indivíduos quando reexaminadas com o mesmo teste em diferentes ocasiões ou com diferentes conjuntos de itens equivalentes ou sob condições variáveis ​​de análise.

4. Davis:

O grau de precisões relativas de medição de um conjunto de pontuação de teste é definido como confiabilidade.

5. Guilford:

A confiabilidade é a proporção da variação real nos resultados dos testes obtidos.

A partir da discussão acima, ficou claro que a confiabilidade de um teste significa a extensão em que o teste produz o mesmo resultado em administração sucessiva na mesma população. Outras condições permanecem constantes, se o mesmo teste é administrado na mesma população em duas ocasiões diferentes e as pontuações obtidas pelos indivíduos em ambas as ocasiões permanecem mais ou menos as mesmas, o teste é considerado confiável.

A confiabilidade de um teste tenta responder às seguintes questões:

(i) Qual seria a similaridade das pontuações dos alunos, se eles receberem o mesmo teste em duas ocasiões diferentes?

(ii) Como os escores variam se uma amostra diferente de itens equivalentes for selecionada?

(iii) Como as pontuações variam se o teste for marcado por um pontuador diferente?

(iv) Como as pontuações variam se o teste for marcado pelo mesmo marcador em momentos diferentes?

Características de confiabilidade:

Confiabilidade tem as seguintes características:

(i) Uma estimativa de confiabilidade sempre se refere a qualquer tipo particular de consistência.

(ii) Refere-se à precisão ou precisão de um instrumento de medição.

(iii) Confiabilidade refere-se aos resultados do teste e não ao teste em si.

(iv) É o coeficiente de consistência interna.

(v) A confiabilidade de um conjunto de medições é logicamente como a proporção da variância que é a verdadeira variância.

(vi) É a medida do erro variável ou erro de acaso ou erro de medição.

(vii) Confiabilidade é uma questão de grau. Não existe em todo ou em não-base.

(viii) Confiabilidade não garante a validade ou veracidade ou intencionalidade de um teste.

(ix) A confiabilidade é uma condição necessária, mas não suficiente, para a validade. A baixa confiabilidade pode restringir o grau de validade obtido, mas a alta confiabilidade não oferece garantia de um grau satisfatório de validade.

(x) A confiabilidade é principalmente de natureza estatística no sentido de que as pontuações obtidas em duas ocasiões sucessivas estão correlacionadas entre si. Esse coeficiente de correlação é conhecido como autocorrelação e seu valor é chamado de "coeficiente de confiabilidade".

Confiabilidade e Erros de Medição:

As definições de confiabilidade podem ser agrupadas em três títulos:

(i) empírico,

(ii) Lógico e

(iii) Teórico.

(i) empírico:

As definições empíricas de confiabilidade referem-se à extensão da correlação entre dois conjuntos de escores no mesmo teste administrado no mesmo indivíduo em diferentes ocasiões.

(ii) Teórico:

O significado teórico refere-se à consistência ou precisão dos resultados dos testes. Isso significa confiabilidade de uma pontuação de teste.

(iii) Lógico:

O significado lógico da confiabilidade refere-se a erros de medição.

A ilustração a seguir pode nos levar a entender o conceito de confiabilidade e erros de medição:

Por exemplo, o Sr. Rohit assegura 52 em um teste mental. O que 52 indica? Fala de sua verdadeira capacidade? É a sua verdadeira pontuação? Rohit poderia ter assegurado 52 por mero acaso. Pode acontecer que, por acaso, Rohit conhecesse 52 itens do teste e tivesse os itens um pouco diferentes, ele não teria conseguido essa pontuação.

Todas essas questões estão relacionadas com o fato de que a medição envolve alguns tipos de erros, como erros pessoais, constantes, variáveis ​​e interpretativos. Este erro é chamado como erros de medição. Portanto, ao determinar a confiabilidade de um teste, devemos levar em consideração a quantidade de erros presentes na medição.

Quando o coeficiente de confiabilidade for perfeito (ou seja, 1, 00), a medição se tornará precisa e estará livre de todos os tipos de erros. Mas a medição em todos os campos envolve algum tipo de erro. Portanto, a confiabilidade nunca é perfeita.

Uma pontuação em um teste pode ser considerada como um índice de pontuação verdadeira mais erros de medição.

Pontuação total ou pontuação obtida real = pontuação verdadeira + pontuação de erro

Se uma pontuação tiver um grande componente de 'pontuação verdadeira' e um pequeno componente de erro, ela será alta; e, ao contrário, se um escore de teste tem um pequeno componente de 'escore verdadeiro' e um grande componente de 'erro', sua confiabilidade é baixa.

As relações entre o escore obtido real, o escore verdadeiro e o erro podem ser expressas matematicamente da seguinte maneira:

X = X + e

em que X = Pontuação obtida para um indivíduo em um teste.

X = pontuação verdadeira do mesmo indivíduo

e = os erros da variável (chance).

Erros de Medição:

A pontuação verdadeira é a média das pontuações obtidas em um número infinito de formas paralelas de um teste. Cada pontuação obtida será mais ou menos que a pontuação verdadeira. Os desvios dos escores obtidos dos escores verdadeiros são chamados de "Erros de medição".

Às vezes, os erros de medição podem ser menores e, às vezes, mais. Outras coisas sendo iguais, menores os erros de medição, maior a confiabilidade da medição.

Erro padrão de medição:

Os erros de medição (ou seja, a variação dos escores obtidos a partir do escore verdadeiro) serão distribuídos normalmente e o desvio padrão dessas variações (ou erros de medição) é denominado como “erros-padrão de medição”.

Podemos encontrar o erro padrão de medição (SE de medição) quando o coeficiente de confiabilidade e o desvio padrão da distribuição são fornecidos.

A fórmula para calcular o erro padrão de medição é a seguinte:

em que σ sc = o SE de uma pontuação obtida

σ 1 = o desvio padrão dos resultados dos testes

r 11 = coeficiente de confiabilidade do mesmo teste.

Exemplo 4:

Em um grupo de 300 estudantes universitários, o coeficiente de confiabilidade de um Teste de Aptidão em Matemática é 0, 75, o teste M é 80 e o SD da distribuição de pontuação é 16. John alcança uma pontuação de 86. Qual é o SE dessa pontuação? ?

Solução:

Da fórmula acima, descobrimos que

e a probabilidade é de aproximadamente 2: 1 que o escore obtido de qualquer indivíduo no grupo de 300 não perca seu verdadeiro valor em mais de ± 8 pontos (ou seja, ± 1 SE sc ). O intervalo de confiança 0, 95 para a pontuação verdadeira de John é 86 ± 1, 96 x 8 ou 70 a 102.

Generalizando para todo o grupo de 300 alunos, podemos esperar que cerca de 1/3 de suas pontuações seja erro em 8 ou mais pontos, e 2/3 seja erro por menos que esse valor.

Critério # 2. Validade:

O significado do dicionário de validade é "bem fundamentado", "eficaz", "som". Refere-se a "veracidade". Assim, qualquer coisa que seja verdadeira, bem fundamentada e que sirva ao propósito correto é válida.

Cada teste tem certos objetivos próprios. É construído para algum propósito específico e é válido para esse propósito. Se um teste mede o que pretende medir, diz-se que é válido. A validade fornece uma verificação direta de quão bem o teste cumpre suas funções. A validade é o primeiro requisito de um teste que se torne universal.

A confiabilidade pode ser necessária, mas não é uma condição suficiente de validade. Um teste não pode ser válido, a menos que seja confiável. Pode ser confiável, mas não pode ser dito como válido. A relevância de um teste diz respeito às medidas de teste e ao processo das medidas.

Em suma, podemos dizer que um teste destina-se a servir a função de previsão e, portanto, vale a pena ou validade depende do grau em que é bem sucedido na estimativa do desempenho em alguns tipos de situação da vida real.

Exemplo 5:

Suponha que uma testemunha dê uma declaração perante o juiz em um tribunal. Se em sucessivos exames cruzados ou interrogatório cruzado, ele repete a mesma declaração repetidas vezes, então ele deve ser chamado como uma testemunha confiável.

Sem dúvida, sua declaração pode estar certa ou errada. Quando a afirmação dele é verdadeira, é dito que ele é uma testemunha válida. Mas se sua declaração estiver consistentemente errada, embora seja confiável, mas não válida.

Exemplo 6:

Se um relógio se mantiver 10 minutos à frente do tempo normal, é um tempo confiável. Porque dá resultado consistente todos os dias com 10 minutos de jejum. Nosso objetivo é saber a hora corretamente e não poderíamos saber. Então o propósito mesmo não é servido. Assim, não será válido como julgado por 'Standard time'.

Assim, verifica-se que um teste pode ser confiável, mas pode não ser válido. No entanto, medidas ou testes válidos são sempre confiáveis. Um teste que é válido para uma determinada finalidade pode não ser válido para outra finalidade.

Um teste que tenha sido preparado para medir a habilidade computacional de estudantes em matemática pode ser válido apenas para essa finalidade, mas não para medir o raciocínio matemático. Então, validade refere-se ao próprio objetivo do teste.

Definições:

Anne Anastasi:

Escreve “a validade de um teste diz respeito ao que o teste mede e quão bem ele o faz.”

Rummel:

"A validade de um dispositivo de avaliação é o grau em que mede o que se pretende medir."

FS Freeman:

"Um índice de validade mostra os graus aos quais um teste mede o que se propõe a medir quando comparado com o critério aceito."

LJ Cronbach:

"Validade é a medida em que um teste mede o que se propõe a medir."

EF Lindquist:

Validade é a precisão com a qual se mede o que se pretende medir ou como o grau em que se aproxima da infalibilidade ao medir o que se pretende medir.

A partir da discussão anterior, formamos que a validade se refere ao “propósito do teste” e, se o propósito for cumprido, o teste deve ser considerado válido. Portanto, para que um teste seja válido, é preciso fazer o trabalho que ele queria fazer.

O conceito de validade de um teste, portanto, é principalmente uma preocupação pela "honestidade básica" do teste. Honestidade no sentido de fazer o que se promete fazer. Para ser preciso, a validade refere-se a quão bem uma ferramenta mede o que pretende medir.

Natureza da Validade:

1. Validade refere-se à veracidade ou intencionalidade dos resultados dos testes, mas não ao próprio instrumento.

2. A validade é uma questão de grau. Não existe em uma base de tudo ou nada. Um instrumento projetado para medir uma determinada habilidade não pode ser considerado perfeitamente válido ou não válido. Geralmente é mais ou menos válido.

3. É uma medida de 'erro constante', enquanto a confiabilidade é a medida de 'erro variável'.

4. A validade garante a confiabilidade de um teste. Se um teste é válido, ele deve ser confiável.

5. A validade não é de tipos diferentes. É um conceito unitário. Baseia-se em vários tipos de evidências.

6. Não existe validade geral. Um teste é válido para algum propósito ou situação, ainda que não seja válido para outros propósitos. Em outras palavras, uma ferramenta é válida para uma finalidade específica ou em uma situação específica; geralmente não é válido.

Por exemplo, os resultados de um teste de vocabulário podem ser altamente válidos para testar o vocabulário, mas podem não ser tão válidos para testar a capacidade de composição do aluno.

Critério # 3. Objetividade:

A objetividade é a característica mais importante de um bom teste. É um pré-requisito para validade e confiabilidade. Objetividade de um teste significa o grau em que diferentes pessoas pontuam, o mesmo resultado.

CV Good (1973):

CV Good (1973) define objetividade no teste é “a medida em que o instrumento está livre de erro pessoal (parcialidade pessoal) que é subjetividade por parte do apontador”.

Gronlund e Linn (1995):

“A objetividade de um teste se refere ao grau em que os competidores igualmente competentes obtêm os mesmos resultados.”

Assim, pode-se dizer que um teste é considerado objetivo quando se trata de eliminar a opinião pessoal e o julgamento de viés do apontador.

A objetividade de um teste refere-se a dois aspectos, a saber:

(i) Objetividade dos itens, e

(ii) Objetividade da pontuação.

(i) Objetividade dos itens:

A objetividade dos itens significa que o item deve exigir uma resposta única e definitiva. Itens objetivos não podem ter duas ou mais respostas. Quando a questão é afirmada diferentemente, a diferença na pontuação ocorrerá.

Por exemplo:

"Explique o conceito de personalidade."

Aqui as pontuações dadas pelos apontadores irão variar em grande parte porque a questão não indica claramente a natureza da resposta correta que é esperada.

Aqui a criança pode escrever qualquer coisa relacionada à pergunta. Se a resposta for pontuada por examinadores diferentes, as notas definitivamente variarão.

Questões ambíguas, falta de direção apropriada, questões de duplo cano, perguntas com duplo negativo, perguntas amplas sobre o tipo de ensaio etc. não têm objetividade. Portanto, muito cuidado deve ser exercido ao enquadrar as perguntas.

(ii) Objetividade da pontuação:

Uma ferramenta é objetiva se der a mesma pontuação mesmo quando diferentes pontuadores marcarem o item. A objetividade na pontuação pode, assim, ser considerada como consistência na pontuação de diferentes pontuadores.

Muitas vezes, em situações reais, descobrimos que o capricho ou os preconceitos do apontador influenciam a marcação. As perguntas, perguntadas sobre determinados tópicos para os quais o apontador tem uma inclinação, podem buscar mais pontos do que as outras perguntas.

Esse tipo de temperamento irracional em relação ao sistema de pontuação é um tipo de tratamento subjetivo do programa que, por sua vez, afeta o processo de avaliação. Portanto, a objetividade na avaliação deve ser assegurada para uma avaliação precisa.

Ao mesmo tempo, a subjetividade não precisa ser condenada e inteiramente excluída, pois é assim que a maioria das avaliações na realidade é feita. A avaliação subjetiva baseada na observação cuidadosa, no pensamento imparcial e imparcial e na análise lógica de situações e fenômenos também pode fornecer uma avaliação precisa. Esse tipo de subjetividade disciplinada pode desempenhar um papel importante mesmo em uma situação escolar.

Critério # 4. Usabilidade:

Usabilidade - grau em que a ferramenta de avaliação pode ser usada com sucesso pelos usuários de teste.

Já lemos os três principais critérios de um bom teste: validade, confiabilidade e objetividade. Outra característica importante de uma ferramenta é sua usabilidade ou praticidade. Ao selecionar as ferramentas de avaliação, deve-se procurar certas considerações práticas, como abrangência, facilidade de administração e pontuação, facilidade de interpretação, disponibilidade de formulários comparáveis ​​e custo do teste.

Todas essas considerações induzem o professor a usar ferramentas de avaliação e tais considerações práticas são chamadas de “usabilidade” de uma ferramenta de avaliação. Em outras palavras usabilidade significa o grau em que a ferramenta de avaliação pode ser usada com sucesso pelo professor e administradores escolares.

(i) Compreensibilidade:

Os itens de teste devem estar livres de ambiguidade. A direção para testar itens e outras direções para o teste deve ser clara e compreensível. As instruções para a administração e as instruções de pontuação devem ser claramente indicadas, para que se possa facilmente compreendê-las e segui-las. Além disso, o procedimento de administração do teste, pontuação e interpretação da pontuação deve estar dentro da compreensão do usuário do teste.

(ii) Facilidade de Administração:

Refere-se à facilidade com que um teste pode ser administrado. Cada teste tem suas próprias condições para administração. Ao selecionar um teste, deve-se escolher um, a partir de uma coleção de testes, que podem ser administrados sem muita preparação e dificuldades.

uma. Facilidade de administração inclui instruções claras e concisas para administração. Assim, para que um teste seja facilmente administrado, as instruções para o administrador e a direção para os gostos devem ser fáceis, claras e completas.

b. O tempo também é um fator muito importante. Para administração máxima nas escolas, é costume que um teste seja realizado dentro de um período normal de aula.

(iii) Facilidade de Pontuação:

Um teste para melhor utilização deve ter facilidade de pontuação. Sua chave de pontuação deve estar pronta e ser facilmente avaliada. Às vezes, os lugares são reservados no lado direito das perguntas para dar respostas.

Em alguns casos, as respostas são dadas em folhas separadas. Um teste ideal pode ser pontuado por qualquer pessoa ou até mesmo por uma máquina, que tenha recebido uma chave de pontuação. Marcas iguais devem ser atribuídas a cada item no teste para tornar a pontuação mais fácil.

De acordo com a viabilidade, podem ser fornecidos dispositivos de pontuação manual ou dispositivos de pontuação de máquina.

(iv) Facilidade de Interpretação:

Se os resultados dos testes obtidos puderem ser facilmente compreendidos e interpretados, um teste será considerado bom. Para este propósito, o manual de teste deve fornecer normas completas para interpretação dos escores, tais como normas de idade, normas de graduação, normas de percentil e normas de pontuação padrão. As normas facilitam a interpretação dos resultados dos testes.

(v) Levantamento do Teste:

O teste deve ter uma boa aparência. Isso deve ser bom e atraente. As letras não devem ser desnecessariamente muito pequenas ou muito grandes. A qualidade do papel usado, tipografia e impressão, tamanho da letra, espaçamento, imagens e diagramas apresentados, o seu espaço de ligação, para a resposta dos alunos, etc, devem ser examinados.

(vi) Custo do Teste:

O teste não deve ser muito caro. O custo deve ser reduzido para a extensão possível, para que possa ser usado amplamente.