Requisitos de quaisquer Preditores Industriais: Validade e Confiabilidade

Os dois requisitos primordiais para qualquer preditor são validade e confiabilidade. No ambiente industrial, existem diferentes tipos ou tipos de validade, embora a mais preferida seja chamada de validade preditiva. Existem também diferentes tipos de medidas de confiabilidade. A preocupação com confiabilidade e validade não se limita aos preditores, mas também se aplica aos critérios.

Validade:

A validade de um preditor geralmente pode ser definida como a medida em que o preditor alcança certos objetivos do usuário, medindo o que deve ser medido. O tipo específico de validade envolvido depende, portanto, do objetivo específico do usuário em qualquer situação.

Validade preditiva:

O objetivo do usuário é empregar seu instrumento de medição para prever o desempenho futuro dos empregados em alguma outra variável (critério). A validade preditiva é estabelecida estatisticamente por meio de correlação e regressão. A distinção importante da validade preditiva é a de um tempo de demência. Escores preditores são obtidos em indivíduos em um ponto no tempo (por exemplo, tempo de contratação) e os escores de critério são obtidos em uma data posterior (por exemplo, no final de seis meses).

O relacionamento resultante, portanto, representa verdadeiramente o poder “preditivo” do instrumento. A validade preditiva é o tipo mais importante de validade na seleção, pois é o único tipo que realmente duplica a situação de seleção. Outro nome que às vezes é usado para validade preditiva é a validade de acompanhamento.

Validade Concorrente:

O objetivo aqui, pelo menos em teoria, deve ser estimar o desempenho atual dos empregados em alguma medida de critério a partir de pontuações no preditor. A validade concorrente também é estabelecida usando técnicas de correlação e regressão, mas sem intervalo de tempo entre a obtenção dos escores do preditor e do critério. Uma amostra dos empregados atuais é usada para determinar o relacionamento entre critério e preditor e, em seguida, a regressão resultante pode ser aplicada obtendo-se escores preditores nos demais cargos.

Em outras palavras, estamos interessados ​​em prever o status atual das pessoas, não seu status em algum momento futuro. É extremamente importante ressaltar que a alta validade concorrente não garante alta validade preditiva. Infelizmente, a validade concorrente é muito usada na indústria como um substituto para a validade preditiva.

A administração às vezes não está disposta a esperar pelo tempo exigido pelo método preditivo e pode não perceber que os funcionários atuais podem representar uma população de trabalhadores basicamente diferente dos solicitantes de emprego. Os trabalhadores atualmente empregados sobreviveram ao rastreamento tanto na contratação quanto na continuidade, e os trabalhadores mais pobres que foram contratados podem ter saído voluntariamente ou por solicitação. Isso torna muito difícil justificar a generalização de validades concorrentes para uma situação de validade preditiva.

Validade do conteúdo:

Quando o validador assume que seu preditor é representativo de uma determinada classe de situações, ele está envolvido na validade de conteúdo. Ele tem uma noção específica sobre o tipo de conhecimento, habilidade, atitude ou desempenho que deve ser aproveitado pelo instrumento de medição, e ele considera o instrumento válido na medida em que seu conteúdo é representativo do que ele quer tocar. A validade de conteúdo geralmente não é mensurável em nenhum sentido estatístico ou quantitativo.

Verifica-se o maior uso de validade de conteúdo entre os usuários de testes de desempenho, como os exames finais em um curso universitário. Um exame final só poderia ser considerado como tendo validade de conteúdo se representasse adequadamente (em amostra), em termos de seus itens, o conteúdo do curso. Se não representasse uma cobertura do material do curso, certamente não poderia ser considerado um teste apropriado para ser usado em um exame final - isto é, não teria validade de conteúdo.

Validade do construto:

Com esse tipo de validade, o usuário deseja inferir o grau em que as pessoas que estão sendo avaliadas possuem algum traço ou qualidade (construção) presumivelmente refletidas no desempenho do teste. O procedimento geral envolve a administração de vários instrumentos de teste que logicamente parecem medir o mesmo constructo e, em seguida, observar as relações entre essas medidas. A validade de constructo não tem sido usada em grau considerável pelo psicólogo industrial; tende a ser mais frequentemente usado em situações teóricas do que pragmáticas.

Validade Sintética:

Pode-se considerar a validade sintética como uma validade preditiva “assumida”. Suponha que tenhamos um teste que, em várias situações, demonstrou uma alta relação preditiva com vários critérios de desempenho dos encarregados industriais. Suponha ainda que uma pequena fábrica queira usar um teste na seleção de capatazes, mas poucos capatazes trabalham na fábrica para realizar até mesmo um estudo de validade concorrente. Esta planta pode decidir usar o teste sem qualquer avaliação estatística formal, supondo-se que ele tenha sido demonstrado como sendo bem sucedido em outras plantas maiores.

Este procedimento só pode ser considerado válido se:

(1) O trabalho do contramestre nesta fábrica é semelhante aos trabalhos de capatazes envolvidos na avaliação estatística do teste, e

(2) Os encarregados desta planta são típicos (provenientes da mesma população) que os solicitantes dos empregos de capataz nas fábricas maiores. A validade sintética só deve ser substituída pela validade preditiva com a plena consciência de suas possíveis limitações.

Validade da Face:

Outro tipo de validade frequentemente usado para descrever um teste envolve o grau em que um usuário está interessado em fazer com que seu teste “pareça correto” para o candidato a teste. Candidatos a emprego muitas vezes ficam chateados se os instrumentos de previsão que são obrigados a tomar parecem ter pouca ou nenhuma relação com o trabalho para o qual estão se candidatando. Por exemplo, se alguém está selecionando pessoas para uma posição de operador e um teste de capacidade aritmética é usado como preditor, os itens de teste devem lidar com números aplicados a problemas mecânicos em vez de serem redigidos em termos mais gerais, como a compra de maçãs ou laranjas.

Se o candidato falhar em ver a relevância do preditor para o trabalho para o qual ele está se candidatando, como freqüentemente acontece em testes de personalidade, ele pode sofrer uma séria perda de motivação na situação de teste, tornar-se ridicularizado ou, por outro lado, me sinto insegura. Isso não só prejudica o programa de seleção, mas também pode prejudicar a imagem da empresa e danificar a imagem dos testes em qualquer ambiente industrial. Os autores arriscariam um palpite de que parte da má publicidade recebida pelos usuários de dispositivos de seleção na indústria pode ser devido ao usuário que negligencia a necessidade de seus testes terem validade de face.

Posse etária e experiência profissional e seu efeito na validade:

O exame do desempenho dos trabalhadores em qualquer trabalho em particular geralmente mostra uma relação definida entre variáveis ​​como idade e experiência e o critério. Quanto mais complexo o trabalho, mais esses tipos de relacionamentos provavelmente existirão. Para muitos empregos, uma quantidade substancial de experiência é necessária antes que os funcionários se tornem proficientes em seu trabalho. A correlação entre esses tipos de variáveis ​​e critérios de sucesso no trabalho apresenta um sério problema na seleção. É necessário ter cuidado, especialmente se alguém usar o procedimento de validade concorrente como um meio de estabelecer a utilidade de qualquer dispositivo de previsão.

Se, por exemplo, existe uma alta correlação entre o critério e o tempo no trabalho, como um alto coeficiente de validade concorrente deve ser interpretado? Isso significa que o preditor está realmente refletindo as diferenças de capacidade entre os trabalhadores, conforme medido pelo “” critério, ou as diferenças de trabalho são principalmente devidas à experiência no trabalho? Se for o último, então tudo o que o preditor vai conseguir é diferenciar os trabalhadores com longo mandato daqueles que foram contratados mais recentemente.

A validade observada geralmente é uma superestimativa da eficiência preditiva do instrumento de seleção. De fato, a menos que se possa demonstrar claramente que o preditor não está correlacionado com características como a idade e a posse, que podem ser determinantes do desempenho no trabalho, todas as validades concorrentes obtidas com esse preditor devem ser altamente suspeitas.

Para ilustrar o ponto, considere a situação em que uma pessoa tem um critério, um preditor e uma variável relacionada a critério, como a estabilidade no emprego, que é amplamente responsável pelas diferenças na qualificação mostrada no critério pelos funcionários, como segue:

C + D = validade concorrente observada do preditor

D = Valor da variância do critério "livre de ocupações" contabilizado pelo preditor

C = Valor da variância do critério "determinado pela posse" contabilizado pelo preditor

A validade observada é geralmente, mas nem sempre, uma superestimativa da verdadeira validade, uma vez que:

A validade concorrente verdadeira ou imparcial, que representa a correlação entre o preditor e o critério que é completamente livre da influência da posse no trabalho, é dada pela equação—

A correlação (r true ), como mostrado no diagrama, na verdade representa, de maneira pictórica, o que é conhecido na estatística como um coeficiente de correlação “parcial”. Ele relata a correlação entre o preditor e o critério depois que os efeitos da posse no trabalho foram removidos dos escores preditores e dos escores de critério dos funcionários presentes. É importante que os efeitos de posse sejam removidos do critério e do preditor na situação concorrente.

Se esses efeitos não forem estatisticamente removidos do critério, acabaremos predizendo a influência da posse ao invés do desempenho no trabalho, com pouca ou nenhuma relevância para a validade preditiva. Se os efeitos da posse no trabalho não forem removidos do preditor, também podemos obter um coeficiente de validade que não pode ser considerado relevante para qualquer situação de validade verdadeiramente preditiva.

Certamente, os problemas de variáveis ​​correlacionadas de critério e preditor no cenário concorrente ilustram algumas das graves restrições envolvidas nesse método de validação. Pode-se afirmar com segurança que não há absolutamente nenhum substituto igual para o tipo de validade conhecido como validade preditiva ao construir e usar um instrumento de seleção.

Confiabilidade:

Em termos gerais, o conceito de validade lida com o que está sendo medido por um dispositivo de medição. Uma segunda e talvez igualmente importante característica dos preditores é a necessidade de conhecer a consistência da medida, independentemente do que está sendo medido. Dito de outra forma, precisamos estabelecer o grau de estabilidade de qualquer dispositivo de medição; a medição obtida de um preditor deve ser consistente. O grau em que qualquer instrumento de medição é consistente ou estável e produziria as mesmas pontuações repetidamente, se necessário, é definido como a confiabilidade desse instrumento de teste.

Como a validade, a confiabilidade é geralmente medida por meio do coeficiente de correlação. Como a medição confiável implica estabilidade de uma situação para outra, um instrumento confiável deve produzir as mesmas pontuações ou, pelo menos, classificações semelhantes de indivíduos em duas situações. Computando a correlação, obtemos uma expressão matemática da extensão em que isso ocorre.

Assim, um instrumento de medição confiável é aquele em que os indivíduos recebem a mesma pontuação (ou quase o mesmo) em medições repetidas. Quando o coeficiente de correlação é usado para medir a similaridade de pontuações para um grupo de pessoas em duas aplicações da mesma medida, isso é chamado de coeficiente de confiabilidade.

O processo real pelo qual se pode avaliar a confiabilidade de uma medida depende de vários fatores. Existem três tipos principais de confiabilidade, cada qual com suas vantagens e desvantagens separadas. Eles são suficientemente diferentes em sua lógica subjacente para justificar o exame de cada um com algum detalhe.

As três técnicas para obter a confiabilidade do instrumento são:

(1) Medidas repetidas nas mesmas pessoas com o mesmo teste ou instrumento,

(2) Medição nas mesmas pessoas com duas formas “equivalentes” do instrumento de medição, e

(3) Separação do dispositivo de medição em duas ou mais partes equivalentes e inter-correlacionando essas pontuações de “parte”.

Antes de considerar cada método, devemos examinar de maneira mais específica certos tipos de confiabilidade ou estabilidade de medição que poderíamos imaginar em diferentes circunstâncias.

Vamos supor que sempre que usamos um instrumento de medição para obter a pontuação de uma pessoa, a pontuação recebida é uma função de vários fatores, como segue:

X i = X verdadeiro + erro X

Onde

X i = Pontuação observada para pessoa i em teste

X verdadeiro = pontuação verdadeira para a pessoa em teste - essa é a quantidade real de qualidade medida pelo teste que a pessoa realmente possui.

X error = Error score para a pessoa i on test - esta é a quantia em que a pessoa é pontuada foi afetada pela operação de vários fatores de oportunidade ou tempo.

Se todos os instrumentos de medição e métodos de medição estivessem "livres de erros", obteríamos sempre as pontuações verdadeiras das pessoas, e a correlação entre duas medições no mesmo grupo de pessoas seria sempre + 1, 00 ou perfeita confiabilidade (supondo que nenhuma mudança as pontuações verdadeiras são esperadas). Infelizmente, essa medição livre de erros nunca está completamente disponível, desde uma grande variedade de coisas? Contribuir para o desempenho em qualquer momento específico no tempo.

Assim, x i pode ser maior ou menor que X verdadeiro para qualquer medida particular, e as correlações calculadas entre as medições são sempre menores que a unidade. Em termos de nossa representação pictórica da variação de desempenho entre pessoas em qualquer dispositivo de medição, seja teste ou entrevista, preditor ou critério, essa variância total pode ser dividida em dois componentes principais de variância real e variância de erro.

Onde variância total = variabilidade total dos resultados dos testes observados

Verdadeira variância = variabilidade de pessoas em termos de suas reais quantidades da característica sendo medida

Variância do erro = variabilidade das pontuações de erro das pessoas

A confiabilidade pode ser definida como uma razão entre a variância real e a variância total ou

Quanto maior a proporção da variação do escore verdadeiro, ou inversamente, quanto menor a quantidade de variância do erro presente no processo de medição, maior a confiabilidade da medição. O fator crítico que diferencia os três principais procedimentos para determinar a confiabilidade está no processo de decidir o que deve ser considerado a variação do erro e o que deve ser considerado variação verdadeira ou sistemática. Não há confiabilidade única para nenhum teste. Em vez disso, a confiabilidade dependerá das necessidades do momento.

Por exemplo, o psicólogo pode perguntar qualquer um dos seguintes tipos de perguntas sobre o processo de medição:

1. Com que precisão posso medir as pessoas com este teste a qualquer momento?

2. Com que precisão as medidas tomadas com este teste serão hoje representativas dessas mesmas pessoas em algum momento no futuro?

3. Com que precisão as pontuações neste teste representam a verdadeira habilidade dessas pessoas na característica que está sendo amostrada pelo teste?

Todos os três são questões legítimas de confiabilidade. No entanto, cada um coloca uma ênfase um pouco diferente em várias fontes de variação de erro nos resultados dos testes.

Estas fontes de variação de erro foram expressas por Thorndike e Hagen (1963) como:

1. Variação devido ao teste em um determinado momento no tempo

2. Variação no indivíduo do período de tempo para o período de tempo

3. Variação devido à amostra particular de tarefas escolhidas para representar a qualidade sendo medida

Vamos agora examinar cada método de confiabilidade, tendo em mente as fontes de erro, para que possamos determinar como cada método trata cada fonte.

Método de teste-reteste:

Um método óbvio para avaliar a estabilidade consiste em medir o desempenho do mesmo indivíduo duas vezes com o mesmo instrumento de medição. Este tipo de confiabilidade inclui as fontes de variação 1 e 2 como erro. Assim, a confiabilidade resultante é aquela que mede a estabilidade do escore verdadeiro ao longo do tempo. Existem numerosos problemas com o método de teste-reteste que são criados tendo os indivíduos medidos no mesmo teste duas vezes.

Por exemplo, a menos que o período de tempo seja razoavelmente longo entre as administrações, a variável de um fator de memória provavelmente influenciará as respostas das pessoas na segunda administração. Outra dificuldade é que a variação devido à amostra particular de tarefas ou itens escolhidos é tratada como variância sistemática que aumenta a confiabilidade.

Assim, qualquer pessoa que por acaso conhecesse mais respostas simplesmente porque alguns dos itens de teste tocaram, digamos, em um hobby dessa pessoa, também seria favorecida na segunda administração, porque os mesmos itens, em vez de uma nova amostra, são usava. Ele deve, portanto, pontuar alto em ambos os testes, devido à fonte de variação 3 ser tratada como verdadeira variância.

Método de testes paralelos:

Uma maneira de evitar ter a fonte de erro 3 como variância real é usar duas formas completamente comparáveis ​​ou “equivalentes” do instrumento de medição. Essas duas formas devem ser tão idênticas quanto possível, exceto que itens específicos ou perguntas em cada formulário não seriam os mesmos, embora cada um representasse uma amostra semelhante de itens escolhidos. Uma forma pode ser administrada imediatamente após a outra ou podem ser administradas em intervalos espaçados, dependendo se se trata de ter a fonte de variação 2 incluída como variância de erro.

Esse tipo de confiabilidade, quando usado o teste espaçado, representa a avaliação mais rigorosa da estabilidade que pode ser feita. No entanto, muitas vezes é impossível, ou na melhor das hipóteses, extremamente difícil construir formas alternativas de um instrumento de medição.

Como se constroem duas formas alternativas, mas equivalentes, de uma medida de desempenho no trabalho ou duas formas alternativas de uma forma de história pessoal? Em muitos casos, não sem considerável dificuldade. Essa falta de um dispositivo de medição verdadeiramente comparável fez com que os psicólogos procurassem métodos adicionais para avaliar a confiabilidade, além dos procedimentos de teste-reteste e de forma paralela.

Método de Teste Subdividido:

O terceiro maior método de confiabilidade é frequentemente referido como uma medida da consistência interna de um dispositivo de medição. Ele fornece uma indicação da medida em que as pessoas pontuam as mesmas, em relação umas às outras, em diferentes subdivisões do instrumento geral. Este método é provavelmente o método mais amplamente utilizado para medir a confiabilidade, uma vez que requer que apenas uma forma seja construída e ainda não exija administrações repetidas dessa forma.

Sua mecânica é muito simples. Em sua forma mais básica, o método de consistência interna é o procedimento de formas paralelas, no qual as formas paralelas são duas metades do mesmo teste. Esses meios-testes são selecionados para serem o mais equivalentes possível, embora muitas vezes o teste seja simplesmente dividido em duas metades, colocando todos os itens ímpares em uma metade e todos os itens pares na outra metade. Isso é chamado de versão ímpar da técnica da metade dividida.

É importante lembrar que a separação do teste total em metades equivalentes ocorre apenas ao pontuar esse teste - não ao administrá-lo. Como os dois subtestes têm, cada um, metade do tamanho do original, cada um representa uma amostra de comportamento apenas metade do tamanho do teste total. Assim, a correlação (confiabilidade) entre as metades provavelmente é uma subestimativa da confiabilidade dos escores baseados no teste completo.

Para obter uma estimativa de qual é a confiabilidade do teste completo, a fórmula de Profecia de Spearman-Brown pode ser aplicada da seguinte maneira:

r tt = 2r ½½ / 1 + r ½½

onde r tt = confiabilidade do teste total (estimado)

r 1/2 1/2 = correlação observada entre as duas metades do teste.

Por exemplo, se a correlação observada entre as metades fosse de 0, 40, a Fórmula de Profecia estimaria a confiabilidade do teste completo como:

rtt = 2 (0, 40) / 1 + 0, 40 = 0, 80 / 1, 40 = 0, 57

O método da metade dividida, portanto, fornece um método para estimar a confiabilidade com um único teste e uma única administração. Existem, no entanto, algumas desvantagens em seu uso. Quando se tem um teste que envolve principalmente fatores de velocidade (como certos testes clericais simples), o procedimento de meia-metade dá um resultado falsamente alto.

Como os testes de velocidade geralmente envolvem itens fáceis, é apenas uma questão de saber se eles foram respondidos para determinar se estavam corretos ou incorretos. Assim, dividir o teste em uma base ímpar-par, por exemplo, resultaria em escores virtualmente idênticos para as duas metades - portanto, uma correlação positiva alta.

Método de Kuder-Richardson:

Outra versão do método split-half é freqüentemente usada para medir a confiabilidade. Relacionada a uma técnica estatística conhecida como análise de variância, sua forma mais frequente é conhecida como procedimento de Kuder-Richardson. O método de Kuder-Richardson (KR) também é uma confiabilidade de consistência interna que essencialmente trata cada item de teste como um subteste, de modo que em vez de ter duas metades existem n subtestes, onde n é o número total de itens no instrumento de medição. A técnica KR é equivalente a computar todas as correlações possíveis entre pares de itens de testes (haverá n [n-l] / 2 desses pares), tomando a média destes itens, e ajustando o resultado usando a fórmula de profecia de Spearman-Brown.

Onde

r tt = confiabilidade estimada do teste total

r ii = correlação média entre itens

K = número de pares de itens

Como o procedimento das formas divididas, o procedimento de Kuder-Richardson ignora a fonte de variação 2 e não é apropriado para testes de velocidade.

Uma comparação resumida é dada na Tabela 2.4. Esta tabela mostra os vários métodos de confiabilidade e os compara em termos dos tipos de variação que eles incluem como variação de erro.