5 Estudos Teóricos sobre Testes Industriais

Alguns dos muitos estudos que foram conduzidos serão relatados completamente para ilustrar a disciplina sistemática exigida no uso de testes para fins industriais. Nenhum desses estudos deve ser considerado como ilustrativo de uma situação de teste ideal; cada um foi conduzido dentro das limitações impostas pela situação industrial específica, mas cada um tentou, na medida do possível, se conformar aos rígidos padrões de pesquisa.

1. Estudo Blum:

Um estudo sobre o uso de testes de destreza para selecionar trabalhadores da fábrica de relógios foi conduzido por Blum (1940). O primeiro passo da pesquisa exigiu uma análise do trabalho dos diferentes tipos de trabalho realizados na fábrica. Isso trouxe à luz os seguintes importantes requisitos de trabalho: movimentos finos dos dedos, a manipulação de pinças e a capacidade de continuar realizando tarefas delicadas e por vezes complexas durante longos períodos de tempo sem qualquer aumento de tensão ou desajuste.

Uma revisão do material de teste disponível indicou que, em vista da exigência da fábrica de um breve período de teste, o teste de destreza e pinça de destilação Johnson O'Connor provavelmente seria o melhor. Antes de embarcar no programa de testes, no entanto, os vários critérios de sucesso disponíveis foram pesquisados e três medidas foram obtidas: duração do emprego, índice salarial e classificações dos capatazes.

A duração do critério de emprego foi dividida em quatro categorias. O primeiro foi o grupo “menos de uma semana”. A maioria dos empregados nesta categoria saiu ou foi demitida dentro de uma semana por causa da pouca capacidade para o trabalho. Do ponto de vista desse critério, esse grupo era o mais pobre.

A segunda categoria foi o grupo “uma semana a quatro meses”. A gerência acreditava que o trabalho poderia ser aprendido adequadamente dentro de quatro meses. Aqueles que não puderam aprendê-lo neste tempo foram demitidos ou renunciados. Do ponto de vista da administração, tal funcionário era ineficiente; de acordo com o empregado, ele não poderia ganhar o suficiente. Em qualquer caso, a relação de emprego foi cortada.

A terceira categoria foi o grupo “quatro meses a um ano”. Esses funcionários foram considerados pela administração como moderadamente bem-sucedidos. A quarta e última categoria foi o grupo “um ano ou mais”. Esses funcionários foram considerados mais bem-sucedidos; os custos de treinamento para eles foram menores e o grupo teve a maior produção.

O segundo critério foi o rácio salarial. Como todos os funcionários trabalhavam em base individual, os ganhos eram um reflexo direto da produção. O valor utilizado foi a média dos ganhos semanais durante um período de três meses. Esse tempo foi considerado longo o suficiente para reduzir os picos menores ou as folgas nos negócios e as dificuldades menores na produção. O critério real foi expresso na forma de um índice, com ganhos em X dólar por semana iguais a uma base de 100.

O terceiro critério foi a classificação dos empregados pelos capatazes. Cada capataz foi solicitado a fornecer uma classificação geral com base em sua opinião sobre a utilidade e eficiência do funcionário. De acordo com essa classificação, cada funcionário foi classificado como excelente, bom, médio, ruim ou insatisfatório.

Cinco medidas de desempenho do teste foram estabelecidas. Dois foram baseados na velocidade (tempo total necessário para cada teste). Outra medida foi a classificação do desempenho qualitativo do sujeito em cada teste. Como isso agrega significado a qualquer pontuação objetiva, como tempo total ou itens concluídos, ele será descrito em detalhes, na esperança de encorajar o uso dessa técnica de medição.

A classificação qualitativa é a estimativa geral do examinador do desempenho do teste. Inclui o quão bem o assunto segue as instruções, a tensão durante o teste e o método usado para completar o desempenho. Utilizou-se uma escala de classificação de “bom”, “médio” e “ruim” para as seguintes qualidades: precisão de seleção, apreensão de pinos, posicionamento de pinos, colocação de pinos, tremor nas mãos, condições de bordo, ritmo, posição e movimentos de braço e postura corporal.

O fato de haver uma distribuição apreciável nas classificações qualitativas de desempenho é ilustrado pelos achados deste estudo em particular, conforme apresentado na Tabela 4.4.

Esta medida do desempenho do teste resulta em uma avaliação geral pelo examinador da maneira do sujeito durante o teste. A maioria dos testes de desempenho e muitos testes de papel e lápis prontamente se prestam a essa classificação. Essas classificações são úteis ao considerar uma pessoa para contratação. A quinta medida foi uma comparação entre o tempo gasto para realizar a segunda metade do teste de destreza do dedo e o tempo gasto no primeiro tempo. Supunha-se que a diferença entre o total de vezes em cada semestre poderia medir a capacidade de melhorar a taxa de velocidade e, portanto, poderia ser útil como um indicador da taxa de melhoria no trabalho.

Neste estudo, foram utilizados 258 sujeitos. Deste número, 137 foram testados, 84 foram encaminhados sem testes e constituíram um grupo controle, e 37 foram utilizados no estudo piloto que precedeu o estudo principal. Este último grupo também foi considerado um grupo de acompanhamento. Todos os testes foram realizados sob condições ambientais favoráveis, ou seja, em uma sala de testes; e todos os participantes sabiam que estavam fazendo um teste para serem usados por uma fábrica de relógios específica para fins de contratação.

Os dados foram analisados intensivamente de três maneiras. Primeiro, as características dos vários critérios, bem como suas inter-relações, foram estudadas. Em segundo lugar, as características dos vários indicadores e suas inter-relações foram estudadas. Terceiro, a relação entre os critérios de sucesso e os resultados dos testes foi analisada; esse foi o passo crucial.

As correlações entre os critérios indicaram que cada um media um aspecto relativamente diferente do sucesso no trabalho. Por exemplo, a correlação entre os ratings do capataz e a relação salarial foi de +0, 13. A correlação entre o tempo de serviço e os ratings de chefes foi de + 0, 25. A correlação entre a razão salarial e o tempo de emprego foi maior, + 0, 44.

Quatro das cinco medidas de desempenho do teste - as pontuações de tempo e o desempenho qualitativo em ambos os testes - foram estabelecidas como confiáveis; mas uma medida, melhoria, não foi estabelecida como confiável. A comparação de cada inter-correlação de cada uma das cinco medidas mostrou que todas eram baixas. Oito eram inferiores a + 0, 20 e um era apenas ligeiramente superior.

A única alta inter-correlação foi entre a classificação de qualidade e o tempo total do teste de destreza na pinça; isso foi +0, 71. No entanto, as classificações de qualidade geralmente não podem ser consideradas intimamente relacionadas à velocidade, porque a correlação entre a classificação de qualidade no teste de destreza do dedo e o tempo total no teste foi de apenas + 0, 13. As baixas correlações entre as medidas de teste e as baixas correlações entre os critérios de trabalho são, na verdade, mais favoráveis do que as altas correlações. Quando tais correlações são altas, seu valor preditivo é limitado, pois todos estarão prevendo a mesma coisa. Da mesma forma, se todos os critérios do trabalho são altamente inter-correlacionados, todos eles estarão medindo a mesma coisa, em vez de diferentes aspectos do sucesso.

A pontuação de tempo total no teste de destreza do dedo e da pinça geralmente teve o maior valor de predição dos critérios de sucesso do trabalho. As avaliações de qualidade no desempenho do teste foram valiosas para a previsão em alguns casos, mas a melhora na segunda metade do teste de destreza digital não foi preditiva para nenhum dos critérios.

Algumas das descobertas específicas são as seguintes (Blum, 1940):

1. As classificações de qualidade durante o teste de destreza dos dedos não foram indicativas da duração do trabalho. Mas aqueles com "média ou abaixo" classificações no teste de destreza pinça foram encontrados nas categorias mais curtas de emprego. Sessenta e um por cento do grupo que recebeu esses ratings não estavam mais empregados depois de quatro meses, e apenas 27% daqueles que receberam classificações “acima da média” saíram ou foram demitidos nesse período. A diferença era estatisticamente significante. Quando as classificações de qualidade para ambos os testes foram combinadas e distribuídas de acordo com a duração do emprego, não houve diferenças estatisticamente significativas entre aquelas classificadas como altas e as classificadas como baixas nos desempenhos dos testes.

2. Correlações baixas foram relatadas entre as classificações de qualidade no teste de destreza e nas proporções salariais. As correlações foram + 0, 17 ± 0, 11 para o teste de destreza do dedo e proporções salariais, +0, 15 ± 0, 11 para o teste de destreza na pinça e proporções salariais, e + 0, 05 ± 0, 12 para as taxas combinadas de qualidade e proporções salariais.

3. As classificações de qualidade no teste do dedo estavam relacionadas com as classificações de desempenho de postos de trabalho do responsável, com um coeficiente de contingência de + 0, 50. O C para classificações de qualidade de pinças e classificações de chefes foi de + 0, 24. Um coeficiente de contingência de + 0, 30 foi obtido quando os ratings do capataz estavam correlacionados com os ratings de qualidade combinados em ambos os testes. (Máximo C = + 0, 86)

4. Melhoria na segunda metade do teste de destreza do dedo não foi preditivo da duração do emprego.

5. Melhoria correlacionada com a relação salarial - 0, 06 ± 0, 13. Essa é a única comparação de toda a investigação que mostrou uma relação negativa, porém não confiável, entre os indicadores de teste e os critérios de proficiência.

6. Dos trabalhadores que receberam classificações “A” pelos capatazes, 100% apresentaram melhora na segunda metade do teste de destreza do dedo. Dos trabalhadores que receberam classificações “D”, apenas 50% melhoraram. Oitenta e quatro por cento daqueles que receberam as classificações “B” melhoraram e 61% daqueles que receberam classificações “C” melhoraram. A diferença em porcentagem entre aqueles que receberam classificações “A” e “D” não é estatisticamente confiável, possivelmente devido ao número limitado de indivíduos.

7. As pontuações de tempo nos testes de destreza dos dedos e da pinça foram mais rápidas em média à medida que o tempo de emprego aumentou. A diferença para o tempo médio no teste de destreza entre os grupos “menos de 7 dias” e “mais de 1 ano” foi estatisticamente significativa. Na mesma comparação no teste de destreza na pinça, a diferença D / σ foi de 2, 5. A combinação dos escores de tempo de destreza de dedos e pinças não aumentou a confiabilidade estatística da diferença, e a diferença D / σ entre os grupos “menos de 7 dias” e “mais de 1 ano” foi de 2, 3.

8. A correlação entre o escore do tempo de destreza do dedo e a razão salarial foi de + 0, 26 ± 0, 10; entre o escore do tempo de destreza na pinça e a relação salarial foi de +0, 32 ± 0, 10; e entre os tempos de teste combinados e a razão salarial foi + 0, 39 ± 0, 09.

9.O grupo “acima da média” de acordo com as avaliações dos capatazes foi 5 segundos mais rápido no teste de destreza do dedo e 9 segundos mais rápido no teste de destreza na pinça do que no grupo “média e abaixo”. A diferença para as pontuações dos testes combinados entre os dois grupos foi de 12 segundos em favor daqueles que receberam avaliações acima da média. Essas diferenças não foram estatisticamente confiáveis.

10. O valor prático dos escores críticos (tempo de 5 minutos, 30 segundos ou melhor no teste de destreza na pinça e 7 minutos, 30 segundos no teste de destreza do dedo) que foram sugeridos no estudo piloto (Candee e Blum, 1937 ) está claramente indicado neste inquérito. Essas pontuações discriminam os funcionários da fábrica de relógios com um grau considerável de exatidão de acordo com os critérios de proficiência.

11. Uma comparação de acordo com a duração do emprego mostrou que 7% do grupo que “passou nos dois testes” saiu dentro de uma semana, enquanto 23% do grupo “sem teste” e 24% do grupo de trabalhadores que “faleceram ou ambos os testes ”estavam desempregados após uma semana. As diferenças nas percentagens entre o primeiro e os dois últimos foram estatisticamente significativas com proporções críticas de 3, 2 e 3, 4. A maior possibilidade de emprego prolongado foi encontrada no grupo que “passou nos dois testes”. Desse grupo, 72% permaneceram quatro meses ou mais. Esta percentagem foi significativamente diferente da do grupo “sem teste” (diferença D / σ de 3, 1) e da do grupo que “falhou em um ou nos dois testes” (diferença D / σ de 4+).

12. Uma comparação de acordo com as proporções salariais indicou que o grupo que “passou nos dois testes” ganhou mais dinheiro. Os ganhos deste grupo foram estatisticamente diferentes dos ganhos do grupo que “falhou um ou ambos os testes”. O grupo “sem teste” foi superior em relação salarial ao grupo que “falhou em um ou em ambos os testes”. passou nos dois testes ”não foi significativamente superior ao grupo“ sem teste ”.

13. Uma comparação de acordo com as avaliações dos capatazes mostrou apenas uma tendência. O grupo que “passou nos dois testes” foi classificado pelos capatazes como “melhor que a média” em 34% dos casos. O grupo que “falhou em um ou nos dois testes” foi classificado como “acima da média” em 25% dos casos. Essa diferença não foi estatisticamente confiável. Nenhuma diferenciação entre o grupo “no test” e o grupo “passed both tests” é possível de acordo com as classificações dos capatazes.

14. Um acompanhamento dos sujeitos no estudo piloto corrobora os resultados da presente investigação que pontuações temporais nos testes são indicadores de proficiência. Dois anos antes do “follow-up”, 20 trabalhadores foram selecionados por chefes como superiores e 17 trabalhadores medíocres na fábrica de relógios. Esses grupos foram originalmente significativamente diferentes em seus escores nos testes tanto no teste do dedo quanto no teste da pinça.

Diferenças significativas foram posteriormente obtidas entre esses grupos a priori em termos de:

a) Descarga percentual e

(b) Relação salarial.

Antes de apresentar uma revisão de outros estudos, é desejável fazer um balanço e considerar as implicações dessa pesquisa. O estudo acima não foi um estudo “ideal”. Por causa das condições de fábrica, era impossível usar controles científicos desejáveis. Por exemplo, grupos de tamanhos iguais nas várias categorias poderiam ter sido organizados em um laboratório mais prontamente do que na fábrica.

As demandas da pesquisa muitas vezes devem estar em conformidade com as condições prevalentes, mas apenas no que se refere ao planejamento e à metodologia. A declaração não vale para conclusões de pesquisas, pois elas devem ser relatadas independentemente das condições da planta e devem estar de acordo estritamente com os dados obtidos.

O psicólogo industrial justifica-se em conduzir estudos de laboratório apenas como uma preliminar à pesquisa na qual a situação industrial necessariamente se torna o “laboratório”. As conclusões laboratoriais não podem ser generalizadas e aplicadas à cena industrial sem checá-las de todas as formas possíveis.

Quer o problema envolva testes para seleção ou qualquer outra finalidade, o psicólogo industrial tem freqüentemente de modificar procedimentos e demonstrar uma flexibilidade de maneira que não seja ortodoxa do ponto de vista científico. Se, por exemplo, ele não abandonar os controles rígidos em alguns casos, ele pode ser forçado a desistir de todo o problema. Para o psicólogo industrial, o menor dos dois males é conduzir pesquisas na indústria sob as melhores condições que a indústria pode oferecer.

Uma ilustração adicional desse ponto diz respeito à conveniência de se ter um grande número de sujeitos para um experimento. No entanto, uma organização industrial muitas vezes não está em condições de contratar em larga escala. Neste caso, é melhor sacrificar o número de sujeitos do que o estudo inteiro.

Este princípio não implica que uma forma de pesquisa eufemisticamente chamada de “pesquisa dirigida” deva ser tolerada. Os relatórios de pesquisa devem concordar com as conclusões baseadas nos fatos obtidos. Um psicólogo industrial que não relata descobertas negativas porque isso criaria desrespeito e poderia levar a sua demissão é tão errado quanto o executivo de negócios que quer que a pesquisa respalde suas ideias de vendas e, portanto, “direciona” a pesquisa e suas descobertas.

Os pontos que acabamos de discutir são importantes e devem servir como um meio de avaliar não apenas a pesquisa de teste, mas também outros tipos de pesquisa no campo. Para este fim, alguns estudos adicionais sobre seleção de testes serão descritos.

2. Estudo Ghiselli:

Em seu estudo de testes para seleção de inspetores-embaladores, Ghiselli (1942) usou uma bateria de vários testes em um grupo de 26 mulheres empregadas como inspetoras em uma preocupação farmacêutica. Havia cinco funções principais neste trabalho: encher recipientes, inserir rolhas, examinar o conteúdo a olho nu, rotular os recipientes e empacotar.

O trabalho, embora rotineiro, é extremamente importante, pois a presença de material estranho ou rotulagem incorreta pode resultar em doença grave ou até mesmo morte para qualquer um que tenha vendido o produto errado. O critério de eficiência no trabalho foi a combinação de avaliações pelo forelady e pelo supervisor.

A análise do trabalho indicava que as habilidades importantes que deveriam ser medidas na bateria preliminar de testes eram:

1. Destreza dos dedos, mãos e arras

2. coordenação olho-mão

3. Estimativa do tamanho e forma dos objetos

4. Capacidade de observar a diferença nos detalhes

Para este fim, uma bateria de seis testes foi administrada aos funcionários. Descobriu-se que o desempenho médio dos inspetores-embaladores era muito superior ao das amostras de uma população adulta nos testes Minnesota Placing and Turning e no teste Paper Form Board. Embora essa informação seja útil, a seleção é justificada apenas quando existe uma relação entre o desempenho do teste e o desempenho no trabalho.

Tal relacionamento é chamado de coeficiente de validade. Verificou-se que o teste da placa de papel de papel de Minnesota estava mais correlacionado com o critério do que qualquer outro teste na bateria; este teste está correlacionado com a extensão de +0, 57. O teste de Pegboard correlacionou-se com o critério na medida de -0, 50 e o teste de Turning na extensão de -0, 40. Os demais testes tiveram menores correlações com o critério.

Este estudo, como o anteriormente relatado, apresenta deficiências. O critério de proficiência era uma classificação dos superiores; mas, como aparentemente era o único critério disponível, ele deveria ser usado ou nenhum teste poderia ter sido avaliado. Demasiado frequentemente na indústria, essas classificações constituem o único critério disponível.

O número de sujeitos, 26, é pequeno; mas quando lembramos que isso constitui um grande número de pessoas realizando a mesma tarefa, ela pode ser considerada uma amostra satisfatória. O estudo não apresenta evidências sobre o sucesso de suas recomendações adotadas para uso futuro; tais informações, assim como as pontuações críticas recomendadas, são frequentemente úteis na avaliação do uso de testes.

3. Estudo do Feno:

Edwin N. Hay (1943), usando uma bateria de testes, conseguiu prever 91% dos melhores operadores de máquinas de contabilidade e 72% dos operadores menos satisfatórios. Antes de estabelecer esses resultados, todos os procedimentos envolvidos na pesquisa e desenvolvimento de testes foram seguidos. Estes incluíram o estabelecimento de análises de trabalho com critérios de trabalho adequados, seleção preliminar da bateria de testes e investigações estatísticas. Somente após muitos anos foi possível recomendar a bateria de teste como bem sucedida para fins de previsão.

As análises de trabalho revelaram que o requisito pendente para a contabilidade de máquinas é a habilidade bimanual. Uma análise detalhada do tempo e do trabalho de movimento mostrou que havia 5 operações distintas que poderiam ser divididas em 18 movimentos. O tempo médio para as cinco operações - selecionando cartão de razão, inserindo cartão de contabilidade, pegando saldo anterior, valor pós-verificação e devolvendo o cartão - foi de 6, 8 segundos.

Na maioria dessas operações, os olhos e as duas mãos foram usados. Velocidade e precisão foram necessárias para o bom desempenho deste trabalho. A diferença entre a capacidade do melhor e a habilidade dos operadores mais pobres era maior que 2 para 1; ou seja, os melhores operadores fizeram mais que o dobro do trabalho dos operadores mais pobres.

Os testes utilizados incluíram o teste Otis Intelligence, o Minnesota Clerical Test, o Ziegler Rate of Manipulation Test, e outros testes de habilidade clerical, como arquivamento e descoberta de nomes. Ao todo, 22 testes foram administrados. Embora seis deles fossem da variedade mão, braço e destreza de dedo, nenhum desses seis mostrou qualquer relação considerável com o critério “velocidade de postagem.

No entanto, o teste Otis do Minnesota Clerical Test-Numbers e a série Alpha Number correlacionaram +0.50 ou mais com este critério. A técnica de correlação múltipla indicou que o teste de Otis e o Minnesota Clerical tiveram uma correlação de + 0-65 com o critério. A correlação múltipla mais alta entre a bateria de teste e o critério foi +0, 71 e incluiu o Otis, o Minnesota Numbers, a série Alpha Number e o Fryer Name Finding.

O estudo de Hay é valioso de muitos pontos de vista. As evidências apresentadas no follow-up indicam que, neste caso, os testes funcionaram. A Tabela 4.5 mostra a melhora constante na produção média de guarda-livros desde que a seleção baseada em testes foi introduzida.

4. Estudo Sartain:

AQ Sartain (1945) administrou uma bateria de sete testes a um grupo de 47 funcionários no departamento de inspeção de uma fábrica de aviões. O critério foi definido pelas classificações dos instrutores em um curso de atualização dado aos inspetores. Os instrutores também estavam familiarizados com o desempenho desses funcionários, e suas classificações, sem dúvida, refletiam esse conhecimento.

A bateria de teste incluiu o MacQuarrie, o Otis, o Teste Cardall de Julgamento Prático, o Minnesota Paper Form Board, o Teste de Treinamento de Classificação Industrial, o Teste de Bennett de Compreensão Mecânica e o Teste O'Rourke de Aptidão Mecânica. A correlação múltipla dessa bateria inteira com o critério foi de +0, 787.

No entanto, três dos testes - o MacQuarrie, o Cardall e o Minnesota Paper Form Board - produziram resultados igualmente bons, sendo a correlação múltipla de +0.780. Como a diferença entre essas duas correlações é insignificante, seria aconselhável usar esses três testes, em vez de todos os sete.

5. Estudo de Shuman:

John T. Shuman (1945) administrou uma bateria de testes a um grupo de funcionários e candidatos a vários empregos na Divisão Lycoming da Aviation Corporation. Os testes incluíram o Otis, o Minnesota Paper Form Board, o Teste de Bennett de Compreensão Mecânica, o Teste de Aptidão Mecânica de O'Rourke e o Teste Vocacional de Minnesota para Trabalhadores Clericais.

Os funcionários testados incluíam inspetores, testadores de motores, operadores de máquinas, encarregados de obra e encarregados do trabalho, entre outros. Shuman relata que a melhoria média na seleção de excelentes trabalhadores foi de 18% com o teste de Bennett, 15% com a Otis e 13% com a Minnesota Paper Form Board. As pontuações críticas que possibilitaram essa melhoria significaram a eliminação de uma em cada quatro pessoas testadas.

O teste de Bennett quando comparado com o critério (ratings) mostrou-se altamente correlacionado com o trabalho de job setter, sendo a correlação +0, 73. O Conselho de Formulários de Papel de Minnesota correlacionou +0, 59 com este mesmo trabalho. O teste Otis teve a maior correlação com o trabalho de testador de motores, +0, 57. Shuman descobriu que os testes em sua bateria se correlacionavam melhor com trabalhos que exigem habilidades como trabalhar em peças de precisão de máquinas ou testar motores de aeronaves, em vez de habilidades puramente manuais.

Ele acreditava que os testes podem ser mais úteis na atribuição de funcionários a níveis de categoria de trabalho do que em tarefas específicas. Um achado incidental, mas que merece menção, é o fato de que um teste teve que ser descartado por causa da insatisfação por parte dos sujeitos. Este foi o Teste de Mecânica de O'Rourke, que era muito longo e provou ser quase inútil para as candidatas, muitas das quais nem sequer tentaram fazê-lo. Isso enfatiza que uma bateria de teste deve ser recebida favoravelmente pelos solicitantes se algum valor for anexado aos resultados.

Resumo dos Exemplos:

Muitos outros estudos foram tão eficazes quanto os poucos descritos acima. No entanto, outros exemplos só poderiam atrapalhar o ponto. O uso de testes psicológicos na indústria exige pesquisa e desenvolvimento à luz do problema particular e da planta específica. O fato de que esse trabalho tenha sido feito antes não o torna desnecessário. Em vez disso, significa que as chances de sucesso são melhoradas a cada vez. O ponto essencial é que os resultados dos testes devem estar correlacionados com o sucesso no trabalho; eles nunca podem ser tomados como garantidos.