Medidas de dispersão

Depois de ler este artigo, você aprenderá sobre as várias medidas de dispersão usadas na pesquisa social.

Na pesquisa social, muitas vezes desejamos conhecer a extensão da homogeneidade e heterogeneidade entre os respondentes em relação a uma dada característica. Qualquer conjunto de dados sociais possui valores que podem caracterizar a heterogeneidade. O conjunto de dados sociais é tipicamente caracterizado pela heterogeneidade de valores.

De fato, a extensão em que são heterogêneos ou variam entre si é de importância básica nas estatísticas. Medidas de tendência central descrevem tipicamente uma característica importante de um conjunto de dados, mas elas não nos dizem nada sobre essa outra característica básica.

Consequentemente, precisamos de maneiras de medir a heterogeneidade - até que ponto os dados são dispersos. As medidas que fornecem essa descrição são chamadas de medidas de dispersão ou variabilidade. As três distribuições a seguir mostradas na Fig. 18.4 ilustrarão a importância de medir a dispersão de dados estatísticos.

Distribuição de valores médios para amostras de tamanhos diferentes :

Pode ser visto que a média aritmética de todas as três curvas na figura acima é a mesma, mas a distribuição dos valores como mostrado pela curva A mostra menos variabilidade (dispersão) do que a representada pela curva B, enquanto a curva B tem menos variabilidade. em comparação com o mostrado pela curva C.

Se considerarmos apenas a medida de tendência central das distribuições, perderemos uma diferença importante entre as três curvas. Para obter uma melhor compreensão do padrão dos dados, devemos também obter a medida de sua dispersão ou variabilidade, agora nos voltamos para considerar várias medidas de dispersão.

Alcance:

O intervalo é definido como a diferença entre os valores mais alto e mais baixo: Matematicamente,

R (intervalo) = M n - M L

onde M n e M l representam o maior e o menor valor. Assim, para o conjunto de dados: 10, 22, 20, 14 e 14 o intervalo seria a diferença entre 22 e 10, ou seja, 12. No caso de dados agrupados, tomamos o intervalo como a diferença entre os pontos médios do extremo. classes. Assim, se o ponto médio do intervalo mais baixo for 150 e o mais alto for 850, o intervalo será 700.

A única vantagem do alcance, cuja medida de dispersão é raramente usada, é que ela pode ser facilmente calculada e facilmente compreendida. Apesar dessa vantagem, geralmente não é uma medida muito útil de dispersão; sua principal desvantagem é que ela não nos diz nada sobre a dispersão de valores intermediários entre os dois extremos.

Faixa semi-intervalo-quartil ou desvio quartil:

Outra medida de dispersão é a faixa semi-interquartil, comumente conhecida como desvio quartil. Quartis são os pontos que dividem a matriz ou série de valores em quatro partes iguais, cada uma contendo 25% dos itens da distribuição. Os quartis são, então, os valores mais altos em cada uma dessas quatro partes. Inter-quartile range é a diferença entre os valores do primeiro e terceiro quartis.

Assim, onde e Q 1 e Q 3 representam primeiro e terceiro quartis, a faixa semi-inter-quartil ou desvio quartil é dado pela fórmula = Q 3 - Q 1/2

Cálculo do desvio de quartil:

O desvio quartil é uma medida absoluta de dispersão. Se o desvio quartil for usado para comparar as dispersões de séries, é necessário converter a medida absoluta em um coeficiente de desvio quartil.

Desvio Médio :

O intervalo e o desvio quartil sofrem de sérios inconvenientes, isto é, são calculados considerando apenas dois valores de uma série. Assim, essas duas medidas de dispersão não são baseadas em todas as observações da série. Como resultado, a composição da série é totalmente ignorada. Para evitar esse defeito, a dispersão pode ser calculada levando em consideração todas as observações da série em relação a um valor central.

O método de cálculo da dispersão é chamado de método de desvios médios (desvio médio). Como o nome sugere claramente, é a média aritmética dos desvios de vários itens de uma medida de tendência central.

Como bem sabemos, a soma dos desvios de um valor central seria sempre zero. Isso sugere que, para se obter um desvio médio (sobre a média ou qualquer um dos valores centrais), precisamos, de alguma forma ou de outra, livrar-nos de quaisquer sinais negativos. Isso é feito ignorando os sinais e assumindo o valor absoluto das diferenças.

Em nosso exemplo hipotético, a média do número 12, 14, 15, 16 e 18 é 15. Isso implica que a diferença de 15 de cada um desses números, ignorando os sinais o tempo todo e, em seguida, adicionando os resultados, obteremos o total desvio.

Dividindo-o por 5, obtemos:

= 1, 6 (onde | d significa a soma dos desvios absolutos).

Podemos, portanto, dizer que, em média, os escores diferem da média por 1, 6.

Cálculo do Desvio Médio na Data Ingrupada (Observações Individuais):

Cálculo do desvio médio em séries contínuas:

Coeficiente de Desvio Médio :

Para comparar o desvio médio das séries, calcula-se o coeficiente de desvio médio ou o desvio médio relativo. Isto é obtido dividindo o desvio médio pela medida de tendência central a partir da qual os desvios foram calculados. Portanto,

Coeficiente de Média. Desvio / X

Aplicando esta fórmula ao exemplo anterior, temos,

Coeficiente de Desvio Médio = 148/400 = 0, 37

Desvio Padrão :

A medida de dispersão mais útil e freqüentemente usada é o desvio padrão ou o desvio do quadrado da raiz média sobre a média. O desvio padrão é definido como a raiz quadrada da média aritmética do quadrado dos desvios em relação à média. Simbolicamente,

σ = √Σd 2 / N

onde σ (letra grega Sigma) representa o desvio padrão, Σd 2 para a soma do quadrado dos desvios medidos da média e N para o número de itens.

Cálculo do desvio padrão em séries de observações individuais:

Método de corte curto:

Cálculo do Desvio Padrão em Séries Discretas :

Em uma série discreta, os desvios de uma média assumida são primeiro computados e multiplicados pelas respectivas freqüências de itens. Os desvios são quadrados e multiplicados pelas respectivas frequências dos itens. Estes produtos são totalizados e divididos pelo total das frequências. O desvio padrão é calculado pela seguinte fórmula:

A ilustração a seguir explica a fórmula:

Cálculo do Desvio Padrão em uma Série Contínua :

Em uma série contínua, os intervalos de classe são representados por seus pontos médios. No entanto, geralmente os intervalos de classe são de tamanho igual e, portanto, os desvios da média assumida são expressos em unidades de intervalo de classe. Alternativamente, os desvios da etapa são obtidos dividindo-se os desvios pela magnitude do intervalo da classe.

Assim, a fórmula para calcular o desvio padrão é escrita como abaixo:

onde eu defendo o fator comum ou a magnitude do intervalo de classe.

O exemplo a seguir ilustraria essa fórmula:

Coeficiente de variação:

O desvio padrão representa a medida da dispersão absoluta. Também é necessário medir a dispersão relativa de duas ou mais distribuições. Quando o desvio padrão está relacionado à sua média, mede a dispersão relativa. Karl Pearson elaborou uma medida simples de dispersão relativa, geralmente conhecida como coeficiente de variação.

O coeficiente de variação para o problema na Tabela 18.47 é: