DIRETRIZES PARA A RESOLUÇÃO DAS LISTAS DE EXERCÍCIOS 5 E 6


Conforme foi sugerido por alguns alunos serão apresentadas as diretrizes para a resolução dos exercícios da LISTA 5 - Testes Não Paramétricos e da LISTA 6 - Correlação e Regressão Linear. É importante ressaltar que os exercícios NÃO serão resolvidos na íntegra, cabendo aos alunos fazer isso, mas as orientações facilitarão em muito essa tarefa.



LISTA 5 DE EXERCÍCIOS - TESTES NÃO PARAMÉTRICOS

1.Quando se aplica um teste de hipóteses não paramétrico ?

Sempre que for possível deve-se utilizar testes PARAMÉTRICOS, são mais poderosos do ponto de vista estatístico, mas possuem uma série de suposições que precisam ser satisfeitas para sua aplicação, a saber: - primeiramente há interesse em testar os parâmetros da distribuição populacional da variável sob análise;

- a variável sob análise TEM que ser quantitativa (nível de mensuração intervalar);

- a variável apresenta distribuição normal na população, ou então a amostra é suficientemente grande para que se possa supor que a distribuição amostral da média seja normal (decorrência do Teorema Central do Limite).

Sendo assim, aplica-se um teste não paramétrico quando:

- há interesse em testar outras características da distribuição populacional da variável sob análise (por exemplo, a forma da distribuição);

- a variável sob interesse for qualitativa;

- nos caso em que a variável é quantitativa, há interesse em testar os parâmetros da sua distribuição populacional, mas sabe-se que a distribuição populacional não é normal (ou não se conhece nada sobre ela) e não é possível retirar uma amostra grande.

Um alerta, o teste de proporções é motivo de controvérsia. Por testar um parâmetro de uma distribuição populacional é chamado por alguns autores de teste paramétrico. Contudo, como a variável sob análise costuma ser qualitativa (com apenas dois valores) é considerado teste não paramétrico por outros autores.



2. Quais as exigências para a aplicação de um teste paramétrico que não são necessárias serem atendidas para a aplicação de um teste não paramétrico ?

Esta questão em parte foi respondida no item anterior, mas em resumo o teste não paramétrico não exige que a variável sob análise siga uma determinada distribuição de probabilidades (como a normal por exemplo) para que possa ser aplicado.


3.A cronometragem de certa operação industrial forneceu os seguintes valores para diversas medições, dados em segundos: 113 124 115 107 120 126 114 110 116 117 118 113 125 119 118 114 122 117

Verifique a normalidade destes valores a um nível de significância de 5%.

Neste caso há interesse em avaliar se a amostra acima foi retirada de uma população normal, em suma pede-se para avaliar a aderência da amostra a uma distribuição normal: isso exige um teste não paramétrico. O teste mais adequado para este caso é o teste de Kolmogorov-Smirnov para uma amostra, que é um teste de aderência, e cujo roteiro está na página 8 da apostila de Roteiros e Tabelas.

Testar-se-á a hipótese de que o tempo da operação industrial tem distribuição normal na população (Hipótese Nula) frente a declaração que ele não apresenta tal distribuição (Hipótese Alternativa).

Um ponto importante, como o teste será de aderência a uma distribuição normal é necessário estimar os seus valores de média e desvio padrão (item 5 do roteiro, que será usado no item 6): como nada foi dito esses valores serão estimados a partir da média e do desvio padrão da amostra. Então, no momento de encontrar o dtab para tomar a decisão do teste (item 9 do roteiro) deve-se procurar na tabela de valores críticos para o Teste de Lilliefors (tabela à direita na página 9 da apostila de Roteiros e Tabelas), para n = 18 e 5% de significância.


4.Uma Empresa de montagens de conectores utiliza um processo de montagem de conectores que foi observado através da montagem de conectores realizados por um operário padrão e foram anotados os seguintes valores: 2,5 2,5 2,6 3,0 3,2 3,5 3,7 3,7 2,1 2,4 2,7 2,8

a)Você poderia aplicar testes paramétricos para estes valores ?

b)Faça o teste de Kolmogorov-Smirnov para testar a normalidade destes valores.

Pelo nível de mensuração da variável até que seria possível, mas não se sabe nada sobre a distribuição populacional da variável e uma amostra de 12 elementos não é grande o bastante para supor que a distribuição amostral é normal. Assim deve-se proceder tal como no problema 3 acima. Novamente os valores de média e desvio padrão da distribuição normal serão estimados através da média e do desvio padrão da amostra. Então, no momento de encontrar o dtab para tomar a decisão do teste (item 9 do roteiro) deve-se procurar na tabela de valores críticos para o Teste de Lilliefors (tabela à direita na página 9 da apostila de Roteiros e Tabelas), para n = 12 e 5% ou 1% de significância (o aluno escolhe o nível, uma vez que o problema deixou em aberto).


5.Buscando reduzir os custos de combustíveis de sua frota, uma central de taxi fez com que seus motoristas assistissem a um curso de "técnicas de redução de consumo de combustível ao conduzir seu automóvel". Os consumos de cada um dos 10 veículos da frota foi monitorado antes do curso e após o curso. Os dados obtidos estão apresentados abaixo em Km/litro:

CONSUMO ANTES

9,8

7,3

8,4

9,2

10,5

9,2

9,8

7,9

8,2

9,3

CONSUMO DEPOIS

9,9

8,4

8,5

9,5

9,8

9,3

9,5

7,9

8,5

9,3

a)Teste os resultados utilizando o teste dos sinais e verifique se o curso surtiu ou não efeito. Utilize um nível de significância de 5%.

b)Faça agora um teste através do teste dos sinais por postos, você concluiu o mesmo que no teste do item a) ?

Observe que são os MESMOS motoristas antes e depois do curso, os dados estão pareados.

Tal como naqueles exemplos aqui há interesse em saber se o curso de direção defensiva surtiu efeito, se o consumo de combustível diminuiu, ou seja se o número de km/l depois do curso é MAIOR do que o número antes. As hipóteses, tanto para o teste dos sinais quanto para o teste do sinais por postos serão:

H0: "km/l antes" = "km/l depois" (o contrário do que interessa)

H1: "km/l antes" < "km/l depois" (o que se quer provar).

TESTE UNILATERAL!

Os roteiros dos testes estão nas páginas 10 e 11 da apostila de Roteiros e Tabelas respectivamente. Será necessário calcular as diferenças entre valores de consumo ANTES e DEPOIS do curso para cada motorista (e ordenar em postos essas diferenças no teste dos Sinais por Postos).

As condições de rejeição de H0 serão:

H1: "km/l antes" < "km/l depois"

Usando diferenças negativas rejeita-se H0 se Z > Zcrítico (Zcrítico é +)

Zcrítico = Z0,95 = 1,645

Usando diferenças positivas rejeita-se H0 se Z < Zcrítico (Zcritico é -)

Se a hipótese for rejeitada deverá sê-la usando qualquer das diferenças.

Zcrítico = Z0,05 = -1,645

Se os dois testes tiverem resultados diferentes, um aceitar H0 e o outro rejeitar H0 deve-se confiar mais no resultado do teste dos Sinais por Postos, que indica não somente a direção da variação, mas também a sua magnitude.


6. Duas marcas de tinta para exterior foram testadas quanto ao tempo de secagem, para verificar se havia diferença entre elas ou não. Foram então anotados os tempos de secagem (em minutos) e anotados. Faça um teste adequado para verificar se estas duas marcas de tinta podem ser consideradas como apresentando o mesmo tempo de secagem ou não. Utilize um nível de significância de 5%.

Tinta A:14,3 14,3 18,7 15,0 17,2 18,1 17,6 15,8 14,6 15,0 13,7 18,0

Tinta B:13,6 10,8 12,4 11,6 16,1 13,4 13,8 13,2 12,1 14,0

Neste caso as duas populações são INDEPENDENTES, sendo assim se há interesse em aplicar um teste não paramétrico para comparar as duas populações é preciso usar o teste de Mann-Whitney, cujo roteiro está na página da apostila de Roteiros e Tabelas.

Nada foi dito sobre direção da diferença, apenas se quer verificar a existência ou não de diferenças entre os tempos de secagem das duas tintas. Então o teste será BILATERAL, com as hipóteses:

H0: "tempo tinta B" = "tempo tinta A" (o contrário do que interessa)

H1: "tempo tinta B" "tempo tinta A" (o que se quer provar).

O tempo tinta B será o grupo 1 (ver roteiro) porque apresenta menos medidas.

É necessário estabelecer postos para todos os elementos (das duas amostras como se fossem uma só): como há 22 observações os postos variarão de 1 a 22, às observações empatadas atribuir média dos postos correspondentes.

Rejeita-se H0, usando o grupo 1 (dados da tinta B) se o módulo de Z for maior do que o módulo de Zcrítico.


7. Uma agência de publicidade deseja determinar a eficiência de uma campanha para induzir os moradores de uma região sobre a implantação de uma unidade de armazenamento de óleo na área. Pesquisou 200 moradores da região, aleatoriamente, sobre o assunto, antes do início da campanha e foram entrevistados novamente três semanas após o início da campanha, fornecendo os seguintes resultados:

APÓS A

CAMPANHA

FAVORÁVEIS

CONTRÁRIOS

ANTES DA

FAVORÁVEIS

20

30

CAMPANHA

CONTRÁRIOS

90

60

Utilizando 1- = 95%

a)Que teste você indicaria para a análise destes dados ? Justifique.

b)Como você montaria as hipóteses ?

c)O que se pode concluir sobre a eficiência da campanha ?

d)Você poderia aplicar o teste de sinais por postos para estes dados ? Justifique.

Este problema é bastante interessante e costuma causar muitas dúvidas. À primeira impressão o teste adequado seria o teste do ChiQuadrado, devido ao formato com que os dados são apresentados, mas observe que há apenas UMA variável, e o teste do ChiQuadrado exige DUAS variáveis. Então o teste do ChiQuadrado não pode ser usado neste problema. Se você observar os dados com maior cuidado constatará que os 200 moradores foram pesquisados ANTES e APÓS uma campanha e que alguns mudaram sua opinião e outros a mantiveram: 20 moradores eram favoráveis ANTES e continuam favoráveis APÓS a campanha (20 diferenças nulas), 60 eram contrários ANTES e continuam contrários APÓS (outras 60 diferenças nulas), mas há 120 moradores (90 + 30) que mudaram de opinião. Para determinar a eficiência da campanha deve-se verificar se o número de pessoas favoráveis após a campanha é maior do que o número de desfavoráveis: como 80 moradores (20+60) não mudaram de opinião, resta saber se o número que mudou de contrário para favorável é significativamente maior do que o número que mudou de favorável para contrário. Para este tipo de situação, em que é possível mensurar apenas a direção da variação e contar o número de diferenças ocorridas em cada direção o teste mais adequado é o TESTE DOS SINAIS (roteiro na página 10 da apostila de Roteiros e Tabelas).

Há interesse nos favoráveis, se a campanha fez efeito o número de favoráveis ANTES deverá ser MENOR do que o número de favoráveis APÓS a campanha:

H0: "favoráveis antes" = "favoráveis após" (o contrário do que interessa)

H1: "favoráveis antes" < "favoráveis após" (o que se quer provar).

TESTE UNILATERAL!

"Calculando" as diferenças entre as opiniões dos moradores constata-se que 80 são nulas (não mudaram de opinião), mas que 90 agora são favoráveis, e que 30 agora são contrários. Supondo que a opinião favorável fosse "maior" os 90 agora favoráveis poderiam considerados como o número de diferenças negativas e os 30 agora contrários como o número de diferenças positivas. Depois disso a resolução do teste seria semelhante aos casos anteriores: o módulo do valor da variável de teste Z será 5,38, e H0 será rejeitada tanto para diferenças "negativas" quanto "positivas", constatando a eficiência da campanha a 5% de significância.

Não seria possível usar um teste dos Sinais por Postos neste problema porque não há como mensurar a magnitude das diferenças de opinião: será que a mudança de contrário para favorável do morador A é maior do que a do morador B? Não há como medir isso, não sendo portanto atribuir postos às diferenças.


8.Os seguintes resultados se referem a um programa de dieta de emagrecimento de 2 semanas. Pode-se concluir que o programa é eficiente a um nível de confiança de 99%?

indivíduo

peso pré dieta

peso pós dieta

1

132,1

98,9

2

129,0

125,2

3

130,4

127,5

4

127,8

128,9

5

88,0

81,0

6

92,0

89,0

7

144,4

145,4

8

126,0

123,0

9

99,0

99,0

10

93,0

94,2

a)Faça o teste dos sinais. O que você conclui ?

b)Aplique agora o teste dos sinais por postos. Compare com o resultado obtido em a).

Caso semelhante ao do exercício 5, mas agora deseja-se verificar se o valor ANTES é maior do que o DEPOIS (sendo uma dieta de emagrecimento espera-se que o peso das pessoas seja menor após o tratamento).


9. Um processo de treinamento está sendo adotado por uma empresa para reduzir o tempo de conserto de equipamentos. A empresa possui 26 funcionários neste setor , sendo que fizeram este treinamento 13 funcionários. Use o teste adequado para verificar se este treinamento está reduzindo o tempo de conserto dos equipamentos ao nível de 5%. (ESTA É A REDAÇÃO CORRETA PARA ESTE EXERCÍCIO).

c/ treinamento:15,0 15,1 15,3 16,2 17,0 14,8 16,2 15,9 15,2 14,5 14,3 16,8 16,4

s/ treinamento:17,2 18,4 18,6 15,2 15,6 14,9 14,9 14,5 19,0 17,0 13,5 13,5 16,0

Situação semelhante a do exercício 6. Há dois grupos independentes, um recebeu o treinamento e o outro não, e deseja-se comparar os tempos que cada grupo leva para consertar um equipamento. O teste não paramétrico adequado para este caso é o teste de Mann-Whitney (roteiro na página 12 da apostila de Roteiros e Tabelas).

Há interesse em saber se os funcionários com treinamento levam MENOS tempo para consertar o equipamento do que sem treinamento (teste UNILATERAL):

H0: "tempo com treinamento." = "tempo sem treinamento"

H1: "tempo com treinamento" < "tempo sem treinamento"

É necessário estabelecer postos para todos os elementos (das duas amostras como se fossem uma só): como há 26 observações os postos variarão de 1 a 26, às observações empatadas atribuir média dos postos correspondentes. Rejeita-se H0, usando o grupo 1 (com treinamento) se o módulo de Z for menor do que o Zcrítico (que neste caso será negativo: Zcrítico = Z0,05 = -1,645)


10.Uma amostra aleatória entre homens e mulheres foi analisada com o objetivo de pesquisar-se o comportamento de "fumar cigarros". Verificou-se que de 27 homens, 15 eram fumantes, e que de 33 mulheres, 12 tinham o hábito de fumar.

a)Teste a hipótese de que o sexo influencia o comportamento de fumar, a um nível de 5% de significância.

b)Se esta dependência existe, quantifique.

Como há DUAS variáveis QUALITATIVAS (sexo e hábito de fumar), e há interesse em avaliar se tais variáveis são dependentes é preciso utilizar o Teste do ChiQuadrado, cujo roteiro está na página 13 da apostila de Roteiros e Tabelas. É preciso montar a tabela com os resultados:

Fumante

Não fumante

Homens

15

12

Mulheres

12

21

Será necessário calcular as freqüências esperadas de cada célula da tabela acima, para obter a estatística ChiQuadrado. A estatística ChiQuadrado terá 1 grau de liberdade e valerá aproximadamente 2,21 (acarretando a aceitação de H0).

A quantificação da dependência pode ser feita através do Coeficiente de Contingência Modificado, que terá resultado igual a aproximadamente 0,266 indicando uma fraca dependência.


11.Dentre os alunos de uma sala alguns não freqüentavam as aulas, apenas comparecendo às provas.

Na tabela abaixo estão apresentados seus resultados.

aprovados

reprovados

"freqüentadores"

22

8

30

"ausentes"

10

18

28

32

26

58

Utilizando 1- = 95 %

a)Você pode concluir que a presença as aulas influenciou os resultados finais dos alunos ?

b)Verifique o quanto esta freqüência as aulas influencia no resultado final dos alunos.

Situação semelhante a do exercício 11: na letra a) teste do ChiQuadrado e na letra b) cálculo do Coeficiente de Contingência Modificado. A estatísticas ChiQuadrado terá 1 grau de liberdade e valerá aproximadamente 8,28 (acarretando a rejeição de H0). E o Coeficiente de Contingência Modificado será aproximadamente 0,5, indicando dependência moderada.



LISTA 6 DE EXERCÍCIOS - CORRELAÇÃO E REGRESSÃO LINEAR

1.Em recente pesquisa realizada em alguns estados americanos acusou as seguintes cifras para o consumo anual de cigarros per capita e a taxa anual de mortalidade em consequência do câncer de pulmão:

Estado

Consumo anual de cigarros per capita

Taxa anual de mortalidade

1

3100

24

2

2900

26

3

2200

17

4

2100

20

5

2400

19

6

2600

20

7

2800

23

a)Construa o diagrama de dispersão

b)Calcule o coeficiente de correlação linear amostral r.

c)Ao nível de 5%, teste se existe ou não relacionamento entre o consumo de cigarros e a incidência de câncer de pulmão.

d)Com os valores fornecidos na tabela acima, estime a de regressão da taxa anual de mortalidade sobre o consumo anual de cigarros per capita.

e)Construa os intervalos de confiança para os coeficientes linear e angular da reta.

f)Faça o gráfico da reta dos mínimos quadrados sobre o diagrama de dispersão.

g)Estime a taxa anual de mortalidade se o consumo anual de cigarros per capita aumentar para 3500.

h)Pode-se definir o consumo anual de cigarros per capita, para que a taxa anual de mortalidade em consequência do câncer de pulmão seja nula? Explique.

Muitas calculadoras científicas possuem modo estatístico para duas variáveis, recomenda-se que os alunos aprendam como usá-lo, pois isso reduzirá bastante o trabalho de cálculo. As letras a), b), c), d) e e) podem ser resolvidas tal como foram os exemplos apresentados no texto sobre Análise de Correlação e Regressão (o coeficiente r valerá 0,845 e o teste do coeficiente de correlação linear populacional indicará que há relacionamento entre as variáveis, e a reta de regressão será Y = 0,007X + 2,784, lembrando que X - variável independente - é o consumo de cigarro e Y - variável dependente - é a taxa de mortalidade). Na letra e) é necessário lembrar que a estatística t terá 5 graus de liberdade (7-2), e que o intervalo de 95% de confiança para o coeficiente angular da reta será [0,002; 0,012].

Na letra g) basta substituir X por 3500 na equação de reta obtida e obter Y.

Na letra h tal consumo não pode ser definido porque a única maneira seria fazer o consumo negativo, para "zerar" o valor de Y (já que o coeficiente linear da reta vale 2,784), mas isso não tem sentido.


2.Os dados abaixo foram fornecidos por uma empresa, onde está apresentada a relação entre a frequência de acidentes mensal de trabalho e o nível de esforço educacional preventivo empregado por esta empresa.

horas por mês para educação

acidentes por mês

20

7

50

6,4

450

5,2

80

4

90

3,1

15

8

30

6,5

60

4,4

a)Construa o diagrama de dispersão

b)Calcule o coeficiente de correlação linear r.

c)Calcule a reta de regressão

d)Faça um teste de hipóteses para o coeficiente angular , com 95% de confiança.

e)Calcule o coeficiente de determinação. Interprete.

Neste caso é importante identificar corretamente qual é a variável independente X e qual é a variável dependente Y. É razoável supor que o número de acidentes por mês DEPENDA do número de horas para educação (e quanto maior o número de horas menor deve ser o número de acidentes). Então a variável independente X será o número de horas para educação e a variável dependente Y será o número de acidentes por mês.

Pelo diagrama de dispersão verifica-se que efetivamente há uma correlação linear negativa, mas um par (450 - 5,2) que distorcerá consideravelmente os resultados: em uma situação prática talvez fosse interessante retirar este ponto do conjunto e fazer a análise apenas com os outros.

Resolvendo as letras a) e b), obtém um coeficiente de correlação linear de -0,269, indicando correlação linear negativa fraca, e a reta de regressão será Y = - 0,003X + 5,885.

Na letra d) um teste de hipóteses interessante seria verificar se o coeficiente angular populacional é diferente de zero (a hipótese nula, de que é igual será aceita).

O coeficiente de determinação (quadrado do coeficiente de correlação linear) será igual 0,072, indicando que apenas 7,2% da variação média de Y pode ser explicada pela variação média de X através do modelo linear (indicando que o modelo não é indicado para este caso). Este resultado provavelmente se deve a aquele ponto discrepante, se ele fosse retirado os resultados seriam:

r = -0,969 e r2 = 0,929 (significando que o modelo linear é adequado aos dados).


3.Com base na amostra aleatória de pais e filhos constante da tabela abaixo

Filho

1,72

1,67

1,82

1,85

1,67

1,74

1,77

1,88

1,80

1,62

Pai

1,62

1,67

1,80

1,77

1,75

1,68

1,79

1,83

1,78

1,65

a)Construa o diagrama de dispersão

b)Calcule o coeficiente de correlação r.

c)Estime os coeficientes da reta de regressão através de intervalos de confiança.

d)Ao nível de 5% de significância pode-se rejeitar a hipótese nula de que o coeficiente angular é igual a 0 ?

e)Calcule o coeficiente de determinação e interprete.

Neste caso decidir qual será a variável independente é simples: uma vez que os pais nasceram antes dos filhos a altura do pai seria a variável independente X e a altura do filho seria a variável dependente Y. Seria razoável supor também uma correlação linear positiva entre as duas variáveis.

Realmente ao plotar o diagrama de dispersão observa-se-á um correlação linear positiva. O coeficiente de correlação linear será aproximadamente igual a 0,770, e a reta de regressão Y = 0,903X + 0,188. Na letra c) pede-se os intervalos de confiança para os coeficientes da reta: o intervalo de 95% de confiança para o coeficiente angular será [0,293; 1,513].

O teste de hipóteses da letra d) levará à rejeição da hipótese nula.

O coeficiente de determinação será igual 0,593, indicando que 59,3% da variação média de Y pode ser explicada pela variação média de X através do modelo linear, justificando a sua utilização (explica mais da metade da variabilidade total).



AO TOPO.

RETORNAR