Correlação e Regressão Linear
Transcrição
Correlação e Regressão Linear
Correlação e Regressão Linear Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais CORRELAÇÃO LINEAR 2 Coeficiente de correlação linear - coeficiente de Pearson (r) • Mede o grau de relacionamento linear entre valores pareados x e y na amostra e também da proximidade dos dados a uma reta. • É um valor que varia de -1 a 1, sendo que 0 (zero) significa não haver correlação. n.x y n.x. y corr ( X , Y ) r 2 2 2 2 (x nx )([Ny (y ) ] i i i 3 Exemplos de correlações Fonte: Wikipédia (http://en.wikipedia.org/wiki/File:Correlation_examples2.svg) 4 Teste de r • O coeficiente de correlação pode ser testado usando-se a estatística t de student, que é calculado usando-se a seguinte fórmula (N = número de pares de escore X e Y) t r N 2 1 r 2 ) • O valor crítico é verificado na tabela t de Student, com os graus de liberdade definidos por N-2 5 Correlação e causalidade • Haver correlação entre duas variáveis não implica em que uma cause o efeito na outra. ► ► Pode haver correlações espúrias Viés pode ser confundido com correlação • Contudo, a correlação é uma pista significativa que deve ser investigada para verificar causalidade e sua direção. • A ausência de correlação não quer dizer que não haja causalidade. Apenas uma análise do modelo e das variáveis incluídas e excluídas pode apontar isso. ► Além disso, pode haver relações não-lineares entre as variáveis. • Divirtam-se com correlações espúrias no site www.tylervigen.com 6 O comprimento da barba branca indica o grau de poder mágico? Onde ficaria o ZZ Top? 7 O consumo de chocolate aumenta o número de prêmios Nobel? Correlation between Countries' Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million Population. Fonte: “Chocolate Consumption, Cognitive Function, and Nobel Laureates” Franz H. Messerli, M.D. N Engl J Med 2012; 367:1562-1564October 18, 2012 http://www.nejm.org/doi/full/10.1056/NEJMon1211064, acesso em 04/11/2012 8 REGRESSÃO LINEAR 9 Regressão linear • A regressão linear calcula médias condicionais de uma variável Y a partir de dados sobre uma variável X supostamente relacionada, estabelecendo um modelo para: ► ► ► Explicar o total ou parcialmente um fenômeno observado Mensurar a relação entre duas variáveis Permitir predições • Formato: Y = α + β1X1 + β2X2 + ... + ► ► ► Y: variável dependente (aquela que é explicada;) X1, X2,..., Xn: variáveis explicativas (ou independentes) : erro, parte não explicada pelo modelo • Modelo linear simples: Y = a ► + bX + Usaremos a notação Y = a + bx + para os parâmetros calculados 10 Suposições do modelo de regressão linear • As variáveis Xn não podem ser combinações lineares entre si. • O número de parâmetros a serem estimados é menor que o número de observações. • Variáveis independentes. • Resíduos possuem variância constante e têm média zero. ► ► E() = 0 2 = constante • Os resíduos são independentes e mostram um comportamento normal. • O relacionamento entre as variáveis pode ser razoavelmente representado por uma reta. 11 Estimação dos parâmetros • Objetivos: estabelecer uma reta que: ► ► ► Minimize ε Possua significância estatística Possua bom fator explicativo (R2) • Conseguimos trabalhar apenas o primeiro, os demais são avaliados. • Portanto, o ajuste da reta deve minimizar as distâncias entre os valores preditos pela reta e os valores observados. 12 Regressão linear • Princípio: ajustar a yi= a+bxi+i Erros (εi) i~N(0,²) (erros independentes) estimativa dos parâmetros para minimizar soma dos erros quadrados entre as previsões e os valores amostrais. • Os parâmetros do nosso modelo são: Y = a + bX + (equação da reta) • Temos que determinar: ► ► a: intercepto ou valor fixo; b: inclinação da reta 13 Aplicando ao modelo • A soma dos quadrados dos erros é: n n SQ(a , b ) ei { y 2 i 1 i 1 2 ( a b )} xi i • Assumindo que a distribuição dos erros é normal e derivando essa equação, podemos deduzir que: a y bx xy n x y b x nx 2 2 Para mais informações consultar Bussab e Morettin: Estatística Básica, capítulo 15 14 Intervalos de confiança para as estimativas • Os estimadores a e b possuem distribuição normal e intervalos de confiança com uma distribuição t, com n-2 graus de liberdade IC(a ; ) a t .Se ( n 2 ) x n. ( x x ) 2 i 2 i IC( b ; ) b t 1 .Se 2 n. ( x x ) ( n 2 ) i 15 Correlação x Regressão Correlação linear • Não determina causalidade, mas pode dar pistas. • Identifica se duas variáveis se relacionam de forma linear. • Determina o quão mais próximo de uma reta é a relação entre as variáveis. ► ► 0: não há relação linear 1: relação linear perfeita • Não indica o quanto uma variável pode estar influenciando a outra. • Pode ser testada estatisticamente. Regressão linear • Não determina causalidade, mas pode dar pistas. • Determina uma relação linear entre duas variáveis. • Traz elementos que permitem fazer predições. • Identifica o quanto uma variável afeta a outra. • Necessita de uma análise dos resíduos para decidir sobre sua adequação. • Pode ser testada estatisticamente. 16 Começando a analisar os dados • Primeiro é necessário termos uma boa idéia do comportamento de nossos dados, de forma a avaliar se o modelo linear é adequado. • Isso é muito importante! • Uma sugestão é colocar os dados em diagramas de dispersão. 17 Por que os gráficos são importantes? Quarteto de Anscombe Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas, ... I II III IV x y x y x y x y Propriedade Valor 10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 Média de x 9,00 8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76 13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71 Variância de x 10,00 9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 Média de y 7,50 11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47 Variância de y 3,75 14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 Correlação 0,898 6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50 Regressão linear y = 2,50 + 0,500x 12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56 7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91 5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89 18 Quarteto de Anscombe ... mas são bem diferentes graficamente. 19 Julgando a qualidade do modelo • Estratégia: comparar variância com o modelo mais simples • Montar tabela ANOVA • Variância do modelo simples n SQTot ( yi y ) 2 t 1 • Variância da regressão n SQ Re s ( yi yˆ i ) 2 t 1 20 Tabela ANOVA para regressão n: número de amostras p: número de parâmetros estimados Fonte de variação Soma dos Quadrados (SQ) n Regressão SQ Re g ( y ˆi y) 2 Quadrados das Médias (QM) 2 glN = p – 1 t 1 b Resíduo Graus de Liberdade n QM Re g SQ Re g gl N ( xi x ) 2 t 1 n SQ Re s ( yi yˆ i ) 2 glD = n – p t 1 se 2 F QM Re g s 2 e SQ Re s gl D n Total SQTot ( yi y ) 2 glT = n – 1 t 1 21 Outras medidas • R2: mede a variabilidade de Y que é explicada pelo modelo • Calcula-se da mesma forma que na ANOVA SQ Re g R SQTot 2 22 Análise de resíduos • Tão importante quanto verificar se os dados servem ao modelo de regressão e estabelecer os parâmetros, é fazer a análise de resíduos • Verificar se: ► ► O modelo se ajusta bem As suposições não foram violadas o Homocedasticidade o Independência o Comportamento normal • Aconselha-se a fazer uma análise gráfica dos resíduos. 26 Bussab; Morettin, 2002:456 Plotagem dos resíduos Quais dessas plotagens mostram normalidade dos resíduos? Quais os problemas das outras? 27 Transformação de variáveis: linearização • Considere os dados abaixo e os gráficos abaixo. Ano 1967 1969 1971 1973 1975 1977 1979 Inflação 128 192 277 373 613 1236 2639 • Você teria alguma restrição em adotar o modelo linear nesse caso? • Se transformarmos a variável inflação (exponencial) por meio de logaritmo (Log), você teria alguma restrição em adotar o modelo linear? Log(inflação) Inflação 3000 3,6 3,4 2500 3,2 2000 3 2,8 1500 2,6 1000 2,4 500 0 1967 2,2 1969 1971 1973 1975 1977 1979 1981 2 1966 1968 1970 1972 1974 1976 1978 1980 28 Voltando ao nosso exemplo • Deseja-se avaliar explicações para o tempo de reação das pessoas a determinado estímulo visual. • Variável dependente: Tempo de reação = Y • Variáveis Independentes: Gênero; Idade; Acuidade Visual (podem explicar o fenômeno) = X1, X2, ... Indivíduo i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Tempo de Gênero reação (ms) (M/F) y 96 92 106 100 98 104 110 101 116 106 109 100 112 105 118 108 113 112 127 117 w M F M F F M M F F M M F F F M M F F M M Idade Acuidade (anos) Visual (%) x 20 20 20 20 25 25 25 25 30 30 30 30 35 35 35 35 40 40 40 40 z 90 100 80 90 100 90 80 90 70 90 90 80 90 80 70 90 90 90 60 80 Dados tirados de Bussab, Wilton. Análise de Variância e Regressão. 2a. Ed. Editora Atual: São Paulo. 1988 29 No nosso exemplo (tempo de reação) • Calcular as correlações Tempo de reação x Idade 0,768 Tempo de reação x Acuidade visual -0,755 Idade x Acuidade visual -0,399 • O que esses números significam? 30 Avaliando os dados Já testamos e descartamos Gênero; Traçar diagramas de dispersão para Idade e para Acuidade Visual Idade Acuidade visual 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0 0 0 10 20 30 40 50 0 20 40 60 80 100 120 O modelo de regressão linear é aplicável em ambos os casos? 31 Atividade com banco de dados • Health expenditure ► ► ► ► • Health care resources ► ► ► • ► ► ► Doctor consultations per capita Hospital discharge rates, all causes, per 100 000 population Average length of stay for a normal delivery, days Caesarean sections, per 1 000 live births Health status (Mortality) ► ► • Physicians, density per 1 000 population Nurses, density per 1 000 population Hospital beds, density per 1 000 population Health care activities ► • Total expenditure on health, % of gross domestic product Total health expenditure per capita, US$ PPP Public health expenditure per capita, US$ PPP Pharmaceutical expenditure per capita, US$ PPP Life expectancy at birth, total population Infant mortality rate, deaths per 1 000 live births Risk factors ► ► ► ► Tobacco consumption, % of adult population who are daily smokers Alcohol consumption, litres per population aged 15+ Obesity, percentage of total adult population with a BMI>30 kg/m2, based on self-reports Obesity, percentage of total adult population with a BMI>30 kg/m2, based on measures of height and weight 37 Atividade com banco de dados • Selecionar 3 correlações significantes (a 5% ou a 1%) de seu interesse. • Levantar hipóteses explicativas de causalidade entre as duas variáveis (relação de causalidade e direção). • Determinar a regressão linear delas e analisar a sua pertinência e adequação. 38 Etapas de análise de dados e determinação de regressão linear 1. Exploração dos dados a. Gráficos de dispersão b. Mapa de correlações 2. Determinação da regressão linear a. b. c. d. Determinação dos coeficientes da reta de regressão (“a” e “b”) Verificação da significância (p-valor) Verificar o grau de explicação (R2) Julgamento se o modelo é interessante e pertinente 3. Avaliação de atendimento dos pressupostos da correlação a. Análise dos resíduos: normalidade; homocedasticidade 39 • Exercício para entrega - banco de dados “Poluição SP 1991”: (enviar PDF com os dados e as conclusões por email [email protected] até o fim da aula) • Encontrar pelo menos duas variáveis que se relacionem de forma linear • Avaliar se elas possuem correlações estatisticamente significativas • Definir regressões lineares simples entre as variáveis (duas regressões) • Analisar os resultados dos resíduos e verificar a pertinência da aplicação das regressão • Procurar referências científicas que conectem as variáveis estudadas. Se não for possível encontrar causalidade entre elas, propor hipóteses explicativas. Etapas de análise de dados e determinação de regressão linear 1. Exploração dos dados a. b. 2. Gráficos de dispersão Mapa de correlações Determinação da regressão linear a. b. c. d. 3. Determinação dos coeficientes da reta de regressão (“a” e “b”) Verificação da significância (pvalor) Verificar o grau de explicação (R2) Julgamento se o modelo é interessante e pertinente Avaliação de atendimento dos pressupostos da correlação a. Análise dos resíduos: normalidade; homocedasticidade 40
Documentos relacionados
Correlação e Regressão Linear
ŷ = α + β x O gráfico da equação é chamado reta de regressão (ou reta de melhor ajuste, ou reta de mínimos quadrados)
Leia maisAnálise de Regressão
MODELO, resultante das distâncias entre os valores do modelo e a média:
Leia mais