Correlação e Regressão Linear

Transcrição

Correlação e Regressão Linear
Correlação e Regressão Linear
Prof. Marcos Vinicius Pó
Métodos Quantitativos para Ciências Sociais
CORRELAÇÃO LINEAR
2
Coeficiente de correlação linear - coeficiente de
Pearson (r)
• Mede o grau de relacionamento linear entre valores pareados
x e y na amostra e também da proximidade dos dados a uma
reta.
• É um valor que varia de -1 a 1, sendo que 0 (zero) significa
não haver correlação.
n.x y  n.x. y
corr ( X , Y )  r 
2
2
2
2
(x  nx )([Ny  (y ) ]
i
i
i
3
Exemplos de correlações
Fonte: Wikipédia (http://en.wikipedia.org/wiki/File:Correlation_examples2.svg)
4
Teste de r
• O coeficiente de correlação pode ser testado usando-se a
estatística t de student, que é calculado usando-se a seguinte
fórmula (N = número de pares de escore X e Y)
t
r N 2
1 r 2 )
• O valor crítico é verificado na tabela t de Student, com os
graus de liberdade definidos por N-2
5
Correlação e causalidade
• Haver correlação entre duas variáveis não implica em que
uma cause o efeito na outra.
►
►
Pode haver correlações espúrias
Viés pode ser confundido com correlação
• Contudo, a correlação é uma pista significativa que deve ser
investigada para verificar causalidade e sua direção.
• A ausência de correlação não quer dizer que não haja
causalidade. Apenas uma análise do modelo e das variáveis
incluídas e excluídas pode apontar isso.
►
Além disso, pode haver relações não-lineares entre as variáveis.
• Divirtam-se com correlações espúrias no site
www.tylervigen.com
6
O comprimento da
barba branca indica o
grau de poder mágico?
Onde ficaria o ZZ Top?
7
O consumo de
chocolate
aumenta o
número de
prêmios Nobel?
Correlation between Countries' Annual Per Capita Chocolate
Consumption and the Number of Nobel Laureates per 10 Million
Population.
Fonte: “Chocolate Consumption, Cognitive Function,
and Nobel Laureates”
Franz H. Messerli, M.D.
N Engl J Med 2012; 367:1562-1564October 18, 2012
http://www.nejm.org/doi/full/10.1056/NEJMon1211064,
acesso em 04/11/2012
8
REGRESSÃO LINEAR
9
Regressão linear
• A regressão linear calcula médias condicionais de uma variável Y a
partir de dados sobre uma variável X supostamente relacionada,
estabelecendo um modelo para:
►
►
►
Explicar o total ou parcialmente um fenômeno observado
Mensurar a relação entre duas variáveis
Permitir predições
• Formato: Y = α + β1X1 + β2X2 + ... + 
►
►
►
Y: variável dependente (aquela que é explicada;)
X1, X2,..., Xn: variáveis explicativas (ou independentes)
: erro, parte não explicada pelo modelo
• Modelo linear simples: Y = a
►
+ bX + 
Usaremos a notação Y = a + bx +  para os parâmetros calculados
10
Suposições do modelo de regressão linear
• As variáveis Xn não podem ser combinações lineares entre si.
• O número de parâmetros a serem estimados é menor que o
número de observações.
• Variáveis independentes.
• Resíduos possuem variância constante e têm média zero.
►
►
E() = 0
2 = constante
• Os resíduos são independentes e mostram um
comportamento normal.
• O relacionamento entre as variáveis pode ser razoavelmente
representado por uma reta.
11
Estimação dos parâmetros
• Objetivos: estabelecer uma reta que:
►
►
►
Minimize ε
Possua significância estatística
Possua bom fator explicativo (R2)
• Conseguimos trabalhar apenas o primeiro, os demais são
avaliados.
• Portanto, o ajuste da reta deve minimizar as distâncias entre
os valores preditos pela reta e os valores observados.
12
Regressão linear
• Princípio: ajustar a
yi= a+bxi+i
Erros
(εi)
i~N(0,²)
(erros independentes)
estimativa dos parâmetros
para minimizar soma dos
erros quadrados entre as
previsões e os valores
amostrais.
• Os parâmetros do nosso
modelo são:
Y = a + bX + 
(equação da reta)
• Temos que determinar:
►
►
a: intercepto ou valor fixo;
b: inclinação da reta
13
Aplicando ao modelo
• A soma dos quadrados dos erros é:
n
n
SQ(a , b )   ei  { y
2
i 1
i 1
2

(
a

b
)}
xi
i
• Assumindo que a distribuição dos erros é normal e derivando
essa equação, podemos deduzir que:
a  y  bx
xy  n x y

b
x nx
2
2
Para mais informações consultar Bussab e Morettin: Estatística Básica, capítulo 15
14
Intervalos de confiança para as estimativas
• Os estimadores a e b possuem distribuição normal e
intervalos de confiança com uma distribuição t, com n-2
graus de liberdade
IC(a ;  )  a  t
.Se
 (  n  2 )
x
n. ( x  x )
2
i
2
i
IC( b ;  )  b  t
1
.Se
2
n. ( x  x )
 (  n  2 )
i
15
Correlação x Regressão
Correlação linear
• Não determina causalidade,
mas pode dar pistas.
• Identifica se duas variáveis se
relacionam de forma linear.
• Determina o quão mais
próximo de uma reta é a
relação entre as variáveis.
►
►
0: não há relação linear
1: relação linear perfeita
• Não indica o quanto uma
variável pode estar
influenciando a outra.
• Pode ser testada
estatisticamente.
Regressão linear
• Não determina causalidade,
mas pode dar pistas.
• Determina uma relação linear
entre duas variáveis.
• Traz elementos que permitem
fazer predições.
• Identifica o quanto uma
variável afeta a outra.
• Necessita de uma análise dos
resíduos para decidir sobre sua
adequação.
• Pode ser testada
estatisticamente.
16
Começando a analisar os dados
• Primeiro é necessário termos uma boa idéia do
comportamento de nossos dados, de forma a avaliar se o
modelo linear é adequado.
• Isso é muito importante!
• Uma sugestão é colocar os dados em diagramas de dispersão.
17
Por que os gráficos são importantes?
Quarteto de Anscombe
Esses quatro conjuntos de dados possuem as mesmas
propriedades estatísticas, ...
I
II
III
IV
x
y
x
y
x
y
x
y
Propriedade
Valor
10,0
8,04
10,0
9,14
10,0
7,46
8,0
6,58
Média de x
9,00
8,0
6,95
8,0
8,14
8,0
6,77
8,0
5,76
13,0
7,58
13,0
8,74
13,0
12,74
8,0
7,71
Variância de x
10,00
9,0
8,81
9,0
8,77
9,0
7,11
8,0
8,84
Média de y
7,50
11,0
8,33
11,0
9,26
11,0
7,81
8,0
8,47
Variância de y
3,75
14,0
9,96
14,0
8,10
14,0
8,84
8,0
7,04
Correlação
0,898
6,0
7,24
6,0
6,13
6,0
6,08
8,0
5,25
4,0
4,26
4,0
3,10
4,0
5,39
19,0
12,50
Regressão linear
y = 2,50 + 0,500x
12,0
10,84
12,0
9,13
12,0
8,15
8,0
5,56
7,0
4,82
7,0
7,26
7,0
6,42
8,0
7,91
5,0
5,68
5,0
4,74
5,0
5,73
8,0
6,89
18
Quarteto de Anscombe
... mas são bem diferentes graficamente.
19
Julgando a qualidade do modelo
• Estratégia: comparar variância com o modelo mais simples
• Montar tabela ANOVA
• Variância do modelo simples
n
SQTot   ( yi  y ) 2
t 1
• Variância da regressão
n
SQ Re s   ( yi  yˆ i ) 2
t 1
20
Tabela ANOVA para regressão
n: número de amostras
p: número de parâmetros estimados
Fonte de
variação
Soma dos
Quadrados (SQ)
n
Regressão
SQ Re g   ( y
ˆi  y) 
2
Quadrados
das Médias
(QM)
2
glN = p – 1
t 1
b
Resíduo
Graus de
Liberdade
n
QM Re g 
SQ Re g
gl
N
 ( xi  x )
2
t 1
n
SQ Re s   ( yi  yˆ i )
2
glD = n – p
t 1
se 
2
F
QM Re g
s
2
e
SQ Re s
gl
D
n
Total
SQTot   ( yi  y ) 2 glT = n – 1
t 1
21
Outras medidas
• R2: mede a variabilidade de Y que é explicada pelo modelo
• Calcula-se da mesma forma que na ANOVA
SQ Re g
R 
SQTot
2
22
Análise de resíduos
• Tão importante quanto verificar se os dados servem ao
modelo de regressão e estabelecer os parâmetros, é fazer a
análise de resíduos
• Verificar se:
►
►
O modelo se ajusta bem
As suposições não foram violadas
o Homocedasticidade
o Independência
o Comportamento normal
• Aconselha-se a fazer uma análise gráfica dos resíduos.
26
Bussab; Morettin, 2002:456
Plotagem dos resíduos
Quais dessas plotagens mostram normalidade dos resíduos?
Quais os problemas das outras?
27
Transformação de variáveis: linearização
• Considere os dados abaixo e os gráficos abaixo.
Ano
1967
1969
1971
1973
1975
1977
1979
Inflação
128
192
277
373
613
1236
2639
• Você teria alguma restrição em adotar o modelo linear nesse caso?
• Se transformarmos a variável inflação (exponencial) por meio de
logaritmo (Log), você teria alguma restrição em adotar o modelo
linear?
Log(inflação)
Inflação
3000
3,6
3,4
2500
3,2
2000
3
2,8
1500
2,6
1000
2,4
500
0
1967
2,2
1969
1971
1973
1975
1977
1979
1981
2
1966
1968
1970
1972
1974
1976
1978
1980
28
Voltando ao nosso exemplo
• Deseja-se avaliar explicações
para o tempo de reação das
pessoas a determinado estímulo
visual.
• Variável dependente: Tempo
de reação = Y
• Variáveis Independentes:
Gênero; Idade; Acuidade Visual
(podem explicar o fenômeno) =
X1, X2, ...
Indivíduo
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Tempo de Gênero
reação (ms) (M/F)
y
96
92
106
100
98
104
110
101
116
106
109
100
112
105
118
108
113
112
127
117
w
M
F
M
F
F
M
M
F
F
M
M
F
F
F
M
M
F
F
M
M
Idade Acuidade
(anos) Visual (%)
x
20
20
20
20
25
25
25
25
30
30
30
30
35
35
35
35
40
40
40
40
z
90
100
80
90
100
90
80
90
70
90
90
80
90
80
70
90
90
90
60
80
Dados tirados de Bussab, Wilton. Análise de Variância
e Regressão. 2a. Ed. Editora Atual: São Paulo. 1988
29
No nosso exemplo (tempo de reação)
• Calcular as correlações
 Tempo de reação x Idade
0,768
 Tempo de reação x Acuidade visual
-0,755
 Idade x Acuidade visual
-0,399
• O que esses números significam?
30
Avaliando os dados
Já testamos e descartamos Gênero;
Traçar diagramas de dispersão para Idade e para Acuidade Visual
Idade
Acuidade visual
140
140
120
120
100
100
80
80
60
60
40
40
20
20
0
0
0
10
20
30
40
50
0
20
40
60
80
100
120
O modelo de regressão linear é aplicável em ambos os casos?
31
Atividade com banco de dados
•
Health expenditure
►
►
►
►
•
Health care resources
►
►
►
•
►
►
►
Doctor consultations per capita
Hospital discharge rates, all causes, per 100 000 population
Average length of stay for a normal delivery, days
Caesarean sections, per 1 000 live births
Health status (Mortality)
►
►
•
Physicians, density per 1 000 population
Nurses, density per 1 000 population
Hospital beds, density per 1 000 population
Health care activities
►
•
Total expenditure on health, % of gross domestic product
Total health expenditure per capita, US$ PPP
Public health expenditure per capita, US$ PPP
Pharmaceutical expenditure per capita, US$ PPP
Life expectancy at birth, total population
Infant mortality rate, deaths per 1 000 live births
Risk factors
►
►
►
►
Tobacco consumption, % of adult population who are daily smokers
Alcohol consumption, litres per population aged 15+
Obesity, percentage of total adult population with a BMI>30 kg/m2, based on self-reports
Obesity, percentage of total adult population with a BMI>30 kg/m2, based on measures of height and weight
37
Atividade com banco de dados
• Selecionar 3 correlações significantes (a 5% ou a 1%) de seu
interesse.
• Levantar hipóteses explicativas de causalidade entre as duas
variáveis (relação de causalidade e direção).
• Determinar a regressão linear delas e analisar a sua
pertinência e adequação.
38
Etapas de análise de dados e determinação de
regressão linear
1. Exploração dos dados
a. Gráficos de dispersão
b. Mapa de correlações
2. Determinação da regressão linear
a.
b.
c.
d.
Determinação dos coeficientes da reta de regressão (“a” e “b”)
Verificação da significância (p-valor)
Verificar o grau de explicação (R2)
Julgamento se o modelo é interessante e pertinente
3. Avaliação de atendimento dos pressupostos da correlação
a. Análise dos resíduos: normalidade; homocedasticidade
39
• Exercício para entrega - banco de
dados “Poluição SP 1991”:
(enviar PDF com os dados e as conclusões por email [email protected] até o fim da aula)
• Encontrar pelo menos duas variáveis que
se relacionem de forma linear
• Avaliar se elas possuem correlações
estatisticamente significativas
• Definir regressões lineares simples entre
as variáveis (duas regressões)
• Analisar os resultados dos resíduos e
verificar a pertinência da aplicação das
regressão
• Procurar referências científicas que
conectem as variáveis estudadas. Se não
for possível encontrar causalidade entre
elas, propor hipóteses explicativas.
Etapas de análise de dados e
determinação de regressão
linear
1.
Exploração dos dados
a.
b.
2.
Gráficos de dispersão
Mapa de correlações
Determinação da regressão
linear
a.
b.
c.
d.
3.
Determinação dos coeficientes
da reta de regressão (“a” e “b”)
Verificação da significância (pvalor)
Verificar o grau de explicação
(R2)
Julgamento se o modelo é
interessante e pertinente
Avaliação de atendimento dos
pressupostos da correlação
a.
Análise dos resíduos:
normalidade; homocedasticidade
40