Vantagens da análise de dados em painel

Transcription

Vantagens da análise de dados em painel
ESTIMAÇÃO DE MODELOS
LINEARES COM DADOS DE PAINEL
ESTV-IPV
Vantagens da análise de dados em painel

Na área da finança, ainda não há muitos estudos
que explorem os dados em painel que permitam
controlar os efeitos específicos (e não observáveis)
a uma dada empresa, não.
◦ A maioria dos estudo apenas apresenta as estimações
em OLS para a “pool” dos dados

Estes estudos frequentemente não fazem qualquer
ajuste aos desvios padrão dos erros na estimação
em OLS, o que pode pode ser muito enganador
especialmente quando os paineis são longos (i.e.
quando o periodo de amostragem cobre muitos
anos)
2
Vantagens da análise de dados em painel
Reduzir a
multicollineariedae
“Fundir “dados
seccionais com
séries temporais
Mais graus de liberdade
Um problem sobretudo
nos modelos com
variáveis desfasadas
Derivados do maior
número de observações
Mais observações
 Maior eficiência (estimador não enviesado com variâncias menores
para todos os possiveis valores dos parâmetros)
Vantagens da análise de dados em painel

Assim podemos enunciar pelo menos três
grandes vantagens da análise de dados em
painel:
◦ Podemos controlar os efeitos fixos não observáveis
que podem enviesar as estimativas dos coeficientes.
 Estes efeitos fixos não observáveis podem ser especificos à empresa,
ao país ou ao indviduo.
◦ Uma amostra maior possibilita estimativas mais
precisas dos coeficientes.
◦ Podemos incluir variáveis desfasadas ou em
diferenças nos nosso modelos.
4
Estimar em dados de painel no STATA

Explicar as principais carcteristicas ( i.e. sintaxe da
linguagem) para estimar usando o software
econométrico Stata.
Explicar os comandos e a sintaxe para estimar os
modelos lineares estáticos com dados em painel.
 Explicar os comandos e a sintaxe para estimar os
modelos lineares dinâmicos com dados em painel.


Proporcionar aos investigadores ferramentas para
uma gestão eficiente do processo de investigação
utilizando a metodologia de dados de painel e o
software Stata.
Modelos lineares dinâmicos com dados em painel

Descrever os pressupostos e as formulas anlíticas dos
modelo dinâmicos, começando pelo modelo mais simples:
o autoregresssivo
Extender o modelo autoregresssivo para os caso em que
há também variáveis explicativas predeterminadas e/ou
estrictamente exogenas.
 Explicar em que casos e como é possivel extender a nossa
análise utilizando o método GMM (e a sua variação o GMMSYS).


Explicar que instrumentos são válidos. Notar que esta
decisão tem de ser tomada pelo investigador quando
estima o modelo

Explicar que testes de especificação são exigidos quando
usamos a metodologia GMM para estimar os modelos.
FUNDAMENTOS DE OLS
ESTV-IPV
Ordinary Least Squares (OLS)
yi    xi11  xi 2  2  xi 3 3  .........  xiK  K   i
Na forma vectorial
Na forma matricial
yi  xi '    i
Vector das
variáveis
explicativas
y i  xi1 xi 2
y  X '  
Vector dos
coeficientes
 1 
 2 
 
xi 3 . . xiK *   3    i
 . 
 . 
 K 
 y1   x11 x12
 y 2   x 21 x 22
 y  x x
 3   31 32
 y 4    x 41 x 42
 y 5   x51 x52
 .   . .
 .   . .
 y N   x N 1 x N 2
Nota: Frequentmente aparece x’β escrito como xβ
x13
x 23
x33
x 43
x53
.
.
xN 3
. . x1 K 
 1 
. . x2 K   1    2 
. . x3 K    2    3 

. . x4 K  *   3    . 
   
. . x5 K   .   . 
.. .   .   . 
. . .   K   . 
 N 
. . x NK 
OLS



Também chamado “regressão linear“
Assume que variável dependente é uma combinação linear de
variáveis independentes mais um ruido aleatário.
“Least squares” ou Mínimos quadrados: porque β’s são de forma a
minimizar a soma dos ε’s.
min  ( i ) 2
b  ( X ' X ) 1 X ' y

Em que:
n
ˆ1 
 ( x  x )( y  y )
i
i 1
n
 (x  x )
i 1

i
2
i
que a expressão acima indica que a estimativa OLS do parâmetro de
inclinação é igual a covariância entre x e y dividida pela variância de x.
Pressupostos do OLS

Os Residuos i.i.d (seguem uma distribuição normal, têm média zero e
varância constante)

Residuos têm média zero ….…………………………….

ε’s e os X’s não estão correlacionados……………….….


E ( i | X i )  0
E ( i X i )  0
Homoscedasticidae: todos os ε’s têm variância igual…………


violada se o regressor for endógeno
 Tal pode ser solucionado pelo método das
Variáveis instrumentais
E ( i )  0
opção ‘robust’ no STATA
Var ( i )   2
Non-autocorrelatção: ε’s não são correlacionados uns com os outros …

Quando o mesmo índividuo é observado várias vezes
 opção‘cluster’ no STATA
E ( i  j )  0
Interpretação dos resultados do Stata
para OLS
Condição if
Variável dependente
MS = SS/df
. do "C:\DOCUME~1\maria\LOCALS~1\Temp\STD03000000.tmp"
Analises da variância
.
(ANOVA) t
reg incm female age age2 partner ed_sec ed_deg mth_int if age >= 17 & age <= 64
Source
Modelo SS /
Total SS
SS
df
MS
Model
Residual
4.8145e+09
7
1.1811e+10 16450
687785597
718000.667
Total
1.6626e+10 16457
1010245.5
incm
Coef.
female
age
age2
partner
ed_sec
ed_deg
mth_int
_cons
-594.9641
101.0994
-1.155281
155.7992
380.5032
1076.674
-5.059072
-819.931
Std. Err.
13.26812
3.859657
.0479992
16.62703
14.36582
20.54526
4.036446
78.80064
t
-44.84
26.19
-24.07
9.37
26.49
52.40
-1.25
-10.41
Number of obs
F( 7, 16450)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000
0.000
0.000
0.000
0.000
0.210
0.000
T-stat =
coeficiente / desvio padrão
=
=
=
=
=
=
16458
957.92
0.0000
0.2896
0.2893
847.35
Testa se todos
os coefs.
excepto a
constante são
todos zero
[95% Conf. Interval]
-620.9711
93.53401
-1.249364
123.2085
352.3446
1036.403
-12.97094
-974.3888
-568.9571
108.6647
-1.061197
188.39
408.6618
1116.945
2.8528
-665.4732
Intervalos definiddos para os
coeficientes com + ou – 1.96
desvio padrões
Modelos dinâmicos simples que utilizam
dados em painel
Modelo auto-regressivos and com a variável dependente
desfasada
 Modelos de variação

yi    xi  ......  i
Regressão em OLS
yi1    xi1 ......  i1
Estimar um modelo em separado para cada ano
yi 2    xi 2  ......  i 2
( yi 2  yi1 )  ( xi 2  xi1 ) ...... ( i 2   i1 )
yi  xi  ......  i
Subtrair o 1o ao 2o modelo
Or, express in terms of change
Panel data format
Explain how obtain and join the data
Explain how to build the variables for research
Explain the structure of a panel data and the
exploratory analysis of the data
•
•
•
Econometric Analysis of Panel Data

Introduction
◦ Panel Data Definition

yit , x it (t  1, 2,..., Ti ; i  1,..., N )
Data on n cases, over t time periods, giving a total of n × t observations




Unbalanced Panel
Ti  T ,  i
Balanced Panel:
Short Panel: T   , N  
Long Panel: T   , N  
◦ Panel Data Analysis
yit  x it   u i  eit
 Unobserved Heterogeneity
 Cross Section and Time Series Correlation

First need to tell Stata that you have panel data using xtset

Stata tools for analyzing panel data begin with the prefix xt
Whether appending or merging

Whether appending or merging
◦ The data set you are using at the time is called
the “master” data
◦ The data set you want to merge it with is called
the “using” data
◦ Make sure you can identify observations
properly beforehand
◦ Make sure you can identify observations
uniquely afterwards
Appending

Use this command to add more observations

Check first that you are really adding observations you don’t already
have (or that if you are adding duplicates, you really want to do this)

Syntax: append using using_data

STATA simply sticks the “using” data on the end of the “master” data

STATA re-orders the variables if necessary.

If the using data contain variables not present in the master data,
STATA sets the values of these variables to missing in the using data

(and vice versa if the master data contains variables not present in the
using data)
Merging

Use “merge” to add more variables to a data set
Using data:
Pid wave
19057 1
19057 3
28005 1
28005 2
28005 4
42571 1
42571 3
Master data: age.dta
Pid wave age
28005 1
30
19057 1
59
28005 2
31
19057 3
61
19057 4
62
28005 4
33

gender.dta
gender
female
female
male
male
male
male
male
First, make sure both data sets are sorted the same way
use gender.dta
sort pid wave
save, replace
use age.dta
sort pid wave
Merging
Master data: age.dta
Pid wave age
19057 1
59
19057 3
61
19057 4
62
28005 1
30
28005 2
31
28005 4
33

Using data: sex.dta
pid
wave sex
19057 1
female
19057 3
female
28005
28005
28005
42571
42571
1
2
4
1
3
male
male
male
male
male
Notice that both data sets don’t contain the same observations
•
merge 1:1 pid wave using sex
Pid wave
19057
1
19057
3
19057
4
28005
1
28005
2
28005
4
42571
1
42571
3
age
59
61
62
30
31
33
.
.
gender _merge
female
3
female
3
.
1
male
3
male
3
male
3
male
2
male
2
Merging

STATA creates a variable called _merge
after merging
 1: observation in master but not using data
 2: observation in using but not master data
 3: observation in both data sets

Options available for discarding some
observations – see help, manual
Reshape wide to long
insheet using "C:\data\exceltable.csv", delimiter(";") clear
save "C:\datai\gdp_imp.dta", replace
gen id = _n
order id
reshape long x , i(id) j(year)
encode variable, gen(varlabel)
tab varlabel
*Crear um do-file com os labels para cada variáve. Muito util com muitas variáveis .
label save varlabel using varname, replace
label define varlabel 1 `"var1"', modify
label define varlabel 2 `"var2"', modify
egen id2 = group(country year)
move id2 year
drop id
drop variable
reshape wide x, i(id2) j(varlabel)
order id2 country year x1 x2
More on merging

Previous example showed one-to-one merging

Not every observation was in both data sets, but every observation in the master data was
matched with a maximum of only one observation in the using data – and vice versa.

Many-to-one merging:
◦
(hid) household-level data sets contain only one observation per household (usually <1 per person)
◦
Sample syntax: merge m:1 hid wave using hhinc_data
hid
1604
2341
3569
4301
4301
4956
5421
6363
6827
6827
pid
age
19057
59
28005
30
42571
59
51538
22
51562
4
59377
46
64966
70
76166
77
81763
71
81798
72
hid
1604
2341
3569
4301
4956
5421
6363
6827
h/h income
780
1501
268
394
1601
225
411
743
hid
1604
2341
3569
4301
4301
4956
5421
6363
6827
6827
pid
19057
28005
42571
51538
51562
59377
64966
76166
81763
81798
age
59
30
59
22
4
46
70
77
71
72
h/h income
780
1501
268
394
394
1601
225
411
743
743
NOW!
Go
To:
◦ubi_varpanel.do
◦ubi_lsiv.do
Using Stata

Declare Panel Data and Variables
◦ xtset (or tsset)
◦ xttab

Panel Data Analysis: xt commands
◦
◦
◦
◦

xtdes
xtsum
xtdata
xtline
Panel Data Regression
◦ Xtreg
◦ xtivreg (Instrumental Variables Estimation)
◦ xtabond (Arellano-Bond Estimator)
xtsum in STATA
Similar to ordinary “sum” command

.
xtset pid wave
panel variable:
time variable:
delta:
.
pid (unbalanced)
wave, 1 to 15, but with gaps
1 unit
Have chosen a balanced sample
xtsum female partner age ue_sick LIKERT wave if nwaves == 15
Variable
Mean
Std. Dev.
Min
Max
Observations
female
overall
between
within
.5397574
.4984321
.4989059
0
0
0
.5397574
1
1
.5397574
N =
16324
n =
1237
T-bar = 13.1964
partner
overall
between
within
.6892954
.4627963
.4217842
.243531
0
0
-.244038
1
1
1.622629
N =
16292
n =
1234
T-bar = 13.2026
age
overall
between
within
40.03349
19.74332
19.27238
4.31763
0
6.4
31.30015
98
90.93333
54.30015
ue_sick
overall
between
within
.0672924
.2505353
.1738938
.1852756
0
0
-.866041
1
1
1.000626
N =
16302
n =
1237
T-bar = 13.1787
LIKERT
overall
between
within
11.26167
5.344825
3.609665
4.030974
0
0
-6.738331
36
29.69231
35.12834
N =
15661
n =
1225
T-bar = 12.7845
wave
overall
between
within
8
4.320605
0
4.320605
1
8
1
15
8
15
N =
n =
T =
N =
n =
T =
19410
1294
15
19410
1294
15
All variation is
“between”
Most variation is
“between”,
because it’s
fairly rare to
switch between
having and not
having a partner
All variation is within,
because this is a balanced
sample
More on xtsum….
.
.
xtset pid wave
panel variable:
time variable:
delta:
pid (unbalanced)
wave, 1 to 15, but with gaps
1 unit
xtsum female partner age ue_sick LIKERT wave if nwaves == 15
Variable
Mean
Min
Max
Observations
.4984321
.4989059
0
0
0
.5397574
1
1
.5397574
N =
16324
n =
1237
T-bar = 13.1964
.6892954
.4627963
.4217842
.243531
0
0
-.244038
1
1
1.622629
N =
16292
n =
1234
T-bar = 13.2026
overall
between
within
40.03349
19.74332
19.27238
4.31763
0
6.4
31.30015
98
90.93333
54.30015
ue_sick
overall
between
within
.0672924
.2505353
.1738938
.1852756
0
0
-.866041
1
1
1.000626
N =
16302
n =
1237
T-bar = 13.1787
LIKERT
overall
between
within
11.26167
5.344825
3.609665
4.030974
0
0
-6.738331
36
29.69231
35.12834
N =
15661
n =
1225
T-bar = 12.7845
wave
overall
between
within
8
4.320605
0
4.320605
1
8
1
15
8
15
overall
between
within
.5397574
partner
overall
between
within
age
female
Std. Dev.
N =
n =
T =
N =
n =
T =
19410
1294
15
Observations with
non-missing
variable
Number of
individuals
Average number of
time-points
Min & max refer to xi-bar
19410
1294
15
Min & max refer to individual deviation from own averages, with global averages added back in.
The xttab command
For simplicity, omitted jbstats of missing, maternity leave,
gov training and other.
.
xttab jbstat if nwaves == 15 & jbstat >= 1 & jbstat != 5 & jbstat <= 8
jbstat
Overall
Freq. Percent
self-emp
employed
unemploy
retired
family c
ft studt
lt sick,
1388
8982
539
2687
1159
718
558
8.66
56.03
3.36
16.76
7.23
4.48
3.48
Total
16031
100.00
Pooled sample, broken down
by person/years
Between
Freq. Percent
228
974
274
314
292
271
105
2458
(n = 1236)
Within
Percent
18.45
78.80
22.17
25.40
23.62
21.93
8.50
42.72
68.27
17.51
58.49
28.97
42.93
39.08
198.87
50.28
Number of people who spent
any time in this state
Panel correlations
Of those who spent any time
in this state, the proportion
of their time (on average)
they spent in it.
ESTIMATING (STATIC) LINEAR
PANEL DATA MODELS WITH STATA
ESTV-IPV
Sumário






Tipos de variáveis: as que variam no tempo invariantes com
o tempo, e as de tendência
Variação individual “between” e “within”
Conceito de heterogeneidade individual
Propriedades base dos modelos de efeitos fixos (FE) e
aleatórios (RE)
Discutir as limitações dos modelos estáticos, prestanto
particular atenção ao facto de que é dificil encontrar
modelos com variáveis estrictamente endógenas na área
microeconomia.
Implementação no STATA
Conceito de heterogeneidade individual
Um conceito muito simple: as pessoas e as empresas são
diferentes!
 Nas Ciências Sociais quando falamos de heterogeneidade,
estamos a falar de uma heterogeneidade não observável (ou
observada).
◦ Heterogeneidade observável : diferenças nos niveis de
educação, ou algo que possamos medir e controlar os
efeitos na regressão.
◦ Heterogeneidade
não
observável:
algo
que
é
fundamentalmente não mensurável, ou apenas mensurável
com uma grande margem de erro, ou ainda que pelo menos
que não conste dos dados disponiveis para o nosso
trabalho.

Heterogeneidade não observável
y i    xi1  1  xi 2  2  xi 3  3  .........  xiK  K  u i   i

Re-escrever a equação OLS, dividindo o termo de erro em
duas componentes: uma representando as caracteristicas
não observáveis da entidade e a outra que representa o
termo de erro genenuinamente aletáorio

Nas análises cross-section, não há forma de distinguir entre
as duas componentes.

Na análise de dados de painel, temos observações
repetidas para cada individuo –
e isto permite-nos
distinguir entre duas estas componentes.
Usando variáveis dummy

Pressuposto: impacto parcial (inclinação)
mantem-se constante ao longo do tempo e para
os vários países

Métodos diferentes
◦ Inserir dummies de tempo na regressão
◦ Inserir dummies para as unidades cross-seccionais
◦ Inserir os dois tipos de dummies

Nota: Frequentemente as dummies não são
reportadas se demasiado numerosas!
Usando variáveis dummy

Na regressão múltipla, incluimos variaveis dummy (dum_1 dum_2
dum_3 dum_4) que permitem controlar o efeito individual
especifico (ui)
Sem incluir as dummies das entidades, a nossa estimativa de 
será enviesada porque as dummies estão correlacionadas com a
idade.
 dummies das entidades “explicam” toda a variação cross-seccional
da carcteristica individual não observável ao longo destas quatro
entidades.
 Notar que é necessário omitir pelo menos uma variável dummy ou
a constante do modelo de forma a evitar collinearidade

◦ tab identifier, gen(dum_)
◦ reg y x dum_1 dum_2 dum_4 ou
◦ reg y x dum_1 dum_2 dum_3 dum_4, nocons
34
Método alternativo para estimar com dados em painel

Em vez de incluirmos variáveis dummy, podemos controlar
os efeitos idiossincráticos transformando as variáveis Y e X
variables.

Taking averages of eq. (1) over time gives:

Subtraindo a eq. (2) da eq. (1) resulta:

O mais importante é notar que os feitos especificos
individuais (ui) foram “diferenciados para fora” “de forma a
não enviesar a nossa estimativa de .
35
Fixed effects – Efeitos fixos (FE)
y it    xit   u i   it
( y it  y i )  ( xit  x i )   ( it   i )

Poucos pressupostos são necessários para FE ser consistente

Ignora a variação entre grupos (between-group) pelo que será um estimador
ineficiente

Não podemos estimar coeficientes para variáveis que não variam no tempo
Variação entre (Between) e dentro (Within) individuos

Se temos uma amostra com obervações repetidas para os mesmos
individuos, there temos que reconhecer que há duas fontes de variação
dentro da amostra:
◦ O facto dos individuos serem sistemáticamente diferentes uns dos outros (variação
between individuos)
◦ O facto do comportamento dos individuos variar de uma obervação para outra
(within individuos)
T   ( xij  x ) 2
i
j
W   ( xij  x i ) 2
i
j
B   ( x i  x i ) 2   ni ( x i  x ) 2
i
j
i
i denotes individuals, j denotes years
- A variação Total é a soma, para todos os individuos
e anos, do quadrado da diferença entre cada
obervação de x e a sua média.
- A variação Within é a soma dos quadrados das
diferenças entre a observação de cada individuo e a
sua média de cada individuo
- A variação Between é a soma dos quadrados das
diferenças entre as médias de cada individuo e a
média de toda a amostra
xij  a person - year observation
x  whole - sample mean
x i  mean of observations for person i
Pensando em termos de declives e interseção

Métodos “cross-section” e pool de datos para
vários períodos ou vagas
◦ Assume que os betas são iguais entre individuos
◦ A intersecção da recta da regressão é também igual para todos
individuos

Efeitos Fixos (Fixed effects - FE)
◦ Assume que os betas são iguais entre individuos
◦ Permite que a intersecção da recta da regressão para cada
individuo varie, mas que seja constante ao longo do tempo

Efeitos aletórios (Random effects - RE)
◦ Assume que os betas são iguais entre individuos [e betas “within”
e betas “between” são identicos]
◦ Permite intersecção da recta da regressão para cada individuo
varie, e “within” individuos ao longo do tempo.
O estimador de efeitos fixos (FE)

O modelo FE controla todas as diferenças que não variam no
tempo entre individuos, pelo que os coeficientes estimados para
os modelos FE não serão enviesados por causa caracteristicas
omitidas que não variem no tempo (género, nacionalidade, )

Um efeito colateral dos modelos FE é que assim não permitem
investigar as consequências destas variáveis que não variem no
tempo na variável dependente

Tecnicamente as caracteristicas que não variem no tempo dos
individuos são perfeitamente colineares com as dummies das
respectivas entidades.

Substantivamente, os modelos FE são apropriados para estudar
as causas das mudanças em cada individuo ou entidade (within).
Uma caracteristica que não varie no tempo não pode causar essa
variabilidade, pois são uma constante para cada individuo.
39
O estimador de efeitos fixos (FE)

Use FE quando estiver apenas interessado em analizar o impacto das
variáveis que variam ao longo do tempo.

Outro importante pressuposto do modelo FE é de que estas
caracteristicas, que não variam no tempo, são únicas ao grupo e que
não são correlacionadas com as caracteristicas de outros grupos. Cada
entidade é diferente, assim o termo de erro de cada entidade e a
constante (que captura as caracteristicas individuais) não deve ser
correlacionado com os outros.
◦ Se os termos de erro são correlacionadas então o estimador FE não é o
indicado porque a inferência pode não ser correcta . É necessário então
modelar a relação (provavelmente usando random-effects), o que é a lógica
do teste de Hausman (apresentado mais adiante).
O estimador de efeitos fixos no Stata
(xtreg, fe i())

xt é um prefixo que diz ao STATA que vamos
estimar um modelo em dados de painel

A opção fe diz ao STATA que vamos estimar um
modelo de feitos fixos FE
◦ Estimar em OLS é equivalente a incluir variáveis
dummy para controlar os efeitos individuais especificos

O termo i() diz ao STATA qual o identificador do
grupo
◦ xtreg y x, fe i(identifier)
41
Time variables insignificant here (as we would
expect)
Fixed effects estimation
using xtreg y x, fe

sigma_u é o desvio padrão das
estimativas dos efeitos fixos, ui (u)

sigma_e é o desvio padrão das
estimativas dos residuos, eit (e)

rho = u2 / (u2 + e2)
43
O estimador de efeitos aleatórios (RE)

Outra alternativa é o modelo “random effects” (RE) no qual se
assume que os ui são distribuidos aleatoriomante com média
zero e uma variância constante (ui ~ I.I.D(0, 2u) em vez de
serem fixos.
“…the crucial distinction between fixed and random effects is whether the
unobserved individual effect embodies elements that are correlated with the
regressors in the model, not whether these effects are stochastic or not”
(Green, 2008, p.183)



Uma imagem intuitiva, do modelo RE é que é identico a ter um
modelo OLS onde a intersecção da recta da regressão varia
aleatóriamente entre individuos.
Como o simples OLS, a variação entre entidades é assumida
ser aleatória e não correlacionada com as variáveis
independentes incluidas no modelo, ou seja, assume uma
correlação nula correlation entre ui e Xit
Se ui e Xit estão correlacionados, as estimativas RE estão
enviesadas e não consistentes
44
O estimador de efeitos aleatórios (RE)

O modelo RE permite que as variáveis que não variam no
tempo desepenhem um papel enquanto variáveis
explicativas. No modelo FE estas variáveis são absorvidas
pela intersecção da recta de regressão

No estimador RE é necessário especificar as
caracteristicas que podem ou não influenciar as previsões.
◦ O problema é que algumas variáveis não estarão disponiveis
levando a um problema de enviesamento por omissão de variáveis.

RE é eficiente por que faz um melhor uso dos dados.
O estimador de efeitos aleatórios (RE)
Faz uso da variação within e between entidadades, fazendo
um uso mais eficiente dos dados.
 O modelo RE pode ser pensado como uma solução
intermédia entre ignorar a variação entre grupos (FE) e
tratá-la como a variação dentro do grupo (OLS)

( yit   y i )  (1   )  ( xit   x i )   {(1   )ui  ( it    i )}

O modelo RE (0    1) também é conhevido como
estimador
“generalized least squares” ou mínimos
quadrados generalizados (i.e., é mais geral que o OLS ou o
modelo FE como demonstraremos adiante.
◦ O modelo OLS corresponde a  = 0.
46
Estimação com “random effects” (xtreg, re)

Se queremos estimar o modelo RE, o comando do stata é xtreg , re i().
Por exemplo: xtreg gdp pop, re i( identifier)

O resto do output é similar ao modelo FE excepto:
◦ Usa-se uma estatistica teste de Wald em vez de uma estatistica F
para testar a significância das variáveis independentes.
.
xtreg LIKERT female ue_sick partner age age2 badh, re theta
Random-effects GLS regression
Group variable: pid
Number of obs
Number of groups
=
=
24204
3317
R-sq:
Obs per group: min =
avg =
max =
1
7.3
14
within = 0.0500
between = 0.2239
overall = 0.1471
Random effects u_i ~ Gaussian
corr(u_i, X)
= 0 (assumed)
min
0.1986
5%
0.1986
theta
median
0.5482
95%
0.6629
Std. Err.
Wald chi2(6)
Prob > chi2
=
=
2013.32
0.0000
max
0.6629
LIKERT
Coef.
female
ue_sick
partner
age
age2
badhealth
_cons
1.493431
2.045302
-.1947691
.1058038
-.0011062
1.433115
5.181864
.1259931
.1271039
.0973734
.014544
.0001498
.0385506
.3137662
z
sigma_u
sigma_e
rho
3.0248563
4.0525618
.3577895
(fraction of variance due to u_i)
11.85
16.09
-2.00
7.27
-7.39
37.17
16.52
P>|z|
0.000
0.000
0.045
0.000
0.000
0.000
0.000
[95% Conf. Interval]
1.246489
1.796183
-.3856175
.0772981
-.0013998
1.357558
4.566894
1.740373
2.294422
-.0039207
.1343094
-.0008126
1.508673
5.796835
47
O teste de Hausman

Podemos testar se ui e Xit estão correlacionados.
◦ Se estão correlacionados devemos usar o estimador FE no lugar do
OLS ou RE (senão os coefficients serão enviesados).
◦ Se não estão correlacionados, é melhor usar o estimador RE porque é
mais eficiente.

Segundo o teste concebido por Hausman
◦ Se ui e Xit estão correlacionados, the random-effects estimates are
biased (inconsistent) while the fixed-effects coefficients are unbiased
(consistent)
 Neste caso há grandes diferenças entre os coeficientes estimados
por FE e RE
◦ Se não estão correlacionados, os coeficientes fornecidos por RE e FE
são ambos consistentes, mas os coeficientes FE são infecientes
enquantos que os do RE são eficientes.
 Neste caso não haverá grandes diferenças entre os coeficientes
estimados por FE e RE

O teste de Hausman indica se os dois conjuntos de coeficientes são
significativamente diferentes.
48
Hausman test: (estimates store, hausman)

Pra decidir entre FE ou RE podemos correr um test Hausman onde a
hipótese nula é de que o modelo preferido é RE vs. a alternativa FE.
◦ Testa basicamente se erros específicos (ui) estão correlacionados com os
regressores. Na hipótese nula não estão.

Procedimento para executar um teste de Hausman será o
seguinte:
◦ Guardar os coeficientes que serão consistentes ainda que a hipotese
nula não seja verdadeira:
 xtreg gdp pop, fe i( id)
 estimates store fixed_effects
◦ Guardar os coeficientes que serão inconsistentes se hipotese nula
não forverdadeira :
 xtreg gdp pop, re i( id)
 estimates store random_effects
◦ The comando para o teste Hausman:
 hausman name_consistent name_efficient
 hausman fixed_effects random_effects
49
Testando entre FE and RE
Hypothesis H0: ui is uncorrelated with xi
Hypothesis H1: ui is correlated with xi
Fixed effects é consistente sob H0 e H1
Random effects é eficiente e consistente sob H0 (mas inconsistente sob H1)
.
quietly xtreg LIKERT female ue_sick partner age age2 badh, fe
.
estimates store fixed
.
quietly xtreg LIKERT female ue_sick partner age age2 badh, re
.
hausman fixed .
Coefficients
(b)
(B)
fixed
.
1.951485
-.298668
.1141748
-.0011833
1.230831
ue_sick
partner
age
age2
badhealth
2.045302
-.1947691
.1058038
-.0011062
1.433115
(b-B)
Difference
sqrt(diag(V_b-V_B))
S.E.
-.0938175
-.1038989
.008371
-.0000771
-.2022848
.0572845
.0677693
.0157531
.0001624
.0187202
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test:
Ho:
difference in coefficients not systematic
chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B)
=
123.96
Prob>chi2 =
0.0000
Random effects rejeitado (inconsistente)
em favor dos fixed effects (consistente
mas ineficient)
•Notar que a matriz das diferenças (Vc-Ve)-1 só assimptóticamente é que é
garantidamente positiva. Em amostras pequenas, esta propriedade assimptótica
pode não se verificar pelo que a estatistica chi2 será negativa.
Testando entre FE and RE
.
quietly xtreg LIKERT female ue_sick partner age age2 badh, fe
.
estimates store fixed
.
quietly xtreg LIKERT female ue_sick partner age age2 badh, re
.
hausman fixed .
Coefficients
(b)
(B)
fixed
.
1.951485
-.298668
.1141748
-.0011833
1.230831
ue_sick
partner
age
age2
badhealth
2.045302
-.1947691
.1058038
-.0011062
1.433115
(b-B)
Difference
-.0938175
-.1038989
.008371
-.0000771
-.2022848
sqrt(diag(V_b-V_B))
S.E.
.0572845
.0677693
.0157531
.0001624
.0187202
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test:
Ho:
difference in coefficients not systematic
chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B)
=
123.96
Prob>chi2 =
0.0000
Estimadores FE, RE e BE
Efeito especifico, fixo ao longo de tempo
Os residuos variam ao longo do tempo e os pressupostos normais
aplicam-se (média zero, homoscedasticidade, não correlacionado com x
mean of all observations for personou
i u or consigo mesmo)
yit    xit   ui   it
y i    x i   ui   i
subtracting :
( yit  y i )  ( xit  x i )   ( it   i )
Estimador “between”
Estimador “within” ou “efeitos fixos”
e finalmente, o estimador de efeitos aleatórios
is a que é uma média ponderada dos estimadores within e between estimators
( yit   y i )  (1   )  ( xit   x i )   {(1   )ui  ( it    i )}
O ponderador θ; o modelo FE é um
caso especial do modelo RE (quando
θ=1). θ mede o peso dado à variação
entre (between) grupos, e é derivado
das variâncias de ui e de εi.
O estimador “Between” (xtreg, be) é raramente usado
É ineficiente comparado com os “random effects”, pois só faz uso da média
das variáveis.
NOW!
Go
To:
◦ubi_fdferebe.do
OS MODELOS DINÂMICOS E
O MÉTODO GENERALIZADO
DOS MOMENTOS (GMM)
ESTV-IPV
Variáveis Instrumentais
Vamos primeiro considerar um diagrama de causalidade para
ilustrar o problema colocado por variáveis instrumentais.
Podemos usar mínimos quadrados ordinários (OLS) para
estimar consistentemente o seguinte modelo:
regressão: y = xb + u (1)
y
X
u
Nenhuma associação entre x e u; OLS é consistente
Variáveis Instrumentais
O estimador OLS respeita a Hipótese da esperança
condicional nula, pode ser expressa por E[u|x] = 0. Esta
condição também pode ser representada pela independência
entre u e X, ou seja, covariância(u,x)=0
x
y
u
Entretanto, a regressão falha quando:
Endogeneidade: y = xb + u
Correlação entre x e u; OLS não é consistente.
•Uma situação em que temos que utilizar
variáveis
instrumentais é quando temos que levar em conta factores
não observáveis relevantes e que são omitidos da equação
de regressão.
o Tanto y como x podem ser afetados por estes factores
latentes, como por exemplo a habilidade.
• Considere a regressão de (ln) rendimentos (y) sobre anos
de estudo (x). O termo de erro u engloba todos os outros
factores que afetam os rendimentos tais como habilidade
inata dos indivíduos ou inteligência.
•Mas a habilidade é certamente correlacionada com o
grau de escolaridade alcançado, causando uma
correlação entre o regressor e o erro,
•Matematicamente, este é o mesmo problema que aquele
causado pela endogeneidade ou erros de medida.
A solução deste problema por variáveis instrumentais pode
ser vista como uma Regressão de variáveis
instrumentais: y = xb + u
Assim se z não correlacionado com u, correlacionado com
x
z
x
y
u
• Então a variável adicional z é chamada de instrumento
para x. Em geral, temos muitas variáveis em x, e mais de
uma destas variáveis correlacionada com u.
• Neste caso, necessitamos no mínimo tantas variáveis em
z, quantas forem as variáveis em x correlacionadas com u.
Porque não utilizar sempre variáveis
instrumentais?

Estimadores IV são enviesados para pequenas amostras e
suas propriedades para amostras finitas são freqüentemente
problemáticas.

A precisão de estimadores IV é menor do que a de
estimadores OLS. Na presença de instrumentos fracos
(instrumentos incluídos com baixa correlação com os
regressores endógenos) a perda de precisão é muito grande
e as estimativas IV podem não compensar a inconsistência
dos estimadores OLS.
O problema da selecção dos instrumentos


Pode ser difícil achar variáveis que servem como instrumentos
válidos. Muitas variáveis que têm um efeito sobre as variáveis
endógenas incluídas, também têm um efeito direto sobre a
variável dependente.
Por outrolado, os instrumentos podem ser fracos:
◦ satisfatoriamente exógenos, mas fracamente correlacionados com os
regressores endógenos. Neste caso, “a cura pode ser pior do que a doença”.

Embora os estimadores de VI sejam consistentes quando z e u
são não correlacionados e z e x tem qualquer correlação positiva
ou negativa, as estimativas de VI podem ter grandes erros
padrão, especialmente se z e x forem fracamente
correlacionados.
◦ O estimador de VI também pode ter um grande enviesamenyo assimptótico
mesmo se z e u forem só moderadamente correlacionados.
Que método de estimação aplicar

Vamos sistematizar o que vimos até agora sobre variáveis instrumentais.
Quando temos certeza de que os regressores da nossa equação não
estão correlacionados com os erros podemos aplicar o método
convencional de OLS.

No entanto, mesmo nesse caso temos que verificar se os resíduos da
regressão são homocedásticos. Então temos que realizar o teste
heterocedasticidade. Caso os resíduos sejam heterocedásticos temos
que realizar a regressão robusta. Isto pode ser feito utilizando a opção
robust (após a vírgula) no comando regress.

Caso tenhamos motivos para acreditar que um ou mais regressores
sejam endógenos (tenham correlação não nula com termo de erro da
equação) temos que aplicar o método das variáveis instrumentais.

Mas mesmo nesse caso podemos ter uma complicação. Pode acontecer
que aplicando o método das variáveis instrumentais os resíduos do
modelo não sejam homocedásticos. Nesse caso temos que aplicar o
método das variáveis instrumentais articulado com o método dos
momentos generalizados (GMM).