Vantagens da análise de dados em painel
Transcription
Vantagens da análise de dados em painel
ESTIMAÇÃO DE MODELOS LINEARES COM DADOS DE PAINEL ESTV-IPV Vantagens da análise de dados em painel Na área da finança, ainda não há muitos estudos que explorem os dados em painel que permitam controlar os efeitos específicos (e não observáveis) a uma dada empresa, não. ◦ A maioria dos estudo apenas apresenta as estimações em OLS para a “pool” dos dados Estes estudos frequentemente não fazem qualquer ajuste aos desvios padrão dos erros na estimação em OLS, o que pode pode ser muito enganador especialmente quando os paineis são longos (i.e. quando o periodo de amostragem cobre muitos anos) 2 Vantagens da análise de dados em painel Reduzir a multicollineariedae “Fundir “dados seccionais com séries temporais Mais graus de liberdade Um problem sobretudo nos modelos com variáveis desfasadas Derivados do maior número de observações Mais observações Maior eficiência (estimador não enviesado com variâncias menores para todos os possiveis valores dos parâmetros) Vantagens da análise de dados em painel Assim podemos enunciar pelo menos três grandes vantagens da análise de dados em painel: ◦ Podemos controlar os efeitos fixos não observáveis que podem enviesar as estimativas dos coeficientes. Estes efeitos fixos não observáveis podem ser especificos à empresa, ao país ou ao indviduo. ◦ Uma amostra maior possibilita estimativas mais precisas dos coeficientes. ◦ Podemos incluir variáveis desfasadas ou em diferenças nos nosso modelos. 4 Estimar em dados de painel no STATA Explicar as principais carcteristicas ( i.e. sintaxe da linguagem) para estimar usando o software econométrico Stata. Explicar os comandos e a sintaxe para estimar os modelos lineares estáticos com dados em painel. Explicar os comandos e a sintaxe para estimar os modelos lineares dinâmicos com dados em painel. Proporcionar aos investigadores ferramentas para uma gestão eficiente do processo de investigação utilizando a metodologia de dados de painel e o software Stata. Modelos lineares dinâmicos com dados em painel Descrever os pressupostos e as formulas anlíticas dos modelo dinâmicos, começando pelo modelo mais simples: o autoregresssivo Extender o modelo autoregresssivo para os caso em que há também variáveis explicativas predeterminadas e/ou estrictamente exogenas. Explicar em que casos e como é possivel extender a nossa análise utilizando o método GMM (e a sua variação o GMMSYS). Explicar que instrumentos são válidos. Notar que esta decisão tem de ser tomada pelo investigador quando estima o modelo Explicar que testes de especificação são exigidos quando usamos a metodologia GMM para estimar os modelos. FUNDAMENTOS DE OLS ESTV-IPV Ordinary Least Squares (OLS) yi xi11 xi 2 2 xi 3 3 ......... xiK K i Na forma vectorial Na forma matricial yi xi ' i Vector das variáveis explicativas y i xi1 xi 2 y X ' Vector dos coeficientes 1 2 xi 3 . . xiK * 3 i . . K y1 x11 x12 y 2 x 21 x 22 y x x 3 31 32 y 4 x 41 x 42 y 5 x51 x52 . . . . . . y N x N 1 x N 2 Nota: Frequentmente aparece x’β escrito como xβ x13 x 23 x33 x 43 x53 . . xN 3 . . x1 K 1 . . x2 K 1 2 . . x3 K 2 3 . . x4 K * 3 . . . x5 K . . .. . . . . . . K . N . . x NK OLS Também chamado “regressão linear“ Assume que variável dependente é uma combinação linear de variáveis independentes mais um ruido aleatário. “Least squares” ou Mínimos quadrados: porque β’s são de forma a minimizar a soma dos ε’s. min ( i ) 2 b ( X ' X ) 1 X ' y Em que: n ˆ1 ( x x )( y y ) i i 1 n (x x ) i 1 i 2 i que a expressão acima indica que a estimativa OLS do parâmetro de inclinação é igual a covariância entre x e y dividida pela variância de x. Pressupostos do OLS Os Residuos i.i.d (seguem uma distribuição normal, têm média zero e varância constante) Residuos têm média zero ….……………………………. ε’s e os X’s não estão correlacionados……………….…. E ( i | X i ) 0 E ( i X i ) 0 Homoscedasticidae: todos os ε’s têm variância igual………… violada se o regressor for endógeno Tal pode ser solucionado pelo método das Variáveis instrumentais E ( i ) 0 opção ‘robust’ no STATA Var ( i ) 2 Non-autocorrelatção: ε’s não são correlacionados uns com os outros … Quando o mesmo índividuo é observado várias vezes opção‘cluster’ no STATA E ( i j ) 0 Interpretação dos resultados do Stata para OLS Condição if Variável dependente MS = SS/df . do "C:\DOCUME~1\maria\LOCALS~1\Temp\STD03000000.tmp" Analises da variância . (ANOVA) t reg incm female age age2 partner ed_sec ed_deg mth_int if age >= 17 & age <= 64 Source Modelo SS / Total SS SS df MS Model Residual 4.8145e+09 7 1.1811e+10 16450 687785597 718000.667 Total 1.6626e+10 16457 1010245.5 incm Coef. female age age2 partner ed_sec ed_deg mth_int _cons -594.9641 101.0994 -1.155281 155.7992 380.5032 1076.674 -5.059072 -819.931 Std. Err. 13.26812 3.859657 .0479992 16.62703 14.36582 20.54526 4.036446 78.80064 t -44.84 26.19 -24.07 9.37 26.49 52.40 -1.25 -10.41 Number of obs F( 7, 16450) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.000 0.000 0.000 0.000 0.000 0.000 0.210 0.000 T-stat = coeficiente / desvio padrão = = = = = = 16458 957.92 0.0000 0.2896 0.2893 847.35 Testa se todos os coefs. excepto a constante são todos zero [95% Conf. Interval] -620.9711 93.53401 -1.249364 123.2085 352.3446 1036.403 -12.97094 -974.3888 -568.9571 108.6647 -1.061197 188.39 408.6618 1116.945 2.8528 -665.4732 Intervalos definiddos para os coeficientes com + ou – 1.96 desvio padrões Modelos dinâmicos simples que utilizam dados em painel Modelo auto-regressivos and com a variável dependente desfasada Modelos de variação yi xi ...... i Regressão em OLS yi1 xi1 ...... i1 Estimar um modelo em separado para cada ano yi 2 xi 2 ...... i 2 ( yi 2 yi1 ) ( xi 2 xi1 ) ...... ( i 2 i1 ) yi xi ...... i Subtrair o 1o ao 2o modelo Or, express in terms of change Panel data format Explain how obtain and join the data Explain how to build the variables for research Explain the structure of a panel data and the exploratory analysis of the data • • • Econometric Analysis of Panel Data Introduction ◦ Panel Data Definition yit , x it (t 1, 2,..., Ti ; i 1,..., N ) Data on n cases, over t time periods, giving a total of n × t observations Unbalanced Panel Ti T , i Balanced Panel: Short Panel: T , N Long Panel: T , N ◦ Panel Data Analysis yit x it u i eit Unobserved Heterogeneity Cross Section and Time Series Correlation First need to tell Stata that you have panel data using xtset Stata tools for analyzing panel data begin with the prefix xt Whether appending or merging Whether appending or merging ◦ The data set you are using at the time is called the “master” data ◦ The data set you want to merge it with is called the “using” data ◦ Make sure you can identify observations properly beforehand ◦ Make sure you can identify observations uniquely afterwards Appending Use this command to add more observations Check first that you are really adding observations you don’t already have (or that if you are adding duplicates, you really want to do this) Syntax: append using using_data STATA simply sticks the “using” data on the end of the “master” data STATA re-orders the variables if necessary. If the using data contain variables not present in the master data, STATA sets the values of these variables to missing in the using data (and vice versa if the master data contains variables not present in the using data) Merging Use “merge” to add more variables to a data set Using data: Pid wave 19057 1 19057 3 28005 1 28005 2 28005 4 42571 1 42571 3 Master data: age.dta Pid wave age 28005 1 30 19057 1 59 28005 2 31 19057 3 61 19057 4 62 28005 4 33 gender.dta gender female female male male male male male First, make sure both data sets are sorted the same way use gender.dta sort pid wave save, replace use age.dta sort pid wave Merging Master data: age.dta Pid wave age 19057 1 59 19057 3 61 19057 4 62 28005 1 30 28005 2 31 28005 4 33 Using data: sex.dta pid wave sex 19057 1 female 19057 3 female 28005 28005 28005 42571 42571 1 2 4 1 3 male male male male male Notice that both data sets don’t contain the same observations • merge 1:1 pid wave using sex Pid wave 19057 1 19057 3 19057 4 28005 1 28005 2 28005 4 42571 1 42571 3 age 59 61 62 30 31 33 . . gender _merge female 3 female 3 . 1 male 3 male 3 male 3 male 2 male 2 Merging STATA creates a variable called _merge after merging 1: observation in master but not using data 2: observation in using but not master data 3: observation in both data sets Options available for discarding some observations – see help, manual Reshape wide to long insheet using "C:\data\exceltable.csv", delimiter(";") clear save "C:\datai\gdp_imp.dta", replace gen id = _n order id reshape long x , i(id) j(year) encode variable, gen(varlabel) tab varlabel *Crear um do-file com os labels para cada variáve. Muito util com muitas variáveis . label save varlabel using varname, replace label define varlabel 1 `"var1"', modify label define varlabel 2 `"var2"', modify egen id2 = group(country year) move id2 year drop id drop variable reshape wide x, i(id2) j(varlabel) order id2 country year x1 x2 More on merging Previous example showed one-to-one merging Not every observation was in both data sets, but every observation in the master data was matched with a maximum of only one observation in the using data – and vice versa. Many-to-one merging: ◦ (hid) household-level data sets contain only one observation per household (usually <1 per person) ◦ Sample syntax: merge m:1 hid wave using hhinc_data hid 1604 2341 3569 4301 4301 4956 5421 6363 6827 6827 pid age 19057 59 28005 30 42571 59 51538 22 51562 4 59377 46 64966 70 76166 77 81763 71 81798 72 hid 1604 2341 3569 4301 4956 5421 6363 6827 h/h income 780 1501 268 394 1601 225 411 743 hid 1604 2341 3569 4301 4301 4956 5421 6363 6827 6827 pid 19057 28005 42571 51538 51562 59377 64966 76166 81763 81798 age 59 30 59 22 4 46 70 77 71 72 h/h income 780 1501 268 394 394 1601 225 411 743 743 NOW! Go To: ◦ubi_varpanel.do ◦ubi_lsiv.do Using Stata Declare Panel Data and Variables ◦ xtset (or tsset) ◦ xttab Panel Data Analysis: xt commands ◦ ◦ ◦ ◦ xtdes xtsum xtdata xtline Panel Data Regression ◦ Xtreg ◦ xtivreg (Instrumental Variables Estimation) ◦ xtabond (Arellano-Bond Estimator) xtsum in STATA Similar to ordinary “sum” command . xtset pid wave panel variable: time variable: delta: . pid (unbalanced) wave, 1 to 15, but with gaps 1 unit Have chosen a balanced sample xtsum female partner age ue_sick LIKERT wave if nwaves == 15 Variable Mean Std. Dev. Min Max Observations female overall between within .5397574 .4984321 .4989059 0 0 0 .5397574 1 1 .5397574 N = 16324 n = 1237 T-bar = 13.1964 partner overall between within .6892954 .4627963 .4217842 .243531 0 0 -.244038 1 1 1.622629 N = 16292 n = 1234 T-bar = 13.2026 age overall between within 40.03349 19.74332 19.27238 4.31763 0 6.4 31.30015 98 90.93333 54.30015 ue_sick overall between within .0672924 .2505353 .1738938 .1852756 0 0 -.866041 1 1 1.000626 N = 16302 n = 1237 T-bar = 13.1787 LIKERT overall between within 11.26167 5.344825 3.609665 4.030974 0 0 -6.738331 36 29.69231 35.12834 N = 15661 n = 1225 T-bar = 12.7845 wave overall between within 8 4.320605 0 4.320605 1 8 1 15 8 15 N = n = T = N = n = T = 19410 1294 15 19410 1294 15 All variation is “between” Most variation is “between”, because it’s fairly rare to switch between having and not having a partner All variation is within, because this is a balanced sample More on xtsum…. . . xtset pid wave panel variable: time variable: delta: pid (unbalanced) wave, 1 to 15, but with gaps 1 unit xtsum female partner age ue_sick LIKERT wave if nwaves == 15 Variable Mean Min Max Observations .4984321 .4989059 0 0 0 .5397574 1 1 .5397574 N = 16324 n = 1237 T-bar = 13.1964 .6892954 .4627963 .4217842 .243531 0 0 -.244038 1 1 1.622629 N = 16292 n = 1234 T-bar = 13.2026 overall between within 40.03349 19.74332 19.27238 4.31763 0 6.4 31.30015 98 90.93333 54.30015 ue_sick overall between within .0672924 .2505353 .1738938 .1852756 0 0 -.866041 1 1 1.000626 N = 16302 n = 1237 T-bar = 13.1787 LIKERT overall between within 11.26167 5.344825 3.609665 4.030974 0 0 -6.738331 36 29.69231 35.12834 N = 15661 n = 1225 T-bar = 12.7845 wave overall between within 8 4.320605 0 4.320605 1 8 1 15 8 15 overall between within .5397574 partner overall between within age female Std. Dev. N = n = T = N = n = T = 19410 1294 15 Observations with non-missing variable Number of individuals Average number of time-points Min & max refer to xi-bar 19410 1294 15 Min & max refer to individual deviation from own averages, with global averages added back in. The xttab command For simplicity, omitted jbstats of missing, maternity leave, gov training and other. . xttab jbstat if nwaves == 15 & jbstat >= 1 & jbstat != 5 & jbstat <= 8 jbstat Overall Freq. Percent self-emp employed unemploy retired family c ft studt lt sick, 1388 8982 539 2687 1159 718 558 8.66 56.03 3.36 16.76 7.23 4.48 3.48 Total 16031 100.00 Pooled sample, broken down by person/years Between Freq. Percent 228 974 274 314 292 271 105 2458 (n = 1236) Within Percent 18.45 78.80 22.17 25.40 23.62 21.93 8.50 42.72 68.27 17.51 58.49 28.97 42.93 39.08 198.87 50.28 Number of people who spent any time in this state Panel correlations Of those who spent any time in this state, the proportion of their time (on average) they spent in it. ESTIMATING (STATIC) LINEAR PANEL DATA MODELS WITH STATA ESTV-IPV Sumário Tipos de variáveis: as que variam no tempo invariantes com o tempo, e as de tendência Variação individual “between” e “within” Conceito de heterogeneidade individual Propriedades base dos modelos de efeitos fixos (FE) e aleatórios (RE) Discutir as limitações dos modelos estáticos, prestanto particular atenção ao facto de que é dificil encontrar modelos com variáveis estrictamente endógenas na área microeconomia. Implementação no STATA Conceito de heterogeneidade individual Um conceito muito simple: as pessoas e as empresas são diferentes! Nas Ciências Sociais quando falamos de heterogeneidade, estamos a falar de uma heterogeneidade não observável (ou observada). ◦ Heterogeneidade observável : diferenças nos niveis de educação, ou algo que possamos medir e controlar os efeitos na regressão. ◦ Heterogeneidade não observável: algo que é fundamentalmente não mensurável, ou apenas mensurável com uma grande margem de erro, ou ainda que pelo menos que não conste dos dados disponiveis para o nosso trabalho. Heterogeneidade não observável y i xi1 1 xi 2 2 xi 3 3 ......... xiK K u i i Re-escrever a equação OLS, dividindo o termo de erro em duas componentes: uma representando as caracteristicas não observáveis da entidade e a outra que representa o termo de erro genenuinamente aletáorio Nas análises cross-section, não há forma de distinguir entre as duas componentes. Na análise de dados de painel, temos observações repetidas para cada individuo – e isto permite-nos distinguir entre duas estas componentes. Usando variáveis dummy Pressuposto: impacto parcial (inclinação) mantem-se constante ao longo do tempo e para os vários países Métodos diferentes ◦ Inserir dummies de tempo na regressão ◦ Inserir dummies para as unidades cross-seccionais ◦ Inserir os dois tipos de dummies Nota: Frequentemente as dummies não são reportadas se demasiado numerosas! Usando variáveis dummy Na regressão múltipla, incluimos variaveis dummy (dum_1 dum_2 dum_3 dum_4) que permitem controlar o efeito individual especifico (ui) Sem incluir as dummies das entidades, a nossa estimativa de será enviesada porque as dummies estão correlacionadas com a idade. dummies das entidades “explicam” toda a variação cross-seccional da carcteristica individual não observável ao longo destas quatro entidades. Notar que é necessário omitir pelo menos uma variável dummy ou a constante do modelo de forma a evitar collinearidade ◦ tab identifier, gen(dum_) ◦ reg y x dum_1 dum_2 dum_4 ou ◦ reg y x dum_1 dum_2 dum_3 dum_4, nocons 34 Método alternativo para estimar com dados em painel Em vez de incluirmos variáveis dummy, podemos controlar os efeitos idiossincráticos transformando as variáveis Y e X variables. Taking averages of eq. (1) over time gives: Subtraindo a eq. (2) da eq. (1) resulta: O mais importante é notar que os feitos especificos individuais (ui) foram “diferenciados para fora” “de forma a não enviesar a nossa estimativa de . 35 Fixed effects – Efeitos fixos (FE) y it xit u i it ( y it y i ) ( xit x i ) ( it i ) Poucos pressupostos são necessários para FE ser consistente Ignora a variação entre grupos (between-group) pelo que será um estimador ineficiente Não podemos estimar coeficientes para variáveis que não variam no tempo Variação entre (Between) e dentro (Within) individuos Se temos uma amostra com obervações repetidas para os mesmos individuos, there temos que reconhecer que há duas fontes de variação dentro da amostra: ◦ O facto dos individuos serem sistemáticamente diferentes uns dos outros (variação between individuos) ◦ O facto do comportamento dos individuos variar de uma obervação para outra (within individuos) T ( xij x ) 2 i j W ( xij x i ) 2 i j B ( x i x i ) 2 ni ( x i x ) 2 i j i i denotes individuals, j denotes years - A variação Total é a soma, para todos os individuos e anos, do quadrado da diferença entre cada obervação de x e a sua média. - A variação Within é a soma dos quadrados das diferenças entre a observação de cada individuo e a sua média de cada individuo - A variação Between é a soma dos quadrados das diferenças entre as médias de cada individuo e a média de toda a amostra xij a person - year observation x whole - sample mean x i mean of observations for person i Pensando em termos de declives e interseção Métodos “cross-section” e pool de datos para vários períodos ou vagas ◦ Assume que os betas são iguais entre individuos ◦ A intersecção da recta da regressão é também igual para todos individuos Efeitos Fixos (Fixed effects - FE) ◦ Assume que os betas são iguais entre individuos ◦ Permite que a intersecção da recta da regressão para cada individuo varie, mas que seja constante ao longo do tempo Efeitos aletórios (Random effects - RE) ◦ Assume que os betas são iguais entre individuos [e betas “within” e betas “between” são identicos] ◦ Permite intersecção da recta da regressão para cada individuo varie, e “within” individuos ao longo do tempo. O estimador de efeitos fixos (FE) O modelo FE controla todas as diferenças que não variam no tempo entre individuos, pelo que os coeficientes estimados para os modelos FE não serão enviesados por causa caracteristicas omitidas que não variem no tempo (género, nacionalidade, ) Um efeito colateral dos modelos FE é que assim não permitem investigar as consequências destas variáveis que não variem no tempo na variável dependente Tecnicamente as caracteristicas que não variem no tempo dos individuos são perfeitamente colineares com as dummies das respectivas entidades. Substantivamente, os modelos FE são apropriados para estudar as causas das mudanças em cada individuo ou entidade (within). Uma caracteristica que não varie no tempo não pode causar essa variabilidade, pois são uma constante para cada individuo. 39 O estimador de efeitos fixos (FE) Use FE quando estiver apenas interessado em analizar o impacto das variáveis que variam ao longo do tempo. Outro importante pressuposto do modelo FE é de que estas caracteristicas, que não variam no tempo, são únicas ao grupo e que não são correlacionadas com as caracteristicas de outros grupos. Cada entidade é diferente, assim o termo de erro de cada entidade e a constante (que captura as caracteristicas individuais) não deve ser correlacionado com os outros. ◦ Se os termos de erro são correlacionadas então o estimador FE não é o indicado porque a inferência pode não ser correcta . É necessário então modelar a relação (provavelmente usando random-effects), o que é a lógica do teste de Hausman (apresentado mais adiante). O estimador de efeitos fixos no Stata (xtreg, fe i()) xt é um prefixo que diz ao STATA que vamos estimar um modelo em dados de painel A opção fe diz ao STATA que vamos estimar um modelo de feitos fixos FE ◦ Estimar em OLS é equivalente a incluir variáveis dummy para controlar os efeitos individuais especificos O termo i() diz ao STATA qual o identificador do grupo ◦ xtreg y x, fe i(identifier) 41 Time variables insignificant here (as we would expect) Fixed effects estimation using xtreg y x, fe sigma_u é o desvio padrão das estimativas dos efeitos fixos, ui (u) sigma_e é o desvio padrão das estimativas dos residuos, eit (e) rho = u2 / (u2 + e2) 43 O estimador de efeitos aleatórios (RE) Outra alternativa é o modelo “random effects” (RE) no qual se assume que os ui são distribuidos aleatoriomante com média zero e uma variância constante (ui ~ I.I.D(0, 2u) em vez de serem fixos. “…the crucial distinction between fixed and random effects is whether the unobserved individual effect embodies elements that are correlated with the regressors in the model, not whether these effects are stochastic or not” (Green, 2008, p.183) Uma imagem intuitiva, do modelo RE é que é identico a ter um modelo OLS onde a intersecção da recta da regressão varia aleatóriamente entre individuos. Como o simples OLS, a variação entre entidades é assumida ser aleatória e não correlacionada com as variáveis independentes incluidas no modelo, ou seja, assume uma correlação nula correlation entre ui e Xit Se ui e Xit estão correlacionados, as estimativas RE estão enviesadas e não consistentes 44 O estimador de efeitos aleatórios (RE) O modelo RE permite que as variáveis que não variam no tempo desepenhem um papel enquanto variáveis explicativas. No modelo FE estas variáveis são absorvidas pela intersecção da recta de regressão No estimador RE é necessário especificar as caracteristicas que podem ou não influenciar as previsões. ◦ O problema é que algumas variáveis não estarão disponiveis levando a um problema de enviesamento por omissão de variáveis. RE é eficiente por que faz um melhor uso dos dados. O estimador de efeitos aleatórios (RE) Faz uso da variação within e between entidadades, fazendo um uso mais eficiente dos dados. O modelo RE pode ser pensado como uma solução intermédia entre ignorar a variação entre grupos (FE) e tratá-la como a variação dentro do grupo (OLS) ( yit y i ) (1 ) ( xit x i ) {(1 )ui ( it i )} O modelo RE (0 1) também é conhevido como estimador “generalized least squares” ou mínimos quadrados generalizados (i.e., é mais geral que o OLS ou o modelo FE como demonstraremos adiante. ◦ O modelo OLS corresponde a = 0. 46 Estimação com “random effects” (xtreg, re) Se queremos estimar o modelo RE, o comando do stata é xtreg , re i(). Por exemplo: xtreg gdp pop, re i( identifier) O resto do output é similar ao modelo FE excepto: ◦ Usa-se uma estatistica teste de Wald em vez de uma estatistica F para testar a significância das variáveis independentes. . xtreg LIKERT female ue_sick partner age age2 badh, re theta Random-effects GLS regression Group variable: pid Number of obs Number of groups = = 24204 3317 R-sq: Obs per group: min = avg = max = 1 7.3 14 within = 0.0500 between = 0.2239 overall = 0.1471 Random effects u_i ~ Gaussian corr(u_i, X) = 0 (assumed) min 0.1986 5% 0.1986 theta median 0.5482 95% 0.6629 Std. Err. Wald chi2(6) Prob > chi2 = = 2013.32 0.0000 max 0.6629 LIKERT Coef. female ue_sick partner age age2 badhealth _cons 1.493431 2.045302 -.1947691 .1058038 -.0011062 1.433115 5.181864 .1259931 .1271039 .0973734 .014544 .0001498 .0385506 .3137662 z sigma_u sigma_e rho 3.0248563 4.0525618 .3577895 (fraction of variance due to u_i) 11.85 16.09 -2.00 7.27 -7.39 37.17 16.52 P>|z| 0.000 0.000 0.045 0.000 0.000 0.000 0.000 [95% Conf. Interval] 1.246489 1.796183 -.3856175 .0772981 -.0013998 1.357558 4.566894 1.740373 2.294422 -.0039207 .1343094 -.0008126 1.508673 5.796835 47 O teste de Hausman Podemos testar se ui e Xit estão correlacionados. ◦ Se estão correlacionados devemos usar o estimador FE no lugar do OLS ou RE (senão os coefficients serão enviesados). ◦ Se não estão correlacionados, é melhor usar o estimador RE porque é mais eficiente. Segundo o teste concebido por Hausman ◦ Se ui e Xit estão correlacionados, the random-effects estimates are biased (inconsistent) while the fixed-effects coefficients are unbiased (consistent) Neste caso há grandes diferenças entre os coeficientes estimados por FE e RE ◦ Se não estão correlacionados, os coeficientes fornecidos por RE e FE são ambos consistentes, mas os coeficientes FE são infecientes enquantos que os do RE são eficientes. Neste caso não haverá grandes diferenças entre os coeficientes estimados por FE e RE O teste de Hausman indica se os dois conjuntos de coeficientes são significativamente diferentes. 48 Hausman test: (estimates store, hausman) Pra decidir entre FE ou RE podemos correr um test Hausman onde a hipótese nula é de que o modelo preferido é RE vs. a alternativa FE. ◦ Testa basicamente se erros específicos (ui) estão correlacionados com os regressores. Na hipótese nula não estão. Procedimento para executar um teste de Hausman será o seguinte: ◦ Guardar os coeficientes que serão consistentes ainda que a hipotese nula não seja verdadeira: xtreg gdp pop, fe i( id) estimates store fixed_effects ◦ Guardar os coeficientes que serão inconsistentes se hipotese nula não forverdadeira : xtreg gdp pop, re i( id) estimates store random_effects ◦ The comando para o teste Hausman: hausman name_consistent name_efficient hausman fixed_effects random_effects 49 Testando entre FE and RE Hypothesis H0: ui is uncorrelated with xi Hypothesis H1: ui is correlated with xi Fixed effects é consistente sob H0 e H1 Random effects é eficiente e consistente sob H0 (mas inconsistente sob H1) . quietly xtreg LIKERT female ue_sick partner age age2 badh, fe . estimates store fixed . quietly xtreg LIKERT female ue_sick partner age age2 badh, re . hausman fixed . Coefficients (b) (B) fixed . 1.951485 -.298668 .1141748 -.0011833 1.230831 ue_sick partner age age2 badhealth 2.045302 -.1947691 .1058038 -.0011062 1.433115 (b-B) Difference sqrt(diag(V_b-V_B)) S.E. -.0938175 -.1038989 .008371 -.0000771 -.2022848 .0572845 .0677693 .0157531 .0001624 .0187202 b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg Test: Ho: difference in coefficients not systematic chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 123.96 Prob>chi2 = 0.0000 Random effects rejeitado (inconsistente) em favor dos fixed effects (consistente mas ineficient) •Notar que a matriz das diferenças (Vc-Ve)-1 só assimptóticamente é que é garantidamente positiva. Em amostras pequenas, esta propriedade assimptótica pode não se verificar pelo que a estatistica chi2 será negativa. Testando entre FE and RE . quietly xtreg LIKERT female ue_sick partner age age2 badh, fe . estimates store fixed . quietly xtreg LIKERT female ue_sick partner age age2 badh, re . hausman fixed . Coefficients (b) (B) fixed . 1.951485 -.298668 .1141748 -.0011833 1.230831 ue_sick partner age age2 badhealth 2.045302 -.1947691 .1058038 -.0011062 1.433115 (b-B) Difference -.0938175 -.1038989 .008371 -.0000771 -.2022848 sqrt(diag(V_b-V_B)) S.E. .0572845 .0677693 .0157531 .0001624 .0187202 b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg Test: Ho: difference in coefficients not systematic chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 123.96 Prob>chi2 = 0.0000 Estimadores FE, RE e BE Efeito especifico, fixo ao longo de tempo Os residuos variam ao longo do tempo e os pressupostos normais aplicam-se (média zero, homoscedasticidade, não correlacionado com x mean of all observations for personou i u or consigo mesmo) yit xit ui it y i x i ui i subtracting : ( yit y i ) ( xit x i ) ( it i ) Estimador “between” Estimador “within” ou “efeitos fixos” e finalmente, o estimador de efeitos aleatórios is a que é uma média ponderada dos estimadores within e between estimators ( yit y i ) (1 ) ( xit x i ) {(1 )ui ( it i )} O ponderador θ; o modelo FE é um caso especial do modelo RE (quando θ=1). θ mede o peso dado à variação entre (between) grupos, e é derivado das variâncias de ui e de εi. O estimador “Between” (xtreg, be) é raramente usado É ineficiente comparado com os “random effects”, pois só faz uso da média das variáveis. NOW! Go To: ◦ubi_fdferebe.do OS MODELOS DINÂMICOS E O MÉTODO GENERALIZADO DOS MOMENTOS (GMM) ESTV-IPV Variáveis Instrumentais Vamos primeiro considerar um diagrama de causalidade para ilustrar o problema colocado por variáveis instrumentais. Podemos usar mínimos quadrados ordinários (OLS) para estimar consistentemente o seguinte modelo: regressão: y = xb + u (1) y X u Nenhuma associação entre x e u; OLS é consistente Variáveis Instrumentais O estimador OLS respeita a Hipótese da esperança condicional nula, pode ser expressa por E[u|x] = 0. Esta condição também pode ser representada pela independência entre u e X, ou seja, covariância(u,x)=0 x y u Entretanto, a regressão falha quando: Endogeneidade: y = xb + u Correlação entre x e u; OLS não é consistente. •Uma situação em que temos que utilizar variáveis instrumentais é quando temos que levar em conta factores não observáveis relevantes e que são omitidos da equação de regressão. o Tanto y como x podem ser afetados por estes factores latentes, como por exemplo a habilidade. • Considere a regressão de (ln) rendimentos (y) sobre anos de estudo (x). O termo de erro u engloba todos os outros factores que afetam os rendimentos tais como habilidade inata dos indivíduos ou inteligência. •Mas a habilidade é certamente correlacionada com o grau de escolaridade alcançado, causando uma correlação entre o regressor e o erro, •Matematicamente, este é o mesmo problema que aquele causado pela endogeneidade ou erros de medida. A solução deste problema por variáveis instrumentais pode ser vista como uma Regressão de variáveis instrumentais: y = xb + u Assim se z não correlacionado com u, correlacionado com x z x y u • Então a variável adicional z é chamada de instrumento para x. Em geral, temos muitas variáveis em x, e mais de uma destas variáveis correlacionada com u. • Neste caso, necessitamos no mínimo tantas variáveis em z, quantas forem as variáveis em x correlacionadas com u. Porque não utilizar sempre variáveis instrumentais? Estimadores IV são enviesados para pequenas amostras e suas propriedades para amostras finitas são freqüentemente problemáticas. A precisão de estimadores IV é menor do que a de estimadores OLS. Na presença de instrumentos fracos (instrumentos incluídos com baixa correlação com os regressores endógenos) a perda de precisão é muito grande e as estimativas IV podem não compensar a inconsistência dos estimadores OLS. O problema da selecção dos instrumentos Pode ser difícil achar variáveis que servem como instrumentos válidos. Muitas variáveis que têm um efeito sobre as variáveis endógenas incluídas, também têm um efeito direto sobre a variável dependente. Por outrolado, os instrumentos podem ser fracos: ◦ satisfatoriamente exógenos, mas fracamente correlacionados com os regressores endógenos. Neste caso, “a cura pode ser pior do que a doença”. Embora os estimadores de VI sejam consistentes quando z e u são não correlacionados e z e x tem qualquer correlação positiva ou negativa, as estimativas de VI podem ter grandes erros padrão, especialmente se z e x forem fracamente correlacionados. ◦ O estimador de VI também pode ter um grande enviesamenyo assimptótico mesmo se z e u forem só moderadamente correlacionados. Que método de estimação aplicar Vamos sistematizar o que vimos até agora sobre variáveis instrumentais. Quando temos certeza de que os regressores da nossa equação não estão correlacionados com os erros podemos aplicar o método convencional de OLS. No entanto, mesmo nesse caso temos que verificar se os resíduos da regressão são homocedásticos. Então temos que realizar o teste heterocedasticidade. Caso os resíduos sejam heterocedásticos temos que realizar a regressão robusta. Isto pode ser feito utilizando a opção robust (após a vírgula) no comando regress. Caso tenhamos motivos para acreditar que um ou mais regressores sejam endógenos (tenham correlação não nula com termo de erro da equação) temos que aplicar o método das variáveis instrumentais. Mas mesmo nesse caso podemos ter uma complicação. Pode acontecer que aplicando o método das variáveis instrumentais os resíduos do modelo não sejam homocedásticos. Nesse caso temos que aplicar o método das variáveis instrumentais articulado com o método dos momentos generalizados (GMM).