姓名:你的姓名
學號:你的學號
Midterm2018你的學號.Rmd
, 如Midterm2018710561121.Rmd
為學號710561121
的程式答案檔。File->Save with Encoding...
選UTF8
。Code->Insert Chunk
方式產生r程式區塊,並在區塊內寫下你的程式。由《經濟學人》文章“Forcing employers to reveal their gender pay gaps is making them think”中,我們考慮以下問句:
為了回答這個問題考慮以下的效應模型:
\[Manager_i=Manager_{-F,i}+\beta^* female_i\] 其中對第i個勞動者,\(Manager_i\)為1代表為管理職,反之為0;而\(female_i\)為1代表為女性,反之為0。請先執行以下程式載入相關資料:
\(Manager_{-F,i}\)代表什麼?(3分)
性別外其他影響成為管理職的效果,也可以說是「性別以外影響升遷的因素」效果。
考慮以下簡單迴歸: \[Manager_i=\beta_0+\beta_1 female_i+\epsilon_i\] 簡單迴歸模型下,OLS估計的\(\beta_0\)與\(\beta_1\)估計值為多少?(5分)
\(\hat{\beta_0}=\) 0.1230937和\(\hat{\beta_1}=\) 0.0092087。
簡單迴歸要有一致性估計,其所要求的獨立性條件是什麼樣的經濟故事?(5分)
一個人的「性別為何」不與「性別以外影響升遷的因素」有關
考慮勞動者「養育孩子個數(ChBear)」,你覺得隨機抽一個勞動者,若其ChBear越高,越可能是男性或女性?而ChBear越高,你覺得此勞動者\(Manager_{-F,i}\)會越高還越低?為什麼?(8分)
經濟故事說明同時,請做相關計算或繪圖來佐證你的故事。同時依你的故事,在「不進行OLS估計下」,說明忽略此控制變數會使OLS估計值偏高還偏低(比\(\beta^*\)大為偏高,否則為偏低)。
家裡養育小孩數越高(ChBear越高)的家庭此勞動者越不可能是管理職(Manger越不可能為1),原因是小孩教養要花掉很多精力會導致無法在職場上全力衝刺。
此外,家裡養育小孩數越高(ChBear越高)的家庭,母親越可能是留在家教養小孩,因此觀察到勞動者為女性的可能越低(即female越不可能為1)。
圖中藍線為不同ChBear數下,勞動者為女性的比例。 棕線為不同ChBear數下,勞動者為管理職的比例。兩者皆隨ChBear越高而越低。
再舉一個可能造成OLS估計偏誤的可能變數(不包含下題的\(log(HIncome_i)\),取對數的家戶總所得),以其經濟故事說明原因,並說明會使估計值偏高還偏低。[此題無需進行任何計算] (5分)
考慮以下複迴歸模型: \[Manager_i=\beta_0+\beta_1 female_i+\gamma_1 ChBear_i + \gamma_2 log(HIncome_i)+\epsilon_i\] 複迴歸模型要能得到\(\beta^*\)合理估計的條件是什麼?上式的\(\epsilon\)代表效應模型中的什麼東西?(5分)
控制同樣養育小孩數與家庭總所得下,性別與「性別以外其他影響升遷因素」無關。
考慮對\(Manager_{-F}\)進行控制變數下的訊息拆解,則
\[Manager_{-F}=\mathbb{E}(Manager_{-F}|ChBear,log(HIncome))+\\ +(Manager_{-F}-\mathbb{E}(Manager_{-F}|ChBear,log(HIncome)))\]
其中
\[\mathbb{E}(Manager_{-F}|ChBear,log(HIncome))=\\ \beta_0+\gamma_1ChBear+\gamma_2 log(Hincome)\]
故\(\epsilon=Manager_{-F}-\mathbb{E}(Manager_{-F}|ChBear,log(HIncome))\)代表「排除ChBear及HIncome因素後,性別以外的其他影響升遷因素」。
請進行複迴歸模型的OLS估計,並檢定是否\(\beta^*< 0\)。[必需清楚寫下虛無假設,p-value及檢定結果] (5分)
虛無假設:\(\beta^*=0\) 或是寫 \(\beta^*\geq0\), p_value=2.702e-07在5%顯著水準下拒絕虛無假設,接受\(\beta^*<0\)的對立假設。
在教育報酬的研究,最常問的效應問題是:
多讀一年書,薪資會上升多少?
執行以下程式引入資料
資料含蓋以下幾個變數:
lwklywge: 取對數後的每週薪資
educ: 勞動者的受教年限
yob: 勞動者出生19xx年後兩碼(如34代表1934)
qob: 勞動者出生於第幾季(1代表1~3月;2代表4~6月;3代表7~9月;4代表10~12月)
pob: 勞動者出生的州(用不同數字代表)
考慮如下的效應結構式:
\[lwklywge_i=lwklywge_{-educ,i}+\beta^*educ_i\]
這裡yob和pob不控制可能會造成\(\beta^*\)估計偏誤,原因的經濟故事是什麼?[此題可以不進行任何計算] (6分)
隨著時間進行,一國的教育水準會普遍增加,加上技術也會隨時間而進步造成勞動產力增加,進而影響勞動者薪資——故忽略時間yob會高估教育的效果。
每個地方的教育水準本來就很可能不一樣,另外,地方產業特色也會造成不同地方薪資水準不同——故忽略pob可能會造成教育效果估計偏誤
yob應該要是ordered factor,而pob應該要是factor。 請先用as.ordered()
及as.factor()
將變數做適當轉換,接著使用兩控制變數進行複迴歸OLS估計(出現很多係數是正常的)。請問此時估計的教育報酬係數\(\hat{\beta}^*\)代表什麼經濟故事?要如何詮釋係數值?這經濟故事在5%顯著度下顯著嗎?(7分)
每多一年教育,每週薪資可以上升6.82%,由於p-value<0.05故此係數顯著。
這類研究最大的挑戰在「先天能力(innate ability)」無法控制,用經濟故事說明這變數無法控制為什麼會造成\(\beta^*\)估計偏誤。會高估還是低估?為什麼? [無需進行任何計算] (6分)
「先天能力」越高的越會唸書,工作能力也通常比較好,因此薪資也會比較高,故教育高的人薪資有可能反應的只是「先天能力」好,忽略此因素會高估\(\beta^*\)值。
有研究者指出出生者出生的季(qob)會是很好的工具變數,因為國民義務教育一開始的小一是以9月開學時是否滿6歲來決定能否入學;因此第一、二、三季出生的人他在滿六歲時,當年度一定可以入學,而第四季出生的人就必需要再等一年。請延續這個故事,說明qob會滿足工具變數所需要條件的經濟故事原因。[無需進行任何計算] (5分)
由於第四季出生的人在小一時比其他同年級的同學都還年長,心智發展可能比較好,加上身體發育的優勢有可能使他在學階段學習較好,容易在學習上有成就感,因此比較會選擇受較多的教育——「出生季」與「教育年限」相關,符合相關性條件。
另外,一個人「薪水」不應該和他/她是那一季出生有關,故符合排除性條件。
除了第四季會晚入學外,可能還有其他季節因素影響入學時間,我們考慮用qob產生3個虛擬變數成為工具變數:
[Hint: (qob==1)
會產生符合( )
內條件的0/1數值向量]
請延續第(9)小題複迴歸模型進行兩階段最小平方法估計教育的報酬,說明報酬係數的經濟意義及其5%顯著度檢定結果。(6分)
多受一年教育,每週薪資可以上升8.18%,然而係數只在10%顯著水準下顯著,5%下並不顯著。
請進行工具變數法下的三個檢定。[必需分別說明其虛無假設為什麼?自由度如何計算?及5%顯著度的檢定結果。] (9分)
自由度為工具變數個數-效應變數個數(即educ一個)=3-1=2
p-value=0.11>0.05,故不拒絕H0,符合排除性條件
使用檢定量F>10的拒絕H0原則,目前檢定量為5.558,故不拒絕虛無——有弱工具變數問題。
(此題也可以用報表結果,其p-value<0.05,故沒有弱工具變數問題。我們通常會希望兩者都是一致的拒絕虛無假設。)
自由度=效應變數個數=1
p-value=0.778 > 0.05,故不拒絕虛無假設。使用OLS與TSLS均可。
考慮如下矩陣表示的迴歸模型:
\[Y=X\beta+\epsilon\] 引用適當的假設,證明在此假設下\(\beta\)的OLS估計式為不偏估計式。(6分)
假設X與\(\epsilon\)獨立,故\(\mathbb{E}(\epsilon|X)=0\)。
\[\mathbb{E}(\hat{\beta}_{OLS}) =\mathbb{E}((X'X)^{-1}X'Y)\\ =\mathbb{E}((X'X)^{-1}X'(X\beta+\epsilon))\\ =\beta+\mathbb{E}((X'X)^{-1}X'\epsilon)\\ =\beta+\mathbb{E}\left[\mathbb{E}\left((X'X)^{-1}X'\epsilon|X\right)\right]\\ =\beta+\mathbb{E}\left[(X'X)^{-1}X'\mathbb{E}\left(\epsilon|X\right)\right]\\ =\beta+\mathbb{E}\left[(X'X)^{-1}X'0\right]\\ =\beta \]
延續(14)題,然該題假設不成立,但有找到合理工具變數群Z,其與解釋變數間的關係如下: \[X=Z\gamma+u\] 說明兩階段最小平方法不會是不偏估計式。(6分)
令\(P_{Z}=Z(Z'Z)^{-1}Z'\),則\(\hat{\beta}_{TSLS}=(X'P_{Z}X)^{-1}X'P_{Z}Y\)。 \[\mathbb{E}(\hat{\beta}_{TSLS}) =\mathbb{E}((X'P_{Z}X)^{-1}X'P_{Z}Y)\\ =\mathbb{E}((X'P_{Z}X)^{-1}X'P_{Z}(X\beta+\epsilon))\\ =\beta+\mathbb{E}((X'P_{Z}X)^{-1}X'P_{Z}\epsilon)\]
其中工具變數關聯性要求\(Z\)與\(\epsilon\)有關(\(\mathbb{E}(\epsilon|Z)\neq0\))。另外,在工具變數化環境下我們不會假設\(X\)與\(\epsilon\)無關(\(\mathbb{E}(\epsilon|X)\neq0\)),上式已無法再簡化,故不會是不偏估計式。
要研究「智商(IQ)」對某個\(Y\)變數的影響,並以下式代表效應模型:
\[Y_i=Y_{-IQ,i}+\beta^*IQ\] 以「IQ測驗成績(IQscore)」來代表IQ。假設\(IQScore=IQ+u\),說明會有測量誤差造成\(\beta^*\)估計偏誤的問題。(6分)
由效應式出發,我們可得到 \[Y_i=Y_{-IQ,i}+\beta^*(IQScore-u)\\ =(Y_{-IQ,i}-\beta^*u)+\beta^* IQScore\]
這表示迴歸誤差項會帶有\(-\beta^*u\)這項,它一定和\(IQScore\)相關,不會滿足獨立性條件。
延續(16)題,有學者主張可用其他受IQ影響的測驗成績當IQscore的工具變數來解決測量誤差偏誤的問題。考慮用「數學測驗成績(MathScore)」當工具變數,假設\(MathScore=\gamma_0+\gamma_1 IQ+v\),說明\(MathScore\)要為合理工具變數必需滿足什麼假設?[除了說明假設外,也請給個經濟故事說明這假設的情境。] (7分)
由於\(MathScore\)與\(IQScore\)均受\(IQ\)影響,\(MathScore\)一定與\(IQScore\)相關,符合相關性條件。
若\(u\)代表表IQ測驗當天狀況,而\(v\)為數學測驗當天狀況,若不是同天考,兩者應該會獨立,故\(MathScore\)與\(u\)無關。若\(MathScore\)也與\(Y_{-IQ,i}\)無關,那它與\(Y_{-IQ,i}-\beta^*u\)無關,滿足排除性條件。
\(MathScore\)是\(IQScore\)的合理工具變數。