姓名:你的姓名
學號:你的學號

1. 在開始做答前,請先將本檔案改檔名成為Midterm2018你的學號.Rmd, 如Midterm2018710561121.Rmd為學號710561121的程式答案檔。

2. 改好檔名後請在File->Save with Encoding...UTF8

3. 「每一題」的答案及說理請寫在答案紙上,Rmd檔只記錄程式計算部份,請以Code->Insert Chunk方式產生r程式區塊,並在區塊內寫下你的程式。

4. 答案紙上的數字計算若沒有程式對應,表示無計算過程不會給分。

一、性別歧視

由《經濟學人》文章“Forcing employers to reveal their gender pay gaps is making them think”中,我們考慮以下問句:

為了回答這個問題考慮以下的效應模型:

\[Manager_i=Manager_{-F,i}+\beta^* female_i\] 其中對第i個勞動者,\(Manager_i\)為1代表為管理職,反之為0;而\(female_i\)為1代表為女性,反之為0。請先執行以下程式載入相關資料:

(1)

\(Manager_{-F,i}\)代表什麼?(3分)


性別外其他影響成為管理職的效果,也可以說是「性別以外影響升遷的因素」效果。


(2)

考慮以下簡單迴歸: \[Manager_i=\beta_0+\beta_1 female_i+\epsilon_i\] 簡單迴歸模型下,OLS估計的\(\beta_0\)\(\beta_1\)估計值為多少?(5分)


\(\hat{\beta_0}=\) 0.1230937和\(\hat{\beta_1}=\) 0.0092087。


(3)

簡單迴歸要有一致性估計,其所要求的獨立性條件是什麼樣的經濟故事?(5分)


一個人的「性別為何」不與「性別以外影響升遷的因素」有關


(4)

考慮勞動者「養育孩子個數(ChBear)」,你覺得隨機抽一個勞動者,若其ChBear越高,越可能是男性或女性?而ChBear越高,你覺得此勞動者\(Manager_{-F,i}\)會越高還越低?為什麼?(8分)

經濟故事說明同時,請做相關計算或繪圖來佐證你的故事。同時依你的故事,在「不進行OLS估計下」,說明忽略此控制變數會使OLS估計值偏高還偏低(比\(\beta^*\)大為偏高,否則為偏低)。


家裡養育小孩數越高(ChBear越高)的家庭此勞動者越不可能是管理職(Manger越不可能為1),原因是小孩教養要花掉很多精力會導致無法在職場上全力衝刺。

此外,家裡養育小孩數越高(ChBear越高)的家庭,母親越可能是留在家教養小孩,因此觀察到勞動者為女性的可能越低(即female越不可能為1)。

圖中藍線為不同ChBear數下,勞動者為女性的比例。 棕線為不同ChBear數下,勞動者為管理職的比例。兩者皆隨ChBear越高而越低。


(5)

再舉一個可能造成OLS估計偏誤的可能變數(不包含下題的\(log(HIncome_i)\),取對數的家戶總所得),以其經濟故事說明原因,並說明會使估計值偏高還偏低。[此題無需進行任何計算] (5分)

(6)

考慮以下複迴歸模型: \[Manager_i=\beta_0+\beta_1 female_i+\gamma_1 ChBear_i + \gamma_2 log(HIncome_i)+\epsilon_i\] 複迴歸模型要能得到\(\beta^*\)合理估計的條件是什麼?上式的\(\epsilon\)代表效應模型中的什麼東西?(5分)


控制同樣養育小孩數與家庭總所得下,性別與「性別以外其他影響升遷因素」無關。

考慮對\(Manager_{-F}\)進行控制變數下的訊息拆解,則

\[Manager_{-F}=\mathbb{E}(Manager_{-F}|ChBear,log(HIncome))+\\ +(Manager_{-F}-\mathbb{E}(Manager_{-F}|ChBear,log(HIncome)))\]

其中

\[\mathbb{E}(Manager_{-F}|ChBear,log(HIncome))=\\ \beta_0+\gamma_1ChBear+\gamma_2 log(Hincome)\]

\(\epsilon=Manager_{-F}-\mathbb{E}(Manager_{-F}|ChBear,log(HIncome))\)代表「排除ChBear及HIncome因素後,性別以外的其他影響升遷因素」。


(7)

請進行複迴歸模型的OLS估計,並檢定是否\(\beta^*< 0\)。[必需清楚寫下虛無假設,p-value及檢定結果] (5分)


虛無假設:\(\beta^*=0\) 或是寫 \(\beta^*\geq0\), p_value=2.702e-07在5%顯著水準下拒絕虛無假設,接受\(\beta^*<0\)的對立假設。


二、 教育與薪資

在教育報酬的研究,最常問的效應問題是:

多讀一年書,薪資會上升多少?

執行以下程式引入資料

資料含蓋以下幾個變數:

lwklywge: 取對數後的每週薪資
educ: 勞動者的受教年限
yob: 勞動者出生19xx年後兩碼(如34代表1934)
qob: 勞動者出生於第幾季(1代表1~3月;2代表4~6月;3代表7~9月;4代表10~12月)
pob: 勞動者出生的州(用不同數字代表)

考慮如下的效應結構式:

\[lwklywge_i=lwklywge_{-educ,i}+\beta^*educ_i\]

(8)

這裡yob和pob不控制可能會造成\(\beta^*\)估計偏誤,原因的經濟故事是什麼?[此題可以不進行任何計算] (6分)


隨著時間進行,一國的教育水準會普遍增加,加上技術也會隨時間而進步造成勞動產力增加,進而影響勞動者薪資——故忽略時間yob會高估教育的效果。

每個地方的教育水準本來就很可能不一樣,另外,地方產業特色也會造成不同地方薪資水準不同——故忽略pob可能會造成教育效果估計偏誤


(9)

yob應該要是ordered factor,而pob應該要是factor。 請先用as.ordered()as.factor()將變數做適當轉換,接著使用兩控制變數進行複迴歸OLS估計(出現很多係數是正常的)。請問此時估計的教育報酬係數\(\hat{\beta}^*\)代表什麼經濟故事?要如何詮釋係數值?這經濟故事在5%顯著度下顯著嗎?(7分)


每多一年教育,每週薪資可以上升6.82%,由於p-value<0.05故此係數顯著。


(10)

這類研究最大的挑戰在「先天能力(innate ability)」無法控制,用經濟故事說明這變數無法控制為什麼會造成\(\beta^*\)估計偏誤。會高估還是低估?為什麼? [無需進行任何計算] (6分)


「先天能力」越高的越會唸書,工作能力也通常比較好,因此薪資也會比較高,故教育高的人薪資有可能反應的只是「先天能力」好,忽略此因素會高估\(\beta^*\)值。


(11)

有研究者指出出生者出生的季(qob)會是很好的工具變數,因為國民義務教育一開始的小一是以9月開學時是否滿6歲來決定能否入學;因此第一、二、三季出生的人他在滿六歲時,當年度一定可以入學,而第四季出生的人就必需要再等一年。請延續這個故事,說明qob會滿足工具變數所需要條件的經濟故事原因。[無需進行任何計算] (5分)


由於第四季出生的人在小一時比其他同年級的同學都還年長,心智發展可能比較好,加上身體發育的優勢有可能使他在學階段學習較好,容易在學習上有成就感,因此比較會選擇受較多的教育——「出生季」與「教育年限」相關,符合相關性條件。

另外,一個人「薪水」不應該和他/她是那一季出生有關,故符合排除性條件。


(12)

除了第四季會晚入學外,可能還有其他季節因素影響入學時間,我們考慮用qob產生3個虛擬變數成為工具變數:

  • q1: qob==1 的虛擬變數
  • q2: qob==2 的虛擬變數
  • q3: qob==3 的虛擬變數

[Hint: (qob==1)會產生符合( )內條件的0/1數值向量]

請延續第(9)小題複迴歸模型進行兩階段最小平方法估計教育的報酬,說明報酬係數的經濟意義及其5%顯著度檢定結果。(6分)


多受一年教育,每週薪資可以上升8.18%,然而係數只在10%顯著水準下顯著,5%下並不顯著。


(13)

請進行工具變數法下的三個檢定。[必需分別說明其虛無假設為什麼?自由度如何計算?及5%顯著度的檢定結果。] (9分)


  1. Sargan 排除性條件檢定 H0:工具變數符合排除性條件

自由度為工具變數個數-效應變數個數(即educ一個)=3-1=2

p-value=0.11>0.05,故不拒絕H0,符合排除性條件

  1. Weak instruments 檢定 H0:有弱性工具變數問題

使用檢定量F>10的拒絕H0原則,目前檢定量為5.558,故不拒絕虛無——有弱工具變數問題。

(此題也可以用報表結果,其p-value<0.05,故沒有弱工具變數問題。我們通常會希望兩者都是一致的拒絕虛無假設。)

  1. Wu-Hausman 獨立性假設 H0: 效應變數educ符合獨立性假設——與「教育以外其他影響薪資因素」無關。

自由度=效應變數個數=1

p-value=0.778 > 0.05,故不拒絕虛無假設。使用OLS與TSLS均可。


三、理論題

(14)

考慮如下矩陣表示的迴歸模型:
\[Y=X\beta+\epsilon\] 引用適當的假設,證明在此假設下\(\beta\)的OLS估計式為不偏估計式。(6分)


假設X與\(\epsilon\)獨立,故\(\mathbb{E}(\epsilon|X)=0\)

\[\mathbb{E}(\hat{\beta}_{OLS}) =\mathbb{E}((X'X)^{-1}X'Y)\\ =\mathbb{E}((X'X)^{-1}X'(X\beta+\epsilon))\\ =\beta+\mathbb{E}((X'X)^{-1}X'\epsilon)\\ =\beta+\mathbb{E}\left[\mathbb{E}\left((X'X)^{-1}X'\epsilon|X\right)\right]\\ =\beta+\mathbb{E}\left[(X'X)^{-1}X'\mathbb{E}\left(\epsilon|X\right)\right]\\ =\beta+\mathbb{E}\left[(X'X)^{-1}X'0\right]\\ =\beta \]


(15)

延續(14)題,然該題假設不成立,但有找到合理工具變數群Z,其與解釋變數間的關係如下: \[X=Z\gamma+u\] 說明兩階段最小平方法不會是不偏估計式。(6分)


\(P_{Z}=Z(Z'Z)^{-1}Z'\),則\(\hat{\beta}_{TSLS}=(X'P_{Z}X)^{-1}X'P_{Z}Y\)\[\mathbb{E}(\hat{\beta}_{TSLS}) =\mathbb{E}((X'P_{Z}X)^{-1}X'P_{Z}Y)\\ =\mathbb{E}((X'P_{Z}X)^{-1}X'P_{Z}(X\beta+\epsilon))\\ =\beta+\mathbb{E}((X'P_{Z}X)^{-1}X'P_{Z}\epsilon)\]

其中工具變數關聯性要求\(Z\)\(\epsilon\)有關(\(\mathbb{E}(\epsilon|Z)\neq0\))。另外,在工具變數化環境下我們不會假設\(X\)\(\epsilon\)無關(\(\mathbb{E}(\epsilon|X)\neq0\)),上式已無法再簡化,故不會是不偏估計式。


(16)

要研究「智商(IQ)」對某個\(Y\)變數的影響,並以下式代表效應模型:
\[Y_i=Y_{-IQ,i}+\beta^*IQ\] 以「IQ測驗成績(IQscore)」來代表IQ。假設\(IQScore=IQ+u\),說明會有測量誤差造成\(\beta^*\)估計偏誤的問題。(6分)


由效應式出發,我們可得到 \[Y_i=Y_{-IQ,i}+\beta^*(IQScore-u)\\ =(Y_{-IQ,i}-\beta^*u)+\beta^* IQScore\]

這表示迴歸誤差項會帶有\(-\beta^*u\)這項,它一定和\(IQScore\)相關,不會滿足獨立性條件。


(17)

延續(16)題,有學者主張可用其他受IQ影響的測驗成績當IQscore的工具變數來解決測量誤差偏誤的問題。考慮用「數學測驗成績(MathScore)」當工具變數,假設\(MathScore=\gamma_0+\gamma_1 IQ+v\),說明\(MathScore\)要為合理工具變數必需滿足什麼假設?[除了說明假設外,也請給個經濟故事說明這假設的情境。] (7分)


由於\(MathScore\)\(IQScore\)均受\(IQ\)影響,\(MathScore\)一定與\(IQScore\)相關,符合相關性條件。

\(u\)代表表IQ測驗當天狀況,而\(v\)為數學測驗當天狀況,若不是同天考,兩者應該會獨立,故\(MathScore\)\(u\)無關。若\(MathScore\)也與\(Y_{-IQ,i}\)無關,那它與\(Y_{-IQ,i}-\beta^*u\)無關,滿足排除性條件。

\(MathScore\)\(IQScore\)的合理工具變數。