微積分與統計

欲了解微積分與統計的知識垂直關連，即大一微積分學得好對大二統計學學習成效的影響，我們考慮如下的效應結構：

\[ 大二統計學_{st,i}=y_{0,sti}+\beta^*大一微積分_{st,i}, \] 其中大二統計學與大一微積分指是在該年級該科之成績，而下標\(st,i\)指得是\(s\)學系、於\(t\)學年入學的第\(i\)個學生。

(1) 立足點詮釋

在效應式中，立足點\(y_{0,sti}\)指得是什麼？

其他「非」大一微積分學習狀況對大二統計學學習影響的效果，如：先天數理能力等。

(2) 簡單迴歸

我們進行簡單迴歸估計： \[ 大二統計學_{st,i}=\beta_0+\beta_1 大一微積分_{st,i}+\epsilon_{st,i} \] 從估計結果說明大一微積分如何影響大二統計學。

term	estimate	std.error	statistic
(Intercept)	32.14	1.87	17.18
大一微積分	0.57	0.02	23.86

大一微積分每增加一分，平均大二統計學會上升0.57分。

(3) 異質變異

異質變異是模型殘差條件在迴歸模型解釋變數訊息下的變異程度與條件訊息有關連，以上題的簡單迴歸為例，它指得是： \[ E(\mathbf{\epsilon}\mathbf{\epsilon}^T|大一微積分)\neq E(\mathbf{\epsilon}\mathbf{\epsilon}^T). \]

請問如果要用圖形呈現有異質變異狀況，你會畫什麼圖，出現什麼現象你會懷疑有異質變異，請用手繪舉一個可能例子。

下圖大一微積分越低，估計殘差\(\hat{\epsilon}_{st,i}\)的離散度（變異程度）越高。

(4) 學系

下表是資料中不同學系學生的大一微積分與大二統計學平均分數，請問它顯示了什麼立足點與效應解釋變數的關連，這關連背後的生活故事是什麼？它指出簡單迴歸的估計結果可能高估或低估真實效應值？

學系	大一微積分平均	大二統計學平均
企業管理學系	70.31	69.27
會計學系	71.38	75.22
經濟學系	75.68	74.06
金融與合作經營學系	73.58	77.23

每個學系所收到的學生背景不同，企管系的學生可能最不喜歡數學，因此該系學生的大一微積分及大二統計學成績均低。若單純比較微積分高和低的學生，會穩含一部份比較非企管系和企管系的效果——有一部份估計的效果反應了較喜愛數學學生的統計學習成效，而高估了大一微積分的影響。

(5) 入學年

如果大一微積分老師給分標準逐年放寬（即造成越晚入學的學生大一微積分成績越高），但大二統計學沒有，那簡單迴歸的\(\beta^*\)估計會高估或低估真實效應值？為什麼？

如果大一微積分逐年放寬標準，那微積分高低就不能代表大一微積分學得好壞，反而只是入學年晚比上入學年早。由於入學年不應該與統計學學習有直接影響，所以會看不出統計學成績差異，而造成低估真實值；這部份是效應解釋變數有衡量誤差所造成的估計偏誤現象。

(6) 固定效果模型

基於以上學系、入學年的討論，我們擴充模型為以下固定效果模型： \[ 大二統計學_{st,i}=入學年固定效果_t＋學系固定效果_s+\beta_1 大一微積分_{st,i}+\epsilon_{st,i} \]

從Demean的角度，寫下如何對大一微積分及大二統計學進行demean的公式以去除模型中的兩個固定效果。（公式中\(\sum\)的下標及分母除數都要清楚標示，並令\(s\)學系、\(t\)學年入學且有大一微積分及大二統計學成績的學生總數為\(N_{st}\)）

這一題並不是追踪資料，因為每位學生i原則上只會有一次大一及一次大二，所以並無法追踪他的「大一」微積分及「大二」統計學很多次（只會有一次），但這裡的固定效果還是可去除的，概念和可追踪下的狀況相同，只是要先把同系同學年入學的人平均起來。完整demean方式如下：定義demean函數\(D(w_{st,i})\): \[ D(w_{st,i})=w_{st,i}-\bar{w}_{s.}-\bar{w}_{.t}+\bar{\bar{w}}, \] 其中 \[\begin{array}{lcl} \bar{w}_{s.}&=&\frac{\sum_{t=1}^{T}\sum_{i=1}^{N_{st}}w_{st,i}}{TN_{st}}\\ \bar{w}_{.t}&=&\frac{\sum_{i=1}^{M}\sum_{i=1}^{N_{st}}w_{st,i}}{MN_{st}}\\ \bar{\bar{w}}&=&\frac{\sum_{i=1}^{M}\sum_{t=1}^T\sum_{i=1}^{N_{st}}w_{st,i}}{MTN_{st}} \end{array}\]

這題多數學生是把作業的demean方式抄過來，但這會有問題。考慮以下的平均： \[\begin{array}{lcl} \sum_{s=1}^k w_{st,i}/M \end{array}\] 這是針對同入學年\(t\)但「不同系\(s\)」的第\(i\)位學生加總除以系總數，然而每個系的學生數目不同，經濟系可以有第i=100位學生，但財政系只收60人，沒辦法加財政系第100位學生；所以經濟系第100位學生可能無法進行上述的跨系demean來去除固定效果。

(7) 異質變異 **

前述固定效果模型下的異質變異指得是 \[ E(\mathbf{\epsilon}\mathbf{\epsilon}^T|大一微積分,學系,入學年)\neq E(\mathbf{\epsilon}\mathbf{\epsilon}^T). \]

下表是以固定效果模型下所得到的估計殘差\(\hat{\epsilon}_{st,i}\)，依學系及入學年的不同去分群去計算其樣本標準差（standard deviation）。請問這表和異質變異的討論有什麼關連？你的觀察結果是什麼？它會怎麼影響你的固定效果模型估計？

學系	100	101	102	103	104	105
企業管理學系	10.73	12.97	14.05	12.42	16.43	15.17
會計學系	11.66	11.88	9.68	11.71	12.41	10.19
經濟學系	11.42	12.43	9.96	10.42	9.76	12.67
金融與合作經營學系	10.37	10.30	13.94	13.91	11.43	11.71

由於估值殘差的標準差是真實殘差標準差的估計式，由表中可大概觀察到各系、各入學年間的標準差有所差別，故很有可能有異質變異現象。

異質變異並不會影響固定效果模型的係數估計值，但在計算係數估計標準誤時必需要將異質變異考慮進去。

(8) 隨機效果

令\(\alpha_s=學系固定效果_s\)，\(\delta_t=入學年固定效果_t\)，且設 \[ v_{st,i}=\alpha_s+\delta_t+\epsilon_{st,i} \] 假設：

\(\alpha_s\)，\(\delta_t\)及\(\epsilon_{st,i}\)三隨機變數彼此獨立。
\(\epsilon_{st,i}\)與\(\epsilon_{st,j}\)無關連，當\(i\neq j\)。
\(\epsilon_{st,i}\)與\(\epsilon_{s't',i}\)無關連，當\(s\neq s'\)或\(t\neq t'\)。

設\(\sigma^2_{\alpha}=var(\alpha_s),\sigma^2_{\delta}=var(\delta_t),\sigma^2_{\epsilon}=var(\epsilon_{st,i})\)。

令 \[\begin{array}{lcl} \mathbf{v}_{st}=\begin{bmatrix} v_{st,1} \\ \vdots \\ v_{st,N_{st}} \end{bmatrix}， \mathbf{v}=\begin{bmatrix} \mathbf{v}_{11}\\ \vdots \\ \mathbf{v}_{1T}\\ \mathbf{v}_{21}\\ \vdots \\ \mathbf{v}_{2T}\\ \vdots \\ \mathbf{v}_{41}\end{bmatrix} \end{array}\] 因有4個系\(s \in \{1,2,3,4\}\)。令符號\(\Omega_{st,s't'}\)為\(\mathbf{v}_{st}\)對上\(\mathbf{v}_{s't'}\)的共變異矩陣，請推導\(E(\mathbf{v}\mathbf{v}^T)\)。

這題的殘差共變異矩陣很大，但是會由以下三類矩陣所組成：
(1) 同入學年丶同學系下，班上同學的殘差共變異矩陣： \[\Omega_{st,st}=\begin{bmatrix} \sigma_{\alpha}^2+\sigma_{\delta}^2+ \sigma_{\epsilon}^2 & \sigma_{\alpha}^2+\sigma_{\delta}^2 & \dots & \sigma_{\alpha}^2+\sigma_{\delta}^2\\ \sigma_{\alpha}^2+\sigma_{\delta}^2 & \sigma_{\alpha}^2+\sigma_{\delta}^2+ \sigma_{\epsilon}^2 & \dots & \sigma_{\alpha}^2+\sigma_{\delta}^2\\ \vdots & & \ddots & \\ \sigma_{\alpha}^2+\sigma_{\delta}^2 & \dots & & \sigma_{\alpha}^2+\sigma_{\delta}^2+ \sigma_{\epsilon}^2 \end{bmatrix}\] 非對角線為不同同學的共變異係數，他們同時受\(\alpha\)及\(\delta\)影響；對角線是同一位學生的變異係數，除了\(\alpha\)及\(\delta\)外，自身特質殘差\(\epsilon\)也有影響。

(2)「不同」入學年但同學系下，兩位同學的殘差共變異矩陣： \[\Omega_{st,st^*}=\begin{bmatrix} \sigma_{\alpha}^2 & \sigma_{\alpha}^2 & \dots & \sigma_{\alpha}^2\\ \sigma_{\alpha}^2 & \sigma_{\alpha}^2 & \dots & \sigma_{\alpha}^2\\ \vdots & & \ddots & \\ \sigma_{\alpha}^2 & \dots & & \sigma_{\alpha}^2 \end{bmatrix}\] 此矩陣因學生任何row/column組合學生均來自不同學年，所以只有共同受\(\alpha\)影響。

(3) 同入學年但「不同」學系下，兩位同學的殘差共變異矩陣： \[\Omega_{st,s^*t}=\begin{bmatrix} \sigma_{\delta}^2 & \sigma_{\delta}^2 & \dots & \sigma_{\delta}^2\\ \sigma_{\delta}^2 & \sigma_{\delta}^2 & \dots & \sigma_{\delta}^2\\ \vdots & & \ddots & \\ \sigma_{\delta}^2 & \dots & & \sigma_{\delta}^2 \end{bmatrix}\] 此矩陣因學生任何row/column組合學生均來自不同學系，所以只有共同受\(\delta\)影響。

樣本概似函數

假設有兩種法官，一為有種族偏見（用\(\theta=1\)表示），另一個沒有（用\(\theta=0\)表示）。兩種法官在面臨隨機分派的案件時，其條件在被告人的種族（只有白人與非白人）下的判決有罪機率如下：

	\(Pr(V=1\|W=1)\)	\(Pr(V=1\|W=0)\)
\(\theta=0\)	0.5	0.5
\(\theta=1\)	0.7	0.4

(9) 概似函數

令\(W_i\)為第i個案件被告人是否為白人的虛擬變數，\(W_i=1\)表示為白人;\(V_i\)是判決無罪（vindicate）的虛擬變數，\(V_i=1\)表示無罪開釋。

觀察一名法官的1次判決，其資料為\(\{(W_i,V_i)\}_{i=1}=\{(1,1)\}\)，其樣本概似函數為什麼？最大概似估計下，他會是什麼類型法官?

\[\begin{array}{lcl} L(\theta=0) &=& \Pr((W_1=1,V_1=1)|\theta=0) \\ &=& \Pr(V_1=1|W_1=1,\theta=0)\Pr(W_1=1|\theta=0)\\ & & \mbox{因案件隨機分派，故}\Pr(W_1|\theta)=\Pr(W_1)\\ &=& 0.5\Pr(W_1=1)\\ L(\theta=1) &=& \Pr((W_1=1,V_1=1)|\theta=1) \\ &=& \Pr(V_1=1|W_1=1,\theta=1)\Pr(W_1=1|\theta=1)\\ &=& 0.7\Pr(W_1=1)\\ \end{array}\] 由於\(W\)為外生獨立變數，有時概似函數我們會省略\(\Pr(W)\)部份；概似函數 \[ L(\theta)=\begin{cases} 0.5\Pr(W_1=1)\mbox{ 若 }\theta=0,\\ 0.7\Pr(W_1=1)\mbox{ 若 }\theta=1; \end{cases}\mbox{ 或 } L(\theta)=\begin{cases} 0.5\mbox{ 若 }\theta=0,\\ 0.7\mbox{ 若 }\theta=1; \end{cases} \] 因為\(L(\theta=1)>L(\theta=0)\), 故 \(\hat{\theta}=1\)——為「有偏見」法官。

(10) 最大概似估計

觀察其3次判決，樣本為\(\{(W_i,V_i)\}_{i=1}=\{(0,1),(1,0),(0,0)\}\)，其樣本概似函數為什麼？最大概似估計下，他會是什麼類型法官?

\[\begin{array}{lcl} L(\theta=0) &=& \Pr(V_1=1|W_1=0,\theta=0)\Pr(W_1=0)\\ && \times \Pr(V_2=0|W_2=1,\theta=0)\Pr(W_2=1)\\ && \times \Pr(V_3=0|W_3=0,\theta=0)\Pr(W_3=0)\\ &=& 0.5*(1-0.5)*(1-0.5)\Pr(W_1=0)\Pr(W_2=1)\Pr(W_3=0)=0.125\Pr(W_1=0)\Pr(W_2=1)\Pr(W_3=0) \end{array}\] 同理可推 \(L(\theta=1)=0.4*(1-0.7)*(1-0.4)\Pr(W_1=0)\Pr(W_2=1)\Pr(W_3=0)=0.072\Pr(W_1=0)\Pr(W_2=1)\Pr(W_3=0)\)。由於\(W\)為外生獨立變數，有時概似函數我們會省略\(\Pr(W)\)部份；概似函數： \[\begin{array}{lcl} L(\theta)&=&\begin{cases} 0.125\Pr(W_1=0)\Pr(W_2=1)\Pr(W_3=0)\mbox{ 若 }\theta=0,\\ 0.072\Pr(W_1=0)\Pr(W_2=1)\Pr(W_3=0)\mbox{ 若 }\theta=1; \end{cases}\mbox{ 或 }\\ L(\theta)&=&\begin{cases} 0.125\mbox{ 若 }\theta=0,\\ 0.072\mbox{ 若 }\theta=1; \end{cases} \end{array} \] \(\arg\max_{\theta} L(\theta)=\hat{\theta}=0\)，為「沒有偏見」法官。

(11) 抽樣分配

若真實\(\theta=1\), 只觀察一筆資料\(\{(W_i,V_i)\}_{i=1}\)下，\(\hat{\theta}\)的抽樣分配為何？(抽樣分配為真實參數值下，參數估計式\(\hat{\theta}\)的機率分配)

最大概似估計下：
若抽到\((W_1=0,V_1=0)\), \[L(\theta=0)=0.5\Pr(W_1=0)<(1-0.4)\Pr(W_1=0)=L(\theta=1)，\mbox{ 故}\hat{\theta}=1。 \]

若抽到\((W_1=0,V_1=1)\), \[L(\theta=0)=0.5\Pr(W_1=0)>0.4\Pr(W_1=0)=L(\theta=1)，\mbox{ 故}\hat{\theta}=0。 \]

若抽到\((W_1=1,V_1=0)\), \[L(\theta=0)=0.5\Pr(W_1=1)>(1-0.7)\Pr(W_1=1)=L(\theta=1)，\mbox{ 故}\hat{\theta}=0。 \]
若抽到\((W_1=1,V_1=1)\), \[L(\theta=0)=0.5\Pr(W_1=1)<0.7\Pr(W_1=1)=L(\theta=1)，\mbox{ 故}\hat{\theta}=1。 \]
當\(\theta=1\):
\[\begin{array}{lcl} \Pr(W_1=0,V_1=0|\theta=1)&=&(1-0.4)*\Pr(W_1=0)\\ \Pr(W_1=0,V_1=1|\theta=1)&=&0.4*\Pr(W_1=0)\\ \Pr(W_1=1,V_1=0|\theta=1)&=&(1-0.7)*\Pr(W_1=1)\\ \Pr(W_1=1,V_1=1|\theta=1)&=&0.7*\Pr(W_1=1) \end{array}\] 由於最大概似估計下，事件\(\{(W_1=0,V_1=1),(W_1=1,V_1=0)\}\)等於\(\{\hat{\theta}=0\}\)；事件\(\{(W_1=0,V_1=0),(W_1=1,V_1=1)\}\)等於\(\{\hat{\theta}=1\}\)。故\(\hat{\theta}\)的抽樣分配為： \[ \begin{array}{lcl} \Pr(\hat{\theta}=0|\theta=1) &=& 0.4* \Pr(W_1=0)+(1-0.7)* \Pr(W_1=1)\\ \Pr(\hat{\theta}=1|\theta=1) &=& (1-0.4)*\Pr(W_1=0)+0.7*\Pr(W_1=1) \end{array} \] 此題允許假設\(\Pr(W)=0.5\)以簡化答案，此時：

\[ \begin{array}{lcl} \Pr(\hat{\theta}=0|\theta=1) &=& 0.35\\ \Pr(\hat{\theta}=1|\theta=1) &=& 0.65 \end{array} \]

107-2 數量方法期末考

6/19/2019

注意事項