姓名:
學號: #### 1. 在開始做答前,請先將本檔案改檔名成為Final2018你的學號.Rmd, 如Final2018710561121.Rmd為學號710561121的程式答案檔。 #### 2. 改好檔名後請在File->Save with Encoding...UTF8。 #### 3. 「每一題」的答案及說理請寫在答案紙上,Rmd檔只記錄程式計算部份,請以Code->Insert Chunk方式產生r程式區塊,並在區塊內寫下你的程式。
#### 4. 答案紙上的數字計算若沒有程式對應,表示無計算過程不會給分。


樣本概似函數

假設有兩種法官,一為有種族偏見(用\(\theta=1\)表示),另一個沒有(用\(\theta=0\)表示)。兩種法官在面臨隨機分派的案件時,其條件在被告人的種族(只有白人與非白人)下的判決有罪機率如下:

\(Pr(V=1|W=1)\) \(Pr(V=1|W=0)\)
\(\theta=0\) 0.5 0.5
\(\theta=1\) 0.4 0.7

(1)

\(W_i\)為第i個案件被告人是否為白人的虛擬變數,\(W_i=1\)表示為白人;\(V_i\)是判決無罪(vindicate)的虛擬變數,\(V_i=1\)表示無罪開釋。

觀察一名法官的1次判決,其資料為\(\{(W_i,V_i)\}_{i=1}=\{(1,1)\}\),其樣本概似函數為什麼?最大概似估計下,他會是什麼類型法官?

\(L(\theta=1)=0.4\) \(L(\theta=0)=0.5\)\(\hat{\theta}=0\), 為「沒有偏見」法官。

(2)

觀察其3次判決,樣本為\(\{(W_i,V_i)\}_{i=1}=\{(1,1),(1,0),(0,0)\}\),其樣本概似函數為什麼?最大概似估計下,他會是什麼類型法官?

\(L(\theta=1)=0.4*0.6*0.3=0.072\) \(L(\theta=0)=0.5*0.5*0.5=0.125\)\(\hat{\theta}=0\),為「沒有偏見」法官。

(3)

若真實\(\theta=1\), 只觀察一筆資料\(\{(W_i,V_i)\}_{i=1}\)下,\(\hat{\theta}\)的抽樣分配為何?

有種樣本觀察可能: 由題(1): (1,1)時,\(\hat{\theta}=0\)。 (1,0)時,\(L(\theta=1)=0.6; L(\theta=0)=0.5\); 故\(\hat{\theta}=1\)。 (0,1)時,\(L(\theta=1)=0.7; L(\theta=0)=0.5\); 故\(\hat{\theta}=1\)。 (0,0)時,\(L(\theta=1)=0.3; L(\theta=0)=0.5\); 故\(\hat{\theta}=0\)。 在\(\theta=1\)時,觀察到(1,1)機率為0.4; 觀察到(1,0)機率為0.6; 觀察到(0,1)機率為0.7; 觀察到(0,0)機率為0.3。 以上為給定W的機率,又案件為隨機指派;故觀察到(1,X)與(0,X)各有1/2,所以觀察到(1,1)機率為0.2; 觀察到(1,0)機率為0.3; 觀察到(0,1)機率為0.35; 觀察到(0,0)機率為0.15。 其中(1,1),(0,0)會得到\(\hat{\theta}=0\),故$(=0)=0.2+0.15=0.35; $(=1)=0.65.

Panel data

Huang (2018, Spatial Competition of the Bank Branch Networks in Taiwan) 研究台灣銀行業的空間競爭,他思考如下的效應問題:

在一區域內一家銀行設置的分行數目,如何受該區域競爭銀行分行數影響?

被解釋變數\(BranchNumber_{ikt}\)為銀行i於行政區k在年份t時所設置的分行家數,效應解釋變數\(RivalBranches_{ikt}\)為銀行i的競爭銀行們於行政區k在年份t時所設置的分行總合家數。效應模型為:

\[BranchNumber_{ikt}=\beta^* RivalBranches_{ikt}+\epsilon_{ikt}\]

(4)

作者有放行政區的社會經濟表現變數(social-economic variable),如人口數(Population)。說明不放人口數估算出來的\(\hat{\beta}\)會高估還低估?其背後的經濟故事是什麼?

(5)

這裡作者還放了三個固定效果:(1) 銀行固定效果(\(\alpha_i\)), (2) 行政區固定效果(\(\gamma_k\)),(3) 時間固定效果(\(\tau_t\));即 \[\epsilon_{ikt}=\alpha_i+\gamma_k+\tau_t+\nu_{ikt}\] 任選一個固定效果舉一個變數為例,用經濟故事說明忽略它會怎麼使\(\hat{\beta}\)偏誤。

(6)

作者提到此效應模型有內生性偏誤的可能,是什麼原因?

因為敵對銀行的分行設罝(\(RivalBranches_{ikt}\))也會受此銀行分行設置的影響(\(BranchNumber_{ikt}\))。

(7)

政府對銀行的分行總數管制會怎麼樣影響模型結構?

Difference-in-Differences

在網路音樂還不發達時,大眾聽音樂習慣是透過CD。第一個網路音樂下載服務是1999年出現的Napster P2P音樂檔案分享,它允許使用者把CD轉出來的音樂檔免費讓其他使用者下載。Napster出現後一直爭議不斷,有人說它會造成音樂出版商的收入降低;也有人說當音樂散佈越容易時,會產生廣告效果而增加出版商收入。我們接下來就是要分析:Napster的出現是否會增加家戶使用者在CD音樂購買上的支出。

我們使用napster.csv資料來估計Napster效果,樣本含蓋1998及2000兩年,考慮用如下的迴歸式來估計Napster的效果:
\[ cdall_{ist}=\beta_0+\beta_1 Y2000_t+\beta_2 nint_s+\delta Y2000_t*nint_s+\epsilon_{ist},\]
其中\(Y2000_t=1\)代表資料來自2000年,\(nint_s=1\)表示為網路用戶。

(8)

說明上式哪個係數可用來驗證Naspter效果。又為何其他變數也要控制?

\(\delta\)可用來驗證Napster效果。\(Y2000_t\)是用來控制時間效果,\(nint_s\)是用來控制實驗組與對照組的立足點差異。

(9)

請估計Napster效果,並使用聚類標準誤來檢驗在5%顯著水準下,Napster效果是否為正。

Naspter會增加CD購買4.01元,p-value小於0.05,故效果顯著。

##                                       Coef Estimate       SE d.f.
## 1                              (Intercept)    19.78 6.06e-16 1.00
## 2                            factor(nint)1    -7.33 1.34e-14 1.85
## 3               factor((year == 2000))TRUE    -6.16 1.12e-15 2.00
## 4 factor(nint)1:factor((year == 2000))TRUE     4.01 2.58e-14 2.07
##   p-val (Satt) Sig.
## 1       <0.001  ***
## 2       <0.001  ***
## 3       <0.001  ***
## 4       <0.001  ***

多元選擇模型

請執行以下程式引入釣魚客的釣魚模式選擇,原始資料為Fishing,而Fish為轉換後的mlogit data frame格式。

以Fish的資料格式說明,alt為可選擇的選項,每個人都有四種可能beach, pier, boat, charter。mode顯示每個人最後的選擇;price為各選項的花費;而catch為各選項的單位時間漁獲量。

(10)

在計算\(\ln L_0\)的時候,你會猜一個人最可能的釣魚模式為何?準確率會有多高?

最多人選charter,故會猜charter。會猜中總樣本數1182筆中的452筆,準確率為38.24%.

## .
##   beach    pier    boat charter 
##     134     178     418     452

(11)

考慮以下的隨機效用模型: \[U_{ij}=\beta_j catch_{ij}+\gamma price_{ij}+\tau_j income_{i}+\epsilon_{ij}\] 請使用Multinomial Logit模型估計模型係數,並說明income係數的意義。

所得增加一單位,選boat與選beach的效用差異會增加1.0633; 而選charter與選beach的效用差異會減少1.3764; 選pier與選beach的效用差異會減少2.6480。

## 
## Call:
## mlogit(formula = mode ~ price | income | catch, data = ., method = "nr", 
##     print.level = 0)
## 
## Frequencies of alternatives:
##   beach    boat charter    pier 
## 0.11337 0.35364 0.38240 0.15059 
## 
## nr method
## 7 iterations, 0h:0m:0s 
## g'(-H)^-1g = 2.54E-05 
## successive function values within tolerance limits 
## 
## Coefficients :
##                        Estimate  Std. Error  z-value  Pr(>|z|)    
## boat:(intercept)     8.4184e-01  2.9996e-01   2.8065 0.0050080 ** 
## charter:(intercept)  2.1549e+00  2.9746e-01   7.2443 4.348e-13 ***
## pier:(intercept)     1.0430e+00  2.9535e-01   3.5315 0.0004132 ***
## price               -2.5281e-02  1.7551e-03 -14.4046 < 2.2e-16 ***
## boat:income          5.5428e-05  5.2130e-05   1.0633 0.2876612    
## charter:income      -7.2337e-05  5.2557e-05  -1.3764 0.1687088    
## pier:income         -1.3550e-04  5.1172e-05  -2.6480 0.0080977 ** 
## beach:catch          3.1177e+00  7.1305e-01   4.3724 1.229e-05 ***
## boat:catch           2.5425e+00  5.2274e-01   4.8638 1.152e-06 ***
## charter:catch        7.5949e-01  1.5420e-01   4.9254 8.417e-07 ***
## pier:catch           2.8512e+00  7.7464e-01   3.6807 0.0002326 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Log-Likelihood: -1199.1
## McFadden R^2:  0.19936 
## Likelihood ratio test : chisq = 597.16 (p.value = < 2.22e-16)

(12)

承上題。以boat選項說明每單位時間漁獲量增加0.1所帶來的效用等值於多少錢?其標準誤又為多少?

每單位時間漁獲量增加0.1,選boat的效用增加0.25425,而金錢的單位效用值為0.02528145;故等值10.05671元。標準誤為207.9385。

## [1] 0.1712146
##          [,1]
## [1,] 207.9385

觀念題

(13)

MLE與Quasi-MLE的差別是什麼?

Quasi-MLE是真實分配與假設不同時下的最大概似估計; 現實中的MLE其實多為Quasi-MLE。

(14)

某研究者想使用追蹤資料估算如下的模型: \[y_{it}=\beta_0+\beta_1 x_{i}+\alpha_i+\epsilon_{it}\] 他最後無法使用固定效果模型,而使用了隨機效果模型。理由是什麼?可以改用pooled OLS嗎?

因為解釋變數\(x_i\)只隨i變動,所以使用固定效果會被demean掉。

若可以用隨機效果,表示相信\(\alpha_i\)\(x_i\)無關,故也可以用Pooled OLS.