您找過以下的關鍵字

尚無搜尋紀錄

Chapter 01 追蹤資料/ 縱橫資料(Panel-Data)



  當你要使用本書CD 所附資料檔,你可以先將資料copy 到硬碟之任一資料夾中。在Stata 畫面再設定工作目錄,為剛才複製的資料夾路徑,即「File >Chang working directory」。例如,作者自定「D:\04_ 廣義時間序列:追蹤資料(panel-data) 分析」為工作目錄。接著再選「File > Open」,開啟任一「*.dta」資料檔,即可進行資料分析。





1-1 前言



一、希臘字母大小寫之意義

  在傳統之統計學裡,習慣上,大小寫a, b, c 代表常數(constant) 或係數(coefficient);f, g, h 代表函數;i, j, k 代表整數;小寫x, y, z 代表變數;大寫X, Y, Z 代表矩陣。樣本的參數( 平均數M、標準差S⋯⋯) 慣用大寫英文字母;母群體樣本的參數( 平均數μ、標準差σ⋯⋯) 慣用小寫希臘字母。倘若這些英文字母「符號」仍不夠用,統計學家會納入希臘字母。

  在多變量統計、計量經濟之時間序列裡,由於它包含多個迴歸式,這多個迴歸「恆等式」同時求解,就叫聯立方程式,又稱向量迴歸。人們為了簡化這種波動性「向量迴歸」的預測或共整合關係式,就改用「矩陣形式」恆等式來求該係數矩陣的特徵值(Eigen value)、特徵向量(Eigen vector),進而求出「聯立迴歸式」的解。為了統合這些代表矩陣的符號,於是,數學家就以「小寫英文字」代表變數( 序列)。「大寫希臘字」代表係數向量/係數矩陣(coefficientmatrix),它是(m×n) 矩陣。「小寫希臘字」代表單一係數(coefficient)。



二、何謂Panel 迴歸?

  迴歸分析與相關分析著重在兩個或是多個變數之間的線性關係。一般來說在此兩種分析模型當中,我們通常會利用自變數x 來預測依變數y,而在時間序列分析當中,通常會把時間當作是自變數來分析依變數,亦即探討依變數y 在不同時間點的變化,並且利用過去依照時間排列的數據來預測未來的資訊。此類數據即為一時間序列,時間序列的分析則著重於研究數據序列的相互依賴關係。時間序列的資料在經過分析之後,藉由瞭解其相互關係來發展出適合的預測模型。

  追蹤資料(panel-data)( 廣義longitudinal data),中文譯為縱橫資料、面板資料、追蹤資料或時空資料,是一種結合橫斷面與時間序列的資料型態。Panel 分析又分靜態vs. 動態兩種,其中,動態研究又分變遷研究及發展研究兩種。有鑑於近十年來,追蹤資料(panel-data) 在理論性和應用性的研究已經成為計量經濟的熱門主題,致使其他學域亦相繼地改以追蹤資料(panel-data) 作為樣本設計。



三、計量經濟的興起

  純粹概念性的理論顯然在實際問題的解釋與應用上是有限的;而缺乏理論基礎的統計分析則無法提供一個「因果關係」的說明,同樣,其說服力也是有限的,或甚至可能是錯誤的。因而興起計量經濟學(Econometrics),它是經濟學門的一個分支。計量經濟學字面上的意義是指「經濟的衡量(economicmeasurement)」,較精確的說法,計量經濟學是探討「實證研究方法」的研究學門,將概念性的經濟理論藉由實際的資料予以數量化的研究學門。

  弗里希在《計量經濟學》的創刊詞中說到:「用數學方法探討經濟學可以從好幾個方面著手,但任何一方面都不能與計量經濟學混為一談。」經驗表明,統計學、經濟理論和數學這三者對於真正瞭解現代經濟生活中的數量關係來說,都是必要的,但各自並非是充分條件。而三者結合起來,便構成了計量經濟學。

  與一般的數學方法相比,計量經濟學方法有十分重要的特點和意義:

  1. 研究對象發生變化:即從研究確定性問題轉向非確定性問題,其對象的性質和意義將發生巨大的變化。因此,在方法的思路上、方法的性質上和方法的結果上,都將出現全新的變化。

  2. 研究方法發生變化:計量經濟學方法的基礎是概率論和數理統計,是一種新的數學形式。學習中要十分注意其基本概念和方法思路的理解和把握,要充分認識其方法與其他數學方法的根本不同之處。

  3. 研究結果發生變化:我們應該知道,計量經濟學模型的結論是概率意義上的,也可以說是不太確定的。但真正要理解其不確定性的涵義,並非那麼簡單,學習中需要始終關注這一點。

  總而言之,「計量經濟學」係藉由統計工具將概念性的經濟理論付諸實際的一項學科。而Stata 提供的longitudinal data 及panel-data 迴歸更是坊間最佳的統計工具,有關longitudinal data 各種迴歸方法,在作者《Stata 在總體經濟及財務金融的應用》一書中有詳細介紹,panel-data 迴歸則在本書來介紹。



四、財務與經濟計量方法

  財務與經濟計量主要是運用統計學的方法來探討財務或經濟變數的關係,通常是藉助「迴歸模型(regression model)」的架構,來探討某一個變數的變動對另一個變數的影響關係,在分析的過程中對於模型的估計(estimate)、檢定(test)與預測(forecast) 均是方法論上的研讀重點。

  追蹤資料(panel-data)( 縱橫資料) 是一個同時包含橫斷面(cross-section) 與時間序列(time series) 資料的資料組合方法,處理追蹤資料(panel-data) 時,需將每個橫斷面單位(unit) 依時間序列資料方式排列後,再堆積(stack) 每個橫斷面樣本,由於有些經濟效果同時混和時間序列與橫斷面而無法單獨分離測試,此時若單獨使用橫斷面或時間序列計量方法來估計經濟效果,必無法正確估計其影響,而追蹤資料(panel-data) 可使研究者對同時摻雜橫斷面與時間序列的經濟現象做一有效的估計。

  亦即追蹤資料是針對相同個體( 如個人、家戶、部門、廠商、產業或國家),連續調查多年所收集的資料。資料收集的頻率多為一年一次,少數情形有季或月等較高頻率。也就是說,其能同時包括橫斷面和時間序列兩種特性,每一年度中,可觀察到許多橫斷面個人、家戶、部門、廠商、產業或國家,或是同一對象連續觀察多年,意味著其蘊含著訊息較單純的橫斷面和時間序列資料更加豐富,不但能保有時間序列之動態性質,又能兼顧橫斷面資料之個體差異的特性。



五、調查法的特性

  常見調查設計之適用性如下:

(表格)

  各種調查設計資料品質之潛在效果:

(表格)





1-1-1 研究設計的類型



  研究(research) 是一套完整的科學性歷程。它是有系統地為社會現象、自然現象及其關係提供解釋的一連串活動歷程。它也是研究者從研究問題的提出到問題解答,產生的連貫性和邏輯性的知識建構發展過程。

  何謂研究設計呢?研究設計的內容至少包括:

  1. 研究的類型。

  2. 研究對象的規劃( 母體、樣本)、( 實驗組vs. 對照組)。

  3. 抽樣的方式、樣本的安排、研究概念的操作與測量。

  4. 研究工具的設計。

  5. 研究資料的收集方式。

  6. 研究資料的處理、分析與研究目的的連結。

  常見的研究設計,有下列三類:

  1. 橫斷面調查(cross section survey):係指資料收集的時間僅侷限在單一的時間點,對研究變數依據收集所得的資料進行描述性分析和討論。橫斷面調查係目前政府機關辦理調查之大宗,無論就調查規劃分析及決策應用而言,皆已臻成熟之境。例如,定期提供勞動統計資料之「人力資源調查」、家戶經濟資料之「家庭收支調查」、受雇員工福利、工時相關資料之「受雇員工薪資調查」及社會各面向議題及其變遷情形之「社會發展趨勢調查」等。詳細應用方法,請見作者《Stata 高等統計分析》一書。橫斷面研究實用性強,且被廣泛採用,但一旦遇到要分析變化的時候,橫斷面研究就不能勝任了。

  2. 縱貫面調查(longitudinal survey):係針對研究變數進行一種跨越長時間觀察的資料收集( 至少於二次以上的時間點收集資料)。縱貫面調查即以同一問項,定期或不定期辦理多次。其優點為能夠觀察研究因時間而產生變化的因子,有利於探討因果關係。通過這種方法,在研究變化這個問題上,縱貫面研究比橫斷面研究更勝一籌。

  縱貫面研究設計,包括以下幾個選項:固定樣本小組(panel) 設計、重複橫斷面設計( 又叫趨勢分析),以及事件史分析。

  (1) 固定樣本panel 設計「fixed-sample panel design,又叫做追蹤研究(panel study)」是「最純粹」的縱貫面設計。「固定樣本」,顧名思義就是在多個時間點對同一樣本進行調查。由於追蹤研究對同一批人進行跟蹤調查,所以這種研究設計最適合研究特定個體的變化過程。追蹤研究分析,研究設計「操弄」起來較十分困難。

  (2) 重複橫斷面設計,顧名思義,為了達到分析變化的目的,這種設計把橫斷面研究「重複」兩次或更多次。更具體地說,趨勢設計分兩次或更多次收集資料,但要求母群體不變,只是每次調查的是不同的樣本。樣本的選擇是趨勢設計和追蹤設計的關鍵區別。追蹤設計每輪次研究都必須訪問相同的對象,而趨勢設計每輪次則是從同一個母群體中抽取不同的樣本進行資料收集工作。這一特點使得趨勢設計,可以克服追蹤設計的主要缺陷。

  (3) 事件史分析:實徵動態社會分析大抵可歸為兩類,即事件史分析(event history analysis) 與追蹤資料分析。社會學的事件史分析與生物統計不同之處,在於前者關心動態的時程,而後者往往只需組間平均差異,因此社會學家常發現,所謂的「Cox 模型」不估計行為對時間的相依性,會限制其對分析現象之理解,而應該考慮採用有母數之模型來描述此相依性。另外,早期社會學的追蹤資料分析多仰賴結構方程模型,但晚近的追蹤資料分析則重視以動態的研究設計,來控制「未觀察到的異質性」所導致的偏誤,而更有利於因果推論的建立。

  縱貫面設計應用分析,請見作者《Stata 在總體經濟及財務金融的應用》一書。

  3. Panel( 追蹤/縱橫) 分析:在一段時間內研究某一群特定樣本與趨勢研究相比,固定樣本多次收集資料研究可以顯示出研究依變數(dependent variable)在研究期間不同時間之改變。

  由於對於個體逐時變化之原因與其解讀,因為逐次隨機抽取樣本之故,無法形成因果機制,故最佳解決方式莫過於鎖定同一組樣本進行縱貫之Panel 觀測,此亦為歐美先進國家積極實施之觀測方式,不僅行之有年,其資料亦廣獲政府及各界採用,並已擷取極多深具貢獻之決策資源。

  易言之,panel study 是最近很流行的研究設計方式,主要是指針對相同的一群人(a panel),重複收集多個時間點的資料,再加以分析比較,因此panel study是一種廣義時間序列(genalized longitudinal) 的研究型態。Panel study 經常與計量經濟學或迴歸分析結合,運用於計量經濟、社會科學或健康相關的研究。

  從研究設計的角度來看,panel study 最主要的特色與優點是可以控制( 排除)許多與研究對象有關、不隨時間改變的因素之影響,例如性別、基因、智力、種族等「非時變」因素,因此可以讓研究人員探討主要的自變數與依變數之間的關係。





1-1-2 各大學興起建立Panel 資料庫



  追蹤資料(panel-data) 亦可譯成「面板資料」、「縱橫資料」,是用來描述一個總體中某一群指定樣本在一段時間的情況,並對樣本中每一個樣本單位都進行多重觀察。這種多重觀察既包括對樣本單位在某一時期( 時點) 上多個特性進行觀察,也包括對該樣本單位的這些特性在一段時間的連續觀察,連續觀察將得到資料集稱為panel 資料。最早是Mundlak(1961), Balestra 和Nerlove(1966)把追蹤資料(panel-data) 引入到計量經濟中。從此以後,大量關於追蹤資料(panel-data) 的分析方法、研究文章如雨後春筍般出現。

  伴隨著經濟理論,包括總體經濟理論和個體經濟理論、電腦技術和統計方法的發展,追蹤資料在經濟學領域的應用逐漸被計量經濟學家推廣。在總體經濟領域,它被廣泛應用於經濟增長、技術創新、金融、稅收政策等領域;在個體經濟領域,它被大量應用於就業、家庭消費、入學、市場行銷等領域。

  目前,世界上已經成立了專門研究追蹤資料(panel-data) 的協會,每兩年舉辦一次全球性的追蹤資料學術交流大會。入會者均是從事追蹤資料研究的經濟學家、計量經濟學家、統計學家和社會學家。迄今,追蹤資料(panel-data) 分析的新方法和新的應用領域,已延伸至社會科學、醫學和金融學等領域。

  美國最著名的兩個追蹤資料資料庫,一個是俄亥俄(Ohio) 大學的NLS 資料庫(the National Longitudinal Surveys of Labor Market Experience); 另一個則是密西根大學的PSID 資料集(University of Michigan’s Panel Study of Income Dynamics)。NLS 資料集包括五個獨立的與勞動力有關的panel 資料集,這五個panel 資料集的主體,包括1966 年45 歲到59 歲的成年男子、1966 年14 歲到24 歲的青年男子、1967 年30 歲到44 歲的成年女子、1968 年14 歲到24 歲的青年女子、1979 年14 歲到21 歲的男女青年。調查的變數有上千個,主要側重瞭解勞動力市場上供給方的情況。

  1. 俄亥俄(Ohio) 大學的人力資源之panel 資料庫

  2. 密西根(Michigan) 大學的PSID 資料集

  PSID 資料集(University of Michigan’s Panel Study of Income Dynamics) 由從1968 年起直到現在所收集的6,000 個家庭和15,000 個人的5,000 多個變數的資料構成,這5,000 多個變數涉及就業狀態、收入、家庭資產、住房、上班交通工具、汽車擁有等方面。收集這些追蹤資料資料庫主要是為了研究美國貧窮人口狀況及其貧窮原因。除此之外,這些資料庫還被用來監測和解釋經濟狀態變化以及經濟和社會狀況對人們生活的影響。

  3. 康乃爾(Connell) 大學之panel 資料庫

  4. 普林斯頓(Princeton) 大學之panel 資料統計

  5. 美國犯罪資料庫

  6. 香港科技大學(http://caser.ust.hk/?act=project_hkpssd) 亦著手建立panel 資料庫,如下圖。