您找過以下的關鍵字

尚無搜尋紀錄

1-1 傳統統計與大數據分析有何不同

(一)傳統統計分析

傳統統計的歷史源自17世紀,一直到20世紀,統計的研究是希望從樣本推論到母體,所以都是以小樣本數為主,其原因是有效樣本的不易取得且太過昂貴,並且數據受太多因素互相干擾而不準確,所以早期的統計研究分為兩個階段。

第一階段:資料分析(Data Analysis):研究如何收集、整理、歸納,描述資料中的數據和分散程度。第一階段的統計又被稱做探索性資料分析(Exploratory Data Analysis, EDA)。資料分析傾向於直接利用數據做判斷。

第二階段:推論統計(Inferential Statistics):由第一階段的資料分析推理數學模型,由隨機且有效的樣本推論到全體情形,來幫助決策。第二階段的統計又被稱做數理統計,傾向於利用第一階段的結果,並排除不必要的極端值後,再作分析。

以前統計因為樣本取得不易,必須用少數有效樣本推理、決策。也因此做許多機率模型並驗證,最後有了目前的統計。

(二)大數據分析

到了21世紀的電腦時代,因為能獲得大量資料,不像以前的資料量比較少,工程界已經有能力可以處理大量資料的分析,直接用電腦做出各種視覺化(Visualization),再來加以分析。但是由於可以獲得大量資料,也導致了樣本不完全是隨機樣本,所以大數據的分析不能僅限於傳統統計的分析方法(隨機抽樣),必須用到工程統計多年發展的工具。一直到2010年網路的普及程度提高,商業界也意識到利用大量外部資料來分析商業行為是勢在必行,所以商業界推出大數據分析(Big data)的統計方法,但其實目前大數據分析就是工程界上早已使用大量數據的統計分析。

處理大量資料的分析,又稱資料科學(Data Science),現狀是使用者不用完全懂統計的原理,只要會操作電腦來進行視覺化及分析,期望從中找到有用的資訊。當然這樣的方法在統計觀點是較不嚴謹的,但仍有助於分析。也正因為大數據的不嚴謹性,普遍地不被大多數統計學家認同是有效的統計方法。但在作者觀點,數據視覺化的提升可被認定是在敘述統計範疇內,並且使用的方法是工程統計的方法(Predictive Analytics),所以大數據分析可被歸類在統計之中,當然如果要很完整且有效的被利用,則需要數理統計的證明。

(三)統計分析與大數據分析的異同

由以上的內容可知,統計與資訊、通訊工程師具有密切相關性,可參考圖1、2。然而實際情形卻是兩者間有著很大的距離,各走各的路。其中有許多內容,數理統計已經研究出內容,但因為溝通的不易,工程師也不知道其統計內容,而自行開發程式與統計內容。同時工程師開發的統計工具,因缺乏嚴謹的統計模型,在某程度上的討論具有高度風險性。

以工程界為例,如果有問題可以很快檢測出來,但如果是社會、醫療、人文類的問題,容易受多重因素影響,不容易即時檢驗統計結果是否正確。所以工程師開發的統計程式,在某些情形下沒有數學嚴謹的統計理論支持,容易失去準確性。同理在商業上的大數據分析使用也要更小心。

(四)結論

我們可以發現統計的演變,從少量數據來推論數學模型,進而做出推論。然而在21世紀可獲得大量數據,並利用電腦跳過部分數學模型,利用視覺化來分析,科技的改變帶動統計的進步,當然視覺化的分析,裡面仍然是藏著數學模型在內,並且也需要數學的驗證,只不過仍在研究中,但已經可由視覺化來幫助分析。

大數據的時代比起以往更需要統計分析來驗證,利用數據圖像化、視覺化、即時互動來協助判斷,換句話說大數據就是更精細的敘述統計,而非只是簡單的長條圖、或說是數據量太少的統計。以上的方法廣泛的應用在各門學科之上,從自然科學和社會科學到人文科學、統計學、經濟學、戰爭(如:飛彈遞迴修正路線),甚至被用來工商業及政府的情報決策之上。

本書用大量的圖表來認識統計、數據分析,利用圖案來說明統計來降低對數學式的陌生,並學習統計與生活相關的內容,最後認識大數據時代,數據圖像化、視覺化如何利用,並知道傳統統計與大數據的差異性,就是小樣本(Small data)與大樣本(Big data)的分析。了解這些內容後,就不會一昧的使用平均,或是被不會統計的人濫用統計來誤導思考方向。

1-2 傳統統計是什麼

傳統統計是什麼?簡單來說,主要分為兩類。

1. 敘述統計:觀察資料,從資料中發現資訊,將該資料的特徵與性質明確化。舉例:飲料店假日平均賣出50杯飲料。

2. 推論統計:從資料中分析出該資料趨勢,由部分的資料(稱為:樣本)推論出下一階段會是怎樣的情況。經由樣本資料推論出全部的情形(稱為:母體)。舉例:飲料店利用很多次銷售數量,得到平均可賣50杯,標準差為5杯,所以預測出下個周日95%可能會賣出40~60杯飲料。標準差的概念將在後面內容說明。

(一)樣本與母體的說明

統計首先需要收集資料,被稱為樣本,再由樣本資料,推論全體情況,全體在統計上稱為母體。舉例:母體以數量來看,就是浮在海上的冰塊加上海面下的冰塊,見圖1:但該圖是以少部分浮冰(海平面上)做為樣本來推論母體,這樣的樣本只取海平面以上的部分,取樣不夠隨機,真正的樣本資料應該具有隨機性,見圖2,這樣的取法才能讓少部分的資料代表整體。不幸的是社會上卻常常做取浮冰(海平面上)的調查,因為這樣有助於美化統計數字,將導致大家對統計的不信任,或是認為有人利用統計來騙人。

在推論統計中,為了分析過去資料來推論未來的情形,統計學家作了各種估計與檢定,建構了現代推論統計。其中建構現代統計的重要人物是數理統計學家尼曼(Jerzy Neyman:1894-1981)與皮爾森(Egon Sharpe Pearson:1895-1980),他們發明了由部分資料推論全體的估計,以及比較兩種資料的是否有差異的檢定基礎。統計的發展請參考圖3。

統計的實驗方法如何產生?這由英國統計學家、生物學家費雪(Ronald Aylmer fisher:180-1962)設計,據說他在喝紅茶時聽到有人提到杯子先放紅茶還是先放牛奶,味道會有所不同,進而引發動機去設計實驗,最後有了實驗設計法。費雪替現代推論統計奠定基礎。

(二)敘述統計與推論統計的優缺點

1.敘述統計

敘述統計的優點是令人可以快速了解資料的內容,如出處、數量,並得知母體的特徵與性質,如:考試成績常使用的平均,或是由小到大的最中間的數:中位數,這些都是屬於敘述統計的一部份。敘述統計可以明確的得到一些簡潔的數據,缺點是產生的統計量不一定是有效的分析,如:平均。

敘述統計可觀察圖表,令人直觀地看到變化,如長條圖,見圖4。圖表就是一種基本的數據視覺化,我們為什麼需要數據視覺化?因為一大堆數字不容易看出差異性,但數據視覺化後,圖表可以快速幫助找出差異性。

2.推論統計

推論統計的重點是由樣本來推論母體,不用獲得全部資料,事實上在絕大多數的情況都無法獲得太多有效數據,必須用估計的方法客觀推論母體的數值,以及利用檢定的方法判斷不同樣本間的差異。例如:某大學男學生的身高作隨機抽樣取50人取平均,得到平均身高為170,所以估計男學生身高約170。而女學生的身高作隨機抽樣取50人取平均,得到平均身高為160,所以估計女學生身高約160。發現男生比女生高,而男女之間比較身高是否真的是男生比女生高,就稱為檢定。推論統計的限制是不易收集有效且夠多的隨機樣本、且需要的數量往往價格昂貴,如:醫學上的疾病樣本。

(三)結論

敘述統計的意義就是利用統計量及圖表來快速做初步判斷;推論統計的意義就是使用嚴謹的統計工具,利用樣本推論母體。

再次將傳統統計與大數據作比較,大數據面臨比傳統統計更大量的數據,因為數據太多,難以用傳統統計的數據視覺化圖表判斷,而必須使用電腦軟體的數據視覺化來幫助分析;並且大數據的數據不能保證隨機(非隨機抽樣),所以大數據的範疇涵蓋傳統統計,所以也涵蓋工程統計。