網頁 貼吧 文章 作者 工作  
網頁搜尋
 
 愛PO吧 >> 楓之谷小遊戲 >> 瀏覽文章
回覆 加入我的最愛 與好友分享

飽受爭議的貝氏異論

本被文章 0 次, 共有回覆 5  
0
 
0
既然到了Venice Beach不免想到跟Venice有關的故事,也就是Venice的總督選舉方式。可參考:The Chronicles of Venice: How the Doges Were Chosen



從第八世紀到十八世紀前期,威尼斯共和國是地中海一帶的強權,全盛時期疆域遍及大部分的亞得里亞海岸,以及Crete和Cyprus兩島,並且壟斷東方通往歐洲的商業貿易路線。共和國的統治階級是一群貴族家族,但他們彼此之間卻遵循某種民主程序。

整個國家名義上的領袖是總督,從它成立的公元697年到被奧地利併吞的1797年,總共超過150任的總督,有的任期很短,只有一年或不到一年,也有任期長達三十四年。當在位的總督去世以後就會進行一項很複雜的選舉程序。他們先從貴族的家族長者當中,以抽籤的方式選出一小群元老,這樣被選出的元老還會再挑選一些人加入他們,之後再從這一群元老當中抽籤選出一小群人。這樣的程序進行幾次以後會選出最後一群總督候選人,而總督就從這群人當中產生。

根據共和國早期的歷史記載,每階段的抽籤用的是一批大小相同的蠟球,有的蠟球裡什麼都沒有,有的蠟球裡面確有一張小紙條,上面寫著"Lector"。在十七世紀以前,最後的幾個階段用的道具是大小完全相同的金球與銀球。公元1268年Doge Rainieri Zeno去世時,在第二階段有三十位元老,而準備的蠟球有三十個,裡面有九個蠟球內藏有"Lector"紙條,由一個小孩拿著裝蠟球的籃子,由籃子裡取出一個蠟球交給第一位候選人,這個候選人就打開蠟球看看自己是否中籤,能否進入下一個階段。接著小孩拿著籃子走到第二位候選人面前同樣取出一顆蠟球給他,打開蠟球,.....以此類推。

在小孩取出蠟球前,每個候選人被選為下個階段Lector的機率是9/30,如果第一個蠟球是空的,則剩下的候選人被選為下個階段Lector的機率為9/29;但如果第一個蠟球裡有紙條,則其餘的人中籤的機率就只剩下8/29。一旦第二個蠟球也選定並且打開,下一個中籤的機率會同樣減少或增加,與前次抽籤的結果有關。這樣的情況會持續下去,直到九個籤條都抽出為止,而這個時候剩下的候選人成為Lector的機率就是零。這就是條件機率(conditional probability)的例子,每個特定的候選人被選為下個階段的Lector的機率取決於他之前被選出的蠟球。

在十八世紀,為了處理條件機率而發展出來的公式都是依據下面的這個觀念:條件機率發生在待決定的事件之前。但在十八世紀後期,貝氏(Reverend Thomas Bayes)在玩弄著條件機率的公式時,忽然有個驚人的發現-這些公式都是內部對稱的。

假設有兩事件在一段時間內發生,就像先洗好牌,再發出五張showhand的牌,這時我們就稱這兩個事件分別為前(before)跟後(after)。說後面事件發生的機率以前面事件為條件,是有意義而且說得通的,如果牌沒有洗好,當然會影響玩家得到一對A的機率。貝氏發現也可以反過來,計算在後面的事件已發生的條件下,前面事件發生的機率。關於此點實在是很詭異也沒什麼道理,就像玩家已經拿到一對A以後再來看看整副牌有四張A的機率是多少,或是已知一個病人罹患了肺癌,再回頭計算他是癮君子的機率,或者已經知道有個叫Peter的人得了彩券,然後再用這件事去看州立彩券公不公平。

貝氏把這些計算放一邊,沒有在生前張揚,但是他死後,這些論問文被人發現,也發表出來。從那時候起,貝氏定理就令許多統計分析學家相當迷惑。貝氏把條件機率反轉過來,並不是說不通,相反的,在許多領域大有用處。當流行病學家想找出某種罕見醫學狀況的可能原因時,如Reye's syndrome,他們通常利用病例對照研究(case-control studies)。在這種研究過程中,他們首先針對育研究的病症,蒐集一組病例,然後拿去跟對照組的病人比較,而對照組的病人除了沒有這樣的病症外,其他各方面都與罹患該病的病人相似。接著流行病學家會在對照組病人已患有該病症的已知條件下,計算先前某種治療法或條件導致該病的機率。這正是首度發現抽菸對心臟病和肺癌都有影響的方法,鎮靜劑對新生兒畸形的影響,也是經由這種病例對照研究發展而發現的。

前面談的是直接用貝氏定理,來把條件機率反過來,而比這更重要的用途則是用來估計分布的參數。假設參數本身也是隨機的,因此可以計算出和這些參數有關的機率。例如說,我們想比較兩種癌症的治療法,並希望得到”95%的把握,A治療法的五年存活率會比B治療法高”的結論,我們只要應用貝氏定理一至兩次便可以辦到。

有很多年,貝氏定理的這種用法無法被學術界接受,認為是一種不當的方法,用於參數時,機率所代表的意義大有疑問,畢竟卡爾.皮爾生提出的觀念變革基礎,在於科學量測的本身不再是我們關心的主體,而是皮爾生所揭露,重要的是量測的機率分布。這種分布由許多參數的(固定但未知的)值來控制,而科學研究的目的就是要估計這些參數。所以如果參數被認為是隨機的(而且以觀測到的量測為條件),這種理論方法就不再有這樣清楚的意義了。

二十世紀的初期,統計學家把這種理論方法稱為逆機率(inverse probability),也都竭力避免。有一次費雪在皇家統計學會上報告他早期的論文時,有人質疑他用了逆機率的法,費雪則堅決否認這項可怕的指控,大力為自己辯護。在第一篇有關信賴區間的論文裡,尼曼似乎也用到了逆機率,但只作為一個數學方法,用來處理特定計算。而在他的第二篇論文裡,他就證明了不用貝氏定理也能得到相同的結果。

到了1960年,這種理論方法隱含的力量跟用途卻開始吸引越來越多的研究者,貝氏異論變得越來越有地位。在二十世紀末,則已經廣為被接受,如今在一些統計學期刊上,像"Annals of Statistics"跟"生物統計",幾乎半數以上的文章都會用到貝氏方法。不過貝氏方法的應用還是常常遭人質疑,尤其是醫療相關的科學研究上。

在解釋貝氏異論時碰到的最大困難就是目前有好幾種分析方法,而這些方法的應用又有至少兩種完全不同的哲學基礎。長久以來許多完全不同的想法似乎經常貼著相同的標籤-"貝氏"。而貝氏異論的兩種理論模型分別為貝氏層次模型(Bayesian hierarchal model)與主觀機率(personal probability)。

1970年代早期,由於Frederick MostellerDavid L. Wallace的貢獻,原文分析的統計方法開始有了很大的進展,他們兩人的重要成果,是運用統計方法來判定聯邦主義議文集(Federalist Papers)當中一些有爭議性的文章的著作人是誰。在紐約州於1787-88年間通過新的美國憲法之前,James Madison(第四任美國總統)、Alexander Hamilton(美國首任財政部長)和John Jay(美國首任首席大法官)共同寫了大約70篇文章,鼓吹通過憲法,但這些文章都是匿名簽署的。約十九世紀初,Alexander Hamilton和James Madison兩人重新檢視這些論文都聲稱是自己寫的,其中有12篇鬧雙包。

在統計方法分析這些有爭議性的文章時,Mosteller跟Wallace找出幾百篇英文語彙裡無特定意義的字,如if、when、because、over、whilst、as、and等。這些字在句子中只有文法上的意義,本身並無特定意思,字的使用主要和作者使用文字的風格與習慣有關。在這上百字裡他們發現,兩位作者在他們的其他著作中對這些字的使用頻率有三十幾處不同。例如,James Madison使用upon這個字的頻率是每千字平均0.23次,但Alexander Hamilton對同一個字的使用頻率很高,平均每千字高達3.24字,在12篇有爭議的文章裡有11篇根本沒有upon這個字,而剩下的那篇平均每千字就出現1.1次。這些平均出現頻率並不是真的在描述任意一組一千字的狀況,從這些不是整數的數據中我們可以發現,它們代表的並非觀測到的文字序列,這些數據所代表的是兩位作者用字分布的其中一個參數的估計值。

至於某篇文章著作人的爭議,所需問的問題其實就是:這篇文章用詞遣字的型態是來自James Madison的機率分布呢?還是來自Alexander Hamilton的機率分布?兩種分布各有各的參數,其中能說明作品出自誰手筆的特定參數又各不相同。參數的值只能由作品來估計,而這些估計值可能會錯,因此要想分辨哪個分布能應用在一篇有爭議的文章上,有時會受到這種不確定性的影響而徒勞無功。幸好有個方法能夠讓我們估計這種不確定性的嚴重程度。我們可以看一看兩個人的分布參數的實際值,以及十八世紀末,北美知識份子用字習慣的分布參數值。例如Alexander Hamilton每千字中用到in這個字24次,James Madison則是23次,至於同時代的其他作家使用這個字的頻率都在22到25左右,其實都相當接近。在某時某地,每個人的一般用字習慣會有某種型態,因此相關的參數是隨機的,本身也有一個機率分布,這樣一來,James Madison與Alexander Hamilton使用這些字的習慣參數本身也有參數,通常可以稱為超參數(hyperparameter)。若用當時當地其他作者寫的文章來分析,就能估計出這些超參數。

英語永遠會隨著地域與時間的不同而改變,例如二十世紀的英語文學裡,使用in的頻率通常每千次少於20次,這表示James Madison與Alexander Hamilton的時代到現在兩百多年,英語的用字型態已經稍有改變。我們可以進一步假設這些超參數,假設十八世紀在北美的用字習慣參數分布的參數本身也有一個對所有時間與地區英語用字習慣的機率分布。因此除了拿十八世紀的北美作品,我們還可以蒐集其他地區,其他時代的英語文獻,來估計這些超參數,我們可以稱這些新參數為超超參數(hyper-hyperparameter)。若重複使用貝氏定理,就能決定參數分布,接著再決定超參數的分布。基本上我們可以再把層次擴大,找出超超參數的分布,再估計出超超參數.....,但在我們的例子裡,顯然不必再擴大,以免添增更多的不確定性。利用超參數與超超參數的估計值,Mosteller跟Wallace就能算出與下列陳述有關的機率:James Madison或Alexander Hamilton,誰寫了這篇文章?

從1980年代早期開始,貝氏層次模型已經成功解決許多工程與生物學上的難題,尤其是一些數據似乎來自兩個以上不同分布的問題。統計分析師可以提出有一個未觀測到變數存在,而這個變數可以判定已知的觀測結果究竟屬於哪個分布。這個判別標識本身是個參數,但它還有一個機率分布(和一些超參數),可以納入概度函數來分析。Nan Laird與James Ware發展出來的EM演算法特別適合用來處理這類的問題。

統計文獻中大量使用貝氏方法,但卻也充滿混沌跟爭議,大家有可能提出許多導致不同結果的不同方法,卻沒有任何明確的標準來決定哪個是對的。通常保守派統計學家拒絕使用貝氏定理,而貝氏學派的人彼此對方法的細節看法也不一致。這種混亂的狀況需要另一個像費雪一樣的天才出現,找出一個統一的原則來解決爭議。一直到進入二十一世紀,這種天才能未現身,因此其相關問題還是跟兩百多年前的貝氏時代一樣,令人困惑不解。

另一個貝氏方法基礎似乎就穩固得多,這個方法就是主觀機率。從十七世紀Bernoulli family的初期機率研究開始,這個觀念就已經存在了。事實上,Probability這個英文字的創生就是用來描述一種主觀上的不確定感。在1960與70年代,莎維奇(Savage)跟德范尼提一起發展出與主觀機率有關的許多數學理論。莎維奇曾在北大羅萊納大學的統計學會議的演講提到,世界上沒有所謂的”已經被整名的科學事實”,我們有的只是一些陳述,而那些自認為是科學家的人對於這些陳述有很高的贊成機率。他舉例說,在場聽他演講的人對”地球是圓的”這個陳述一定有很高的認同機率,但若我們有機會對全世界的人做一次普查,則一些未開發地區的貧苦農民對這句陳述的贊同機率可能就很低。

主觀機率有各種不同版本,其中一個極端是莎維奇(Savage)跟德范尼提所主張的,每個人都自有一套機率。而另一個極端則是John Maynard Keynes的觀點,他認為機率是信仰的程度,這種信仰是一種既有文化期望知識份子能保有的信念。在Keynes的看法裡,一個既有文化裡的所有人(莎維奇所說的科學家或落後地區的農民),對某種特定的陳述會有共同認可的某種機率程度。電腦中文遊戲因為這個共同認定的機率程度,取決於文化及時間,因此在某種絕對的意義上來說,很可能這個機率程度是錯的。相對的,莎維奇和德范尼提的則主張每個人都有一套主觀機率,DVD9高清晰情色合輯 他們還描述怎麼運用一種叫做標準投機(standard gamble)的技巧,把這種主觀機率抽出來。為了讓同一文化裡的每個人都能共享一組既定的機率,Keynes必須削弱相關的數學定義,而讓機率的數值不是一個精確的數字(如67%),而是一種把想法依序排列的方法(如明天可能會下雨的機率大於會下雪的機率)。

不管主觀機率的觀念如何嚴密定義,貝氏定理用於主觀機率的方法似乎與大多數人的想法吻合。開始的時候貝氏理論方法會假設一個人事前在心裡已經有一組機率,接下來這個人經過觀測或實驗產生了數據,然後就可以再拿這組數據來修正事前機率(prior probability),接著再產生一組事後機率(posterior probability)。

事前機率 --> 數據 --> 事後機率

假設某人想確認是否所有的大烏鴉都是黑的,而且一開始心裡就有個譜,大概知道答案為是的機率是多少。例如,起先他可能對烏鴉一無所知,對”所有的大烏鴉都是黑的”這句話半信半疑,勝算比是50:50,而數據包括他對大烏鴉的觀測。假設讓他看到一隻黑色的大烏鴉,他的事後機率就會提高。因此下一次再觀測大烏鴉時,新的事前機率就會大於50%,而且還會因為觀測到更多黑色大烏鴉而繼續增加。反之觀測者也可能在進行觀測之前就已經帶有非常強的主觀,程度甚至強到需要大量的數據才能壓倒這個先入為主的想法。在1980年代,賓州的三哩島核能電廠發生近乎災變的事故。反應爐的操作員可以由一個很大的控制盤及上面的各種儀表與指示燈,來了解反應爐的運作情況。這些指示燈當中有很多警告燈,其中幾個以前曾經發出假的警告,因此在當時操作員便有了先入為主的成見,認為他們看到一個新出現的警告燈亮時就先當作它是假的訊號。結果即是當警告燈的型態和相關的指示燈都一致顯示反應爐的水位過低時,他們還是置之不理,這就是因為他們的先前主觀(主觀機率)太強烈了,所以雖然有新的數據也無法使事後機率產生多大的改變。

假設只有兩種可能的存在,就像前面所提到的例子,文章不是James Madison寫的,就是Alexander Hamilton寫的。那麼應用了貝氏定理後就會得到一個事前勝算與事後勝算之間的簡單關係,而數據可藉由這個關係整理成一種稱為”貝氏因子”(Bayes factor)的東西。這是一種數學計算,可以在未考慮事前勝算的情況下描述數據的特性。有了這個計算工具,分析者可以要求讀者插入任何他想要的事前勝算,乘上計算好的貝氏因子,再算出事後勝算。Mosteller跟Wallace對這十二篇有爭議的文章都是這樣處理的。此外,他們也對毫無具體意義的字進行兩種非貝氏分析,因此他們共用了四種方法來判斷爭議文章的著作人,分別是貝氏層次模型,貝氏因子,以及兩種非貝氏分析。結果所有十二篇的作者都壓倒性地指向James Madison。但事實上,如果是採用貝氏因子對其中幾篇,讀者認為Alexander Hamilton寫的事前勝算可能大於100,000:1,才有辦法讓事後勝算變成50:50。

讀書筆記*統計改變了世界

逛上一篇:   逛下一篇:

作者: cyenpztfx
  (2010-01-10 05:35)
推薦文章: 將本文章推薦到【百度收藏】 將本文章推薦到【YouPush】 將本文章推薦到【udn共享書籤】 將本文章推薦到【Fiigo】書籤

 本文章共有回覆 5 篇,分 1 頁
 聲明:以上內容不代表本站立場,且內容由網友發表提供,若有爭議或違法由發表者承擔,本站將不負責連帶責任,謝謝。

 IPoBar  愛PK  愛遊戲  愛online
新手教學 客服中心 站務公告 交換連結 合作提案 關於我們
 
版權所有©ipobar Ltd., All Rights Reserved.
論壇內會員言論僅代表個人觀點,不代表本站同意其說法,本討論區不承擔由該言論所引起的法律責任