Monday, June 30, 2008

TAG CLOUD: my blog on "end of science"

 

When all models are unnecessary, ...

"All models are wrong, and increasing you can succeed without them."

最近一期 Wired 的封面故事:The End of Theory: The Data Deluge Makes the Scientific Method Obsolete,標題驚人,內容頗具爭議性,在部落圈和學術界掀起一陣討論和討伐之風。

這篇文章談到資料挖掘在Google 的成功中扮演的角色,以及可能在未來科學研究中扮演的角色,企圖雄偉,但是立論薄弱,而且對有些基本的東西有誤解,所以文章一經發表,讀者反應激烈,用句俗諺來形容,可以說是捅了馬蜂窩

Wired 網站裡的讀者回應區,立刻有人反應作者做了能力範圍(out of league)外的事情,也有人認為他越線(crossed the line)了,甚至有位密西根大學的教授(Cosma Shalizi)在自己的部落格說出 I recently made the mistake of trying to kill some waiting-room time with Wired 的狠話。

這篇文章由Wired 雜誌主編 Chris Anderson長尾理論的發明者)執筆,Chris Anderson 的確不愧為暢銷書作者,文采斐然沒有話說,先以統計學家 George Box 的著名警句 All models are wrong, but some are useful. 破題,然後以優美的排比句子,揭示 Petabyte 時代的來臨:

Sixty years ago, digital computers made information readable. Twenty years ago, the Internet made it reachable. Ten years ago, the first search engine crawlers made it a single database.

Petabyte Age 不是文人的夸飾,隨著資訊科技的進步,人類累積和儲存資料的本事越來越大,今年初(January 2008),Google 發表的 MapReduce 論文,透露了 Google 一天要處理 20 Petabytes 的資料。大量的數據,加上資料挖掘以及統計的幫助,讓 Google 的競爭力如虎添翼,谷歌本身的成就和他們贊助的生物資訊研究,充分說明了資料(數據)的重要性。所以 Peter NorvigGeorge Box 的名句改成 All models are wrong, and increasingly you can succeed without them.

之前筆者也曾撰文討論過資料在數據挖掘研究裡的重要性,但是 Chris Anderson 在這裡走進了推演的誤區,把資料的重要性無限上綱,得到了只要有大量數據和應用數學(applied math;顯然他想說的是 data mining),天下沒有辦不到的事。甚至他認為這是 paradigm (有人翻譯為範式,還有更好的翻譯嗎?)的轉移,所以才有 End of Science 這樣驚人的標題。簡而言之,他認為老套的做學問的方法過時了:

It's science. The scientific method is built around testable hypotheses. These models, for the most part, are systems visualized in the minds of scientists. The models are then tested, and experiments confirm or falsify theoretical models of how the world works. This is the way science has worked for hundreds of years.

..... omitted....

Once you have a model, you can connect the data sets with confidence. Data without a model is just noise.  But faced with massive data, this approach to science — hypothesize, model, test — is becoming obsolete.

他進一步闡述他的看法,有了數據、電腦、演算法,把數據丟進運算機器之後,我們只要等待結果就行了,不需要假設、模型,也不需要相關的知識。就像 Google 應用統計結果做機器翻譯和拼字檢查,不需要懂語言,也能得到很棒的結果:

There is now a better way. Petabytes allow us to say: "Correlation is enough." We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

Chris Anderson 所描述的新科學,在論述上並不充分完整。誠然,資料+運算能力+資料挖掘演算法的公式,在可以產生大量資料的領域,例如:太空、物理、製藥、基因等等,可以得到很棒的結果。但是,並不是所有的研究領域都有這樣的條件(可收集大量數據),這個新公式是否無往不利,包山包海,是很大的疑問。再者,不同領域的研究方法論也不同,貿然進入結論,認為新公式就是新的科學典範,是太草率了。比如說,有人質疑,如果這個模式成立,我們如何發現新的東西,因為我們不知道「新」東西的資料要從哪裡來?

這種把科學的過程目的過度簡化的 "science without model & correlation supersedes causation" 理論,是有大問題的,Chris Anderson 所描述的新科學 — 從大量資料裡發現值得注意的資訊或知識 ,只是知其然的地步,這才是科學的起步而已;科學家的使命是知其所以,要知道事物的細節和所有發生現象的解釋,才是推動科學(和科技)進步的動力。

John Timmer (ars technica) 在他的文章裡面,問了一個有趣的問題,如果一個理論不能提供可驗證的假設(testable hypotheses),我們怎麼知道我們錯的有多嚴重?推翻 testable hypotheses 的的必要性,我們甚至不知道結果是對是錯?

而且 Chris Anderson 的說法也很容易誤導大家理解資料挖掘的真意,每個執行過資料挖掘工作的人(不論是學者、分析師、工程師)都知道,在找出規則(rules)和型樣(patterns)之後,如何判斷找出的資訊是否有用、有效,正需要上面所述知其所以的能力,才能充分利用挖掘出的資訊得到最大效益。資料挖掘絕對不只是 number crunching 的黑箱,沒有理論,沒有假設,沒有關聯,是不可能完成一個資料挖掘任務的。

所以我完全同意 John Timmer 所說的: At a more fundamental level, in spite of what Chris Anderson has to say, science is about explanations, coherent models and understanding。他對關聯(correlations)和模型的解釋,更是簡明有力,深得我心:

Correlations are a way of catching a scientist's attention, but the models and mechanisms that explain them are how we make the predictions that not only advance science, but generate practical applications.

在賓州大學任教的 Fernando Pereira 針對這篇文章的評論也很具參考價值:

I like big data as much as the next guy, but this is deeply confused. Where does Anderson think those statistical algorithms come from? Without constraints in the underlying statistical models, those "patterns" would be mere coincidences. Those computational biology methods Anderson gushes over all depend on statistical models of the genome and of evolutionary relationships.

Those large-scale statistical models are different from more familiar deterministic causal models (or from parametric statistical models) because they do not specify the exact form of observable relationships as functions of a small number of parameters, but instead they set constraints on the set of hypotheses that might account for the observed data. But without well-chosen constraints — from scientific theories — all that number crunching will just memorize the experimental data.

個人認為當Chris Anderson 說出 Forget taxonomy, ontology and psychology 時,顯然是走得太遠,有點忘形了。雖然從作文章的角度來看,這在修辭上是很有講究的句子,但是這些文字透露了推理的輕率和治學態度的傲慢,我想這是眾多部落格作者和學者看不過去的原因之一。

更多數據對於科學家絕對是好事,越多數據越能驗證假設的正確性,但是更豐富充足的數據絕對不代表我們就可以揚棄「大膽假設小心求證」的治學原則了。不過,整體而言,Chris Anderson 的說法倒也不是全無道理,Google 的成功方程式對於學術界還是有一定影響的,Kevin Kelly 在文章裡引用 George Dyson說法很值得參考:

What Chris Anderson is hinting at is that Science (and some very successful business) will increasingly be done by people who are not only reading nature directly...,They accomplish what science does, although not in the traditional manner...

更多的數據讓科學家們多了一種有別于傳統的工作方式,但並不代表傳統的終結, John Timmer 的結語說得好:

Overall, the foundation of the argument for a replacement for science is correct: the data cloud is changing science, and leaving us in many cases with a Google-level understanding of the connections between things. Where Anderson stumbles is in his conclusions about what this means for science. The fact is that we couldn't have even reached this Google-level understanding without the models and mechanisms that he suggests are doomed to irrelevance.

除了以上整理的觀點之外,也有像 Matthew Hurst 這樣保持冷靜的作者,雖然他也對 Chris Anderson 的文章不滿,但他希望在整理出完整而有意義的想法之後,再發表自己的意見,讓我們拭目以待吧...

 

(Strongly recommended : 我在 Diigo上建了一個 List: End of Theory,相關參考資料都加入我的資料庫裡了,讀者可以閱讀這個 WebSlide,瀏覽資料庫的內容。)

參考資料:

 

Share this post :

[詩戀] 青燈

晚間看到閑花照水錄北島散文集青燈的讀後隨筆,閱後不禁莞爾,條列式的內文,對於文章的感覺只用了寥寥三、五字,但卻花了許多力氣在推敲寫作時間和出版時間的關係。看來真是隨性得很,稱為隨筆一點都不為過。

讀書一向不求甚解的我,終於知道北島生於 1949 年,這本書輯一是九篇人物散文,輯二是遊記。我跟作者同樣覺得這本書的封面有點怪,只有兩個大字「青燈」加上作者的名字,也一樣覺得北島的詩寫得比散文好。

作者有一段話很有趣,「北島在我心中,好像神。《遊戲黑白》裡,棋手遇見吳清源,問候一句家常話,吳答一句。覺得原本高高在上的神,居然在自己身邊而且居然有問有答,於是乎很滿足。看北島的散文也是,好像神突然會說些家常話」。這算是文人的追星意識嗎?

巧的是,我和作者同樣很喜歡這本書以之為名的詩——青燈

故國殘月
沉入深潭中
重如那些石頭
你把詞語壘進歷史
讓河道轉彎


花開幾度
催動朝代盛衰
烏鴉即鼓聲
帝王們如蠶吐絲
為你織成長卷


美女如雲
護送內心航程
青燈掀開夢的一角
你順手挽住火焰
化作滿天大雪

把酒臨風
你和中國一起老去
長廊貫穿春秋
大門口的陌生人
正砸響門環

 

Share this post :

Saturday, June 28, 2008

[詩戀] 父親的草原母親的歌

雖然我也曾像 滿天飛舞的花絮 那樣為席慕蓉女士只談蒙古不談詩作扼腕,但是我或許是誤解了,她並不是不談詩作,只是蒙古兩個字奔淌於她的血中,流瀉於她的筆下,不再是那個佛前求了五百年,以最美麗姿態與你相遇的那個清麗女子了。

她的詞,配上蒙古族作曲家烏蘭托嘎的作品,「父親的草原母親的歌」以陽剛和柔美的旋律交織,刻畫了她血液裡和想象裡的蒙古草原(有興趣的人可以到 Goofy-關於高飛 或者 [歲月珍藏] 線上試聽)。

      父親曾經形容草原的清香;

  讓他在天涯海角也從不能相忘.

  母親總愛描摹那大河浩蕩;

  奔流在蒙古高原我遙遠的家鄉.

  如今終於見到這遼闊大地;

  站在芬芳的草原上我淚落如雨;

  河水在傳唱著祖先的祝福;

  保祐漂泊的孩子,找到回家的路

  啊!父親的草原,

  啊!母親的河;

  雖然己經不能用不能用母語來訴說.

  請接納我的悲傷我的歡樂;

  我也是高原的孩子啊!

  心裏有一首歌;

  歌中有我父親的草原母親的河

  啊!父親的草原,

  啊!母親的河;

  雖然己經不能用不能用母語來訴說.

  請接納我的悲傷我的歡樂;

  我也是高原的孩子啊!

  心裏有一首歌;

  歌中有我父親的草原母親的河.

  我也是高原的孩子啊!

  心裏有一首歌;

  歌中有我父親的草原母親的河,

  啦````啦````啦````啦

 

Share this post :

改善表達能力的方法

兩個禮拜前,學弟安排我和實驗室的新生聊天(喝咖啡),言笑間除了談談學校環境和念書的準備工作之類的老生常談,也談到「如何增進表達能力」的問題。

表達能力的重要,自然無需贅言,但是如何磨練改進自我的表達能力,卻是個人有個人的一套。雖然坊間不乏此類自我成長主題的書籍,教人如何成為各種專家,但是在看過許多這類書籍和實地演練之後,我覺得劉必榮教授推薦的三個改善表達能力的訣竅最為精要

 

1. 避免虛字:

幾個同事朋友一組,互相觀察對方說話的樣子,包括手勢、表情,並抓出對方說話中的虛詞,我們常無所覺地在談話中插入「然後」、「這樣子」、「就是說」等不必要的字句,都會影響專業表現。

2. 練習說重點:

看一篇新聞報導,然後花3分鐘時間把重點轉述給對方。看似簡單,但沒有受過訓練的人多半會說得七零八落,這個練習能幫助你快速吸收資訊,提綱挈領且明晰地表達出來。

3. 用雙語口述:

同樣方式,改成看英文報紙,分別用中文和英文口述,久了之後,不只閱讀速度變快,英文也溜得不得了,更重要的是,你已經建立起一套整理資訊、表達資訊的方法。

 

Share this post :

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...