Saturday, March 29, 2008

Data .vs. Algorithm - 答案已經很清楚啦

在機器學習(Machine Learning)和資料挖掘(Data Mining)領域,資料(數據)和演算法究竟孰重的爭論時有耳聞。但這是個度炒不起來的話題,因為很明顯地,經過時間的淬煉和檢驗實踐的結果,天平向數據( Data) 這邊傾斜,而且傾斜得很厲害。

今年一月中旬,我摘譯一位企業部落客 Chris Harris 的文章 Data or Algorithm ,加上自己的想法,寫了一篇「Data 和 Algorithm 應該放在一起比較嗎?」。敝人的看法很簡單,沒有數據(Data)就沒有分析的必要,演算法則是工具,兩者本不該放在天平兩端作計較,雖然個人不甚贊同 Chris 通篇文章的邏輯,不過 Chris 的結論也是認為充足數據才是競爭力的保障 - The more I think about, my gut instinct (直覺?)says that data is the only way to keep a lasting competitive advantage。

最近 Cambrian Venture 的創辦人,同時也在史丹佛大學兼課的 Anand Rajaraman ,談到他在 Data Mining 課程中,讓學生用 Netflix Prize 的資料作實驗的心得。他在一篇名為 More data usually beats better algorithms 的部落格文章中,提到他與他的學生們的經驗:
Team A came up with a very sophisticated algorithm using the Netflix data. Team B used a very simple algorithm, but they added in additional data beyond the Netflix set: information about movie genres from the Internet Movie Database (IMDB). Guess which team did better?

Team B got much better results, close to the best results on the Netflix leaderboard! I'm really happy for them, and they're going to tune their algorithm and take a crack at the grand prize.
Greg Linden(常拜訪本園地的讀者或許知道, Greg Linden 是我很喜歡的部落客之一)和 Andrew Parker 兩位部落客,都立刻撰文對Anand Rajaraman 的說法表達了他們的看法,Andrew Parker 更以 VC 從業者的身份下結論,如果你們收集到更多的資料,你將比競爭者有更多的優勢(a significant and defensible advantage)。

先前筆者在談推薦系統的分類時,曾經引用過 AI 領域的大師級學者 Peter Norvig (他目前是 Google 研發部門的主管之一)在一場演講中的說法 ,他的看法是 : Worry about the data before you worry about the algorithm,換句話說 Google 的競爭力不僅在於他們僱用了許多金頭腦,更在於他們擁有的大量數據。

Google 的官方部落格(The Official Google Blog )從今年三月初開始,發表一系列 Google 如何應用資料改善服務品質、提昇技術的文章,本系列的第一篇 Why Data Matters 便開宗明義地說 Better data makes for better science. The history of information retrieval illustrates this principle well 。

所以,答案就像柯林頓在1992年告訴選民的一樣簡單:It's the Data, Stupid.

No comments:

Post a Comment

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...