Monday, April 28, 2008

[FINAL] More Data or Better Algorithm?

筆者曾經在這個園地,談過許多次資料與演算法孰重的話題,用最精簡的文字說明這個問題應該是這樣的:當我們在執行資料探勘的工作時,究竟是大量的資料還是先進的演算法,對於專案的結果比較有幫助

在先前的討論裡,筆者曾表達敝人認為資料(數據)與演算法不應放在同一個天平比較的看法,然後我們看到 Anand Rajaraman 以他在史丹佛大學教授資料挖掘課程的經驗,他讓學生用 Netflix Prize 的資料作實驗,得到 More data usually beats better algorithms 的結論,令人印象相當深刻。所以筆者大膽的說,答案已經很清楚啦。

無獨有偶,KDNuggetsWho is KDNuggets??)今年四月份也辦了一次資料與演算法孰重的問卷調查,百分之四十五受訪者認為數據比較重要,但只有百分之二十的受訪者認為演算法比較重要(請參考下圖)。

KDNuggets 的總編輯Gregory Piatetsky-Shapiro 在下結論時說,這個問卷調查結果,與他心中所想的一樣 (當然也和筆者先前所作的結論完全相同 ))。

45% voted for more data, while 20% for a more advanced algorithm, confirming my rule of thumb:

More data (especially more relevant features) produces larger improvement than a more advanced algorithm,
  (especially in the initial stages of the project)

Of course, as with all such general sayings, a lot depends on specifics:

我想,這個問題既然已經有這麼整齊一致的共識,我們就此告一段落,去探討其他問題吧。下面是筆者在探討問題過程中,曾經閱讀過的資料,謹誌於後,供有意進一步深入者參考之用。

參考資料:

 

Share this post :

No comments:

Post a Comment

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...