[FINAL] More Data or Better Algorithm?

筆者曾經在這個園地,談過許多次資料與演算法孰重的話題,用最精簡的文字說明這個問題應該是這樣的:當我們在執行資料探勘的工作時,究竟是大量的資料還是先進的演算法,對於專案的結果比較有幫助

在先前的討論裡,筆者曾表達敝人認為資料(數據)與演算法不應放在同一個天平比較的看法,然後我們看到 Anand Rajaraman 以他在史丹佛大學教授資料挖掘課程的經驗,他讓學生用 Netflix Prize 的資料作實驗,得到 More data usually beats better algorithms 的結論,令人印象相當深刻。所以筆者大膽的說,答案已經很清楚啦。

無獨有偶,KDNuggetsWho is KDNuggets??)今年四月份也辦了一次資料與演算法孰重的問卷調查,百分之四十五受訪者認為數據比較重要,但只有百分之二十的受訪者認為演算法比較重要(請參考下圖)。

KDNuggets 的總編輯Gregory Piatetsky-Shapiro 在下結論時說,這個問卷調查結果,與他心中所想的一樣 (當然也和筆者先前所作的結論完全相同 ))。

45% voted for more data, while 20% for a more advanced algorithm, confirming my rule of thumb:

More data (especially more relevant features) produces larger improvement than a more advanced algorithm,
  (especially in the initial stages of the project)

Of course, as with all such general sayings, a lot depends on specifics:

我想,這個問題既然已經有這麼整齊一致的共識,我們就此告一段落,去探討其他問題吧。下面是筆者在探討問題過程中,曾經閱讀過的資料,謹誌於後,供有意進一步深入者參考之用。

參考資料:

 

Share this post :

Comments