筆者曾經在這個園地,談過許多次資料與演算法孰重的話題,用最精簡的文字說明這個問題應該是這樣的:當我們在執行資料探勘的工作時,究竟是大量的資料還是先進的演算法,對於專案的結果比較有幫助?
在先前的討論裡,筆者曾表達敝人認為資料(數據)與演算法不應放在同一個天平比較的看法,然後我們看到 Anand Rajaraman 以他在史丹佛大學教授資料挖掘課程的經驗,他讓學生用 Netflix Prize 的資料作實驗,得到 More data usually beats better algorithms 的結論,令人印象相當深刻。所以筆者大膽的說,答案已經很清楚啦。
無獨有偶,KDNuggets ( Who is KDNuggets??)今年四月份也辦了一次資料與演算法孰重的問卷調查,百分之四十五受訪者認為數據比較重要,但只有百分之二十的受訪者認為演算法比較重要(請參考下圖)。
KDNuggets 的總編輯Gregory Piatetsky-Shapiro 在下結論時說,這個問卷調查結果,與他心中所想的一樣 (當然也和筆者先前所作的結論完全相同 ))。
45% voted for more data, while 20% for a more advanced algorithm, confirming my rule of thumb:
More data (especially more relevant features) produces larger improvement than a more advanced algorithm,
(especially in the initial stages of the project)Of course, as with all such general sayings, a lot depends on specifics:
我想,這個問題既然已經有這麼整齊一致的共識,我們就此告一段落,去探討其他問題吧。下面是筆者在探討問題過程中,曾經閱讀過的資料,謹誌於後,供有意進一步深入者參考之用。
參考資料:
- Data .vs. Algorithm 答案已經很清楚啦
- Data 和 Algorithm 應該放在一起比較嗎?
- Poll: What will usually give better improvement in data mining results (KDNuggets))
- Data or Algorithm
- More data usually beats better algorithms
- More data usually beats better algorithms, Part 2
- More data beats better algorithm at predicting Google earnings
Share this post : |
No comments:
Post a Comment