Thursday, January 17, 2008

Data 和 Algorithm 應該放在一起比較嗎?

Data or Algorithms ? 今夜,你想用那一道?

最近又看到有人討論資料(如果你比較習慣數據這個詞彙,請自行在腦裡替換)和演算法熟重的話題,作者在文章的首段說:「Obviously the two have a symbiotic relationship to be valuable together. If you can have both you’ll take it, but what if you had to choose?」,邀請讀者和他一起玩頭腦體操,討論這個話題。

作者在文章中簡要地說明他的想法,令人欣慰的是,作者最終沒有和稀泥的給了「都重要」的不負責任結論,而是明確的告訴讀者他的 gut instinct 認為資料(數據;Data)是唯一可以長久保持企業競爭力的要素(至少有觀點、有結論)。

在我看來,Data 和 Algorithm 不應該是放在天平兩邊比較的元素,這兩者的確是有非常強烈的 symbolic relationship,所以常常在思考時,同時被提出討論。但是資料和演算法間的關係,並不是互斥、獨立的,這個問題如果被化約成詢問觀眾今晚想吃那一道料理的料理東西軍 pk 題,結果一定是慘不忍睹,沒完沒了的。

就像你問一個職業運動員,如果想獲得冠軍(保持企業競爭力),力量與技巧(數據與演算法)何種重要?如果這個可憐的運動員,只能選擇其中一樣 (what if you had to choose),結果是這個運動員沒有機會進入決賽。

因為技巧是為了「控制」力量、「強化」力量而存在,如果沒有力量,連基本的存在問題都無法應付了,更別談什麼競爭力,或者從競賽中奪取金牌。

所有 Data Mining 的書籍文獻都清楚明白的告訴我們,資料挖掘的目的是從大量的數據(資料)中找出對企業競爭力有用的知識(從 information 到 knowledge ),如果我只能從手裡的資料庫(數據)和分析技巧(演算法)兩者中二擇一,結局就是退回到沒有資料挖掘這門學問之前的時空裡。

所以這個 what if you had to choose 的設問,實在是近乎無理,似乎是為了確保辯論存在而硬套的問題。

雖然我不完全同意 you had to choose 的討論方式,但是從本文,以及隨後的讀者回應中,我們還是可以看到一些亮點,值得深思與借鏡。尤其是從經濟學的角度來看問題的方式,值得琢磨;而討論問題的思辨方式,也是值得我們學習借鏡的。綜合本文和讀者的回應,以下幾點特別值得注意:
  • 如果我們以供需理論來分析這兩者的重要性,比較數據和演算法,那一種比較容易取得?那一種比較稀有 (scarcity)?
  • 有人認為數據(資料)具有遞增的邊際效用,越多資料,可能發掘出更多的有用資訊,帶給我們越多的驚喜。
  • 也有讀者認為資料是快速貶值的資產 - So I would consider data (or data streams) to be a quickly-depreciating asset. If the data is worth more initially than the analysis, at some point it won’t be.
  • 我們永遠能用最低(或者說最合算)的價格「買到」優秀的人力, true or false?
  • 總之,很難說是否有一個放諸四海皆準的答案 ,有位留言的讀者說: I don't know if there's a general “which is better" answer.
  • 不過,作者的結論是:The more I think about, my gut instinct says that data is the only way to keep a lasting competitive advantage.

No comments:

Post a Comment

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...