Wednesday, August 8, 2007

Is "Data Mining" term tainted?

我在柚子雜談裡,曾經說到這兩年以英語為主的媒體界,對於 Data Mining 這個字眼的猛烈抨擊,以及 Blogosphere 裡的無邊爭議。和 Data Mining 關連的搜索詞彙,最熱門是無非是 NSA , FBI , NewYork Times ,都不是和學術或商業產品有關的東西。
自從 911 事件後,美國政府聲言要使用 Data Mining 技術,協助偵測恐怖份子攻擊之後, Data Mining 和 Privacy 的爭議,就鬧得一塌糊塗。每天收到的 Google Alert 裡,和資料挖掘有關的條目,有一半是部落客對資料挖掘的各式指控。這兩年, Data Mining 就算不是 notorious 也是 controversial...
資料挖掘領域的著名網站KDNuggets (先前我曾經介紹過這個網站),打算辦新一輪線上投票,問大家 ”Is "Data Mining" term tainted ?”, 這個污名化的說法,倒和我的想法不謀而合。為了表示的確有這樣的疑慮KDNuggets 還舉了CBS 新聞的 "Data Mining" != "Surveillance? 和紐約時報的Mining of Data Prompted Fight Over U.S. Spying 為例。

KDnuggets預擬的選項如下,此刻我也不知道選一個才好:
  • Data mining is still OK to use
  • "Knowledge Discovery" is a better term
  • "Predictive analytics" is better
  • Prefer another term (please comment)
  • Don't care which term is used
依我看來,關鍵在於寫文章的人都不是技術人,都不約而同把技術的專有名詞(在這個例子裡是 Data Mining)當作政府父權心態的代名詞,討論的過程自然是纏夾不清,就像桃谷六仙在五嶽大會裡胡攪蠻纏,才是真正該被指責的對象,反倒說不清道不明了。

這類投票,對於現在正發生的事情,不會有任何影響,充其量只是代表,學術界中人的確有人看到這件事了,如此而已

No comments:

Post a Comment

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...