News.com 在 2004年有一篇報導以誇大的敘述方式,說 Data Mining 源頭起自一個午餐約會,
故事是這樣開始的...
九零年代初期,一個連鎖百貨業者 Marks Spencer 的高階主管向 IBM 的資料處理專家 Dr. Rakesh Argrwal 說明他們的窘境,百貨公司收集了許多客戶的資料,但是他們不知道怎樣應用這些資料。Dr. Argawal 帶領他的團隊,研究這個課題,在 1993 年,Dr.Argawal 和他的同事 Dr.Tomasz Imielinski 和Dr. Arun Swami 共同發表了一篇在資料挖掘(Data Mining)領域具有里程碑意義的論文 - Mining Association Rules between Sets of Items in Large Databases。
這篇文章提出一個交易購物分析的方法(Methodology),分析購買品項間的關係,據以歸納出購買行為的關連。這樣的分析方法,被稱為關連法則(Association Rules),是資料挖掘領域裡最常被使用的方法之一。
最有名的關連法則應用範例,大概是「尿布與啤酒」的傳奇了。這則故事,在網路上可以找到許多不同的版本,主人翁的名字在不同版本中有不同面貌,但是這個故事的主要精神,從交易資料中發現購買品項間的關係,進而提升交易金額的精神,則 retold and retold from classroom to classroom。
根據 CiteSeer 的統計,這篇文章是 Data Mining 領域被引用次數最多的論文,在所有文章中排名13, 第15名的論文則是這篇論文的後續研究 - Fast Algorithms for Mining Association Rules 。Wikipedia 將這篇論文,列入資料庫研究領域影響力最深遠的論文之一。
這篇論文的可貴,在於他的「開創」特質,尋找 association 的分析架構,影響了後續非常多的研究,而 Argawal 的團隊在這個研究的基礎上,也作了許多的改善和後續研究,將這個研究方向擴展的更深、更廣。
根據我之前作的文獻整理,學術界一般公認 1989 年舉辦的 IJCAI workshop on Knowledge Discovery in Databases 是第一個以 Data Mining & KDD 為主題的學術活動,在我寫的 Birth of Data Mining 中有說明。所以若說 Data Mining 源自這個午餐約會,是稍嫌誇大了點。
不過, association rules born during a lunch break 倒是恰到好處,名實相符 :)
Friday, June 8, 2007
Subscribe to:
Post Comments (Atom)
如果我的心是一朵蓮花
~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...
-
之前我曾 談過 , Udi Manber 寫作的演算法書籍 Introduction to Algorithms: Creative Approach 花了一整章介紹數學歸納法,作者設計這本書的思路,是很值得思索和品味的。 歸納還是演繹 首先我們要搞清楚,數學歸納法,不...
-
我向來不是很關注 Conference 的訊息,但是這學期開學後,一個月內接連聽到好幾個老師談他們對學術會議「 價值 」的看法,促使我反省原先的態度,所以這幾天作了一點功課。我發現下面三個 Conference Ranking 的列表頗有參考價值,抄錄於後,一則是備忘,再則分享給...
-
這是很多年前的舊文了,最近有些網友找到這篇文章,於是有了一些很有意思的對話,我記錄在下面兩篇文章,如果您有興趣,也歡迎看看這些簡短的記錄,批評指教。謝謝。 如何評估推薦系統(二) 記一次推薦系統對話 ----- 任何工作,包括學術研究與商業專案,都必須有衡量成績...
No comments:
Post a Comment