Friday, June 8, 2007

Association Rules born during a lunch break

News.com 在 2004年有一篇報導誇大的敘述方式,說 Data Mining 源頭起自一個午餐約會,


故事是這樣開始的...

九零年代初期,一個連鎖百貨業者 Marks Spencer 的高階主管向 IBM 的資料處理專家 Dr. Rakesh Argrwal 說明他們的窘境,百貨公司收集了許多客戶的資料,但是他們不知道怎樣應用這些資料。Dr. Argawal 帶領他的團隊,研究這個課題,在 1993 年,Dr.Argawal 和他的同事 Dr.Tomasz Imielinski 和Dr. Arun Swami 共同發表了一篇在資料挖掘(Data Mining)領域具有里程碑意義的論文 - Mining Association Rules between Sets of Items in Large Databases

這篇文章提出一個交易購物分析的方法(Methodology),分析購買品項間的關係,據以歸納出購買行為的關連。這樣的分析方法,被稱為關連法則(Association Rules),是資料挖掘領域裡最常被使用的方法之一。

最有名的關連法則應用範例,大概是「尿布與啤酒」的傳奇了。這則故事,在網路上可以找到許多不同的版本,主人翁的名字在不同版本中有不同面貌,但是這個故事的主要精神,從交易資料中發現購買品項間的關係,進而提升交易金額的精神,則 retold and retold from classroom to classroom。

根據 CiteSeer 的統計,這篇文章是 Data Mining 領域被引用次數最多的論文,在所有文章中排名13, 第15名的論文則是這篇論文的後續研究 - Fast Algorithms for Mining Association Rules 。Wikipedia 將這篇論文,列入資料庫研究領域影響力最深遠的論文之一。

這篇論文的可貴,在於他的「開創」特質,尋找 association 的分析架構,影響了後續非常多的研究,而 Argawal 的團隊在這個研究的基礎上,也作了許多的改善和後續研究,將這個研究方向擴展的更深、更廣。

根據我之前作的文獻整理,學術界一般公認 1989 年舉辦的 IJCAI workshop on Knowledge Discovery in Databases 是第一個以 Data Mining & KDD 為主題的學術活動,在我寫的 Birth of Data Mining 中有說明。所以若說 Data Mining 源自這個午餐約會,是稍嫌誇大了點。

不過, association rules born during a lunch break 倒是恰到好處,名實相符 :)

No comments:

Post a Comment

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...