The Road Less Traveled By: Association Rules born during a lunch break

Friday, June 8, 2007

Association Rules born during a lunch break

News.com 在 2004年有一篇報導以誇大的敘述方式，說 Data Mining 源頭起自一個午餐約會，

故事是這樣開始的...

九零年代初期，一個連鎖百貨業者 Marks Spencer 的高階主管向 IBM 的資料處理專家 Dr. Rakesh Argrwal 說明他們的窘境，百貨公司收集了許多客戶的資料，但是他們不知道怎樣應用這些資料。Dr. Argawal 帶領他的團隊，研究這個課題，在 1993 年，Dr.Argawal 和他的同事 Dr.Tomasz Imielinski 和Dr. Arun Swami 共同發表了一篇在資料挖掘(Data Mining)領域具有里程碑意義的論文 - Mining Association Rules between Sets of Items in Large Databases。

這篇文章提出一個交易購物分析的方法（Methodology），分析購買品項間的關係，據以歸納出購買行為的關連。這樣的分析方法，被稱為關連法則（Association Rules），是資料挖掘領域裡最常被使用的方法之一。

最有名的關連法則應用範例，大概是「尿布與啤酒」的傳奇了。這則故事，在網路上可以找到許多不同的版本，主人翁的名字在不同版本中有不同面貌，但是這個故事的主要精神，從交易資料中發現購買品項間的關係，進而提升交易金額的精神，則 retold and retold from classroom to classroom。

根據 CiteSeer 的統計，這篇文章是 Data Mining 領域被引用次數最多的論文，在所有文章中排名13, 第15名的論文則是這篇論文的後續研究 - Fast Algorithms for Mining Association Rules 。Wikipedia 將這篇論文，列入資料庫研究領域影響力最深遠的論文之一。

這篇論文的可貴，在於他的「開創」特質，尋找 association 的分析架構，影響了後續非常多的研究，而 Argawal 的團隊在這個研究的基礎上，也作了許多的改善和後續研究，將這個研究方向擴展的更深、更廣。

根據我之前作的文獻整理，學術界一般公認 1989 年舉辦的 IJCAI workshop on Knowledge Discovery in Databases 是第一個以 Data Mining & KDD 為主題的學術活動，在我寫的 Birth of Data Mining 中有說明。所以若說 Data Mining 源自這個午餐約會，是稍嫌誇大了點。

不過， association rules born during a lunch break 倒是恰到好處，名實相符 :)

The Road Less Traveled By

Friday, June 8, 2007

Association Rules born during a lunch break

No comments:

Post a Comment

如果我的心是一朵蓮花

Report Abuse