[KDnuggets] Data Mining Methods Poll

KDnuggets 是 Data Mining 領域具獨特地位的網站,它的 editor 和 publisher 是 Gregory Piatetsky-Shapiro, Ph.D.,他是目前 ACM SIGKDD 主席,也是 IEEE International Conference on Data Mining (ICDM) Steering Committee 的一員。我剛開始接觸 Data Mining 這個領域時,從 Google 找到的 Data Mining Resource 網站,都將這個網站列為首要資料來源之一。個人覺得它的重要性,在於它的全面,這個網站不僅有 Tutorials、Papers,還有產品介紹,工作機會等等,除此外,KDnuggets 還發行一份電子報,介紹網站的最新動態。

這個網站,每年舉辦一次投票,選出過去一年運用最普遍的 Data Mining methods ,連續兩年的第一名都是決策樹,第二、三名則分別是 Regression 和 Clustering,只是兩年的順序不同(最近一次(Mar 2007)的結果,可以看這裡,2006年4月舉辦的投票結果,請點擊這個網址)。

至於這個投票的價值,每個人的解讀不同,我不作評論。Gregory Piatetsky-Shapiro 本人的說法 則是

I have been running annual polls on Data Mining Software Usage, which, while not perfect, offer some measure of tool popularity. Here are some recent KDnuggets polls on Data Mining Tools:

看看今年的結果吧, ....

Data mining/analytic methods you used frequently in the past 12 months: [203 voters]
Decision Trees/Rules (127)
62.6%
Regression (104)
51.2%
Clustering (102)
50.2%
Statistics (descriptive) (94)
46.3%
Visualization (66)
32.5%
Association rules (53)
26.1%
Sequence/Time series analysis (35)
17.2%
Neural Nets (35)
17.2%
SVM (32)
15.8%
Bayesian (32)
15.8%
Boosting (30)
14.8%
Nearest Neighbor (26)
12.8%
Hybrid methods (24)
11.8%
Other (23)
11.3%
Genetic algorithms (23)
11.3%
Bagging (22)
10.8%

Comments