看到推特(twitter.com)裡一段關於推薦系統的對話很有意思,所以順著這個思路「胡思亂想」了一下,於是順手寫下這些發散的不成系統又有些矛盾的東西:
首先,做系統的人始終要面對一個嚴峻課題,消費者做任何舉動都不需要向系統解釋他(她)的意圖,所以系統從數據裡找出的推論模型,只能有限度的猜測他(她)的下一個行動。人是會變的,許多論文裡總是提到消費者可能因為年齡(人生進入不同階段)而改變喜好的例子,日常生活裡我們也常看到因為消費者因為送禮(比如親戚朋友生日)而改變平常消費習慣的情形,至於因為有新的興趣或業務需求,消費內容與歷史紀錄大相逕庭更是司空見慣的事情。像這樣的消費方式,要怎樣才算(或不算)是噪訊(noise)呢?系統又從何判斷那些數據應該重視,那些應該忽略?
還有我們也常聽說把帳號借給朋友使用的情形,系統要怎樣才能判斷出如此 diversified 的消費習慣不是消費者人格分裂使然? (至於所謂 diversity ,則是推薦系統主動推薦與平日消費習慣不同的品項,期望能造成意外之喜,則是另外一個課題了!)
當然若某種消費內容逐漸增多,演算法必然會有所反應,逐漸調整模型。這應是 @hendgm 所說,若次數多了就不再是噪訊的道理吧。
這篇純粹是灌水的牢騷文,請讀者諸君萬莫深究。