
Blogoscoped 解釋這個現象的原因是,Google 錯誤解讀核心版本號碼 ─ 2.6.11 ─ 的意義。不過,顯然 Google 已經作了修正,現在搜尋結果顯示的最早日期是 1984 年了。總之,實驗仍未成功,同志仍須努力....

.......我最新的願望,是學煮咖啡,你(妳)呢...
.......
我其實是太貪求。但是,在我身邊,多的是這樣的朋友。
譬如 H,一位權威又資深的地質學家,前兩年,很高興的告訴我,他正在學畫,畫素描。譬如 D,一位比較文學的教授,卻出了一本關於刀劍收藏的書。還有人,五十歲了,想去學唱歌....
我們也許都是多有貪求。可是這會不是因為,我們對這個世界還充滿了好奇與熱情?
會不是因為,在我們心中還擁有一些天真的渴望?一些如蔓草紋如纏枝花紋般的始終不曾消失的對「美」的夢想?
Our research suggests that search tools can also be very effective in allowing consumers to discover and purchase products they otherwise would not have considered, resulting in changes in sales distribution among a company's products.作者群在另外一份論文(Goodbye Pareto Principle, Hello Long Tail: The Effect of Search Costs on the Concentration of Product Sales)裡表示,在他們的研究裡,經由網際網路通路購買產品的消費者,傾向於購買不暢銷或不是很有名的產品(他們用 obscure 這個字眼)。換句話說,作者認為:IT 科技(當然包括了推薦系統)促成了長尾的實現。
We find evidence that Internet purchases made by consumers with prior experience are more skewed toward obscure products, compared with consumers who have no such experience.第二種觀點:推薦系統錦上添花,結果是強者愈強
.....最新的研究
新書區的替換率太快,促使出版社和書店必須做點什麼,以便幫助讀者過濾新書。推薦機制、特價、預購、首賣、獨家封面、落地陳列、贈品、活動、試讀本,所有異於正常發行的動作,都有助於爭取讀者的眼球,讓讀者在茫茫書海中先一步辨認出我的書來。
.....
過去我們以為網路世界可以為我們帶來可貴的長尾,現在事實證明,網路加速了短頭的極端化。好賣的書,賣得比過去更好,而沒有行銷資源挹注的書種,賣得比過去更差。(如果有人在博客來上班的話,請別誤會,我的描述並不帶評價,事實上我也不認為虛擬通路無差別地秀出每月兩千種新書的書單會有什麼好處。此外今天這個這個結果也是出版社和通路攜手製造出來的。
There are actually two effects that we should expect from recommenders. One is discovery-- once one person discovers an item, some other people with similar tastes who would not have found that item do find it. The other is reinforcement-- an item that many people have sampled will be more likely to get recommended.華頓的學者在寫作論文時,和著名的部落客(博客)Greg Linden ─ 他在1997-2002 間是 Amazon 員工,負責開發推薦系統 ─ 以電子郵件交換意見。Greg 認為,如果沒有線上推薦系統,消費者只能使用更粗糙的、傳統模式的暢銷排行榜名單來尋找產品,這種情況更加降低銷售的多元化,不可能促成長尾。同時他還表達,推薦系統可藉著調整演算法達到長尾的目的 ─ Recommendation algorithms easily can be tuned to favor the back catalog -- the long tail -- as Netflix does.。
Tags: Recommender
The main approaches fall into the following categories:
- Personalized recommendation - recommend things based on the individual's past behavior
- Social recommendation - recommend things based on the past behavior of similar users
- Item recommendation - recommend things based on the thing itself
- A combination of the three approaches above
這篇文章有簡體中譯版,有興趣的讀者,可以到譯言去找這篇文章來看,文章的標題是「网站推荐机制中的艺术、科学与商务问题」。Beyond Search 也有關於這篇文章的精彩說明,建議大家也可以看看 Beyond Search 的文章(可惜這個部落格好一陣子沒有新作了)。
學術界的分類
每種分類方式,都有各自的思考邏輯與侷限,也都可能有模糊和不能明確區分的盲點,不同的分類方式之間,也未必有清楚明確的對應關係,這是這無礙於我們對事物本質的理解,重點在於弄清楚分類的思考邏輯與切入方式。
在這裡,我們用一種直覺的方式,以研究者切入推薦系統研究的歷史進程,來看推薦系統的分類與演化,個人覺得是個不錯的閱讀策略。
當研究者和企業經營者開始進行推薦系統的開發研究時,首先看手上有多少資源可以使用,所以先嘗試從消費者的個人資料和過去的消費紀錄,推估消費者對於不同產品的反應,做出推薦系統的先驅產品。
這種方式,過去的學者叫做 Content-based approach 推薦策略, Alex 將之稱呼為個人化推薦。因為是以消費者個人的資料作為推理基礎,稱做個人化推薦並無不當,不過相較於今日用戶在網路上能見到的各式花俏的個人化服務,此處所謂的個人化,可能會讓用戶有點失望,略嫌陽春了點(grin)。
Content-based 策略的優點是直覺、易於理解,但是缺點也很明顯。因為這種策略用白話來說,就是蒐集一大堆關鍵字(關鍵字當然越多越好),然後以資料挖掘(Data Mining)技術在關鍵字中間找出關係(大家是不是嗅到一點關聯法則的味道了?)。
有時候,有些與消費者有關的敏感資料,是很難蒐集到的,尤其在日益重視消費者隱私的今日,這是一個很麻煩的議題。其次,以這種策略建立的系統在遇到新會員、新產品項目時,就無所適從了,道理很簡單,沒有見過的關鍵字,系統不可能知道怎麼辦的(有人叫這種狀況 cold start)。
所以研究人員嘗試將視野放到所有會員、產品的資料庫,彙總眾人的消費習慣,得到預估的數學模型,作為推薦系統的基礎,這樣的策略,被研究者稱為 Collaborative filtering(簡稱 CF) ,因為是運用眾人的消費習慣做推理基礎,不是用個人(individual)的資料作為推薦引擎的燃料,所以用 collaborative 這個字眼。
不過 CF 的設計策略,又有兩種不同的切入角度,第一種是分析整體用戶資料,用各種計算方式找出計算不同消費者「背景」、「品味」、「行為」是否相似的數學模型,針對特定消費者,我們找出與之「相似的消費者」,使用這些背景「相似度」的用戶的行為,來預測特定消費者面對不同產品的喜好。過去研究者稱呼這種作法是 User based CF,這就是 Alex 所稱的 Social Recommendation 。
有一點要特別提醒諸君,此 social 和現在甚囂塵上的 social network 不一樣,千萬不要誤會了。我們到目前為止,所討論的推薦機制,基礎是量化後的銷售資料和消費者背景資料,不是基於交談、互動等等真正意義上的社群行為。雖然因為 Digg 和 Del.icio.us 服務的崛起,讓 Social Filtering 這個研究課題也走進舞台,步入聚光燈下,但是目前的研究成果,與 CF 領域的成熟度還是不能相比的。
(上圖左方是 Anobii 的例子,以產品特性去找出類似產品,典型的 Item-Based Approach ,右邊則是典型的 User-Based Approach , 這個作法的典型呈現就像這個範例 - 其他購買 XXX 產品的顧客,都買了 YYY,所以我們向您推薦 YYY)
請容許我如此解讀,優秀的演算法,需要大量資料(大陸那邊習慣說海量數據)來澆灌,離開真實世界的演算法,終究如鏡花水月,作不得真。所以成功的推薦系統,成功的基礎是充足、有效的資料,和真正懂得產業門道的分析師。Rather than argue about whether this algorithm is better than that algorithm, all you have to do is get ten times more training data. A..........
Worry about the data first before you worry about the algorithm.
To advance academic research and publication in the area of Internet Research and, in particular in data mining, information finding, information supply, and Internet economics, Microsoft intends to make available to the RFP awardees a Microsoft adCenter Search query log excerpt with 100 million search queries along with ad click logs sampled over a few months, and a Live Search query log excerpt with 15 million search queries with per-query search result clickthroughs “(execution of a limited license for use of these assets will be required). In addition, Microsoft adCenter will provide advertiser accounts to all winners.微軟同時還提供總額百萬美元(每個獲獎計畫伍萬元)的金錢獎勵給提出計畫的研究單位...
The total amount available under this request for proposals (RFP) is $1,000,000. Microsoft Research anticipates making approximately 20 awards averaging $50,000, with a maximum of $100,000 for any single award. All awards will be made in $US. Awards are generally made as unrestricted gifts to the institution.當時我正忙得昏天黑地,壓根沒注意到這則新聞,直到這兩天從「舊聞」中翻出來,才注意到這則消息。可惜我沒這個本事,要不然,我還真想.....
Our vision is that if we have 20 million customers, we should have 20 million stores.以書籍為例,推薦系統嘗試解決的問題是可能是這樣的:我知道客戶買了魔戒和龍槍系列的小說,客戶會不會喜歡東方色彩的蜀山劍俠傳?喜不喜歡獅子、女巫與魔衣櫥?若我向他推薦J. K. Rowling (哈利波特的作者)寫的系列小說,成功機率多高?
~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...