Wednesday, October 31, 2007

Linux dates backs to 1911 ?

Google Blogoscoped 介紹,有人在 Reddit 上說, Google Experimental Search 的 timeline view (關於 timeline view ,請參考筆者先前寫的介紹1,2) 顯示 Linux 的最早日期是1911年,並且附上一張圖,表示「有圖有真相」。



Blogoscoped 解釋這個現象的原因是,Google 錯誤解讀核心版本號碼 ─ 2.6.11 ─ 的意義。不過,顯然 Google 已經作了修正,現在搜尋結果顯示的最早日期是 1984 年了。總之,實驗仍未成功,同志仍須努力....

Monday, October 22, 2007

天真的渴望

最近,不知怎地,又重新拾起少年時瘋狂的閱讀熱情,少了年輕時的虛榮和青澀,不必再為自己的好惡口味而羞赧、遲疑,也不需要把國族、社稷放在案頭,想讀什麼就讀什麼,捧著書本覺得比起從前淋漓痛快得多。

讀著讀著,常常發現相同的書頁、作者,常能讓自己有不同的想法,想明白以前並不明白的事理,更快樂的是,發現自己的心還沒有枯寂。

席慕蓉在爾雅出的 2006 年日記書裡有這麼一段:

2006席慕蓉 (足本)的圖像六月二十九日(星期四,晴.熱)
.......
.......

我其實是太貪求。但是,在我身邊,多的是這樣的朋友。

譬如 H,一位權威又資深的地質學家,前兩年,很高興的告訴我,他正在學畫,畫素描。譬如 D,一位比較文學的教授,卻出了一本關於刀劍收藏的書。還有人,五十歲了,想去學唱歌....

我們也許都是多有貪求。可是這會不是因為,我們對這個世界還充滿了好奇與熱情?

會不是因為,在我們心中還擁有一些天真的渴望一些如蔓草紋如纏枝花紋般的始終不曾消失的對「美」的夢想?
我最新的願望,是學煮咖啡,你(妳)呢...

Saturday, October 20, 2007

Java versus AJAX

Alex Iskold 一直是我很欣賞的 blogger writer ,他定期在重量級部落格 ─ 以網路技術新聞與評論著名的 Read/Write Web 發表文章,每篇文章都言之有物,令人印象深刻。

我個人認為他出色的地方不僅在於技術背景深厚,文字流暢,文章內容的求證功夫作得紮實,更重要的是他有想法。不管讀者對於這個想法是否贊同,他的文字常能促成高水準的讀者對話,看他的文章,不能漏掉讀者回應,那會少掉很多樂趣

Alex 最近一篇談 Java 歷史回顧的文章,便是如此。在 Java: A Retrospect 這篇文章裡,從 James Gosling 帶著他的團隊( Sun 的文件稱他們叫 The secrete "Green Team" led by James Gosling)設計 Java 談起,以時間先後為經,以資訊界巨頭 IBM、SUN、Microsoft 之間的互動為緯,將這個語言的發展經過交代的清楚明白,將今日 Java 在資訊巨頭們政治角鬥中所型塑的地位也闡述的要言不繁。

作者 Alex 非常欣賞 Java 的優點 ─ 簡單、可攜( Simplicity and Portability),對於 Java 在開發工具地位爭奪戰中,失掉瀏覽器和桌面環境(參見副標題 Java loses the desktop and browser)的地盤,將 AJAXJ 的位置拱手讓給 Java Script 相當惋惜,用了不少文字表達他認為 Java 是更好的語言的看法。

做過開發工作的人都知道,有時在工程師之間,程式語言的優劣之爭,可以上升到宗教聖戰的層次。所幸這篇文章的回應讀者,都是以理服人的理智型讀者(一笑)。從回應中看來,的確有不少人認為, Java 自有其 lousy 之處,不是作者所認為的那麼 elegant 。但是不管站在 Java 這邊或是 Java Script 那邊,大部分的發言都言之成理,自成一家之言,兼具理性與知性,很是難得。

Java 進入資訊界舞台中心時,個人已經不再擔任開發工作,重心已經轉移到行政和其他方面,對於這個議題,沒有切身經驗,無從發表任何看法。不過,個人誠心的認為,這樣的文章,看起來很舒服

因為已經不再擔任開發工作,所以對於 Ajax 陣營所知也不多,印象中只記得與 Ajax 技術有密切關係的 Adam Bosworth,今年(2007)一月在紐約發表一場演講,其中談到他認為 Ajax 為什麼剛開始不受開發人員青睞,最近卻變成市場寵兒的原因。eWeek 在演講後,作了很不錯的報導。簡單的說,他認為 1997 年的網路環境和個人電腦的運算能力,無法負荷 Ajax 的需求;用言情小說的筆法來形容這件事,就是對的技術錯誤的時間使用者相遇

(補充說明:Adam Bosworth 原本是微軟負責開發 XML 技術的部門主管,後來擔任 BEA 工程部門副總裁,離開 BEA 之後,在Google 擔任產品部門的副總裁(VP), 這陣子眾所矚目的 Google Health ,就是由他領軍。今年中,他離開 Google ,據說在籌備一間新公司。)

不過,也有人直接了當的說,Adam Bosworth 的理由太表面,千言萬語不如一句,真正的問題是那個年代的 IE 太爛。我想有很多人會喜歡這種說法,聽起來過癮極了。

原本只是想為書籤加個註解,心思越飄越遠,就拉拉雜雜又成了一篇,感覺有點奇怪(一笑)。

延伸閱讀:

Friday, October 19, 2007

[Updated] 版本 2.0 升級報告

Web 2.0 的歷史定位未卜,已經有人吵著要為 Web 3.0定義,雖然 Web 2.0 的旗手 Tim O'Reilly 對於討論 3.0 的舉動深深不以為然,對於這些雜音認真的人也不是太多。這倒提醒我,我們周遭到底有多少東西已經升級到版本 2.0,哪些東西還沒有升級

用 Google 作了一點功課,找了些已經「升級」的例子,這個名單上的成員,應該會持續增加,版本號碼也會一直成長,到自然數用完為止(grin)。以下的例子,只是拋磚引玉,如果有讀者願意幫忙豐富這個名單的內容,那就再好不過了。

(只是好玩罷了,沒有特別目的,只是覺得連著幾天寫了好多很硬的東西,try to have some fun 而已)
  • Release 2.0
早在前 Web 2.0 (Pre-Web 2.0)的年代, Esther Dyson 就已經出版了談網路時代對這個影響的 Release 2.0版本 2.0) ,後來她又寫了一本書,將版本升級到 2.1 。書名雖領一時風騷,不過這兩本書的出版日期,都在 Web 2.0 進入聚光燈下之前。

  • Everything 2.0
這個比較狠,有人把部落格的招牌叫作 Everything 2.0 ,有圖有真相,請看:


  • Life 2.0
打著「Life 2.0 」或「新生活」招牌的網站很多,值得一提的是兩本以 Life 2.0 為題的新書,一中一英,東西相互輝映。一本是 Rich Karlgaard 寫的,書名叫做 Life 2.0 : How People Across America Are Transforming Their Lives by Finding the Where of Their Happiness ,另外一本則是王文華的『Life 2.0——我的樂活人生』。
  • Literature 2.0
網路上的確找得到「文學 2.0」,有一個叫 RadioOpenSource 的網站,這個網站把每個禮拜在無電線台(Radio Station)的節目錄音放在網站上(說白了,就是 Podcast 啦),2005年他們作了一個談網路時代的閱讀習慣的專題,叫做 Literature 2.0 ,可以下載 MP3,節目很長,有 52分鐘。
  • Business 2.0
2007 年 9 月 5 日,與紐約時報隸屬同個集團(Time Inc.)的 Business 2.0 雜誌,正式宣告停刊
  • Boss 2.0
的確有 Boss 2.0 ,但是這個老闆是指 Bharat Operating System Solution ,2007年9月14日, Boss 2.0 正式發行。。
  • Enterprise 2.0
企業 2.0” 是由 CMP 媒體集團支持的研討會(conference),目標是企業經營部門和 IT 部門的主管,今年的會議已經在六月份舉行過了,想參加的人明年請早。 What is Enterprise 2.0 的介紹將這十年來,所有暢銷企管書籍的「主題」字眼全部收羅在文章裡,舉凡扁平化、授權、分散式、由下至上、彈性、靈活、開放、透明、全球化等等,you name it。
  • Manager 2.0
企業升級,經理人當然也要提升,否則就沒捧不住飯碗了。所以在企業 2.0 研討會,當然要有 Manager 2.0 的講座。
  • Mobile 2.0
就在今天( October 15, 2007),舊金山有一場談行動商機的 Mobile 2.0 研討會,Read/Write Web 特別撰文介紹。
  • Office 2.0
辦公室 2.0 談的是線上生產力和協同作業,今年(2007年)九月出初在舊金山舉辦的研討會,廣告網頁寫的很誘人,參加者可以得到 iPhone 和 PS3 耶 - Please register before August 31st in order to benefit from the online rate. All attendees get an iPhone or a PlayStation 3
  • Education 2.0
教育 2.0 的定義比較分歧,有人說是下一波教育軟體的革命,Wired 雜誌的編輯們談這個話題有黑色笑話的味道,他們說教育2.0是檔案交換的指引(台灣各大專院校計算機中心一定也贊同這個定義)。

不過, Wired 還是有比較正經的東西,在發表檔案交換指引的同個月份(2007年8月),他們作了一個 Education 2.0 的一週專題,很正式的談了社群網路、線上教育、學生的新奇裝備等等和未來教育有關的議題,檔案交換只是其中一篇文章而已。

Tim O'Reilly 也針對教育,發表了自己的看法;華盛頓郵報在今年愚人節(April 1, 2007),發表了一篇 介紹教育 2.0 的文章,不知道是不是認真的。如果不喜歡文字版本的解釋,SlideShare 上面,可以找到 Education 2.0 的簡報
  • Classroom 2.0
教育升級,教室也不能落後,我所知的教室2.0是一個建在 ning.com 上的社群,還有一個以教室2.0為主題的部落格
  • Library 2.0
人氣部落格 「Library View 圖書館觀點」持續對於 Library 2.0這裡也有不錯的資訊)議題作深度追蹤,有很精彩的資訊和討論,有興趣的讀者,請移駕(誠心推薦)。
  • Media 2.0
C|Net 旗下的 News.com 有一個 Media 2.0 專區,在這個分類下的子題涵蓋很廣,從政治、廣告、數位媒體到娛樂產業,無所不包,資料很多,我就不一一羅列了。
  • Portal 2.0
2006 年,PC Home 不成功(可以直接嗎?)的嘗試,可惱的是,他們把 Friend 2.0、Photo 2.0、Search 2.0、 News 2.0 和 Page 2.0 ,一口氣都給升級了。
  • Whatever 2.0
還有 Politics 2.0Advertising 2.0 、 you name it 2.0 等等,實在是眼酸、脖酸、手酸,難以為繼,得閒了再補充吧...

Monday, October 15, 2007

下午茶

下午茶為了犒賞自己通過資格考,也為了慰勞家裡老小前兩個月的犧牲與配合,所以決定全家一起去享受一次五星級的下午茶。時序入秋,穿著單衣已經略顯寒意,坐在室外,正好少了夏日的燥熱,又不必擔心好動的孩子,在安靜的廳裡止不住的燥動。而且,坐在面對著噴水池的廊下,愜意的很,很是難得。

此處提供的是英式下午茶,每份下午茶提供兩份茶水與一份點心塔。據說,英式下午茶源自 1840 年一位英國貴族夫人─ 安娜瑪麗亞(Anna, Duchess of Bedford),她有感於從午宴到晚間八、九點的晚餐間隔時間太長,所以在午後四點,囑咐僕人準備茶點,在起居室從容的享受。她邀請貴族朋友,一同享用午後點心,自此下午茶遂成風潮。

據說(其實是網路上說),吃下午茶有一定的規矩,點心塔有三層,必須由下往上取用,不得錯亂,馬虎不得。最下的第一層,是作得小巧的三明治,大約是果腹、墊底之意;第二層則是傳統的英式點心 scone ,配著果醬或奶油享用;第三層則是蛋糕或水果塔之類的甜點。在我猜想,這個規矩,應該是由鹹至甜,有其一定的道理,不過要求不得錯亂,就稍嫌囉唆,無甚必要了。

此處的點心塔,完全按照規矩安排,次序與點心內容絲毫不差,點心口味尚可,茶的等級也還算講究,喝茶的心情不壞。

不過,當我口述所聽聞的下午茶規矩給家裡老小聽,以資談助時,家裡地位最高的小公主,絲毫不領會故事中的禮樂教化之意,直接從最上層攫了一塊蛋糕,揚長而去。

Friday, October 12, 2007

推薦系統與長尾

我們已經談過推薦系統的架構技術分類,接著我們來觀察推薦系統的目標和成果,是否如研究者或經營者所預期的那麼美好。推薦系統的研究在學界雖然不是紅得發紫,但是一直受到相當程度的關注, Netflix Prize 的話題一開,更受人注目。在如何建構一個「更好的」推薦系統這個題目上,過去產、學二界攜手的成果,是有目共睹的。

但是我們對於推薦系對銷售究竟有什麼影響,它是如何影響消費者的行為,是否真的達到原先建設推薦系統的目的,則是所知甚少,沒有足夠多的研究可以證實我們的觀點(不管這個觀點的內容是什麼)。

第一種觀點:推薦系統促成長尾

過去對於推薦系統成效,有兩種截然不同的看法,第一種觀點,可能也是目前較佔上風的觀點,認為推薦系統強化了長尾(Long Tail)的實現,讓銷售方和購買方都得到更多選擇與便利。比如說 The Long Tail 的作者,就直接了當在書中宣稱我們從資訊時代進入「推薦」時代─We are leaving the Information Age and entering the Recommendation Age(讀者可參考「長尾」在英國出版宣傳時作的 Exclusive Extract ,請看第 24 頁)。

這兒有一個學院派的例子,MIT Sloan Management Review 在2006年夏天出版了一篇由三位名校(MIT/Purdue/Carnegie Mellon)教授共同執筆的 From Niches to Riches: The Anatomy of the Long Tail (下載PDF)。在這篇文章裡,作者們肯定地說:
Our research suggests that search tools can also be very effective in allowing consumers to discover and purchase products they otherwise would not have considered, resulting in changes in sales distribution among a company's products.
作者群在另外一份論文(Goodbye Pareto Principle, Hello Long Tail: The Effect of Search Costs on the Concentration of Product Sales)裡表示,在他們的研究裡,經由網際網路通路購買產品的消費者,傾向於購買不暢銷或不是很有名的產品(他們用 obscure 這個字眼)。換句話說,作者認為:IT 科技(當然包括了推薦系統)促成了長尾的實現
We find evidence that Internet purchases made by consumers with prior experience are more skewed toward obscure products, compared with consumers who have no such experience.
第二種觀點:推薦系統錦上添花,結果是強者愈強

另外一種看法則和前一種觀點大相逕庭,第二種看法則認為推薦機制(和目前常見的各種行銷手段)只是強化原先銷售成績就出色的前段班產品,對於銷售多元化(diversity)一點幫助也沒有。我們來看個國內的例子:

十月初,老貓學出版發表的「好書會自動販賣時代」之消逝一文,談到網路時代的行銷活動與長尾(Long Tail)的關係,顯然老貓認為網路不僅沒有促成長尾,反而讓強者愈強,銷售的模式的錦上添花而不是百花齊放(先說聲抱歉,引文有點長,粗體字和紅字是我加上去的,與原文無關)。.....
.....
新書區的替換率太快,促使出版社和書店必須做點什麼,以便幫助讀者過濾新書。推薦機制、特價、預購、首賣、獨家封面、落地陳列、贈品、活動、試讀本,所有異於正常發行的動作,都有助於爭取讀者的眼球,讓讀者在茫茫書海中先一步辨認出我的書來。
.....
過去我們以為網路世界可以為我們帶來可貴的長尾,現在事實證明,網路加速了短頭的極端化好賣的書,賣得比過去更好,而沒有行銷資源挹注的書種,賣得比過去更差。(如果有人在博客來上班的話,請別誤會,我的描述並不帶評價,事實上我也不認為虛擬通路無差別地秀出每月兩千種新書的書單會有什麼好處。此外今天這個這個結果也是出版社和通路攜手製造出來的。
最新的研究

線上推薦系統(online recommenders)比起傳統的暢銷排行榜(best-seller lists),的確是一大進步,對於銷售方和消費者都帶來非常大的便利和福祉,這是無庸置疑的。但是推薦系統是不是真的能帶來銷售的多元化 (diversity),目前並沒有足夠多的研究和討論來支持任何一方的論點。

最近兩位賓州大學華頓商學院的學者(Daniel M. Fleder and Kartik Kosenagar)針對上文所描述的爭論,發表了相關的研究,兩位作者認為這篇論文是第一個嘗試調和不同論點的研究,論文有兩個版本可以下載,個人認為華頓的線上刊物 Knowledge@Wharton 對於這個研究的介紹 ─ 'Reinforcing the Blockbuster Nature of Media': The Impact of Online Recommenders 最具參考價值,文章精簡,說明不失深度,而且可以下載 Podcast 慢慢聽。Read/Write Web 對這篇論文的報導,也值得一讀,這篇報導的讀者回應相當精采,如果時間允許,也不妨看看(Yes, I know. 人一天只有24小時)。

Reinforcing the Blockuster Nature 的標題,我們可以想見,這個研究認為,推薦系統的確會讓原本的暢銷產品銷售益發興旺,不是豪無保留的認為推薦系統與長尾應該劃上等號的。這篇論文的焦點,是推薦系統與銷售多元發散(diversity才能促成長尾)間的關係,主要觀點如下:
  • 有些推薦系統,的確會產生 rich-get-richer 的現象,使得銷售品項和數量集中,而非多元發展。
  • 作者強調縱然個別消費者可能透過推薦系統發掘他們原本不熟悉的產品,但是所有消費者加總(aggregate)的結果,是降低而非增加銷售的多方發展。I
  • 推薦系統的設計會影響結果,有些推薦系統會造成長尾效果,有些則會得到相反結果,所以公司的經理人應該考慮自身需求來決定設計的方向。
不同的聲音

推薦系統研究的開路先鋒 Paul Resnick 教授, 在部落格評論上面所提到的研究時,認為 discovery 和 reinforcement 是推薦系統最重要的兩個目的。
There are actually two effects that we should expect from recommenders. One is discovery-- once one person discovers an item, some other people with similar tastes who would not have found that item do find it. The other is reinforcement-- an item that many people have sampled will be more likely to get recommended.
華頓的學者在寫作論文時,和著名的部落客(博客)Greg Linden ─ 他在1997-2002 間是 Amazon 員工,負責開發推薦系統 ─ 以電子郵件交換意見。Greg 認為,如果沒有線上推薦系統,消費者只能使用更粗糙的、傳統模式的暢銷排行榜名單來尋找產品,這種情況更加降低銷售的多元化,不可能促成長尾。同時他還表達,推薦系統可藉著調整演算法達到長尾的目的 ─ Recommendation algorithms easily can be tuned to favor the back catalog -- the long tail -- as Netflix does.

這還不是結論

Daniel M. Fleder and Kartik Kosenagar 在文中建構的簡單(two-item, two-player, two-urn model )模型,是否真的足以完整、正確的模擬消費者行為,還是個開放命題。所以這個方向的研究,絕對不是劃上句點,而是才剛開始而已。

從台灣的觀點來看,本地的網際網路產業,還沒有出現一個品質和 Amazon 、Netflix 比肩的推薦系統,若是真的要討論推薦系統對消費行為的影響,恐怕產生不了足夠堅實的論證,要談本土觀點,恐怕還嫌早了點(sigh)。

延伸閱讀:

Tags:


Monday, October 8, 2007

把 Google Experimental Search 變成預設的搜尋首頁

兩個月前,筆者曾經撰文介紹 Google 推出的 Experimental Search ,在這個實驗性質的網站, Google 推出了增進搜尋體驗(search experience)的四項實驗功能:
  • Alternative view for search result
  • Keyboard shortcut
  • Left-hand search navigation
  • Right-hand contextual search navigation

筆者在創新和研發不會停止一文中特別介紹了 Alternative view 中的 map view 和 timeline view,許多老朋友對於這個發展特別感興趣,最近 Google Experimental 又有值得關注的新變化。

首先,Alternative views for search result 增加一個新的展現方式 - info view ,在輸入搜尋關鍵字組後,接著輸入 view:info ,搜尋結果除了以傳統的條列方式展現外,螢幕右方會出現如下的文字方塊。

使用者可以選擇想要聚焦的項目,例如地點(map)、日期(timeline)、影像(image)等等,當使用者選擇想要特別關注的項目之後,左方的搜尋結果會配合所選的項目,在每一個輸出 URL 的下方,顯示文字或圖片會作相應的變化。

下圖即是查詢 Olympic view:info - show Images 的結果:

其次,Google Experimental Search 邀請用戶加入網站的實驗計畫,加入實驗計畫的方法很簡單,先拜訪 Experimental Search 網站,然後在想要加入實驗項目上點選 Join Experience 即可。加入實驗後, http://www.google.com/experimental/ 就取代原來的 Google 首頁,變成用戶進入 Google 的門戶了(我猜紀錄應該是存在瀏覽器的 cookies 裡)。

推薦系統的分類 (Obsolete)

在檢視 FeedBurner 的點閱資料之後,發現本文是去年被點閱次數最多的文章。但是重新審視這篇文章,發現有許多含混不清,甚至有些文字可能會產生誤導,不禁大為赧然,冷汗直流。趁著08年開春,重新改寫這篇文章,希望能讓推薦系統的輪廓更清楚具體,更易於理解,也少一些錯誤。

請閱讀這篇文章的修正版本(Please Click Me),造成您的不便,請見諒。

(為了方便讀者,以下是修正後的內容 - 2008/01/07)

Netflix Prize 滿週年了這篇文章裡我介紹了一個數學模型,以量化(消費者以數字表達喜好商品的程度)消費者行為的切入角度,描述推薦系統的運作機制。

雖然以數學模型來定義(或者說描述)研究對象的特性與運作方式,是許多學者很喜歡用的手法,但是這樣的方式對於一般的讀者而言,畢竟缺少了點人味兒。接下來,我們試著理清「推薦系統是怎麼運作的」、「究竟有多少種推薦系統」,讓推薦系統這個東西更具體一點,更有人味一點。

所以,本文我要談談推薦系統的分類(Taxonomy)。

消費者的角度:Personalization, Social, Item, Hybrid....

ReadWrite/Web 的專欄作者Alex Iksold 在07年初發表的 The Art, Science and Business of Recommendation Enginesn Engines 裡,以消費者使用服務的觀察角度,將推薦系統分為四類:個人化推薦同儕式推薦產品導向推薦以及綜合前述三種技術的綜合推薦。這種分類方式,和學術界以使用資料的方式為切入角度的分類法,有令人驚訝的對應關係。
The main approaches fall into the following categories:
  • Personalized recommendation - recommend things based on the individual's past behavior
  • Social recommendation - recommend things based on the past behavior of similar users
  • Item recommendation - recommend things based on the thing itself
  • A combination of the three approaches above

這篇文章有簡體中譯版,有興趣的讀者,可以到譯言去找這篇文章來看,文章的標題是「网站推荐机制中的艺术、科学与商务问题」。Beyond Search 也有關於這篇文章的精彩說明,建議大家也可以看看 Beyond Search 的文章(可惜這個部落格好一陣子沒有新作了)。

學術界的分類

每種分類方式,都有各自的思考邏輯與侷限,也都可能有模糊和不能明確區分的盲點,不同的分類方式之間,也未必有清楚明確的對應關係,這是這無礙於我們對事物本質的理解,重點在於弄清楚分類的思考邏輯與切入方式。

在這裡,我們用一種直覺的方式,以研究者切入推薦系統研究的歷史進程,來看推薦系統的分類與演化,個人覺得是個不錯的閱讀策略。

當研究者和企業經營者開始進行推薦系統的開發研究時,首先看手上有多少資源可以使用,所以先嘗試從消費者的個人資料和過去的消費紀錄,推估消費者對於不同產品的反應,做出推薦系統的先驅產品。

這種方式,過去的學者叫做 Content-based approach 推薦策略, Alex 將之稱呼為個人化推薦。因為是以消費者個人的資料作為推理基礎,稱做個人化推薦並無不當,不過相較於今日用戶在網路上能見到的各式花俏的個人化服務,此處所謂的個人化,可能會讓用戶有點失望,略嫌陽春了點(grin)。


(典型的 content-based recommendation - Amazon.com has new recommendations for you based on items you purchased or told us you own. )

Content-based 策略優點是直覺、易於理解,但是缺點也很明顯。因為這種策略用白話來說,就是蒐集一大堆關鍵字(關鍵字當然越多越好),然後以資料挖掘(Data Mining)技術在關鍵字中間找出關係(大家是不是嗅到一點關聯法則的味道了?)。

有時候,有些與消費者有關的敏感資料,是很難蒐集到的,尤其在日益重視消費者隱私的今日,這是一個很麻煩的議題。其次,以這種策略建立的系統在遇到新會員、新產品項目時,就無所適從了,道理很簡單,沒有見過的關鍵字,系統不可能知道怎麼辦的(有人叫這種狀況 cold start)。

所以研究人員嘗試將視野放到所有會員、產品的資料庫,彙總眾人的消費習慣,得到預估的數學模型,作為推薦系統的基礎,這樣的策略,被研究者稱為 Collaborative filtering(簡稱 CF) ,因為是運用眾人的消費習慣做推理基礎,不是用個人(individual)的資料作為推薦引擎的燃料,所以用 collaborative 這個字眼。

不過 CF 的設計策略,又有兩種不同的切入角度,第一種是分析整體用戶資料,用各種計算方式找出計算不同消費者「背景」、「品味」、「行為」是否相似的數學模型,針對特定消費者,我們找出與之「相似的消費者」,使用這些背景「相似度」的用戶的行為,來預測特定消費者面對不同產品的喜好。過去研究者稱呼這種作法是 User based CF,這就是 Alex 所稱的 Social Recommendation 。

有一點要特別提醒諸君,此 social 和現在甚囂塵上的 social network 不一樣,千萬不要誤會了。我們到目前為止,所討論的推薦機制,基礎是量化後的銷售資料和消費者背景資料,不是基於交談、互動等等真正意義上的社群行為。雖然因為 Digg 和 Del.icio.us 服務的崛起,讓 Social Filtering 這個研究課題也走進舞台,步入聚光燈下,但是目前的研究成果,與 CF 領域的成熟度還是不能相比的。

(上圖左方是 Anobii 的例子,以產品特性去找出類似產品,典型的 Item-Based Approach ,右邊則是典型的 User-Based Approach , 這個作法的典型呈現就像這個範例 - 其他購買 XXX 產品的顧客,都買了 YYY,所以我們向您推薦 YYY)

CF 的第二種策略,和第一種很相似,只是轉個角度,從產品的相似度切入,這就是 Alex所稱呼的 Item recommendation,學者則稱呼這種方式叫做 Item-based CF。著名的 Amazon.com ,就自行開發了 Item-to-Item 模式的演算法(請參考拙作[1,2]的介紹),作為其推薦系統的核心構成元件之一。這是目前在業界很受歡迎的策略,因為使用者的資料可能很難取得,但是產品販賣者應該擁有完整而詳細(這是我們對賣方的基本假設,如果賣東西的人,手邊沒有足夠好的產品資料,那就沒戲了)的產品資料,所以用 item-based 策略分析交易(transaction)資料和產品規格資料,可以玩出不少花樣。這是 Amazon 的選擇,也是得到 2007 年 Netflix Prize 年度獎金BellKor 團隊的選擇。

如上圖所示,CF 的兩個策略,分別從用戶和產品兩個角度切入

不論是以消費者個人歷史資料為計算基礎,或者以眾人的口味來推斷個人的喜好,都有其侷限,所以不論是學界還是產業界,都嘗試將以上的技術結合在一起,這就是 Alex Iksold 所說的 Combination of three approaches above,學界一般稱呼這種作法為 hybrid approach。我們在 Alex 的文章裡可以看到,Amazon 既運用了 Personalization (content-based)的技術,也使用了 Items Recommendation ( Item-based collaborative filtering),這就是一個典型的綜合(hybrid)式推薦系統。

以上的脈絡其實很清楚,從消費者個人的資料入手,發現不足後,然後開發運用所有消費者資料的方法,繼而整合之前所開發的技術,這就是所謂的綜合(hybrid)策略。 Alex Iksold 的說明,用一般(非技術背景)讀者更易理解的文字,說明推薦系統的運作和分類,將這個思考脈絡,作了更佳的包裝。

如我在上文的說明,分類方式並不是唯一的, Beyond Search 的作者,以演算法的角度,作了更細的分類。2007年五月/六月份的 IEEE Intelligent Systems 雜誌,Guest Editor 做的導言,和另外一篇文章 Comparing Recommendation Strategies in a Commercial Context ,也有不同的分類陳述,精神大致相同,但是都有微小差異。總之,掌握自己的理解脈絡是最重要的。

演算法有多重要

不管如何分類,我們知道演算法(Algorithm)是推薦系統的核心,但是演算法如何能保證推薦系統的成功?

Collaborative Filtering 的模型裡,最困難的是相似度(Similarity Measure)的計算,能夠精確有效的計算產品間或消費者之間的相似程度,才能保障接下來的預測和推理是有效的。眾多學者為了克服這個挑戰,應用來自不同領域的數學背景知識,開發出許多相似度函數模型。但是有了這些精緻而複雜的數學公式,是否就能建設一個有效的推薦系統。

相似度的計算,其基礎不僅在於數學功力的精深,因為數學模型的目的是用建構出來的數字「逼近」現實發生的狀況,必然有其不足和限制。真正影響這個函數表現的,還是在於「事實」的根據 ─ 原始資料庫的品質。因此,有幾個關鍵問題是我們所必須關心的,比如說:
  • 資料庫的資料是如何收集的?
  • 資料的深度和廣度如何?
  • 內容的正確性和時效性如何評估?如何保障?
  • 每個欄位的意義為何?
  • 是否有人能精確解讀為何這些欄位能描述消費者(或是產品)的特性?
  • 很多產品有不同的包裝版本,甚至同樣的版本,也可能在資料庫裡有兩筆以上資料(想像一下書籍的普及版、精裝本、典藏版, etc),我們如何知道這些都是同一個產品?(這在業界叫做 item authority)
  • 為什麼我們要關心這些或那些欄位?
  • 那些資料欄位對我們沒有意義,不需關注?
所以,要建設一個成功的推薦系統,最重要的前提,是確定我們有一個有效的、有意義的資料庫,還要有一個(或一組)真正懂得產業 know-how 和資料庫技術的專家,才能正確、有效的運用我們已知的演算法,將之效用發揮到最大。而這一點,恰是許多產業界專案失敗的真正原因?

Google 的研發部門主管(Director, R&D),也是人工智慧領域的大師級學者 ─ Peter Norvig ,有回演講提到這個議題,他的看法是 Worry about the data before you worry about the algorithm

Rather than argue about whether this algorithm is better than that algorithm, all you have to do is get ten times more training data. A..........

Worry about the data first before you worry about the algorithm.
請容許我如此解讀,優秀的演算法,需要大量資料(大陸那邊習慣說海量數據)來澆灌,離開真實世界的演算法,終究如鏡花水月,作不得真所以成功的推薦系統,成功的基礎是充足、有效的資料,和真正懂得產業門道的分析師

Saturday, October 6, 2007

美國觀點的 25/25

今日美國(USA Today)是行銷全美國的全國性報紙媒體,她的特色是主攻大眾口味,排版重視視覺效果。他的網站,與報紙的定位相同,配色活潑(與以菁英口味自詡的紐約時報相比),視覺效果鮮明。

為了慶祝報紙的25歲生日(September 15, 2007), USA Today 網站花了好幾個月做了一個慶祝專題 - A Quarter-Century of Changes",從25年來的新聞事件中,選出 25年來對美國人的生活影響最大的人、事、歌曲、電視節目、演說、電視節目等。為了配合 25 週年這個數字,所以努力湊齊 25 個對美國人生活影響重大的項目,每個項目又挑出 25 則相關的新聞,所以總共是 625 條新聞 (不過有些人物、事件是重複的)。

雖然很多人對於「美國即世界」的觀點非常不滿,但是台灣深受美國通俗文化的影響確是無可辯駁的事實。 USA Today 選出的這些重大事件,固然是原汁原味的美國觀點,但是對於處在台灣的我們,也絕對不陌生。讀者諸君不妨在暇時上網把玩一番, USA Today 歡迎對於選材有不同意見的人,上網回應,不過實際留言的人倒並不是很多。

若想看這個專題報導的內容,由 25 Trends That Changed America 開始瀏覽,螢幕上方是用 Flash 製作的導航欄(Navigation Bar),用這個導航欄挑選感興趣的項目,就可在 25 個題目中切換。

下面是 25 個項目的標題:
  • 25 Trends That Changed America(這是本系列的開篇之作,USA Today 的編輯挑選了 25 個改變美國 ─ 其實他們的意思是改變世界─ 的趨勢,不管你同不同意他們的價值觀,至少這是他們的觀點
  • 25 Most Memorable Quotes你心目中的首選是 "Mr. Gorbachev, tear down this wall!" 還是 "I did not have sexual relations with that woman, Miss Lewinsky." ?
  • 25 Most Memorable Books 不要懷疑,榜首就是 Harry Potter
  • 25 Stocks You should have bought
  • 25 NFL draft moment
  • 25 Things That Changed the Desktop 這個項目的子標題是 How the Internet took over,所以 the winners go to WWW, E-Mail, GUI, AOL, Broadband, Google, Netscape, eBay, Amazon, Wi-Fi, Instant Messageing, Yahoo!, Compuserve, .... 看到沒, Yahoo! 還落在 Wi-Fi 後面哪
  • 25 Biggest Public Meltdowns
  • 25 Top TV Moments
  • 25 Years of "Eureka" Moments
  • 25 Lives of Indelibli Impact
  • 25 The Long Goodbye( Time has changed. 韶光易逝,有哪些曾經的老朋友要永遠和我們告別呢?
  • 25 Greatest Sports Stories of the Last 25 Years第一名是紅襪隊贏得 2004 世界大賽冠軍,你猜對了嗎?
  • 25 Top Musical Milestones
  • 25 Cars That Made Difference
  • 25 Movies with Real Impact
  • 25 Biggest Sports Scandals
  • 25 Medical Moments
  • 25 Ads we Can't Get Out of Our Heads
  • 25 Most Influential Business Leaders 這個名單裡第一名是 Bill Gates
  • 25 Most memorable Olympic moments 在美國人眼裡,最重要的奧林匹克時刻,當然是1984年 Maty Lou Retton 以十六歲之齡,成為第一個贏得奧運體操金牌的美國人;Carl Lewis 在1984年獲得四面金牌,在這份名單裡,只能排第七。)
  • 25 Notable quotables(黛安納 說 "There were three of us in this marriage, so it was a bit crowded."
  • 25 Scientific breakthroughs
  • 25 Changes in the way we travel
  • 25 Most influential people又是 Bill Gates其他人你也一定要瞧瞧,看你認識多少人?
  • 25 Biggest news storiesUSA Today 編輯選出來的第一名是拆除柏林圍牆,第二名是 911 事件

Friday, October 5, 2007

Again - You Want Innovation, Offer a Prize

又是一個 You want Innovation, Offer a Prize 的例子,微軟在今年(2007)九月初宣布,提供總額一百萬美元的獎金,鼓勵學術界在 Sematic Computing 和 Internet Economics 領域的創新研究。

研究計畫得到微軟認可的單位,可以取得使用 Live Search query log 的權力,對於研究者,資料的誘惑是想像不到的大呀....
To advance academic research and publication in the area of Internet Research and, in particular in data mining, information finding, information supply, and Internet economics, Microsoft intends to make available to the RFP awardees a Microsoft adCenter Search query log excerpt with 100 million search queries along with ad click logs sampled over a few months, and a Live Search query log excerpt with 15 million search queries with per-query search result clickthroughs “(execution of a limited license for use of these assets will be required). In addition, Microsoft adCenter will provide advertiser accounts to all winners.
微軟同時還提供總額百萬美元(每個獲獎計畫伍萬元)的金錢獎勵給提出計畫的研究單位...
The total amount available under this request for proposals (RFP) is $1,000,000. Microsoft Research anticipates making approximately 20 awards averaging $50,000, with a maximum of $100,000 for any single award. All awards will be made in $US. Awards are generally made as unrestricted gifts to the institution.
當時我正忙得昏天黑地,壓根沒注意到這則新聞,直到這兩天從「舊聞」中翻出來,才注意到這則消息。可惜我沒這個本事,要不然,我還真想.....


[資料來源]:Beyond Search – Semantic Computing and Internet Economics Request for Proposals 2007

慚愧

回首的圖像
想起來自覺有些靦靦。這本書買來已經年餘,當時從書店買回來,只略略翻看一下,便上了書架,沒想到一上書架就再沒有取下來。日子總是忙忙亂亂,要做的事很多,要讀的書也很多,終於沒有輪及讀這一本書。
不知從何時開始有了這個習慣,每隔一段時間,總會依著當時的心情,重新安排書架上書籍的排列,上下搬動、左右游移時,邊拂拭著書脊的塵埃,邊對著冷落許久的書籍致意。

口裡唸唸有詞的、心裡默想的,為自己的憊懶開脫的心情,竟和上面這段錄自林文月教授寫的「陽光下讀詩」(出自散文集回首)的文字如此相似。有時候幾乎要相信,上面這段話是自己寫的....

Thursday, October 4, 2007

Netflix Prize 滿週年了

Netflix Prize 滿一年了。

提供線上租賃光碟服務的 Netflix,在去年十月(October 2, 2006)設立了一個推薦系統 (Recommender) 的競賽,鼓勵全世界的研究團隊,以 Netflix 目前使用中的推薦系統 Cinematch 為競爭標的,比 Cinematch 推薦績效高過10% 的團隊,將獲得一百萬美元的獎勵。這個比賽將持續到 2011 年(比賽時間從 2006年10月2日到2011年10月2日),依照競賽規定,除了冠軍之外,每年度還有五萬美元的進步獎(Progress Prize)。

提到推薦系統 (Recommender) ,網路書店亞瑪遜(Amazon 現在可能要稱為百貨公司比較恰當了)和 Netflix,一直是最為大家稱道的兩個模範生。這兩家公司,都有自己的演算法研發團隊,Amazon 在演算法方面的投資一向驚人,他們還高調的寫文章在學術期刊談由亞瑪遜員工自行開發的演算法,並且為演算法申請專利(補充:有部落格作者認為 Amazon 使用的技術就是 Association Rules ,我想是個誤會, Amazon 目前的推薦系統,應該是以上面所介紹在 IEEE Internet Computing 發表的 Item-based 演算法為核心,Amazon 當然用了不只一種技術,不過以 Amazon 目前系統的複雜和成熟程度,不是關連法則一種技術可以做到的,所以兩者之間畫等號是不恰當的)。

Netflix 也有自己的研發團隊,持續改善他們的推薦系統,雖然 Netflix 沒有在台灣地區推展業務,在台灣的知名度可能不高,不過如果用 BLOCKBUSTER(百視達) 的網際網路版本來介紹 Netflix ,我想大家對於 Netflix 的業務內容就會有概念的多了。

Netflix Prize 的消息傳出之後,在學術界和技術評論文章作者圈裡,激發出不少迴響與火花,紐約時報的專欄作者 David Leonhardt 撰文形容這個舉動是需要創意嗎?發獎金吧;有些部落格的作者(比如說 Greg Linden),定期追蹤這個比賽的進度;也有人從競賽的評分方式著手,批評這個比賽是象徵意義大於實質意義。

(補充: Greg Linden 是上面提到的 演算法 ─ Amazon.com recommendations: item-to-item collaborative filtering ─ 的共同作者之一,Greg 於1997-2002 間在 Amazon 任職,負責開發推薦系統)

筆者最關心的,則是參加比賽團隊的背景(有沒有華人參加?有沒有台灣的團隊),這些團隊參加比賽所提出的研究成果,是不是會影響,甚至豐富這個研究領域的出版。今年上半年,筆者嘗試從這個獎金專屬網站leaderboard,找到各個團隊的背景,以及各團隊成員的出版文獻。但是 leaderboard 所能找到的資料,都是為了參加比賽所做的寥寥數行自我介紹,幾乎找不到有用的資料,只好悻悻然的放棄。

今年下半年, Greg Linden 的部落格,提供了更深入的追蹤資料,找資料的過程總算漸入佳境;才舉行過不久的KDD 2007,由 ACM SIGKDDNetflix 共同舉辦的Workshop,發表了不少和這次競賽有關的論文,終於讓我解惑,滿足了我的好奇心。

在剛開始動筆 文章介紹 Netflix Prize 時,就已發願繼續寫一系列的延伸報導,從 Recommender 的研究動機與背景談起,將自己的唸書心得,以及在產業界所見所聞引發的某些想法,都包羅進來。但是前一陣子,恰好有些私事,又要準備參加考試,所以收集資料和動筆的腳步在前幾個星期放慢下來。

直到前兩天,原先佔用大部分可用時間的某些負擔,終於告一段落,決定重新整理原先的筆記。但是今天用 Bloglines 看文章(有資訊收集癖好的我每天必做的功課)時,在某個部落格的文章見到 Read/WriteWeb 在年初就已經發表了非常深入的報導。

Read/WriteWeb 在今年一月(January 16, 2007)發表由 Alex Iskold 寫作的文章 - The Art, Science and Business of Recommendation Engines,這篇文章不僅用流暢的文字說明產品推薦 (Recommender)機制之所以重要的原因,同時還介紹了目前實際商業運轉的推薦系統有哪些不同的作法,而且以圖文並茂的方式,以實例說明介紹推薦系統與消費者互動的運作。文章內容深入淺出,而且有豐富的圖片做輔助,對於非技術背景的讀者,是篇不可多得的好文章。對於推薦機制的背景有興趣的讀者,千萬不要錯過這篇文章;以迅速翻譯網際網路相關文章著稱的大陸網站譯言,在今年二月份就把這篇文章翻成中文,如果不想看太多英文字,可以試試這個版本

Alex Iskold 的文章,很成功的把推薦機制的背景交代清楚,我不需要再 reinventing the wheels (我不大可能比 Alex 做得更好 - grin)。因此筆者嘗試從技術的角度,勾勒出推薦系統至今的研究方向,和未來的挑戰。並從這個角度的分析繼續延伸,試圖找出成功的資料探勘專案,最起碼的成功要素。

推薦系統的研究,可以上溯到1990年代初期,經過十幾年的努力,推薦系統已經變成資料探勘領域裡獨立的研究分支,在2005年有學者發表一篇推薦系統領域的回顧文章 - Toward the Next Generation Recommenders: a survey of the state-of-the-art and possible extensions,作者用一個簡潔的數學模型的定義,完整描述推薦系統的運作。

根據這個模型,推薦系統的工作方式很簡單,一是預測:使用由研究者事先定義的數學模式,計算消費者對於不同產品的喜好度;二是推薦,經營者根據前述的計算結果,再參酌企業的經營限制與目標,執行「推薦」或其他相關的行銷活動,以達到經營的目標。

個人認為,這個模型特別值得注意的重點有兩個,第一是這個模型要求各項數據必須充分量化,才能以函數的方式描述運算邏輯,並製作計算的程式,計算的結果,也是以量化方式,表示推薦強度。其次,個人認為這個模型裡最重要的一點,就是把消費者的反饋加入模型,這個因素的加入,改變了推薦系統所要解決問題的範圍,和解決問題的方式。這樣的模型,讓推薦系統在技術上的需求,跨越了單一工具類型的演算法,比如說關連法則(association rules)、決策樹(decision tree),而是以更豐富、多樣的數學工具來達成目標。

(請見上圖,Amazon 會員以1-5顆星的評等方式,輸入他(她)對商品的喜好程度,這就是將消費者的反饋以量化方式儲存、建模的最佳範例)

曾經在網路書店亞瑪遜(Amazon)購書的消費者,對於它的評價系統(上圖就是推薦系統請使用者對產品評分的畫面),應該都印象深刻。被 Alex Iskold 稱為 King of Recommendation 的亞瑪遜,結合消費者的個人背景資料、消費紀錄,以及將消費者對於產品好惡反應量化的數據,設計他們的推薦系統。亞瑪遜的作法,就是這個推薦系統模型的最佳體現。

用亞瑪遜的創辦人 Jeff Bezos 自己的話來說明亞瑪遜對推薦系統的理念,是最清楚不過了:
Our vision is that if we have 20 million customers, we should have 20 million stores.
以書籍為例,推薦系統嘗試解決的問題是可能是這樣的:我知道客戶買了魔戒龍槍系列的小說,客戶會不會喜歡東方色彩的蜀山劍俠傳?喜不喜歡獅子、女巫與魔衣櫥?若我向他推薦J. K. Rowling (哈利波特的作者)寫的系列小說,成功機率多高?

更複雜的問題可能是這樣的:客戶買了魔戒,而且在書評系統裡,給這本書很高的評價,滿分十分,他給九分,那麼如果我們推出限量收藏版,推薦他購買的機會高不高?如果是推薦他購買哈利波特,預估他的反應是什麼?

有了推薦系統,企業主先計算特定消費者對各項產品喜好的傾向,從而決定促銷標的和手段。這就是我們看到的網路書店模範生─亞瑪遜─的運作方式。用最淺白的話來說,推薦系統根據消費者的交易記錄、商品的內容、消費者對於產品的滿意度資料,預測消費者對於各種產品的接受度,經營者根據預測的結果,做相應的行銷安排,將所有資源用在最可能有產值的地方 (這是賣方 supply-side 的觀點,那買方的觀點是怎麼樣的呢?)。

回到技術問題的角度,推薦系統的演算法不是由單一的技術構成。不同產業的產品性質差異可能很大,不同的業者對於資料精粗程度的掌握也不同,因此推薦系統的演算法使用來自各領域的技術,不同的研究者所偏好的數學工具也可能不同,更豐富了工具的複雜度。

因此,不論是關連法則(association rules),還是叢集(clustering)、決策樹(decision tree),都可能是某個推薦系統的構成元件之一,一個完備、有用的推薦系統,定是眾多研究領域的綜合成果的展現。

真正商業化的推薦系統,除了計算預估值的數學模式之外,還會加入其他商業、行銷領域的理論元素,每個企業的行銷目標與理念,必然有各自的想法與堅持,將這些理念融入推薦系統的運作,才是完整的推薦機制。而後者,已經超越了演算法的層次,不是單純購買運算資源(computing resources)或設計演算法(algorithms)可以克竟全功的,畢竟那已經超越 CIO 處理的層次,也不是本文所探討的課題了。

今天先談到這裡,下回再談推薦系統的分類(taxonomy),和延伸的想法。

延伸閱讀:

做一個更好的馬克杯

做一個更好的人,可以過上更好的生活,所以「我」要做一個更好的馬克杯!! Image Source: I NEED COFFEE: Life is Coffee Comics #23