Wednesday, December 17, 2008

Netflix Progress Prize for 2008 宣布了

Netflix Prize 官方網站在12月10日宣布,今年(2008)的年度成就獎頒給 BellKor in BigChaos.

It is our great honor to announce the winner of the Netflix Progress Prize for 2008 as team BellKor in BigChaos for their verified just-in-time submission on Sept 30 at 21:17:40 UTC achieving a 9.44% improvement over Cinematch. We congratulate the team of Yehuda Koren, Robert Bell and Chris Volinsky of AT&T Research Labs combined with Andreas Töscher and Michael Jahrer of Commendo Research for their superb work integrating many significant techniques to achieve this result.

In accord with the Rules the team has prepared a system description consisting of two papers, which we both make public below. We will be awarding the Prize in a presentation at the Netflix offices in Los Gatos on December 17, 2008 at 4pm. Andreas Töscher and Michael Jahrer will present a public talk at that time about their Prize algorithm. We will post a video of that presentation via the Forum.

BellKor 團隊在網站上提供該團隊所發表與本次競賽有關的論文,供有興趣的讀者下載參考:


  • The BellKor 2008 Solution to the Netflix Prize. This is the document which lays out our overall strategy - as was required in the rules of the competition in order to claim the Progress Prize.

  • Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model. KDD 2008..

  • Recent Progress in Collaborative Filtering. RecSys 2008

  • Factor in the Neighbors: Scalable and Accurate Collaborative Filtering. submitted

  • Chasing $1,000,000: How We Won The Netflix Progress Prize. ASA Statistical and Computing Graphics Newsletter. Volume 18, Number 2.

  • Lessons from the Netflix Prize Challenge. SIGKDD Explorations, Volume 9, Issue 2.

  • The BellKor Solution to the Netflix Prize. This is the document which lays out our overall strategy - as was required in the rules of the competition in order to claim the Progress Prize.

  • Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights. ICDM 2007.

  • Improved Neighborhood Based Collaborative Filtering. KDD 2007 Netflix Competition Workshop.

  • Modelling relationships at Multiple Scales to Improve Accuracy of Large Recommender Systems. KDD 2007 .

  • Tuesday, December 16, 2008

    Reading List: Diversity in Recommenders

    Daniel Lemire 在上個月整理他認為與推薦系統的多元推薦輸出(diversity of recommendation lists)有關的文獻,有些讀者在留言裡也提出他們的建議。初步過濾之後,我把自己感興趣的文章,用 CiteULikeRefworks 的輸出功能,製作IEEE 格式書目如後,作為備忘查考之用:

    [1] C. Clarke, M. Kolla, G. Cormack, O. Vechtomova, A. Ashkan, S. Büttcher and I. Mackinnon, "Novelty and diversity in information retrieval evaluation," in SIGIR '08: Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2008, pp. 659-666.

    [2] D. Fleder and K. Hosanagar, "Blockbuster Culture's Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity," SSRN eLibrary, 2008.

    [3] D. Fleder and K. Hosanagar, "Recommender systems and their impact on sales diversity," in EC '07: Proceedings of the 8th ACM Conference on Electronic Commerce, 2007, pp. 192-199.

    [4] L. Iaquinta, M. de Gemmis, P. Lops, G. Semeraro, M. Filannino and P. Molino, "Introducing Serendipity in a Content-Based Recommender System," Hybrid Intelligent Systems, 2008. HIS '08. Eighth International Conference on, pp. 168-173, 2008.

    [5] Q. Le and A. Smola, "Direct Optimization of Ranking Measures," Apr 2007. [Online]. Available: http://arxiv.org/abs/0704.3359.

    [6] D. Lemire, S. Downes and S. Paquet, "Diversity in open social networks," 2008.

    [7] L. Mcginty and B. Smyth, "On the Role of Diversity in Conversational Recommender Systems," 2003.

    [8] S. Mcnee, J. Riedl and J. Konstan, "Being accurate is not enough: How accuracy metrics have hurt recommender systems," in CHI '06: CHI '06 Extended Abstracts on Human Factors in Computing Systems, 2006, pp. 1097-1101.

    [9] K. Swearingen and R. Sinha, "Beyond algorithms: An HCI perspective on recommender systems," 2001.

    [10] Y. Xu and H. Yin, "Novelty and topicality in interactive information retrieval," J. Am. Soc. Inf. Sci. Technol., vol. 59, pp. 201-215, 2008.

    [11] C. Zhai, W. Cohen and J. Lafferty, "Beyond independent relevance: Methods and evaluation metrics for subtopic retrieval," in SIGIR '03: Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval, 2003, pp. 10-17.

    [12] F. Zhang, "Research on Recommendation List Diversity of Recommender Systems," Management of e-Commerce and e-Government, 2008. ICMECG '08. International Conference on, pp. 72-76, 2008.

    [13] M. Zhang and N. Hurley, "Avoiding monotony: Improving the diversity of recommendation lists," in RecSys '08: Proceedings of the 2008 ACM Conference on Recommender Systems, 2008, pp. 123-130.


    如果需要下載這些文章的電子檔,請到筆者的 CiteULike 資料庫(tag: Diversity)查看論文下載位址的細節資料。

    Saturday, December 13, 2008

    [Updated] 使用決策樹作股票預測

    Data Mining Research 最近發表了一系列使用決策樹作股票預測的文章,目前(2008/11/12)已經發表到第五篇《風險評估》,我會依照發表進度更新本文。除了本系列專文之外,Data Mining Research 還發表不少與資料挖掘研究趨勢以及技術探討的文章,讀者有興可到這個部落格挖挖舊文章說不定會有些意外收獲哦。


    (First Published on 2008/10/14 : Last Updated on 2008/12/13)

    Thursday, December 4, 2008

    [書摘]:『帝國』的佳釀

    我從不知道喬治亞生產白蘭地,不過卡普欽斯基(Ryszard Kapuscinski)的帝國:俄羅斯五十年告訴我們一件顛撲不破的真理:釀酒,如同每項藝術一樣,你必須有品味,其餘的則會隨之而來。

    帝國-俄羅斯五十年 Book Cover
    I. 初遇 - 南方 一九六七 - 喬治亞

    並非每個人都知道白蘭地之怎麼來的,想要製作白蘭地,你需要四樣東西:葡萄酒、陽光、橡樹和時間;如同每項藝術一樣,在這些之外,你還必須有品味,其餘的則會隨之而來。

    秋天葡萄收成期後,就開始製造葡萄酒,把酒倒進橡木的桶子裡,白蘭地所有的秘密都藏在橡樹的年輪當中。橡樹成長,把陽光收集到自己樹幹裡頭,就像琥珀沉澱在海底一樣。陽光慢慢沉澱進橡樹年輪,這段漫長的過程,持續好幾十年。年輕橡木製造出來的桶子是生產不出好得白蘭地。當橡樹成長,樹幹轉為銀色,表示橡樹逐漸壯大;木質收集了力量、顏色和芳香。不是每棵橡樹都會養出好的白蘭地,最棒的白蘭地是由長在乾燥的土地、寧靜的地方的單生橡樹林所養成的。.......

    然後桶匠開始製作桶子,....................

    朝桶子裡倒進葡萄酒,或五百、或一千公升不定,然後把桶子擺在木馬架上,順其自然。人不需要再多做什麼:必須等待,時機正確,水到就會渠成。酒現在進入了橡木,然後木頭釋放出一切,釋放出陽光;釋放出香味;釋放出顏色,木頭擠出它本身的汁液;開始運作。

    所以需要寧靜。

    .... 第一杯白蘭地在三年後出現,.........。..................................。但事實上,白蘭地的年齡還要更了不起一點,我們得把製成木桶的橡樹年齡也加上去,這次的橡木是在為法國大革命期間封存的酒努力

    一個人可以從味道分辨出白蘭地是年輕或年老的,年輕的白蘭地尖銳、快速、衝動,味道會酸;反過來說,老成的親切,溫柔,稍後才開始發光。老白蘭地中又許多溫暖、學多陽光,會平靜的進入一個人的腦袋,好不誇張。

    而且會盡它應盡之道。

    [書摘]:蘇煒談疏離

    蘇煒參與了一次傳統的耶魯布魯克學院的 dinner talk 後,有感而發:


    站在耶魯講台上 Book Cover
    「有閒」的「遠」與「有為」的「近」

    -- 現代生活裡談「疏離」久矣。人們感嘆科技信息時代的人際疏離、人情淡薄、世風日下,簡直已快成一種「政治正確」式的老生常談,似乎談是一種姿態,不談亦是一種姿態。竊以為在意識形態面放言「批判」的許多高蹈的姿態-比方有滋有味享受著「中產階級」的現世功利而聲淚俱下批判「中產階級生活方式」之類-也僅是姿態而已,其實是「有閒」的味道很多而「有為」的質感很少的。

    雖然談疏離似乎是一種流行,蘇煒並不悲觀....

    所謂「中產階級」的「有閒」並不可怕,「有為」才是其中最重要、具備正面建構價值的東西;當今信息、科技時代(你叫後工業、後資本時代也行)造成的社會疏離與人際隔膜是事實,但在一種大的建制中,再人文教育「有為」的掌控安排之中,有意加強人與人之間的個人接觸,創造一種良性的社會氛圍,建構一個「主流社會」或所謂「中產階級生活形態」的正米特質,就不但是具體的,也是可行的。如果「立場」也即「姿態」的話,....

    Monday, November 24, 2008

    [書摘]:『帝國』的偉大昨日

    閱讀卡普欽斯基(Ryszard Kapuscinski)的帝國:俄羅斯五十年,總是一頁又一頁的欲罷不能,沒翻過一頁,益發覺得這本書的獨特與全面,她不僅是一個記者、作家的見證,也是一本談哲學和歷史的作品:


    帝國-俄羅斯五十年 Book Cover
    I. 初遇 - 南方 一九六七 - 亞塞拜然

    「不好意思,我講起話來,可能會帶點民族主義。」這個好鬥的亞塞拜然女孩很有趣,一方面知道民族主義是個禁忌之果,另一方面又無法抵抗這樣的誘惑。我們站在一幅中亞的立體模型地圖上,她要跟我介紹亞塞拜然曾經多麼偉大(這就是她所謂的有點民族主義)。我告訴她,今天她想要呈現給我看偉大昨日的渴望,算是世界共通的衝動一個人不管到了那裡,發現在每個國家的人民都會誇耀自己的祖先曾經遠征至哪裡,人民似乎需要這種體認,說不定還會隨著時間越來越強。我告訴她,這其中必定有種代償的法則在運作,世界原本寬敞,但如果有個國家突然覺得它想要擴張,這一擴張可能就沒完沒了了。想想羅馬令人印象深刻的擴張,看看蒙古人把自己擴充到何其壯觀,土耳其如何擴張。此外,對於西班牙人的自我擴充,有人會不為之贊嘆嗎?甚至是威尼斯,明明是那麼小,終究在擴張上大為成功。

    在邊界擴充以日益縮減為法則的今日,擴張是困難又危險的,所以各國必須改用一種深度感來滿足對幅度的天性,意思是深入歷史去證明他們的力量和意義,那是所有小國找到一種能令自己心平氣和的處境,他們自然會珍惜。幸運的是,若是仔細閱讀人類歷史,我們會發現每個國家,在這個或那個時代,總會出現一個膨脹或擴充的時期,至少是一股愛國的衝動,讓人明確相對的,在今日其他人類之間,仍得以保有一種特定的靈魂平衡。

    所以我和這我明德亞塞拜然女孩站在亞洲地圖之上,往下看著亞塞拜然一度如何偉大,從高加索山到德黑蘭,從裡海到土耳其,.................

    (翻過一頁....)

    ..............

    由於一邊受土耳其,另一邊受波斯壓迫,亞塞拜然根本沒有辦法確保它的自治,公國的確存在過,但是它們的意義多僅止於地方。好幾世紀以來,亞塞拜然都只是波斯的一省,........

    Saturday, November 15, 2008

    升級 Ubuntu 8.10 之後

    兩個禮拜前,鄙人公開了升級之前作的功課,經過一夜的折騰,終於完成升級,再經過三天的美化與微調,結果如下:



    --

    [書摘]:『帝國』的邊界

    第一次閱讀卡普欽斯基(Ryszard Kapuscinski)的帝國:俄羅斯五十年,是個奇特的經驗,他的筆下,初遇西伯利亞鐵路的經歷不僅是一段報導、一篇遊記、一章文學作品,也是一次伐筋洗髓的檢討與思辯,看得我冷汗直流卻又欲罷不能。


    帝國-俄羅斯五十年 Book Cover
    I. 初遇 - 西伯利亞鐵路

    邊界這事連結者多少的受害者,流了多少血,受了多少苦!時尚未防禦邊界而被殺害者的墓園永無止盡;一樣無窮無盡的,是那些厚顏拓展他們邊界之徒的墓園。如果說我們行過這個星球,並在光榮大地上失去生命的人,有半數是在起源於邊界問題的戰鬥中輸給了鬼魂,應該是個保險的假設。

    這種對邊界議題的感受,這種毫不諱言想把它們弄清楚、擴大它們、或者防衛它們的狂熱,不只是人的個性,也是地上、水裡和空中所有會動的東西活生生的天性,各式各樣的猛獸為了確保新的狩獵大地,一樣會把牠們的對手撕咬到死,就連安靜而溫馴的家貓,看牠是多麼努力、多麼的折磨自己,只為了壓榨出幾滴尿液來,以便在這裡或那裡標示出牠的領域來。

    而我們的腦袋呢?用密碼來說,終究也是無止盡多樣化的邊界,在左右大腦間、在額葉與顱葉間,在胼胝體和小腦間,以及腦室、腦膜和腦廻的界線?腰部和脊椎神經之間的界線?

    注意我們思考的方式,比如說我們會想:那是界線:超過了不行,或者我們會說:小心不要走太遠,因為你會超過標誌!尤有甚者,所有想法和感覺、告誡和禁令的界線都在不斷的變換當中,彼此的交織、滲透與堆積,在我們腦內有不斷的邊界活動,經過邊界、接近邊界、越過邊界,於是我們會頭痛與偏頭痛,於是腦袋渾沌;但也會製造出珠玉:啟發的視野、驚豔和靈光乍現、以及不幸是比較罕見的天縱英才

    邊界始終是種壓力,甚至是種恐懼,較為罕見的深遠意味則是解放,邊界的概念可能還包括一種終結:門在我們身後永遠的關上:那就是生死間隔。眾神知道這種焦慮,所以祂們才會藉著承諾人類可以進入聖境的回報來贏得他們的信奉,在那裡將沒有任何界線,基督教上帝的樂園,耶和華和阿拉的樂園,全部沒有界線,佛教徒都知道涅槃是一個沒有界線的幸福狀態。簡而言之,每個人最渴望、等待及期盼的,正式毫無條件、全然、絕對地無窮無盡。

    Monday, November 10, 2008

    [Updated (Again) ] Blogging 的過去、現在與未來

    [NOTE:本文的貧乏內容實在撐不起《Blogging 的過去、現在與未來》這麼偉大的題目,若要稍微有點名副其實的樣子,要做的功課還很多咧。無論如何,我會持續更新延伸閱讀的內容,... stay tuned...]

    去年(2007)四月 TechnoratiState of Live Web 報告說, Technorati 索引的部落格數目超過七千萬,從2002年至今(2008),Technorati 資料庫中的的部落格已經達到一億三千多萬(133 millions)個了。今年稍早他們發表的 State of the Blogsphere/2008 進一步揭露的數字顯示,每 24小時全球會產生900,000 篇文章(全球二字是有疑議的、或者可以說 debatable ,不過這不是本文關注的重點)。

    這樣的數目不可謂不驚人,代表 blogging 這種傳播模式至今已在網際網路世界佔有舉足輕重的地位,但是這是否代表 blogging 必將成為網路的主宰運作模式,影響網路族群的文化、商業、社會以及家庭活動?blogging 的成長是否仍會繼續下去,直到每個活著的人都用某種形式寫部落格為止?


    顯然這幾個問題的答案並不是那麼理所當然的肯定,部落格寫手、媒體界、評論家、產業界和學界,都在思考這個問題的答案。當然尋找答案,不必一定要很嚴肅,ProBlogger 的 Darren Rowse 問讀者 Why Do We Blog? ,請讀者以參與者的角度,說明寫部落格的原因。讓人欣慰的是,各式各樣的答案,充分說明我們所處的網際網路的確是個多元的世界。下圖就是部落格文章的縮圖。


    躬身力行的寫手,當有各自不同的心情和體驗,著名的評論家、記者們也有話要說。RWW(ReadWriteWeb 今年第一季,從趨勢與技術的角度,談了一些Bloggin 的未來,比如說 Richard MacManus 寫的 《Mixed Messages in Blogging Landscape 》 ,和 Sarah PerezThe Future of Blogging Revealed》。

    Andrew Sullivan 近日在 the Atlantic 發表了《 Why I Blog? 》 一文,回顧並思索 blogging 這種寫作型式的意義與發展;Paul BoutineWired 發表了《 Twitter, Flickr, Facebook Make Blogs Look So 2004 》,斷言 2008 年不是寫部落格的好年代。他的看法如下:

    因為多種新推出的服務,比如 Twitter、 Flickr、 Facebook 等等,讓網路用戶得以各種不同的形式表達自我,部落格再也不是抒發胸臆的唯一管道;再則今日 到處充斥的付費文章、置入性行銷,或其他暗中進行的行銷活動,來拖垮部落格的信度,部落格再也不好玩、不可信了(註: Jas 今日發表的 Twitter, Flickr, Facebook讓部落格看來如此2004? 對 Paul Boutine 的文章有很深刻的闡述與反省)

    接著 Andrew SullivanPaul Boutine 這兩篇文章之後,許多作者接續發表了各自不同的看法,雖然眾音未必同調,但是多半多持較樂觀的立場看blogging 的未來。簡單的說,雖然群眾手中能選擇的發聲工具愈來愈多,但不同的工具有其合適的傳播媒介,而不同媒介形式也自有其合適的受眾與訊息種類。各種工具與部落格應是互補與合作,不是“零和”式的競爭與互斥。

    關於工具的演變與進步,主筆 Inquistir 的 Ducan Riley 說不妨稱呼這種現象為 blogging 2.0,筆者相當贊同他的說法。請記住連結分享是 blogging 的基本精神,不管將來網路上流行什麼服務,使用的是什麼樣的工具,連結與分享的需求不會減少,網民們各自使用喜愛的工具,完成連結與分享的工作。有人甚至預測,未來的分享主流的互動性更強,視訊將變成分享內容的主流。

    無論內容、工具怎麼變 ,「連結與分享」是 blogging 的核心精神。我們不應落入狹隘的形式主義窠臼:將 blogging 侷限於文字形式(想想看 flickr、YouTube),或者或者僵化的認定只有結構完整的文章(想想看 twitter、 plurk 的風行),才能叫做部落格文字。

    從整體的統計數字來看,大家一定同意,網路上流通、再製、分享、重創作的內容,只會一天比一天更多,不會越來越少。網際網路的可喜之處,常在於這個(工作與生活)環境帶給我們的突破、跨界(blurring)及進化。我們現在看到的正是這個可貴精神的體現,何苦執著於昔日(blogging 快滿十年)認定的內容呈現方式與工具的定義 ,率爾宣稱 Blogging已死呢?

    至於商業化或是惡質競爭等等扼殺網路先輩們理想抱負的看法。筆者的觀點很直接,簡而言之:網路社會從來沒有與實體社會脫節過,其實,網路社會的人際關係就是真實社會人與人關係的映射或縮影。從來,商業行為與各式曖昧、晦澀、負面的操作,就是人類社會的一部分,不因網路科技的進退而有所不同。我們所面對的人性考驗,與我們祖輩所面對的沒有什麼不同,只是考驗以不同的方式展現而已。所以,就此認定 blogging 一定會 irrelevant,是稍嫌輕率了。

    筆者相當贊同 The Noisy Channel 在《In Defense of Web 2.0》文中所說:不管科技的進步會帶給我們什麼樣的新工具,我們只會更珍惜能在我們生活的社會裡自由發聲以及與他人溝通的機會和工具(想想胡適說的寧鳴而死, 不默而生),不會輕易放棄的:
    The good news is that there is no turning back on this vision of a more interactive online medium. Today it’s blogs and tweets; tomorrow it may be something we haven’t even imagined. But, now that an increasing number of us fancy ourselves as publishers and communicators, I don’t see us giving up that power without a fight.

    為了思考與呈現這個議題的不同面向,筆者從網路上收集不少文章資料,筆者將這些文章列在延伸閱讀中供讀者諸君參考

    延伸閱讀:

    (First published on 2008/10/23)

    Sunday, November 9, 2008

    [Video] Kevin Kelly on Web 10.0

    Kevin Kelly gave a talk at the Web 2.0 Summit. He reviewed the concept of the web - "linking computers" and "linking and sharing documents". Then he talked about what he think will happen in the next 6,500 days . That's Web 10.0 - The Web will own every bit of Data.




    Andrew Odewahn at Orilley used a spider to collect a list of keyword meta tags from the various organizations represented at the conference, then he fed them into Wordle to generate the Visualization of Interests at Web 2.0 Summit. Can you see the clues of Web 10.0 from the visualization?

    Visualization of Interests at Web 2.0 Summit

    Thursday, November 6, 2008

    [Video] 勝與敗:兩場精彩的演說

    在充滿激動、置疑、興奮、落淚、狂喜交織的夜裡,新任美國總統當選人 Barack Obama 的那句 Hello, Chicago 讓許多人興奮不已;那句鏗鏘有力的“勝利屬於你們”也勢必將被許多人津津樂道很長的時間。



    另一方,結果宣布後,John McCain 向支持者宣布他已經聯絡勝選人 Obama ,並且恭喜他獲得勝利。隨後,他向支持這發表了他的敗選宣言( Concession Speech),這場精彩的演講讓不少人感慨:如果整場競選期間他都有這樣的表現,鹿死誰手猶未可知。



    網路上可以找到這兩場演說的錄影視訊,在各種版本中,敝人覺得紐約時報網站競選專題提供的版本最棒,紐約時報以 Flash 技術提供的影片,不僅畫質解析度允稱上乘,同步的講稿(transcript),更是令人激賞。

    讀者可以點上面的圖片,或者使用下面的連結欣賞這兩場精彩的演講。

    Wednesday, November 5, 2008

    [詩戀] 辛鬱: 現世兩題

    這是詩人辛鬱今年9月份在聯合報副刊發表的詩作,突然覺得,既然是兩題,那就索性把兩題並列,看來也別具味道。




    沙揚 塵起
    路障列陣
    百日維新未成
    這馬蹄猶自奔騰
    藍天一角
    頃刻暗沉

    為什麼總是
    這股邪風
    竊佔天空
    它遮住整座視窗
    使綠野
    再一次 色變

    Sunday, November 2, 2008

    升級 Ubuntu 8.10 之前

    自從將工作用的機子改為使用 Ubuntu 之後 ,雖然大體上還算可以,但是 8.04 既然號稱是長期支援版本(LTS),整體架構的完成度和系統調校的細膩度,實在夠不上長期支援版本該有的程度。面對這些瑕疵帶來的困擾,所需的時間、精力是實在是令人感到惱火。

    備受困擾之餘,常和同學開玩笑說,Ubuntu 這個所謂的 LTS,實在是早了半年,他們應該推遲半年再推出長期支援版本的。不止是我這麼想,ZDNet 的 Adrian Kingsley-Hughes 也認為 8.10 實在很像 8.04 的 service pack。

    所以我對 Ubuntu 8.10 的面世,是報了很大希望的。因為手邊還有工作要處理,為了穩妥起見,我決定把手邊的東西告一段落後,再處理升級問題。為了確保升級過程平順,在真正動手之前,找了一些資料(職業病),先作些功課再說。當然,第一篇要念的就是:為什麼不該升級到8.10?


    Wednesday, October 29, 2008

    [詩戀] In love of Uncertainty

    背著電腦,去歐洲流浪的作者把 Wislawa Szymborska 的詩作 Love at the First Sight 的前四句錄在《再見柏林》那一章(恰好是書籍的第100頁)之首。

    初見的悸動和揣測未知的忐忑與興奮,恰是旅人心情的寫真,或許是作者抄錄這首詩的緣由吧;至于我這個很想作旅人,卻從未成行的老宅男,手裡握著打印的 data mining 論文,想到 uncertainty reasoning 正是我們這一行 的頭疼議題(看看這本書 便知我所言不虛)。 "but uncertainty is more beautiful" 不僅是旅人的心聲,也是在學海人生裡漂泊的心聲。

    全詩英譯(Walter Whipple 翻譯)抄錄於後,還有一個 Roman Gren 翻譯的版本,就不錄于此了:
    Both are convinced
    that a sudden surge of emotion bound them together.
    Beautiful is such a certainty,
    but uncertainty is more beautiful.

    Because they didn't know each other earlier, they suppose that
    nothing was happening between them.
    What of the streets, stairways and corridors
    where they could have passed each other long ago?

    I'd like to ask them
    whether they remember-- perhaps in a revolving door
    ever being face to face?
    an "excuse me" in a crowd
    or a voice "wrong number" in the receiver.
    But I know their answer:
    no, they don't remember.

    They'd be greatly astonished
    to learn that for a long time
    chance had been playing with them.

    Not yet wholly ready
    to transform into fate for them
    it approached them, then backed off,
    stood in their way
    and, suppressing a giggle,
    jumped to the side.

    There were signs, signals:
    but what of it if they were illegible.
    Perhaps three years ago,
    or last Tuesday
    did a certain leaflet fly
    from shoulder to shoulder?
    There was something lost and picked up.
    Who knows but what it was a ball
    in the bushes of childhood.

    There were doorknobs and bells
    on which earlier
    touch piled on touch.
    Bags beside each other in the luggage room.
    Perhaps they had the same dream on a certain night,
    suddenly erased after waking.

    Every beginning
    is but a continuation,
    and the book of events
    is never more than half open.

    [Video] 還是筆記本好用

    Laptop Computer 在台灣一般習慣叫筆記型電腦,或者簡稱為筆電;大陸那邊則習叫筆記本兒,或者索性叫本本。大陸地區有名的博客 和菜頭最近介紹了一個很有趣的影片,充分說明筆記本比 Laptop 優越多了:


    Wednesday, October 22, 2008

    [Video] 從狼煙到手機

    e的二三事那裡看到一個賣手機的廠商CARPHONEWAREHOUSE廣告片,用簡明流暢的動畫,介紹通訊方式的演進,很有趣味。雖然是“廣告片”,沒有無趣低俗的商業元素,畫面用簡單的線條構成,故事簡單有趣 - Strongly Recommended...


    [KDNuggets Poll] Financial Crisis Effect on Data Mining Field

    不論學者官員網路名人們怎麼說財務危機,言語或嚴肅或搞笑,救市或沉著或慌張,但這次金融危機帶給我們這些“一般人”的心理壓力是真實而無處不在的。從 Live Traffic View 所見,我這個一畝三分田,最近這些日子最常被訪問的,也是和金融危機有關的《圖解次級房貸》。

    搞 Data Mining 專家、顧問、學者也是一般人,當然不能自外於世,KDNuggets 最近一期的問卷調查,主題正是詢問讀者們:這次財務危機究竟有沒有影響2008年第四季的展望?雖然參與投票的人不算多,以管窺天,也未必不能瞧出些端倪,投票結果如下圖,諸君若想了解投票的細節,請拜訪本次問卷調查網頁。

    Tuesday, October 21, 2008

    Latte Art Collections

    快拍公園有個主題叫做“咖啡奶泡拉花募集中”,各式拉花爭奇鬥豔煞是有趣,有圖為證:

    Search your mind ?

    George H.W. Bush 給我們上過一課,讀我的唇(Read my lips: no new taxes)容易,讀我的心很難,所以投他票的選民最終還是發現,增稅是不可避免的。

    Revision 3 的一則報導,竟然宣稱使用自然語言處理技術(Natural Language Processing;NLP)的搜索引擎廠商Cognition 竟然打破常識,不僅可以搜尋 web ,還可以搜尋你的心 - Search the web and your ming with Cognition

    (主持人齜牙咧嘴的樣子有點好笑,不過全螢幕播放的效果真的很哦!)

    Thursday, October 16, 2008

    "Latte Art" printer make it for you

    義式咖啡的魅力所在除了濃郁的 Espresso 咖啡加上綿密柔軟的牛奶泡沫,在牛奶泡沫上作畫,給飲者加上視覺的刺激,也是許多癮君子的鍾愛的樂趣之一。這種 Latte Art (有人稱之為拉花)技術,自然是許多咖啡吧台師傅(barista)苦練的技術之一,近日 OnLatte 介紹了一款能在咖啡杯中作畫的 Latte Art Printer,讓人嘖嘖稱奇。

    根據 OnLatte 的說明,這款 Latte Art Printer 可是在 SIGGRAPH 2008 上大出風頭哦。有圖有真相,下圖即為明證:



    Wall Stree Journal 還特地為此專文介紹 Latte Art,並且制作了影片:



    YouTube 上也可以找到這款打印機展示的影片噢:

    Tuesday, October 14, 2008

    凡事都要 2.0

    去年十月寫了篇遊戲之作 [Updated] 版本 2.0 升級報告,近日發現我素來鍾愛的咖啡都要升級至2.0了,果真是吾道不孤,凡事都要2.0啊。

    Tuesday, September 30, 2008

    十月待辦事項

    很長一段時間沒有整理部落格,剛剛才發現原先使用由 LVCHEN (lvchen.blogspot.com) 撰寫的“最新回應“外掛失效了,必須安裝更新版的外掛才行。但是使用快速安裝之後,無法正常運作,只好先把 "Recent Comments" 模塊先移除,再找時間慢慢試嘍。

    話說”君子立志長,小人常立志“,過了一個充滿挫折的暑假,十月一定要好好幹活了,下個月要完成的工作包括:

    城堡

    Monday, September 1, 2008

    不成熟的禁果

    吃米不知米價,吃禁果不知伊甸園裡果樹本尊模樣是再 自然不過,當我在武陵農場生態導覽區看到解說的告示牌,才恍然大悟,這便是不成熟的禁果。

    書摘:人間煙火

    整個暑假裡,都在折騰新專案的準備工作-安裝系統和工具程式,假期結束,暑假印象竟然只有不斷格式化硬碟的動作、反覆安裝系統的不奈情緒和腦子裡揮之不去的系統指令,原先打算要做的事、要念的書竟然全部都食言了。 認真想想,這個暑假裡印象最深的書,竟然是暑假剛開始時夜裡消磨裝機時間的人間煙火

    秋光幽微(自序)

    行行重行行 這深谷裡的疏林
    正以何等的寂靜在逐層浸染著霜紅
    這時日的消逝是否 也正以
    悲喜夾雜的方式在成就著我們的詩?

    記憶廣場

    斜陽裡 人群散去
    鑲著金邊的昨日開始
    如層雲般湧來 並且沿著
    這灰暗的廣場想四週延伸展開
    多麼貧乏而又豐美 空虛而又滿盈的往昔啊
    這就是我們僅有的 資產和原罪了嗎
    在流離的世界裡執著於自身
    小小的悲喜

    回首之時 有誰願意承認
    這廣場中心矗立著的
    一座又一座的青銅紀念碑
    其實都是 奠基於
    我們那無可奈何而又無堅不摧的 青春
    ---

    是青春建構了記憶,而記憶才終於得以重鑄了青春啊

    ---
    我想,在每個人的一生裡,都可能會遇到這樣的時刻罷。不過只是一處小小的毫不起眼的空間,你曾經無所察覺地走過千百次,卻並不知道這千百次的接觸其實沒有遺漏任何一絲細節。所有的一切都在默默地等待,等待與你在多年之後重新相見,就在這一刻,著整個空間的光影、線條、聲音甚至氣味,都會對你散發出一種無法抗拒的溫暖和親切的訊號,就在你踟躕難決的那一瞬間,為你延伸鋪展而成為一處無邊無際的記憶廣場。

    每一個人的青春都會過去,每一個世代的華年也一樣,然而,這並不是從此就必須把它忘記並且絕口不提的理由。

    泉源
    ...因此有些有關童年的記憶混淆了起來。有時候自以為是自己記得的,到了後來再查證,才發現是姐姐替你記起來之後再轉述給你聽的。有時候家裡所有的人都異口同聲認為你在那個年齡根本不應該有記憶的能力,可是自己卻又明明記得一些聲音、一些面容、一種模糊的甜蜜。或者是一種隱約的悲傷。

    我一直以為我記得五歲時身邊發生的一切,那時父親剛從軍中退役,下一步行止未定,只得暫居妻子娘家,直到他通過公務員的考試,我們才離開外婆家,舉家赴新竹定居。
    等待放榜的那段時間,有個午後,我和鄰家的小孩口角,兩個小孩為了誰的爸爸比較偉大爭的面紅耳赤。長大後我才知道隔壁住的是母親的叔叔,和我吵架的小孩可能比我高了一輩,這麼多年過去,我還是不知道當年和我爭吵的是哪一位?

    夏日

    奇怪的是:在一缸裡,如果同時有四五個小花苞冒出水面是,就總有一朵會長得比較慢。開始的時候並沒有什麼差別,大家都逐漸飽滿起來,顏色也從青綠之中透出粉藍與淡紅。可是,當別的花苞的梗莖在一夜之間突然變得潤澤和挺直的時候,它這一朵也似乎在一夜之間突然決定挺直生長。接下來的日子裡,眼看這其他的花朵逐日茁長壯碩,迎風迎露搶著開出清香嬌柔的姿彩來,我就會俯身探尋,在缸邊那個小小的角落裡,我總會找到它,細小枯幹的一枝,在快要折斷的尖端上仍然殘留著一抹深紫的顏色,仿佛仍想堅持它曾經也是一朵花苞的記憶。

    每次看到它,我每次都會猜想,不知道,在那一個晚上,在那一個長長的夜裡,到底發生過什麼事情?到底誰來做的決定?是誰可以來決定一朵花的生長和夭折的命運?

    在那樣一個長長的夏夜裡,究竟發生過什麼事情呢?

    兩年前,我曾經應朋友救急之請,在一所國中代課月餘,當代課期滿,我是狼狽又帶點竊喜的奔離那個環境,看到那些年輕的生命在什麼也不懂的年紀就選擇了下半輩子的黯淡命運,我真的不忍也不想看下去。席慕容的問題也是我的問題,到底是誰來做的決定,誰可以決定一朵花的生長和夭折的命運?

    他們

    出了外海之後,他把馬達停了,白色的大三角帆撐滿了風,船繼續向前滑行。

    整個海洋環繞著我們,陽光很強,水面上反光的部分是一整片跳躍起伏的銀芒,照得人眼睛都花了,只好轉過頭來,那不反光的部分卻像是土耳其玉石一樣的溫潤的藍。

    漸漸地,我聽到海浪輕撲船身的聲音,一下又一下地傳過來,清晰而有節奏。海,原來可以這樣安靜,不禁抬頭望向把舵的人。

    可以依憑的記憶

    我總是覺得,從小開始,我們的教育過程裡面好像少了點什麼。

    歷史也罷、文化也罷,似乎都只能是書本裡的鉛字,都只是空空的架子,有些東西,我們拿不出來,有些東西,我們又不肯給。生活的周圍沒有任何可以依憑的實體,當然也就沒有任何可以體會的細節了。 而每個生命的成長與成熟,都是需要無數細節的累積才可能達成的啊!

    ....

    但是,教育應該不是這樣,應該不是一種善意的欺瞞和混淆。尤其在孩子幼小的時候,我們更要十分慎重。就是因為他還幼小,就是因為他還不能完全明白,我們才要更加慎重地展示生命的真相。把那最真誠與最珍貴的「惜別」的本質,安安靜靜地放在他的眼前,讓他可以自己摘取其中的細節,作為一生都可以反覆體會與依憑的記憶。

    一生的專注

    多年之後,陳慧坤老師是微笑著向我們重述了這一句話,我卻不自覺地打了一個寒顫。 什麼叫做老師?就是把自己少年時的一切忘的幹幹淨淨,然後端坐在位子上制定禁忌與規章,把生命劃分成一個又一個黑白分明的格子,不準任何人越界的人嗎? 什麼叫做教育?就是用盡所有的方法讓孩子失去自信、失去夢想,最後變得安靜麻木而又面目模糊,因此而終生不再能感受到美與自由的存在,他們才會覺得滿意了的那種制度嗎?

    .....。只有意志夠堅強的生命,才無人可以摧折

    我夠堅強嗎?


    故事

    Continuous Partial Attention 所苦的人們(當然也包括我),是不可能進入故事裡的;同時開啟十個瀏覽器視窗,想找到值得閱讀的句子是註定要是失望的,因為...


    失物之書 Book Cover
    母親患病前,常告訴他「故事有生命」,但故事的生命跟人或貓狗的生命不一樣。不管留不留神,人還是獲得好端端的;狗兒如果覺得乏人關注,通常就會拼命引起注意;貓咪若一時興起,還會假裝人根本不存在-這點牠們可拿手了。

    故事可不一樣:人說故事,故事才會活起來。要是沒人高聲朗誦,沒人躲在毯子底下、就著手電筒光,睜大了眼專注閱讀,那麼在我們的世界裡,故事並不存在。故事好似啣在鳥喙裡的種子,等候落地入土;像樂譜上的音符,渴望樂器將其帶進世間。故事潛伏靜待,期盼現身的時機。一旦有人閱讀,故事就開始變化,在想像力中生根,讓閱讀的人改頭換面

    .........

    書本裡頭的故事痛恨報紙的故事,大衛的媽媽會這樣說。報紙上的故事像是剛捕獲的魚,只有在新鮮期才值得一顧,保鮮期卻不持久。

    真正的故事,正統的、出於想像的故事,好似藏書豐富的圖書館裡,那不苟言笑卻熱心助人的館員。報紙故事跟煙霧一樣虛空不實,壽命跟蜉蝣一般短;它們不會生根,反倒像野草一般地沿地蔓生,從更值得青睞的故事那兒盜走陽光。



    又:
    至於報紙故事偷走陽光的事,我們都很熟悉,此際我們與大眾傳媒的互動,以及大眾傳媒的素質問題,已經不需再多言了。

    Tuesday, August 5, 2008

    還是傷春悲秋

    夜讀席慕蓉人間煙火,看到這麼一段話,怎麼也不忍翻過下一頁,於是幹脆把它抄錄下來:
    在一首法國香頌《枯葉》的歌詞裡,有這樣的幾句:

    生命溫柔而又緩慢地將

    相愛的人分離
    不發出一點聲息

    是的,千百年來,在每個的心中,許多觸動也往往是無聲的。有時,從最深的觸動裡所引發出的突然的淚水,也很難解釋,只好任由這個社會將它嘲諷為極端的「傷春悲秋」。

    其實,恰恰相反,「傷春悲秋」並不是軟弱的行為。

    沒有什麼能比一顆的心更為堅定與強韌的了,歲月流光從她的身體中穿過,無時無刻,她都在感受著生命那難以描摹的逼迫,有時,只能以淚來釋放,有時,只能以筆來捕捉
    我想,把人換成,更能確切描摹我讀這段話的心情...

    Monday, July 28, 2008

    雙顯示卡帶來的意外(收獲)

    前些時候決定把筆電的操作系統換成 Linux, 經過一陣考慮和比較之後,我決定安裝身邊比較容易找到(求救)資源的 Ubuntu,既然決定了就趕緊執行,所以趕緊下載所軟體( Live CD Image),就開始我的 Ubuntu 之旅。

    從轉換環境至今,我對新的工作環境相當滿意,除了讀 Office 2007 格式文件還需費些週章,無法無縫轉移之外,其他的需求都可輕易解決。當然啦,轉移的過程並不是無風無雨,總是會碰到莫名所以的情況需要克服,像前幾天遇到的雙顯示卡的狀況,過程跌宕起伏,就讓我驚出一身冷汗。

    我的筆電是 Sony VAIO ,這款筆電有兩個執行模式:全速模式和省電模式,省電模式會抑制 CPU 執行速率,並且關掉 Nvidia 繪圖晶片,使用主機板上的標準 VGA Chip,本是設計上的美意,卻讓我的 Ubuntu Voyage (Ubuntu 之旅) 遇到一場不算小的麻煩

    那天下午陪家人去逛街,我一個人在購物中心的咖啡廳玩電腦消磨時間,為了省電,我把省電開關切到 STAMNIA 省電模式,重新開機之後,系統回報 VGA 偵測錯誤,然後跑出 800*600 的提示畫面,就掛在那兒了。當時百思不得其解,以為是我把筆電放在桌上的動作太粗魯,把硬碟弄得發神經,苦命的我又要重新灌系統了。但是 WinXP 竟然可以正常開機,證明我的懷疑不正確。

    回家上網查了資料,找到重新設定螢幕的方法,於是信心滿滿的照方抓藥,以為定然藥到病除,但結果卻讓我大吃一驚。修改後,雖然系統可以正常開機,但是系統偵測不到 Nvidia 晶片,所有特效都自動關掉,而且畫面切換的速度很糟,不是雪花就是惱人的閃爍。為了解決問題, 上網下載 Nvidia 最新版驅動程式,結果安裝過程以令人驚訝的錯誤訊息-你的系統沒有 Nvidia 硬體-告終。這時我開始懷疑自己轉台的動作是不是太衝動了。

    努力回憶下午的狀況,思索曾經做過的每一個動作,思考之後,發現唯一和最初安裝系統時的不同就是速率模式的按鍵,猜想可能是這裡發生的問題,於是用 XP 開機,執行硬體檢測程式。硬體報告果然包藏玄機,這時程式回報的 GPU 是 on-board intel chip,這時看到解決問題的曙光了。

    把模式切換回 SPEED 模式,看看重新開機有什麼結果。這回系統再次回報螢幕模式偵測錯誤,又出現當機畫面,顯示我的猜測可能是對的。我猜系統這回抓到 N 牌晶片,發現與 X-Config 裡的標準 VGA 參數不符,所以再次死給我看。但是這回用上剛才查到的招式,卻解決不了問題,反復開機進入文字模式執行 dpkg-reconfigure 的結果,仍是一次次的當機。

    最後用 Recovery 方式開機,系統出現修復選單,執行系統原先就提供的修復 X Server (Fix X-Server) 功能,終於搞定。從發現狀況到解決問題,歷時一小時

    古人說,治學需於不疑處有疑,安裝系統亦如是。後來整理這次狀況的心得,正解如下:
    1. 將筆電上的開關撥到全速模式( Stamina --> SPEED )
    2. 重新開機,從多重開機選單中選擇 Ubuntu Recovery Mode
    3. 開機完畢後,執行 修復X-Server 功能 (這是 Recovery 開機後出現選單的第四項)
    4. 再次重新開機
    5. 進入 X-Window,啟動 Nvidia ( Restricted ) Driver
    6. 啟動桌面特效 (Desktop Effect)
    7. 重新開機
    8. 一切搞定
    執行以上步驟所需時間:十分鐘不到。

    Good bye to Randy Pausch

    雖然不算意外,Randy Pausch 畢竟還是走了。他是一個令人欽佩的智者和勇者,他不僅擁有我們大多數人無法企及的學術成就,但他所擁有的人生智慧,和激勵人心的能力,才是最有價值的瑰寶。

    既然他已經提醒我們,anybody who wants to cry or pity me can down and do a few of those, then you can pity me ,就收拾起傷感,多讀點不談傷感,不談眼淚的好文章吧:


    還有,請再欣賞一次他的演講-Achieving Your Childhood Dreams



    請容我再次重復我在拙文[Video]實現童年的夢想曾經說過的話,這裡的主題不是癌症,不是悲傷,是他和你的童年夢想,和如何實現夢想。記住,如果你(年輕時)常常練習某些事,這些東西會成為你生命中的一部分,that's just because, you know, when you do something you enough and train for it, it just becomes a part of you

    我相信:這是他留給我們最棒的東西。套用一句 Google Research Blog 曾經說過的話:We will miss Randy very much, and remember him fondly

    Saturday, July 26, 2008

    Who am I? ...24601...

    If you happen to know who's this guy in the picture, come in and drop me a line or two. Grin.

    Wednesday, July 23, 2008

    閱讀 Programming Collective Intelligence 有感

    去年(2007)底,在網路上看到不少人推薦 Programming Collective Intelligence 這本書,當時並沒有太放在心上,直到前些日子逛書局的時候,站在書架前認真的讀了兩節,才發現這本書真的很有意思。

    網路上可以找到不少關於本書評價(還有這個例子)的資料,讀者若有興趣,可以先從 Amazon 上的書評開始。個人覺得這本書最有意思的地方,在於把理論現實間的聯繫處理的特別好,有篇書評用 fills the gap 來形容,我覺得非常傳神。

    理解論文和書本上的演算法和數學公式是一回事,將這些演算法轉換成實際可執行的程式則是另一回事;作者在這方面表現出舉重若輕的功力,讓讀者覺得從文章到程式間的距離一點都不遠,沒有知易行難的障礙,就是那麼簡單。雖然本書所用的例子,僅是機器學習(machine learning)領域裡較知名且不艱深的演算法,但是看了作者的現身說法之後,讀者對實作會更有信心,也更有頭緒。

    其次,本書的例子都不是作者虛構的,而是我們在生活中會接觸和使用的真實的網路服務,作者還教讀者如何以業者提供的 API 收集(真的)資料,然後如何將演算法、資料、程式語言結合在一起,建構一個真實而有用的工具 。這本書的價值之一,就是讓讀者體會演算法的用處,原來我們生活中實際使用的熱門服務-AmazonNetflixDel.icio.usLast.FmGoogle News ,就是書本上的知識建構起來的。

    我想,對人工智慧、機器學習、資料挖掘、網路趨勢、程式實作有興趣的人,都不妨看看這本書,你不會失望的。

    最後,the last but not the least

    本書的程式碼,都是用被作者稱為“可執行的虛擬碼(executable pesudocode)”的 Python 撰寫,程式可讀性極高, 閱讀本書還可以順便學習 Python ,也是一大收獲。

    曾經在網路上看到有人對這本書沒有提供原始碼表示遺憾,其實作者 Toby Segaran 在去年底已經在他的個人部落格提供了這本書的原始碼 ,有需要的人請自行下載。

    Tuesday, July 22, 2008

    協同過濾(collaborative filtering)推薦系統的實作

    最近讀了交通大學資管所劉敦仁教授2007年發表在 Expert Systems with Application 的文章[1]⁠ ,他將客戶終生價值(customer lifetime valueCLV)融入協同過濾(collaborative filteringCF)推薦系統框架,以加權後的 RFM RecencyFrequencyMonetary)模型,作為客戶分群的依據

    試著將更多實務界或商管領域的思維,整合至資料挖掘的實作,一直是我在思考的方向,這篇文章的思路對我並不陌生,因此我試著更深入理解他的做法。

    在閱讀的過程裡,我覺得這篇文章在整理過去研究成果(related work)的部分,蠻有意思的,本文整理協同過濾的各種不同做法,以實作時應用的各種基礎演算法(例如:關聯法則、分群)為基礎的分類思路,而不是從商品與顧客的不同觀察視角(item-based .vs. user-based)出發。個人認為,這種切入角度,能夠幫助有意實作推薦系統的讀者,更快的理解推薦系統的組成架構,並且幫助他們更有效率的擬定工作計畫。

    協同過濾的基本精神,在於數大就是美,資料愈多,系統的表現愈佳。協同過濾的實作精要之處,則在於如何從購物人潮中找出與特定顧客品味嗜好相近的同好,或是任意揀選一件商品,如何找出相似的品項。如何找出人與物的相似處,就取決於相似度(similarity)的計算方式了。歷來學者曾在文獻中建議使用的相似度公式,五花八門琳琅滿目,用族繁不及備載來形容一點也不誇張。

    最常被人提及的計算方式包括 Euclidean DistancePearson correlation coefficientJaccard coefficientManhatten distanceCosine correlation coefficient 等等。許多學者在這些基礎上,設計了更複雜的計算方式,比如劉教授建議以商管領域常使用的 RFM RecencyFrequencyMonetary)模型,計算客戶貢獻度(客戶對業者的價值)為基礎的計算方式,他還以此為基礎,建議更複雜的加權式 RFM Weighted RFM)計算公式。簡而言之,更有用的相似度判斷方式,一直是學者努力的重點之一。

    定義相似度之後,最重要的是怎麼應用相似度來建構推薦機制。根據劉教授的整理,有三大類計算方式(當然啦,這只是我個人的理解):

    k-nearest neighborkNN

    這個方法是最直覺,也最容易理解的。指定一個消費者(或者指定商品,道理都是一樣的),利用相似度公式,計算出和這個消費者最相似的 k 個顧客。然後我們分析這些選出來的對象,找出他們購買過,但我們的主人翁還沒有購買的項目,這些就是要推薦給主人翁的商品。實務上,可能在計算上更複雜一點,不過這就是最基本的道理了。如果讀者可以參考 Programming Collective Intelligence O'REILLY 出版)這本書的第二章和第八章,就更能體會這個方法的神髓了。

    Clustering

    這個方法在邏輯上也很單純,先將顧客依照某些條件分群,讓後再針對每一個群組作關聯法則的分析。我們依照關聯法則的分析,對這個群組裡的消費者,產生推薦清單(這個群裡其他人都買了,他還沒有買的商品就是推薦對象)。最簡單直覺的分群演算法,就是 k-mean clustering 了,但別忘了最重要的分群依據,就是前述一再強調的相似度計算方法。

    Hybrid Approach

    寸有所長,尺有所短。每一種方法,都有其優勢和缺點,因此學者嘗試將 content-based (CB) collaborative filtering (CF)結合在一起,這就是所謂的融合解法 (hybrid approach)。將不同的計算方法結合在一起,說來簡單,作起來卻有很多變化。學者 Burke 有篇論文[2] - Hybrid Recommender Systems: Survey and Experiments,整理了做法,一共有 weightedswitchingmixedfeature combinationcasadefeature augmentaion & meta-level 七種之多。依照劉教授的整理看來,他最重視 weighted meta-level 兩種方法。

    (圖表來源:Hybrid Recommender Systems: Survey and Experiments)


    雖然我一直覺得,RFM 是不是能表達愛好與品味,還是個問號?不過本篇論文的整理功夫,的確值得稱道,配合 Programming Collective Intelligence 一起看,將論文裡的數學符號和實作連結起來,收獲特別多。

    參考資料:

    [1] Y. Shih and D. Liu, “Product recommendation approaches: Collaborative filtering via customer lifetime value and customer demands,” Expert Syst. Appl., vol. 35, 2008, pp. 350-360.

    [2] R. Burke, “Hybrid Recommender Systems: Survey and Experiments,” User Modeling and User-Adapted Interaction, vol. 12, Nov. 2002, pp. 331-370.

    做一個更好的馬克杯

    做一個更好的人,可以過上更好的生活,所以「我」要做一個更好的馬克杯!! Image Source: I NEED COFFEE: Life is Coffee Comics #23