Monday, December 31, 2007

2007年的最後10分鐘

這時候人人都在抒情,彷彿在略帶憂傷或者自嘲的情緒裡,這一年就有了一種別樣的意義。(和菜頭說) 。

童心園主這時候談起她的 2007


從小到大寫過無數的年度總結和新年計劃:

新的一年又要來到了,我有什麼新的打算呢?一、二、三、四一番陳述(小學高年級,不用硬憋,能通順寫出200字的階段)

當日歷只剩下最後一張的時候,當新年的鐘聲即將敲響的時候,我的心情無法平靜,回想過去的一年,我的收獲不少……(初中二年級,用小本摘抄名著名言階段)

19XX年又離我們遠去,在這個離高考還有XXX天的日子裡,我有什麼新的計劃呢?(高中,滿腦子試卷,被逐漸訓練成考試機器的階段)

歲月荏苒,光陰似箭,過去的一年是令人難忘的一年,即將到來的一年是充滿希望的一年。(大一,愣愛把「磨嘰」說成「延宕」,把「惦記」說成「覬覦」的階段)

如今,我以高小水平的文筆寫下開頭:

2007年我做了什麼呢,2008年我打算做什麼?

這時候 Daniel Lemire

"I will be a better writer in 2008. I promise!"
  • I will not use negation
  • I will not use useless acronyms...
  • ....

在 2007年的最後10分鐘,我說:

  • I will be a better father.
  • I will be a better husband.
  • I will be a better manager.
  • I will be a better student.
  • I will be a better teacher.
  • I will be a better writer.
  • I will be a better man in 2008. I promise.

How they won the Netflix Progress Prize 2007?

上個月(2007/11/13),Netflix 宣佈今年度的 Netflix 獎金賽 (想了解什麼是 Netflix Prize,請看說明1說明2)年度成就獎,由 AT&T 實驗室三位研究員( Bob Bell, Yehuda Koren, and Chris Volinsky )組成的 BellKor (原本叫 KorBell) 勝出。

在決定成績的10月1日,BellKor 當天的分數是 0.8712,三個月後,12月31日的最後成績是 0.8700,比當初確定得獎時的成績還略有小進,下圖是 Netflix Leaderboard 到現在(台北時間2007年12月31日)為止的排行。

BellKor在團隊首頁,公佈了幾份文件,說明他們所使用的策略,以及分析資料的心得與感想。簡而言之,他們使用 Collaborative Filtering 技術,並且有不少演算法上的改進與創見,這些研究上的成果,有些在今年度的 ICDM 07KDD 07 兩個學術研討會中發表。如果想閱讀這幾份文件,請參閱說明,點選文件超連結下載文件:

依照" Chasing $1,000,000: How We Won The Netflix Progress Prize"和"The BellKor solution to the Netflix Prize"這兩篇文章的說法,他們使用了 nearest neighbor methods 和 latent factors models 技術,以線性方式綜合 107 種預測預算數值,得到最終運算結果。這是以工筆的手法,畫長江萬里圖,功夫精深令人咋舌,我們只能說聲佩服佩服,對這三位學者獻上誠摯的賀忱。

研究推薦系統的學者 Daniel Lemire 看了 BellKor 的文章,在他的部落格中發表了他對於BellKor 參賽策略的理解 - How to win the Netflix $1,000,000 prize?。在文章中,他分析作者群研究資料時得到的觀察結果,以及在開發參賽程式時,實驗過程中得到的心得, Daniel 並以精要文字,說明了這些研究心得:

Here are some principles I take away from their work:

  • Singular Value Decomposition is useful to get overall trends.
  • Nearest-neighbor methods are better at picking up strong interactions inside small sets of related movies.
  • Nearest-neighbor methods should discard uninformative neighbors.
  • If you discard ratings and focus on who rated which movie, you seem to get useful predictors complementing the rating-based predictors.
  • Regularization is important (they use ridge regression) as expected.
今年度的成績已經成定局,但是所有的參賽者距離摘冠( RMSE <= 0.8563)仍然有一段長路要走 (it's a long way off)。其他的參賽者,想必不會束手讓 BellKor 獨走,最精彩的變化可能還沒有出現咧 , you ain't seen anything yet ...

雖然這場競賽的不僅提昇 Netflix 的知名度(當然是指在美國市場),也在學界掀起相當程度的關注(KDD 2007 有 Netflix Workshop 就是明證),但是也有些不同的聲音改進意見,值得我們關注和思考。

提到對於 Netflix Prize 的Tom Slee 今年七月在 The Nerflix Prize: 300 Days Later 表達的觀點,絕對不應被忽略。他在文章裡以將這個競賽的規則解釋得相當清楚(比我看過其他任何文件都清楚明白),然後解釋為什麼均方根誤差(RMSE: root mean square error)不是一個好的評比標準,他還在文章中以圖表說明 10% 的 RMSE 差異,在提供更好消費者服務這件事上是沒有意義的。

年度成就獎金公佈之後,作者(Tom Slee)在今年12月25日,對文章內容作了相當大幅度的增補,不過基本上,他還是認為 Netflix Prize 不能說服他真的達到集合眾人智慧(WISDOM OF CROWDS - 這是推薦系統研究者普遍相信的價值觀,推薦系統的精神是集合大眾的智慧,最終讓商家能找出提供更佳服務的方法)讓服務升級的目標。在文章最後,他的聲明是這麼說的:
I'm no futurist, but I see little evidence from the first 300 days of the Netflix Prize that recommender systems are the magic ingredient that will reveal the wisdom of crowds.
對於競賽辦法,以及競賽本質的質疑,固然值得我們思考。在 Collaborative Filtering 領域的研究方法以及研究成果,也有學者指出值得我們重視的盲點。

曾經是 Amazon 推薦系統開發者的 Greg Linden ,也是一個相當活躍的部落客,他在恭喜今年度得獎者之餘,提出對 overfiting 問題的警告 -
This work is impressive and BellKor deserves kudos for winning the prize, but I have to say that I feel a little queasy reading this paper. It strikes me that this type of ensemble method is difficult to explain, hard to understand why it works, and likely will be subject to overfitting.
有一個場景 ,許多台灣(這個問題應該不是台灣獨有的)的研究生們應該深有體悟,為了要讓學位論文裡的數據好看,熬夜琢磨著如何更改演算法和程式,讓演算法的輸出,在那一千零一組 static data 上,能得到最佳的效果。這107個預測模型的計算,也某種程度反應了這種「精神」,overfitting or overoptimized ,這是個值得思考的問題。

Daniel Lemire 從另外一個切入點,說明為什麼只使用一組靜態資料是不夠的,他認為『推薦系統不會影響使用者想對哪些產品評分,也不會影響評分的結果』的假設是有必要修正的, 因此他提出了一個還沒有被證實的假設 -

people's preferences are often constructed in the process of elicitation

我個人是相信這個假設的,但是要如何證實這件事並不容易,Daniel 自己也說他還不知道如何模擬電子商務網站的用戶行為,如果有人想出怎麼作,請和他聯絡:
If someone out there know how to simulate users (something I do not know how to do), please get in touch! I have no idea how to do sane user modelling and I need help!
雖然這不是件容易的工作,但是 Daniel 的態度坦率磊落,令人大生好感。這個問題還有另外一個意義,我們可以發現網際網路的生態,將漸漸影響研究和出版的操作模式,雖然不是劇烈( radical changes 是不可能的 )的改變,但這種變化,是值得我們放在心上,繼續觀察的。

延伸閱讀:
後記:
今年花了不少時間閱讀推薦系統的資料,以及關注 Netflix 大賽的動態,為了有始有終,我決定在 2007 年的最後一天,把 Netflix Prize 的狀況,作個階段性的總結。明年開始,我仍然會持續關注推薦系統的發展,但不會再聚焦在 Netflix Prize 上,而會把焦點延伸到更一般性的主題上。

New evidence - it should be 1652 ?

先前在查 Coffee House 資料時,花了許多力氣,最終還是在 The First English Coffee House - 1650 or 1652 裡,得到一個模稜兩可,非常滑頭的結論:

雖然不同出處的資料略有出入,綜合以上從網路得到的資料,對照 The Coffee Book 的原文, 我們可以得到一個還算可以接受的結論:大不列顛第一家咖啡屋,在1650年成立於 Oxford;而倫敦(London)第一家咖啡屋的成立時間,是 Oxford 咖啡屋開門的兩年後,西元 1652 年。

不過剛剛收到 Amazon 的推薦購買裡發現這本


在產品資料中,書籍簡介(Book Description)裡,很明確的說 :
When the first coffeehouse opened in London in 1652, customers were bewildered by this strange new drink from Turkey—hot, bitter, and black as soot (好狠的說法). But those who tried coffee were soon won over, and more coffee-houses were opened across London, America, and Europe. For a hundred years the coffeehouse occupied the center of urban life, creating a distinctive social culture. They played a key role in the explosion of political, financial, scientific, and literary change in the 18th century, as people gathered, discussed, and debated issues within their walls。
這應該算 1652 的又一個證據吧...

(這篇剛好符合 Back to blogging, I hope 的三十分鐘原則,哈)

Sunday, December 30, 2007

[詩戀] 一封平信的內容

最近才開始注意到,聯合副刊有個不定期出現的單元,叫做「新詩潮」,或許就像南方朔在「給自己一首詩」的自序裡所寫的,世界上,有很多正在發生的事,我們都不知道。特別是關於詩

讀著讀著,又感覺到年少時抱著鄭愁予詩集入睡的那種滋味,不由得想把那種沁涼與酸澀記起來,所以決定把握住當下,從今日起把有感覺的詩篇記下來,不論古今中外,只要留住那種感覺,是為「詩戀」。

詩人從砂裡張望世界,而我們則從他們的凝鍊裡求取啟發。而最重要的,是讓我們從此以後,都能重新撿回我們曾經有過的,對詩、對人生的愛與喜


(上面這張照片,是央求友人找到舊報紙,用照相手機翻拍的,光線雖然不是頂好,清晰度還是不錯的。不知道為什麼,看到「一封平信的內容」,總想到第一次寫信給異性筆友的場景 - 有了 email 之後,有多久沒有「 你也許開始後悔,剛才將信投入郵筒」的感覺了?)

一封平信的內容/孫維民

我喜歡寫信給你,因為
不喜歡電話。如果可能
我更樂意魚雁往返
雖然的確緩慢和危險──
我喜歡寫信,因為珍惜
悲哀的距離,寧願面對
窗外的植物(它清楚
我晨間的妄想)猶豫
期待著,陰晴不定的黃昏
幾次斟酌的字句終於
冷淡,簡潔。之後攜傘
下樓,繞過違建及垃圾車
讓貼好的水果郵票墜入
郵筒內的夜色
我喜歡寫信給你,因為
不喜歡虛無。天長地久
的夢,有時即是生之奢華──
雖然我也的確樂意發現
門後的信箱中斜倚著
一貫的單薄,人類的筆畫
雖然撕開封口的,複雜的
手續,我也知道珍惜
甚至可能喜歡在字句間
反覆構築你的妄想(它
斑斕似蛇)或者容貌
猜測你的熱情早已加倍
你也許開始後悔,剛才
將信投入郵筒

Thursday, December 27, 2007

哥哥比弟弟大幾歲

出版國中(九年一貫中的七到九年級)學科測驗卷的廠商,針對同一個科目,都會編製不同難度的測驗卷,供老師斟酌情況選擇,通常難度依照 A、B、C 順序遞減。

最近,一位熟識的國中數學老師,對我說了一件最近他遇到的真實案例。某廠商今年度數學科七年級 (國一)C 卷,有一題是這樣的:
有兄弟兩人,哥哥比弟弟大七歲,請問 x 年後,哥哥比弟弟大幾歲?
在他教的班級裡面,每個班級答錯這題的人數,恰好都是 15 人(這些人的答案絕無例外,都是 x+7)。在檢討題目的時候,這些同學都對自己做錯這題深表後悔,異口同聲地說:「老師,我們被這個題目的陷阱騙了」。

(背景說明:這位老師任教的地區,國中班級人數在 35-39 人之間)

根據最近公佈的 PISAPIRLS 測驗數據,台灣學生在「閱讀」方面的表現很不理想,有沒有人和我想到一樣的事情....


延伸閱讀:
香港在 PISA 和 PIRLS 兩個測驗的表現都很出色,尤其是閱讀成績,遠遠超過台灣,是很好的參照對象。

圖解次級房貸(Subprime)

最近這半年來,國際財經新聞最熱門的題材,莫過於次級房貸(Subprime Lending)了,不僅美國的經濟受到重大影響,不同經濟體系的國家,也感受到「美國傷風,小弟打噴嚏」的莫名壓力。

在這樣的大環境下,各式媒體當然努力的以「事後諸葛亮」之姿分析美國今日窘境的成因,當然也少不了找多方意見領袖,「深入」探討次級房貸對其他經濟體系殺傷力的意見。

但是看了各媒體不知所云的解釋,和眾多政治、財經界檯面人物的嘴砲之後,原本不明白這是怎麼回事的還是不會懂;除非原本就是財經領域的從業人員或者所學與此相關,否則想弄明白次級房貸的來龍去脈和對我們的影響,實在是難度很高。

不甘作個半文盲,所以先使用維基百科,找到 subprime lending 的定義,然後再
透過 ReseachRecap ,找到 BCC 在今年11月刊出的 "The US sub-prime crisis in graphics" ,結合這兩份資料,對於次級房貸,終於有比較清楚合理的認識。尤其是 BCC 的文章以精緻的圖形解說次級房貸與傳統貸款在運作方式上的差異,並且以各種圖表說明次貸風暴對於美國經濟在各方面的影響,包括:
  • the new model of mortgage lending and how it went wrong
  • the rise of the mortgage bond market
  • how subprime lending affected one city (Cleveland)
  • the housing price crash and its impact on construction and the economy
  • the credit crunch, bank losses and the bond market collapse


看過 BBC 的文章,我只能用「傾倒」二字形容我對於 BBC 的觀感,無論是資料爬梳整理的紮實,還是呈現方式的精緻度,都令人動容。今年八月,我曾經為文介紹 BCC Most Popular Now ,這個月又傳出,他們正在開發測試 Netvibes-like 的個人化新聞網頁。BCC 在擁抱網路科技上的積極大膽,以及高水準的資料品質,的確有「國際」媒體的風範。

次級房貸延伸閱讀:

除了以上兩篇英文資料之外,有幾篇中、英文資料不妨參考:

關於 kwout

拉裡拉雜寫這麼多,其實只是為了測試 kwout 的截圖功能(grin),想了解 kwout 的話,看看 GOWEB20 的介紹,或者直接到 kwout 網站看他們的說明。

Tuesday, December 25, 2007

The real value of a scientists's wage

剛看到一位大陸的博客(閱微堂),抱怨中國地區的博士薪水全世界最低,他用相當激烈的標題「中國科技工作者全世界最賤」表達這種現象,情緒不言可喻。

文章裡說 歐盟執行委員會(European Commission) 在調查分佈在38個國家(地區)的科學工作者們,在2006年的薪水待遇,在圖表最下一欄的是「中國」。考慮地區物價水準,修正後的結果,最後一名仍然是中國。

下載原始文件需要付費,所以只能附上閱微堂在文章裡使用的圖片作為證據囉!聰明的你,當然和閱微堂的讀者一樣,馬上要問,灰色收入到哪裡去了?

除了灰色收入,我還想問,台灣是否在調查範圍裡?

Sunday, December 16, 2007

年終檢討: Data mining doesn't cure stupidity

Chris Anderson 在「長尾(The Long Tail)」這本書的導論裡,開宗明義直指長安地說- the tracking of top-seller lists is a national obsession,又說 hits have become the lens through which we observe our own culture

這幾句話,確實把今日消費導向的大眾文化詮釋的相當精準,不論眾人對於長尾的評價與(再)詮釋如何,追求 List and Ranking 確實是我們所處社會的普遍現象。尤其到了年底,出自各個產業、各式媒體,花樣繁雜的各式排行、檢討紛紛出爐,完全是眼花撩亂,目不暇接。當資料氾濫,多到令人眼疼,不禁讓人懷疑,連年終檢討這件事,也有 blockbuster 和「小尾巴」之分。

所幸 Gary Price 領軍的 Resource Shelf 將各媒體做的年終檢討,統統打包在一篇 Year End Wrap-Ups 裡,讓追求趨勢的讀者可以做到 (當然是 nearly 啦)one stop shopping 。

這個名單裡有時代雜誌(Time Magazine)評比的各項「最佳十大」,還有告示牌(Billboard)的各種音樂排行榜,也有尼爾森(Nielson)對 2007 年各項趨勢做的年終報告,當然也少不了 Google 的 2007 搜尋趨勢,名單不短,有興趣的人不妨到 Resource Shelf 自己感受一下。

看了大環境的趨勢動態,接著看看轟轟烈烈的江湖風雲中,各自領一方風騷的言論領袖們的真知灼言。另外一個有名的新聞聚合網站 Mashable 整理了今年科技界的最佳發言(Best Technology Quote of 2007),說明詳盡有趣,比起 ResouceShelf 乾巴巴的條列式清單,可讀性高很多。

Mashable 眾編輯,認為今年度最精彩的發言,是 Steve Ballmer (微軟的 CEO)對於社群網路( social network) 的評論,在公開批評 social network 無非是青少年中的短暫流行(fad)後不到一個月,微軟投資 Facebook 兩億四千萬美金。

看完意見領袖們的發言,百花齊放的 Blogshpere 更該給予更多的關注,但是最佳文章的遴選,實在是不可能的任務。全球七千萬個部落格,一年中產出的文章數量實在太多,沒有人能夠盡讀,不管個人 Google Reader 裡的分享項目再多,也沒法子把 2007 年的 Blogosphere 的多采多姿描繪於萬一。

愚者千慮,個人認為,今年度最有意義文章,首選應是 Data Strategy Data Mining doesn't cure stupidity,這篇文章不長,第一段就簡要地闡明腦筋清楚比技術更重要的真諦:
Data mining, when done correctly, can improve understanding and provide insight, but data mining just doesn’t work under stupid assumptions. Check out the following paragraph in a Wall Street Journal blog. Apparently some FBI agents assume hummus sales to be predictive of terrorist activity.
這段文字裡的 Data mining 換成任何名詞,都說得通,不管排行榜再多,檢討再繁,腦袋清楚才是最重要的。時值歲末,展望來年,這才是最要緊的心得,切記,切記。

「人民」是個偽概念

有個朋友看了我的網路書櫃,問我選擇書籍的標準。我想了想,除了賴以維生(混口飯吃)的專業書籍之外,無非就是圍繞著「懷舊」和「好奇」兩個主題吧。

這兩個主題,既矛盾又協調,主宰了我的前半生,想來下半輩子仍會繼續與這兩個主題糾纏下去。

追探父祖輩成長時所發生的一切,和從啟蒙至今這個世界所發生的一切(從不識之無到青春期,所見所感畢竟只在五里方圓),是我這幾年特別著意的主題。當我在圖書館發現兩本分別談兩岸的八十年代的書,趕緊把這兩本「」回自家書房。

同時看查建英八十年代訪談錄和時報出版的狂飆八○,是個有趣的經驗,看同個種族的人們在兩個不同的社會條件下,追求更多的心靈釋放與更多「可能性」的過程,是很震撼也很「享受」的閱讀經驗(驚豔)。一邊是自小生於斯、學於斯的環境,但是從來就不覺得自己很瞭解這個社會;另外一邊則是自小充滿好奇,及長卻必須擔憂後半輩子的飯碗要被這邊碾碎,心驚的是,我對這一邊瞭解則更少了。

當我在八十年代訪談錄看到阿城(就是說「什麼事情一到專業地步,花樣就來了」的那個阿城)接受受查建英訪問講的一段話,我不禁笑了(捻花微笑的境界太高,下面這段話的詮釋權留給讀者吧)。
我記得陳映真問我作為一個知識份子,怎麼看人民,也就是工人農民?這正是我在七十年代在鄉下想過的問題,所以隨口就說,我就是人民,我就是農民啊。 .... (省略)..... 寫作的人,將自己菁英化,無可無不可,但人民是什麼呢?在我看來,人民就是所有的人啊,等於沒說啊。不過在菁英看來,也許人民應該是除自己之外的所有人吧,所以才有「你怎麼看人民」的問題

所有的人,都是暫時處在有權或沒權的位置,隨時會變化。一個小科員,在單位裡沒權,可是回到家裡有父權,可以決定或干涉一下兒女的命運。你今天看這個人可憐,屬於弱勢群體,可是你給他點權力試試,他馬上也會有模有樣地刁難欺負別人。這是人性,也是動物性,從靈長類的社會性動物就是這樣。「人民」是一個偽「概念」,所以在它前面加上任何美好的修飾,都顯出矯情

Saturday, December 8, 2007

電腦的重量

這幾年,網路上流傳關於某個電視購物頻道推銷的笑話,第一句就是『我們的筆記型電腦40G的硬碟,裝了30G的東西,重量一點都不會變喔...』,在 LOL ( Laugh Out Loud ) 之前,諸君可要搞清楚,購物台可是做過功課的,請看:

Business @ The Speed of Thought
The great thing about a computer notebook is that no matter how much you stuff into it, it doesn't get bigger or heavier.

Bill Gates, Business @ The Speed of Thought

Wednesday, December 5, 2007

從 Google Reader 的訂閱推薦談起

時值歲末,Google 旗下的服務異動很多,好像急著在年底前倒出一籮筐「好東西」,作為給用戶的 Christmas (新年)禮物。 GMail 啟用第二版介面才沒兩天,就又增加 Group Chat 、彩色標籤和 AIM 的整合。和郵件服務有點「兄弟臉」的 Google Reader 也沒閒著,先是提供拖拉(drag-and-drop)方式管理訂閱清單的功能,這兩天
宣布開始提供推薦閱讀 (Feed Recommendation)功能。

在部落格圈子(Blogospphere)裡,對於訂閱推薦的反應很是熱鬧,新聞型的網站是報導加轉載,一天要看上很多次報導;評論型的博客們,則各自發表了試用的心得,從經營模式的針貶到推薦精準度的抱怨,遍地開花,倒也有趣。

因為前陣子「閉關」的緣故,刻意讓自己少念些來自網路上的資訊,所以向來關注「推薦機制」議題的我,這回原本並不怎麼關心這個話題的。但是在試了幾個推薦訂閱之後,一些有趣的巧合,讓我對這個議題產生一些想法,開始留意起更多有關資料。

關於推薦訂閱這件事,我的觀察分為兩個角度,第一是 (Online)RSS Reader 的競爭環境,和不同經營模式對於市場佔有率的影響;第二個則是從推薦機制的技術角度來看,與過去所念的文獻相印證。

Google Reader 進入線上 RSS 閱讀市場之後,憑著高明的技術,很快搶下一片天空,
原本市場中的活躍份子,如今只剩 Bloglines 的市佔率還算「可觀」,其餘的競爭者已經被擠壓到一軍陣容之外了。倒是大陸地區因為大環境的關係,本地市場出現了像「抓蝦」、「鮮果」這樣令人驚豔的狠角色,令人期待。

在這樣的大環境下,不少 RSS 閱讀器廠商,都以開發更多社群網路的可能性作為強化競爭優勢的手段。就以促進推薦訂閱這件事來作比較,鮮果鮮果榜BloglinesBloglines Top 100 ,就是這種思維的產物;而 Google 在面對這個挑戰時,採取的態度與 Google News 相若,強調以「資料+演算法」的機制,產生推薦名單。

Google News 的開發團隊,在今年五月舉辦的 WWW 2007 會議中,發表了 Google News 推薦新聞機制演算法的論文 ─ Google news personalization: scalable online collaborative filtering。換言之,Google News 不再滿足於2001年時設定的新聞聚合(automated news aggregater)服務的目標,也加入更多的機制,期望提高這個服務的使用率。

Google Reader 也加入推薦閱讀功能,恰如 Attention Economy: All You Need To Know 所闡述的 ,choicerelevancy 是留住用戶的手、眼和心的不二法門。



雖然有人(原本不是很認真看這個話題,當時沒有作書籤,現在一時找不到出處,等找到再補上)抱怨 Google Reader 的推薦名單,精確度和推薦數目都不理想,認為 Google 作得太草率。以我個人的經驗來看,推薦品質雖然不算完美,倒也沒有太糟糕,也許Google Reader 團隊所使用的演算法還沒有成熟。但我想強調的重點是, Google 「讓資料說話」和「閱讀器功能優先」的信念,和其他業者以社群機制作為留客關鍵手段的想法是有很大不同的

另外一件值得重視的事情是源自巧合,我從 Google Reader 的推薦名單裡找到兩個我很喜歡的部落格 - SyntheseDaniel Lemire's Blog 。這兩個部落格的作者都是資訊科學界中人,書寫的題材恰好也是我關注的議題,所以我非常滿意這兩個推薦項目,其他的推薦項目,雖然不見得合我口味,但在這兩個極度滿意的「掩護」下,讓我沒有太多抱怨(grin)。

讓事情變得更有趣的是,這兩個部落格最近的兩篇文章,都和近日手中的工作或者接下來的工作有關,這樣的巧合,是所有的推薦機制都作不出來的。

Daniel 剛剛寫了搜尋引擎 Quintura 的介紹,這個被 AltSearchEngine 稱為 the alternative search engine of the year 的搜尋界新秀,正是我打算分析、介紹的關注對象之一,原本想年底忙完現在手上的專案,再找些相關資料來消化的。面對這個巧合,頓時有點「眼前有景道不得,崔顥題詩在上頭」的感慨。這是巧合之一。

Synthese 則提到 IngentaConnect (一個提供學術出版品和圖書館服務的廠商)宣布將和 Baynote (提供推薦系統技術的廠商)合作,以 Collaborative Filetering(關於 CF 的介紹,請參考拙作)技術為基礎的建立推薦機制,向閱讀學術期刊的讀者們提供期刊文章的推薦服務。以下是新聞稿部分內容,概略的介紹了這個服務的運作原理 (how it works)。
… context and behaviour are combined to determine the user’s intent, which is then analysed for relevance to that of the site’s other users; patterns that emerge from this analysis are used to recommend additional content which is more likely to be of interest and relevance to the user than regular, contextual recommendations. Sophisticated behavioural analysis monitors not simply clicks and page views, but also the length of time that a user spends on the page and the type of activities that they carry out there.
Synthesis 的作者對於這個合作是有疑慮的,他認為 IngentaConnect 的介紹太籠統含糊,而 Baynote 的產品介紹,則是 too simple to be true。果然是深諳推薦系統箇中三昧的圈內人,只是有些書生氣(我喜歡),對於行銷宣傳目的的新聞稿,也可以有那麼多牢騷,還指出某些推薦系統成敗的要素,果然是讀書人啊。

不論 Baynote 到底是會不會抓老鼠的貓,但是從 Google News 、Google Reader 到 IngentaConnect ,推薦機制不約而同變成各項服務(service offerings)內容的核心機制之一,證明了幾件事:

  • 首先,在競爭激烈的線上世界,內容的 choice 和 relevancy 是抓住客戶的關鍵指標,而推薦機制(recommendations)正是這促進這兩個指標的具體實踐。但是目標雖同,不同的決策者,執行的策略未必相同(本文第一項的分析正說明這個事實)
  • 其次,推薦技術的成熟度,有很大的進展,所以越來越多的業者,可以將推薦機制加入產品中
  • 推薦系統處理的資料品項,越來越豐富,從以零售(retail business)產業的產品(比如說書、CD、DVD),如今內容(content)產業的產品,也將變進入推薦機制的主流
  • 產品資料的複雜度,與日俱增,下一代的推薦系統,必須提升對產品特性資料的掌握度,比如 Google News 的產品─新聞,具有高度的時間相關性,每則新聞的生命週期,可能短到以天為單位,這與傳統 e-business 販售產品的特性有很大差異。另外一個例子,Netflix Prize 的參賽者,曾經有過是否可以援用 IMDB 資料庫內容的爭議。由此可見,產品特性掌握越到位,才有機會建立一個完整的推薦系統。

Back to blogging, I hope

因為種種原因小聲地問:一定要有合理解釋嗎?),很長一段沒有寫東西,這個星期才又試著開始動筆,但是總覺得找不到原先那種感覺,不管是思路還是文字,都有點彆扭,就是覺得不對勁。

也許就像先前所說的,雖然現在正朝著新的平衡穩定的狀態過渡,但是還沒找到那個讓我舒服的「點」吧。

今天整理 RSS Reader 裡的舊文,發現一篇很有趣的文章,參照此刻心境,實在是忍不想大笑,心中激盪,就像古人說「當浮一大白」或是「撫掌再嘆」差可比擬。
I have about a 1000 posts queued up in my brain, but these things take forever to write, and now that I'm working again, I don't have forever to waste. So, in the spirit of "Good enough" is the enemy of "At all", I'm going to start blogging again, but with an absolute limit of 30 minutes per post. If after 30 minutes I'm not happy with what I've written, I'll delete the post and move on for the day.
上面這段文字,出自 Paul BuchheitGMail 的主要開發者)個人部落格,這段文字就像我此時面對 blogging 這件事的心情,大約這就是「人同此心,心同此理」的道理,這種心情是跨越地理疆界,聖賢智愚之別的。

只是以我的才情,腦子裡恐怕找不出上千個點子(雖然不多,打個折還是勉強可以湊出幾個題目的) ;以我的工作速度,也不敢自矜以 30 分鐘為界的嚴苛自我要求。 sigh。

Tuesday, December 4, 2007

[Copy-and-Pasteable Citation] in CiteULike

自從開始用 CiteULike 整理論文資料後,對於各項功能都很滿意,尤其是 tag-based 的歸檔整理方式和允許公開分享資料的社群功能(雖然它的社群功能是很基本的),是我最中意 CiteULike 的兩個特色(當然它還有其他特色,只是我最重這兩點)。

但是我一直苦惱於 CiteULike 在寫文章時的引用管理功能的薄弱,想到寫文章時要以純手工方式編寫參考資料的吃力繁雜,格式與排序要一絲不苟,內文引用書目編號要細心校對,不能錯漏失誤,有不一致的情形。文章內容若有修改,這樣的手工作業,又要來上一回,每每想到,就不寒而慄。

以前在使用 Refworks 時,便對以勾選方式編製清單的便利趕到稱奇,Refworks 還提供排序、(不同期刊)格式轉換、Office 程式 Plugin ,與此相較,CiteULike 這方面實在是差得太遠。每次想到這一點,總猶豫著是否要放棄使用 CiteULike ,換一個工具,索性換回 Refworks 算了。

今天在檢視論文資料時,才發現 CiteULike 的 Citation 功能,沒有原先自己想的那麼不堪,真正該責備的,是我這個不用心的使用者才對。

在點選每則書目的詳細資料之後,在資料編修畫面,有個標題為 Copy-and-Pasteable Citation 虛線方框, 在方框的裡的右側,有個下拉式選單,以滑鼠選擇引用格式(Citation Format)後,方框裡出現這則書目的相應引用內容,使用者可以用剪貼(copy and paste)方式,將這段文字貼入文書處理程式裡,作進一步編輯處理的動作。



雖然這個方式只能處理單筆資料,不能作整批資料的排序,比起 Refworks 所提供的 Write-n-Cite 的便利,更是差了一大截。但是比起我原先我想像的「零分」的程度,倒是好上許多。

也許再等上一段時間, CiteULike 會帶給我更多的驚喜也不一定。

Monday, December 3, 2007

不推薦的名單

很長一段時間沒有寫新的東西了,原本擺在草稿文字匣裡的東西,現在無論怎麼努力,都沒法找回原先動筆前的想法和脈絡(或許該說找不到原先的衝動吧),只能繼續擱著,很鴕鳥的告訴自己,總有一天,我會把它們完成。

作息上的改變,有時候並不是完全自願的,但是往另外一個平衡過渡的過程(見 I'm not in any mood to...),比原先想的要長,工作負荷的加重和作息時間的變動,並不怎麼難克服,真正難以克服的是性格裡難以克服的惰性(慣性)。

當新的工作方式與作息漸漸有了固定的模式,掌握了工作的要點和訣竅,開始有從容的感覺,這時想要恢復原先每天動手寫札記的習慣(慣性),個性裡的疏懶因子,卻讓漸漸習於「新」秩序的自己,怎麼也懶得再次往另外一個「新的秩序」移動。

記得高中物理曾經學過「靜者橫靜動者恆動」的說法,或許這是最近一個月來沒法子完成一篇東西的原因(正確的說法應該是藉口)。

讀書寫字不用功是自己的業,沒什麼好推託。倒是這陣子,沒能即時回覆來信與我討論推薦系統的朋友,實在是該打,在此向被我怠慢的朋友鄭重道歉(James , 對不起)。

原本想對推薦系統的未來研究方向作個階段性的總結整理,看來這陣子是不可能完成了,也許(真的很鴕鳥),再過一陣子,我會重新耙梳整理,完成這個想法。

其實,我倒是沒有停止關注網路產業的動向,尤其 recommendation 和 attention economy 的想法掛勾結合之後, 推薦系統的未來更足玩味。

這裡有個小例子,11月上旬, beyond.Search 介紹了一個很有趣的網站 LibraryThing ,這個網站的經營模式和 anobii 類似,提供網路書櫃功能,讓用戶建立自己的書籍收藏資料,同時開放用戶建立社群,交流心得或是交換書籍。

但是 LibraryThing 提供的書籍推薦功能,令人印象深刻,除了目前已經非常普遍的喜好書籍推薦之外,還有「不推薦」 ─ UnSuggester :Bad Suggestion 的功能。只要輸入一本你擁有或是讀過的書籍,LibraryThing 就會產生一份不建議的閱讀清單。從技術上的角度來看,這是 scoring method 的應用變化而已,但是噱頭十足,很有意思。

beyond.Search寫的 个性化站点:LibraryThing.com 提供了這個站點的背景介紹,文章很值得一看,而 LibraryThing 自己對於 UnSuggester 的說明,則是這樣的:
Unsuggester takes "people who like this also like that" and turns it on its head. It analyzes the twenty million books LibraryThing members have recorded as owned or read, and comes back with books least likely to share a library with the book you suggest. The unsuggestions come from LibraryThing data, not from Amazon. LibraryThing also produces great suggestions.
想見識 Bad Suggestion 的真面目,未必要註冊,可以直接看看 the da vinci codethe long tail 這兩本書的例子。

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...