Posts

Showing posts from 2008

Netflix Progress Prize for 2008 宣布了

Netflix Prize 官方網站在12月10日宣布,今年(2008)的年度成就獎頒給 BellKor in BigChaos.

It is our great honor to announce the winner of the Netflix Progress Prize for 2008 as team BellKor in BigChaos for their verified just-in-time submission on Sept 30 at 21:17:40 UTC achieving a 9.44% improvement over Cinematch. We congratulate the team of Yehuda Koren, Robert Bell and Chris Volinsky of AT&T Research Labs combined with Andreas Töscher and Michael Jahrer of Commendo Research for their superb work integrating many significant techniques to achieve this result.

In accord with the Rules the team has prepared a system description consisting of two papers, which we both make public below. We will be awarding the Prize in a presentation at the Netflix offices in Los Gatos on December 17, 2008 at 4pm. Andreas Töscher and Michael Jahrer will present a public talk at that time about their Prize algorithm. We will post a video of that presentation via the Forum.
BellKor 團隊在網站上提供該團隊所發表與本次競賽有關的論文,供有興趣的讀者下載參考:


The …

Reading List: Diversity in Recommenders

Daniel Lemire 在上個月整理他認為與推薦系統的多元推薦輸出(diversity of recommendation lists)有關的文獻,有些讀者在留言裡也提出他們的建議。初步過濾之後,我把自己感興趣的文章,用 CiteULikeRefworks 的輸出功能,製作IEEE 格式書目如後,作為備忘查考之用:

[1] C. Clarke, M. Kolla, G. Cormack, O. Vechtomova, A. Ashkan, S. Büttcher and I. Mackinnon, "Novelty and diversity in information retrieval evaluation," in SIGIR '08: Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2008, pp. 659-666. [2] D. Fleder and K. Hosanagar, "Blockbuster Culture's Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity," SSRN eLibrary, 2008. [3] D. Fleder and K. Hosanagar, "Recommender systems and their impact on sales diversity," in EC '07: Proceedings of the 8th ACM Conference on Electronic Commerce, 2007, pp. 192-199. [4] L. Iaquinta, M. de Gemmis, P. Lops, G. Semeraro, M. Filannino and P. Molino, "Introducing Serendipity in a Content-Based Recommender System,&quo…

[Updated] 使用決策樹作股票預測

Data Mining Research 最近發表了一系列使用決策樹作股票預測的文章,目前(2008/11/12)已經發表到第五篇《風險評估》,我會依照發表進度更新本文。除了本系列專文之外,Data Mining Research 還發表不少與資料挖掘研究趨勢以及技術探討的文章,讀者有興可到這個部落格挖挖舊文章說不定會有些意外收獲哦。

Stock Prediction using Decision TreeDecision Tree for Stock Prediction: Stock FilteringDecision Tree for Stock Prediction: Data PreprocessingStock Prediction using Decision Tree: Classification Tree (2008/10/27)Artificial Intelligence Applied to Stock Picking (2008/11/06)
Stock Prediction using Decision Tree: Risk Management (2008/11/10)Readability of Decision Trees (2008/11/26)Stock Picking Using Data Mining: Parameter Tuning (2008/12/13)

(First Published on 2008/10/14 : Last Updated on 2008/12/13)

[書摘]:『帝國』的佳釀

Image
我從不知道喬治亞生產白蘭地,不過卡普欽斯基(Ryszard Kapuscinski)的帝國:俄羅斯五十年告訴我們一件顛撲不破的真理:釀酒,如同每項藝術一樣,你必須有品味,其餘的則會隨之而來。


I. 初遇 - 南方 一九六七 - 喬治亞
並非每個人都知道白蘭地之怎麼來的,想要製作白蘭地,你需要四樣東西:葡萄酒、陽光、橡樹和時間;如同每項藝術一樣,在這些之外,你還必須有品味,其餘的則會隨之而來。

秋天葡萄收成期後,就開始製造葡萄酒,把酒倒進橡木的桶子裡,白蘭地所有的秘密都藏在橡樹的年輪當中。橡樹成長,把陽光收集到自己樹幹裡頭,就像琥珀沉澱在海底一樣。陽光慢慢沉澱進橡樹年輪,這段漫長的過程,持續好幾十年。年輕橡木製造出來的桶子是生產不出好得白蘭地。當橡樹成長,樹幹轉為銀色,表示橡樹逐漸壯大;木質收集了力量、顏色和芳香。不是每棵橡樹都會養出好的白蘭地,最棒的白蘭地是由長在乾燥的土地、寧靜的地方的單生橡樹林所養成的。.......

然後桶匠開始製作桶子,....................

朝桶子裡倒進葡萄酒,或五百、或一千公升不定,然後把桶子擺在木馬架上,順其自然。人不需要再多做什麼:必須等待,時機正確,水到就會渠成。酒現在進入了橡木,然後木頭釋放出一切,釋放出陽光;釋放出香味;釋放出顏色,木頭擠出它本身的汁液;開始運作。

所以需要寧靜。

.... 第一杯白蘭地在三年後出現,.........。..................................。但事實上,白蘭地的年齡還要更了不起一點,我們得把製成木桶的橡樹年齡也加上去,這次的橡木是在為法國大革命期間封存的酒努力

一個人可以從味道分辨出白蘭地是年輕或年老的,年輕的白蘭地尖銳、快速、衝動,味道會酸;反過來說,老成的親切,溫柔,稍後才開始發光。老白蘭地中又許多溫暖、學多陽光,會平靜的進入一個人的腦袋,好不誇張。

而且會盡它應盡之道。

[書摘]:蘇煒談疏離

Image
蘇煒參與了一次傳統的耶魯布魯克學院的 dinner talk 後,有感而發:


「有閒」的「遠」與「有為」的「近」

-- 現代生活裡談「疏離」久矣。人們感嘆科技信息時代的人際疏離、人情淡薄、世風日下,簡直已快成一種「政治正確」式的老生常談,似乎談是一種姿態,不談亦是一種姿態。竊以為在意識形態面放言「批判」的許多高蹈的姿態-比方有滋有味享受著「中產階級」的現世功利而聲淚俱下批判「中產階級生活方式」之類-也僅是姿態而已,其實是「有閒」的味道很多而「有為」的質感很少的。

雖然談疏離似乎是一種流行,蘇煒並不悲觀....

所謂「中產階級」的「有閒」並不可怕,「有為」才是其中最重要、具備正面建構價值的東西;當今信息、科技時代(你叫後工業、後資本時代也行)造成的社會疏離與人際隔膜是事實,但在一種大的建制中,再人文教育「有為」的掌控安排之中,有意加強人與人之間的個人接觸,創造一種良性的社會氛圍,建構一個「主流社會」或所謂「中產階級生活形態」的正米特質,就不但是具體的,也是可行的。如果「立場」也即「姿態」的話,....

[書摘]:『帝國』的偉大昨日

Image
閱讀卡普欽斯基(Ryszard Kapuscinski)的帝國:俄羅斯五十年,總是一頁又一頁的欲罷不能,沒翻過一頁,益發覺得這本書的獨特與全面,她不僅是一個記者、作家的見證,也是一本談哲學和歷史的作品:


I. 初遇 - 南方 一九六七 - 亞塞拜然

「不好意思,我講起話來,可能會帶點民族主義。」這個好鬥的亞塞拜然女孩很有趣,一方面知道民族主義是個禁忌之果,另一方面又無法抵抗這樣的誘惑。我們站在一幅中亞的立體模型地圖上,她要跟我介紹亞塞拜然曾經多麼偉大(這就是她所謂的有點民族主義)。我告訴她,今天她想要呈現給我看偉大昨日的渴望,算是世界共通的衝動。一個人不管到了那裡,發現在每個國家的人民都會誇耀自己的祖先曾經遠征至哪裡,人民似乎需要這種體認,說不定還會隨著時間越來越強。我告訴她,這其中必定有種代償的法則在運作,世界原本寬敞,但如果有個國家突然覺得它想要擴張,這一擴張可能就沒完沒了了。想想羅馬令人印象深刻的擴張,看看蒙古人把自己擴充到何其壯觀,土耳其如何擴張。此外,對於西班牙人的自我擴充,有人會不為之贊嘆嗎?甚至是威尼斯,明明是那麼小,終究在擴張上大為成功。

在邊界擴充以日益縮減為法則的今日,擴張是困難又危險的,所以各國必須改用一種深度感來滿足對幅度的天性,意思是深入歷史去證明他們的力量和意義,那是所有小國找到一種能令自己心平氣和的處境,他們自然會珍惜。幸運的是,若是仔細閱讀人類歷史,我們會發現每個國家,在這個或那個時代,總會出現一個膨脹或擴充的時期,至少是一股愛國的衝動,讓人明確相對的,在今日其他人類之間,仍得以保有一種特定的靈魂平衡。

所以我和這我明德亞塞拜然女孩站在亞洲地圖之上,往下看著亞塞拜然一度如何偉大,從高加索山到德黑蘭,從裡海到土耳其,.................

(翻過一頁....)

..............

由於一邊受土耳其,另一邊受波斯壓迫,亞塞拜然根本沒有辦法確保它的自治,公國的確存在過,但是它們的意義多僅止於地方。好幾世紀以來,亞塞拜然都只是波斯的一省,........

升級 Ubuntu 8.10 之後

兩個禮拜前,鄙人公開了升級之前作的功課,經過一夜的折騰,終於完成升級,再經過三天的美化與微調,結果如下:



--

[書摘]:『帝國』的邊界

Image
第一次閱讀卡普欽斯基(Ryszard Kapuscinski)的帝國:俄羅斯五十年,是個奇特的經驗,他的筆下,初遇西伯利亞鐵路的經歷不僅是一段報導、一篇遊記、一章文學作品,也是一次伐筋洗髓的檢討與思辯,看得我冷汗直流卻又欲罷不能。


I. 初遇 - 西伯利亞鐵路

邊界這事連結者多少的受害者,流了多少血,受了多少苦!時尚未防禦邊界而被殺害者的墓園永無止盡;一樣無窮無盡的,是那些厚顏拓展他們邊界之徒的墓園。如果說我們行過這個星球,並在光榮大地上失去生命的人,有半數是在起源於邊界問題的戰鬥中輸給了鬼魂,應該是個保險的假設。

這種對邊界議題的感受,這種毫不諱言想把它們弄清楚、擴大它們、或者防衛它們的狂熱,不只是人的個性,也是地上、水裡和空中所有會動的東西活生生的天性,各式各樣的猛獸為了確保新的狩獵大地,一樣會把牠們的對手撕咬到死,就連安靜而溫馴的家貓,看牠是多麼努力、多麼的折磨自己,只為了壓榨出幾滴尿液來,以便在這裡或那裡標示出牠的領域來。

而我們的腦袋呢?用密碼來說,終究也是無止盡多樣化的邊界,在左右大腦間、在額葉與顱葉間,在胼胝體和小腦間,以及腦室、腦膜和腦廻的界線?腰部和脊椎神經之間的界線?

注意我們思考的方式,比如說我們會想:那是界線:超過了不行,或者我們會說:小心不要走太遠,因為你會超過標誌!尤有甚者,所有想法和感覺、告誡和禁令的界線都在不斷的變換當中,彼此的交織、滲透與堆積,在我們腦內有不斷的邊界活動,經過邊界、接近邊界、越過邊界,於是我們會頭痛與偏頭痛,於是腦袋渾沌;但也會製造出珠玉:啟發的視野、驚豔和靈光乍現、以及不幸是比較罕見的天縱英才。

邊界始終是種壓力,甚至是種恐懼,較為罕見的深遠意味則是解放,邊界的概念可能還包括一種終結:門在我們身後永遠的關上:那就是生死間隔。眾神知道這種焦慮,所以祂們才會藉著承諾人類可以進入聖境的回報來贏得他們的信奉,在那裡將沒有任何界線,基督教上帝的樂園,耶和華和阿拉的樂園,全部沒有界線,佛教徒都知道涅槃是一個沒有界線的幸福狀態。簡而言之,每個人最渴望、等待及期盼的,正式毫無條件、全然、絕對地無窮無盡。

[Updated (Again) ] Blogging 的過去、現在與未來

Image
[NOTE:本文的貧乏內容實在撐不起《Blogging 的過去、現在與未來》這麼偉大的題目,若要稍微有點名副其實的樣子,要做的功課還很多咧。無論如何,我會持續更新延伸閱讀的內容,... stay tuned...]

去年(2007)四月 TechnoratiState of Live Web 報告說,Technorati 索引的部落格數目超過七千萬,從2002年至今(2008),Technorati 資料庫中的的部落格已經達到一億三千多萬(133 millions)個了。今年稍早他們發表的 State of the Blogsphere/2008 進一步揭露的數字顯示,每 24小時全球會產生900,000 篇文章(全球二字是有疑議的、或者可以說 debatable ,不過這不是本文關注的重點)。

這樣的數目不可謂不驚人,代表 blogging 這種傳播模式至今已在網際網路世界佔有舉足輕重的地位,但是這是否代表 blogging 必將成為網路的主宰運作模式,影響網路族群的文化、商業、社會以及家庭活動?blogging 的成長是否仍會繼續下去,直到每個活著的人都用某種形式寫部落格為止?


顯然這幾個問題的答案並不是那麼理所當然的肯定,部落格寫手、媒體界、評論家、產業界和學界,都在思考這個問題的答案。當然尋找答案,不必一定要很嚴肅,ProBlogger 的 Darren Rowse 問讀者 Why Do We Blog? ,請讀者以參與者的角度,說明寫部落格的原因。讓人欣慰的是,各式各樣的答案,充分說明我們所處的網際網路的確是個多元的世界。下圖就是部落格文章的縮圖。


躬身力行的寫手,當有各自不同的心情和體驗,著名的評論家、記者們也有話要說。RWW(ReadWriteWeb 今年第一季,從趨勢與技術的角度,談了一些Bloggin 的未來,比如說 Richard MacManus 寫的 《Mixed Messages in Blogging Landscape 》 ,和 Sarah Perez 的《 The Future of Blogging Revealed》。

Andrew Sullivan 近日在 the Atlantic 發表了《 Why I Blog? 》 一文,回顧並思索 blogging 這種寫作型式的意義與發展;Paul BoutineWired 發表了…

[Video] Kevin Kelly on Web 10.0

Image
Kevin Kelly gave a talk at the Web 2.0 Summit. He reviewed the concept of the web - "linking computers" and "linking and sharing documents". Then he talked about what he think will happen in the next 6,500 days . That's Web 10.0 - The Web will own every bit of Data.




Andrew Odewahn at Orilley used a spider to collect a list of keyword meta tags from the various organizations represented at the conference, then he fed them into Wordle to generate the Visualization of Interests at Web 2.0 Summit. Can you see the clues of Web 10.0 from the visualization?

[Video] 勝與敗:兩場精彩的演說

Image
Hello, Chicago

在充滿激動、置疑、興奮、落淚、狂喜交織的夜裡,新任美國總統當選人 Barack Obama 的那句 Hello, Chicago 讓許多人興奮不已;那句鏗鏘有力的“勝利屬於你們”也勢必將被許多人津津樂道很長的時間。


End of a long journey

另一方,結果宣布後,John McCain 向支持者宣布他已經聯絡勝選人 Obama ,並且恭喜他獲得勝利。隨後,他向支持這發表了他的敗選宣言( Concession Speech),這場精彩的演講讓不少人感慨:如果整場競選期間他都有這樣的表現,鹿死誰手猶未可知。


君子之爭

網路上可以找到這兩場演說的錄影視訊,在各種版本中,敝人覺得紐約時報網站競選專題提供的版本最棒,紐約時報以 Flash 技術提供的影片,不僅畫質解析度允稱上乘,同步的講稿(transcript),更是令人激賞。

讀者可以點上面的圖片,或者使用下面的連結欣賞這兩場精彩的演講。
Obama 的演說McCain 的演說

[詩戀] 辛鬱: 現世兩題

這是詩人辛鬱今年9月份在聯合報副刊發表的詩作,突然覺得,既然是兩題,那就索性把兩題並列,看來也別具味道。



藍 變
沙揚 塵起
路障列陣
百日維新未成
這馬蹄猶自奔騰
藍天一角
頃刻暗沉 綠 變
為什麼總是
這股邪風
竊佔天空
它遮住整座視窗
使綠野
再一次 色變

咖啡杯裡的微笑

Image

升級 Ubuntu 8.10 之前

Image
自從將工作用的機子改為使用 Ubuntu 之後 ,雖然大體上還算可以,但是 8.04 既然號稱是長期支援版本(LTS),整體架構的完成度和系統調校的細膩度,實在夠不上長期支援版本該有的程度。面對這些瑕疵帶來的困擾,所需的時間、精力是實在是令人感到惱火。

備受困擾之餘,常和同學開玩笑說,Ubuntu 這個所謂的 LTS,實在是早了半年,他們應該推遲半年再推出長期支援版本的。不止是我這麼想,ZDNet 的 Adrian Kingsley-Hughes 也認為 8.10 實在很像 8.04 的 service pack。

所以我對 Ubuntu 8.10 的面世,是報了很大希望的。因為手邊還有工作要處理,為了穩妥起見,我決定把手邊的東西告一段落後,再處理升級問題。為了確保升級過程平順,在真正動手之前,找了一些資料(職業病),先作些功課再說。當然,第一篇要念的就是:為什麼不該升級到8.10?


10 Reasons to Not Upgrade to Ubuntu 8.10Ubuntu 8.10 “Intrepid Ibex” feels more like a service pack than a new release
What is new in Ubuntu 8.10 (Intrepid Ibex)Big Story: Ubuntu 8.10 Intrepid Ibex, Released and Reviewed
Ubuntu 8.10 (Intrepid Ibex 無畏的野山羊) 正式版登場Ubuntu 8.10我体验到的新功能Review: Ubuntu 8.10 Is The Real DealUbuntu 8.10 Shows Linux OS Is Now Mature, Preludes Mobile PlatformUbuntu 8.10 (Intrepid Ibex) -Ubuntuwiki Guide
Installation Upgrade From OldVersion
The Ubuntu Upgrade Guide | MakeUseOf.comUpgrade Ubuntu 8.04 (Hardy Heron) to Ubuntu 8.10 (Intrepid Ibix)Ubuntu HwotoForge - UbuntuHow To Upgrade…

[詩戀] In love of Uncertainty

背著電腦,去歐洲流浪的作者把 Wislawa Szymborska 的詩作 Love at the First Sight 的前四句錄在《再見柏林》那一章(恰好是書籍的第100頁)之首。

初見的悸動和揣測未知的忐忑與興奮,恰是旅人心情的寫真,或許是作者抄錄這首詩的緣由吧;至于我這個很想作旅人,卻從未成行的老宅男,手裡握著打印的 data mining 論文,想到 uncertainty reasoning 正是我們這一行 的頭疼議題(看看這本書 便知我所言不虛)。 "but uncertainty is more beautiful" 不僅是旅人的心聲,也是在學海人生裡漂泊的心聲。

全詩英譯(Walter Whipple 翻譯)抄錄於後,還有一個 Roman Gren 翻譯的版本,就不錄于此了:
Both are convinced
that a sudden surge of emotion bound them together.
Beautiful is such a certainty,
but uncertainty is more beautiful.

Because they didn't know each other earlier, they suppose that
nothing was happening between them.
What of the streets, stairways and corridors
where they could have passed each other long ago?

I'd like to ask them
whether they remember-- perhaps in a revolving door
ever being face to face?
an "excuse me" in a crowd
or a voice "wrong number" in the receiver.
But I know their answer:
no, they don't remember.

They'd be greatly astonished
to learn that for a long time
chance had be…

[Video] 還是筆記本好用

Laptop Computer 在台灣一般習慣叫筆記型電腦,或者簡稱為筆電;大陸那邊則習叫筆記本兒,或者索性叫本本。大陸地區有名的博客 和菜頭最近介紹了一個很有趣的影片,充分說明筆記本比 Laptop 優越多了:


[Video] 從狼煙到手機

e的二三事那裡看到一個賣手機的廠商CARPHONEWAREHOUSE廣告片,用簡明流暢的動畫,介紹通訊方式的演進,很有趣味。雖然是“廣告片”,沒有無趣低俗的商業元素,畫面用簡單的線條構成,故事簡單有趣 - Strongly Recommended...



A breif History of communication from ljudbilden on Vimeo.

[KDNuggets Poll] Financial Crisis Effect on Data Mining Field

Image
不論學者官員網路名人們怎麼說財務危機,言語或嚴肅或搞笑,救市或沉著或慌張,但這次金融危機帶給我們這些“一般人”的心理壓力是真實而無處不在的。從 Live Traffic View 所見,我這個一畝三分田,最近這些日子最常被訪問的,也是和金融危機有關的《圖解次級房貸》。

搞 Data Mining 專家、顧問、學者也是一般人,當然不能自外於世,KDNuggets 最近一期的問卷調查,主題正是詢問讀者們:這次財務危機究竟有沒有影響2008年第四季的展望?雖然參與投票的人不算多,以管窺天,也未必不能瞧出些端倪,投票結果如下圖,諸君若想了解投票的細節,請拜訪本次問卷調查網頁。

Latte Art Collections

Image
快拍公園有個主題叫做“咖啡奶泡拉花募集中”,各式拉花爭奇鬥豔煞是有趣,有圖為證:

Search your mind ?

George H.W. Bush 給我們上過一課,讀我的唇(Read my lips: no new taxes)容易,讀我的心很難,所以投他票的選民最終還是發現,增稅是不可避免的。

Revision 3 的一則報導,竟然宣稱使用自然語言處理技術(Natural Language Processing;NLP)的搜索引擎廠商Cognition 竟然打破常識,不僅可以搜尋 web ,還可以搜尋你的心 - Search the web and your ming with Cognition

(主持人齜牙咧嘴的樣子有點好笑,不過全螢幕播放的效果真的很哦!)

"Latte Art" printer make it for you

Image
義式咖啡的魅力所在除了濃郁的 Espresso 咖啡加上綿密柔軟的牛奶泡沫,在牛奶泡沫上作畫,給飲者加上視覺的刺激,也是許多癮君子的鍾愛的樂趣之一。這種 Latte Art (有人稱之為拉花)技術,自然是許多咖啡吧台師傅(barista)苦練的技術之一,近日 OnLatte 介紹了一款能在咖啡杯中作畫的 Latte Art Printer,讓人嘖嘖稱奇。

根據 OnLatte 的說明,這款 Latte Art Printer 可是在 SIGGRAPH 2008 上大出風頭哦。有圖有真相,下圖即為明證:



Wall Stree Journal 還特地為此專文介紹 Latte Art,並且制作了影片:



YouTube 上也可以找到這款打印機展示的影片噢:

凡事都要 2.0

Image
去年十月寫了篇遊戲之作 [Updated] 版本 2.0 升級報告,近日發現我素來鍾愛的咖啡都要升級至2.0了,果真是吾道不孤,凡事都要2.0啊。

十月待辦事項

很長一段時間沒有整理部落格,剛剛才發現原先使用由 LVCHEN (lvchen.blogspot.com) 撰寫的“最新回應“外掛失效了,必須安裝更新版的外掛才行。但是使用快速安裝之後,無法正常運作,只好先把 "Recent Comments" 模塊先移除,再找時間慢慢試嘍。

話說”君子立志長,小人常立志“,過了一個充滿挫折的暑假,十月一定要好好幹活了,下個月要完成的工作包括:
首先,first thing first,當然是完成老板交代的文章,而且要“寄出去”XXX project (the project name is confidential, grin)資料預處理整理 FreeTDS 安裝筆記整理 Continuous Partial Attention 讀書筆記Sequential Pattern Mining 文獻整理
閱讀“隨意搜尋”閱讀"The Craft of Research"

城堡

Image

不成熟的禁果

Image
吃米不知米價,吃禁果不知伊甸園裡果樹本尊模樣是再 自然不過,當我在武陵農場生態導覽區看到解說的告示牌,才恍然大悟,這便是不成熟的禁果。

書摘:人間煙火

整個暑假裡,都在折騰新專案的準備工作-安裝系統和工具程式,假期結束,暑假印象竟然只有不斷格式化硬碟的動作、反覆安裝系統的不奈情緒和腦子裡揮之不去的系統指令,原先打算要做的事、要念的書竟然全部都食言了。 認真想想,這個暑假裡印象最深的書,竟然是暑假剛開始時夜裡消磨裝機時間的人間煙火

秋光幽微(自序)
行行重行行 這深谷裡的疏林
正以何等的寂靜在逐層浸染著霜紅
這時日的消逝是否 也正以
悲喜夾雜的方式在成就著我們的詩?

記憶廣場

斜陽裡 人群散去
鑲著金邊的昨日開始
如層雲般湧來 並且沿著
這灰暗的廣場想四週延伸展開
多麼貧乏而又豐美 空虛而又滿盈的往昔啊
這就是我們僅有的 資產和原罪了嗎
在流離的世界裡執著於自身
小小的悲喜

回首之時 有誰願意承認
這廣場中心矗立著的
一座又一座的青銅紀念碑
其實都是 奠基於
我們那無可奈何而又無堅不摧的 青春
---

是青春建構了記憶,而記憶才終於得以重鑄了青春啊!

---
我想,在每個人的一生裡,都可能會遇到這樣的時刻罷。不過只是一處小小的毫不起眼的空間,你曾經無所察覺地走過千百次,卻並不知道這千百次的接觸其實沒有遺漏任何一絲細節。所有的一切都在默默地等待,等待與你在多年之後重新相見,就在這一刻,著整個空間的光影、線條、聲音甚至氣味,都會對你散發出一種無法抗拒的溫暖和親切的訊號,就在你踟躕難決的那一瞬間,為你延伸鋪展而成為一處無邊無際的記憶廣場。

每一個人的青春都會過去,每一個世代的華年也一樣,然而,這並不是從此就必須把它忘記並且絕口不提的理由。
泉源...因此有些有關童年的記憶混淆了起來。有時候自以為是自己記得的,到了後來再查證,才發現是姐姐替你記起來之後再轉述給你聽的。有時候家裡所有的人都異口同聲認為你在那個年齡根本不應該有記憶的能力,可是自己卻又明明記得一些聲音、一些面容、一種模糊的甜蜜。或者是一種隱約的悲傷。

我一直以為我記得五歲時身邊發生的一切,那時父親剛從軍中退役,下一步行止未定,只得暫居妻子娘家,直到他通過公務員的考試,我們才離開外婆家,舉家赴新竹定居。等待放榜的那段時間,有個午後,我和鄰家的小孩口角,兩個小孩為了誰的爸爸比較偉大爭的面紅耳赤。長大後我才知道隔壁住的是母親的叔叔,和我吵架的小孩可能比我高了一輩,這麼多年過去,我還是不知道當年和我爭吵的是哪一位?
夏日
奇怪的是:在一缸裡,如果同時有四五個小花苞冒出水面是,就總有一朵會長得比較慢。開始的時候並…

故事

Image
Continuous Partial Attention 所苦的人們(當然也包括我),是不可能進入故事裡的;同時開啟十個瀏覽器視窗,想找到值得閱讀的句子是註定要是失望的,因為...


母親患病前,常告訴他「故事有生命」,但故事的生命跟人或貓狗的生命不一樣。不管留不留神,人還是獲得好端端的;狗兒如果覺得乏人關注,通常就會拼命引起注意;貓咪若一時興起,還會假裝人根本不存在-這點牠們可拿手了。

故事可不一樣:人說故事,故事才會活起來。要是沒人高聲朗誦,沒人躲在毯子底下、就著手電筒光,睜大了眼專注閱讀,那麼在我們的世界裡,故事並不存在。故事好似啣在鳥喙裡的種子,等候落地入土;像樂譜上的音符,渴望樂器將其帶進世間。故事潛伏靜待,期盼現身的時機。一旦有人閱讀,故事就開始變化,在想像力中生根,讓閱讀的人改頭換面。

.........

書本裡頭的故事痛恨報紙的故事,大衛的媽媽會這樣說。報紙上的故事像是剛捕獲的魚,只有在新鮮期才值得一顧,保鮮期卻不持久。

真正的故事,正統的、出於想像的故事,好似藏書豐富的圖書館裡,那不苟言笑卻熱心助人的館員。報紙故事跟煙霧一樣虛空不實,壽命跟蜉蝣一般短;它們不會生根,反倒像野草一般地沿地蔓生,從更值得青睞的故事那兒盜走陽光。


又:
至於報紙故事偷走陽光的事,我們都很熟悉,此際我們與大眾傳媒的互動,以及大眾傳媒的素質問題,已經不需再多言了。

午後

Image
午後的圖書館,偷閒的人兒...

還是傷春悲秋

夜讀席慕蓉人間煙火,看到這麼一段話,怎麼也不忍翻過下一頁,於是幹脆把它抄錄下來: 在一首法國香頌《枯葉》的歌詞裡,有這樣的幾句:

生命溫柔而又緩慢地將

相愛的人分離不發出一點聲息

是的,千百年來,在每個婦人的心中,許多觸動也往往是無聲的。有時,從最深的觸動裡所引發出的突然的淚水,也很難解釋,只好任由這個社會將它嘲諷為極端的「傷春悲秋」。

其實,恰恰相反,「傷春悲秋」並不是軟弱的行為。

沒有什麼能比一顆婦人的心更為堅定與強韌的了,歲月流光從她的身體中穿過,無時無刻,她都在感受著生命那難以描摹的逼迫,有時,只能以淚來釋放,有時,只能以筆來捕捉。 我想,把婦人換成人,更能確切描摹我讀這段話的心情...

雙顯示卡帶來的意外(收獲)

前些時候決定把筆電的操作系統換成 Linux, 經過一陣考慮和比較之後,我決定安裝身邊比較容易找到(求救)資源的 Ubuntu,既然決定了就趕緊執行,所以趕緊下載所軟體( Live CD Image),就開始我的 Ubuntu 之旅。

從轉換環境至今,我對新的工作環境相當滿意,除了讀 Office 2007 格式文件還需費些週章,無法無縫轉移之外,其他的需求都可輕易解決。當然啦,轉移的過程並不是無風無雨,總是會碰到莫名所以的情況需要克服,像前幾天遇到的雙顯示卡的狀況,過程跌宕起伏,就讓我驚出一身冷汗。
我的筆電是 Sony VAIO ,這款筆電有兩個執行模式:全速模式和省電模式,省電模式會抑制 CPU 執行速率,並且關掉 Nvidia 繪圖晶片,使用主機板上的標準 VGA Chip,本是設計上的美意,卻讓我的 Ubuntu Voyage (Ubuntu 之旅) 遇到一場不算小的麻煩。

那天下午陪家人去逛街,我一個人在購物中心的咖啡廳玩電腦消磨時間,為了省電,我把省電開關切到 STAMNIA 省電模式,重新開機之後,系統回報 VGA 偵測錯誤,然後跑出 800*600 的提示畫面,就掛在那兒了。當時百思不得其解,以為是我把筆電放在桌上的動作太粗魯,把硬碟弄得發神經,苦命的我又要重新灌系統了。但是 WinXP 竟然可以正常開機,證明我的懷疑不正確。

回家上網查了資料,找到重新設定螢幕的方法,於是信心滿滿的照方抓藥,以為定然藥到病除,但結果卻讓我大吃一驚。修改後,雖然系統可以正常開機,但是系統偵測不到 Nvidia 晶片,所有特效都自動關掉,而且畫面切換的速度很糟,不是雪花就是惱人的閃爍。為了解決問題, 上網下載 Nvidia 最新版驅動程式,結果安裝過程以令人驚訝的錯誤訊息-你的系統沒有 Nvidia 硬體-告終。這時我開始懷疑自己轉台的動作是不是太衝動了。

努力回憶下午的狀況,思索曾經做過的每一個動作,思考之後,發現唯一和最初安裝系統時的不同就是速率模式的按鍵,猜想可能是這裡發生的問題,於是用 XP 開機,執行硬體檢測程式。硬體報告果然包藏玄機,這時程式回報的 GPU 是 on-board intel chip,這時看到解決問題的曙光了。

把模式切換回 SPEED 模式,看看重新開機有什麼結果。這回系統再次回報螢幕模式偵測錯誤,又出現當機畫面,顯示我的猜測可能是對的。我猜系統這…

Good bye to Randy Pausch

雖然不算意外,Randy Pausch 畢竟還是走了。他是一個令人欽佩的智者和勇者,他不僅擁有我們大多數人無法企及的學術成就,但他所擁有的人生智慧,和激勵人心的能力,才是最有價值的瑰寶。

既然他已經提醒我們,anybody who wants to cry or pity me can down and do a few of those, then you can pity me ,就收拾起傷感,多讀點不談傷感,不談眼淚的好文章吧:

Randy Pausch 教授簡介(簡體中文版)[Video] 實現童年的夢想 (這是拙作)
引領你的一生 (李開復寫的 Randy Pausch 介紹)
那一束價值觀的玫瑰 (個人強烈推薦您閱讀這一篇)
Randy Pausch passed away, but left great advice on time management (on top of his motivational tips)(不要忘了他也是時間管理高手)
Fighting Pancreatic Cancer (記錄他的抗病史的個人網頁)

還有,請再欣賞一次他的演講-Achieving Your Childhood Dreams



請容我再次重復我在拙文[Video]實現童年的夢想曾經說過的話,這裡的主題不是癌症,不是悲傷,是他和你的童年夢想,和如何實現夢想。記住,如果你(年輕時)常常練習某些事,這些東西會成為你生命中的一部分,that's just because, you know, when you do something you enough and train for it, it just becomes a part of you。

我相信:這是他留給我們最棒的東西。套用一句 Google Research Blog 曾經說過的話:We will miss Randy very much, and remember him fondly。

Who am I? ...24601...

Image
If you happen to know who's this guy in the picture, come in and drop me a line or two. Grin.

閱讀 Programming Collective Intelligence 有感

Image
去年(2007)底,在網路上看到不少人推薦 Programming Collective Intelligence 這本書,當時並沒有太放在心上,直到前些日子逛書局的時候,站在書架前認真的讀了兩節,才發現這本書真的很有意思。

網路上可以找到不少關於本書評價(還有這個例子)的資料,讀者若有興趣,可以先從 Amazon 上的書評開始。個人覺得這本書最有意思的地方,在於把理論和現實間的聯繫處理的特別好,有篇書評用 fills the gap 來形容,我覺得非常傳神。

理解論文和書本上的演算法和數學公式是一回事,將這些演算法轉換成實際可執行的程式則是另一回事;作者在這方面表現出舉重若輕的功力,讓讀者覺得從文章到程式間的距離一點都不遠,沒有知易行難的障礙,就是那麼簡單。雖然本書所用的例子,僅是機器學習(machine learning)領域裡較知名且不艱深的演算法,但是看了作者的現身說法之後,讀者對實作會更有信心,也更有頭緒。

其次,本書的例子都不是作者虛構的,而是我們在生活中會接觸和使用的真實的網路服務,作者還教讀者如何以業者提供的 API 收集(真的)資料,然後如何將演算法、資料、程式語言結合在一起,建構一個真實而有用的工具 。這本書的價值之一,就是讓讀者體會演算法的用處,原來我們生活中實際使用的熱門服務-AmazonNetflixDel.icio.usLast.FmGoogle News ,就是書本上的知識建構起來的。

我想,對人工智慧、機器學習、資料挖掘、網路趨勢、程式實作有興趣的人,都不妨看看這本書,你不會失望的。

最後,the last but not the least。

本書的程式碼,都是用被作者稱為“可執行的虛擬碼(executable pesudocode)”的 Python 撰寫,程式可讀性極高, 閱讀本書還可以順便學習 Python ,也是一大收獲。

曾經在網路上看到有人對這本書沒有提供原始碼表示遺憾,其實作者 Toby Segaran 在去年底已經在他的個人部落格提供了這本書的原始碼 ,有需要的人請自行下載。 、

協同過濾(collaborative filtering)推薦系統的實作

Image
最近讀了交通大學資管所劉敦仁教授2007年發表在 Expert Systems with Application的文章[1]⁠ ,他將客戶終生價值(customer lifetime value, CLV)融入協同過濾(collaborative filtering,CF)推薦系統框架,以加權後的 RFM(Recency、Frequency、Monetary)模型,作為客戶分群的依據。試著將更多實務界或商管領域的思維,整合至資料挖掘的實作,一直是我在思考的方向,這篇文章的思路對我並不陌生,因此我試著更深入理解他的做法。在閱讀的過程裡,我覺得這篇文章在整理過去研究成果(related work)的部分,蠻有意思的,本文整理協同過濾的各種不同做法,以實作時應用的各種基礎演算法(例如:關聯法則、分群)為基礎的分類思路,而不是從商品與顧客的不同觀察視角(item-based .vs. user-based)出發。個人認為,這種切入角度,能夠幫助有意實作推薦系統的讀者,更快的理解推薦系統的組成架構,並且幫助他們更有效率的擬定工作計畫。協同過濾的基本精神,在於數大就是美,資料愈多,系統的表現愈佳。協同過濾的實作精要之處,則在於如何從購物人潮中找出與特定顧客品味嗜好相近的同好,或是任意揀選一件商品,如何找出相似的品項。如何找出人與物的相似處,就取決於相似度(similarity)的計算方式了。歷來學者曾在文獻中建議使用的相似度公式,五花八門琳琅滿目,用族繁不及備載來形容一點也不誇張。最常被人提及的計算方式包括 Euclidean Distance、 Pearson correlation coefficient、Jaccard coefficient、Manhatten distance、Cosine correlation coefficient 等等。許多學者在這些基礎上,設計了更複雜的計算方式,比如劉教授建議以商管領域常使用的 RFM(Recency、Frequency、Monetary)模型,計算客戶貢獻度(客戶對業者的價值)為基礎的計算方式,他還以此為基礎,建議更複雜的加權式 RFM (Weighted RFM)計算公式。簡而言之,更有用的相似度判斷方式,一直是學者努力的重點之一。定義相似度之後,最重要的是怎麼應用相似度來建構推薦機制。根據劉教授的整理,有三大類計算方…