Michael Neilson's post pointed to a great video.
Clifford Stoll, the famous astronomer who helped to capture a notorious KGB hacker back in the infancy of the Internet, is awesome. Watching the gray-haired agile-mind jumping on the stand is an unusual experience.
"Asking me about the future, it's BIZARRE."
"If you really wanna know about the future, don't a ask a technologist, a scientist, a physicist, don’t ask somebody writing code. … ask a kindergarden teacher. They know. ... Don't ask any kindergarden teacher. Ask an experienced one.”
Monday, March 31, 2008
Updated Blogoshpere Size from David Sifry
Some may claimed that the the size of blogosphere makes no sense. But I do think that the size matters. Indeed, we should find a clever way to "interpret" the numbers. But saying that size doesn’t matter in all cases though is quite plainly wrong.
Last spring, we learned form the report State of the Live Web , published on April 15, 2007, that there're 70 millions tracked by Technorati and there're 120,000 new blogs being created around the world . In addition, the data said that there're only 15.5 millions updated there sites during the last three months (that means they're active).
We haven't seen any update on the size of the blogsphere until January, 2008. The founder of Technorati, David Sifry, told Blogspotting (community of the Business Week ) that there're 112 millions blogs indexed by Technorati.
Kevin Burton, the CEO of web crawler spinn3r, thought that the number was too optimistic and dangerous. He insisted that the active blog should post at least once a day.
Obviously, we need a more convincing definition of "active blogs". The count of the size of the blogosphere (where active or dead) makes no sense, the size of "active" blogs may do.
Last spring, we learned form the report State of the Live Web , published on April 15, 2007, that there're 70 millions tracked by Technorati and there're 120,000 new blogs being created around the world . In addition, the data said that there're only 15.5 millions updated there sites during the last three months (that means they're active).
We haven't seen any update on the size of the blogsphere until January, 2008. The founder of Technorati, David Sifry, told Blogspotting (community of the Business Week ) that there're 112 millions blogs indexed by Technorati.
Kevin Burton, the CEO of web crawler spinn3r, thought that the number was too optimistic and dangerous. He insisted that the active blog should post at least once a day.
Obviously, we need a more convincing definition of "active blogs". The count of the size of the blogosphere (where active or dead) makes no sense, the size of "active" blogs may do.
Sunday, March 30, 2008
鏡子兩邊的「雙單行道」
二十世紀上半期,中國與西方對彼此的理解是粗淺、朦朧,充滿遐想與不知所謂的激情,甚至是挫折與誤解。在這段交流與互相理解的過程中,西方人到東方或東方人到西方,究竟學習了些什麼,看到了什麼,因此而被改變,並改變了什麼,有著許多故事。
趙毅衡教授的雙單行道,就是寫給蛋頭之外的 the rest of us 的一本故事書。作者在書中為 42 位來往東西之間的行者造像,書中有人往西取經,有人向東尋道,也有人夢遊於海路、絲路之外,但是作者一語概括,二十世紀初往東、往西的遊者竟是行走在「你走你的路」的兩條單行道上。
或許,理解真的是很難一件事。
書中東遊記篇中人物 - 新批評(New Criticism)理論的創始人瑞恰慈(Ivor Armstrong Richards)的,在三十年代本想定居中國,雖然因為時代動盪,最終並沒有如願。但是他的真誠與努力,贏得作者與像我一樣的讀者的尊敬。
Saturday, March 29, 2008
Data .vs. Algorithm - 答案已經很清楚啦
在機器學習(Machine Learning)和資料挖掘(Data Mining)領域,資料(數據)和演算法究竟孰重的爭論時有耳聞。但這是個熱度炒不起來的話題,因為很明顯地,經過時間的淬煉和檢驗實踐的結果,天平向數據( Data) 這邊傾斜,而且傾斜得很厲害。
今年一月中旬,我摘譯一位企業部落客 Chris Harris 的文章 Data or Algorithm ,加上自己的想法,寫了一篇「Data 和 Algorithm 應該放在一起比較嗎?」。敝人的看法很簡單,沒有數據(Data)就沒有分析的必要,演算法則是工具,兩者本不該放在天平兩端作計較,雖然個人不甚贊同 Chris 通篇文章的邏輯,不過 Chris 的結論也是認為充足數據才是競爭力的保障 - The more I think about, my gut instinct (直覺?)says that data is the only way to keep a lasting competitive advantage。
最近 Cambrian Venture 的創辦人,同時也在史丹佛大學兼課的 Anand Rajaraman ,談到他在 Data Mining 課程中,讓學生用 Netflix Prize 的資料作實驗的心得。他在一篇名為 More data usually beats better algorithms 的部落格文章中,提到他與他的學生們的經驗:
先前筆者在談推薦系統的分類時,曾經引用過 AI 領域的大師級學者 Peter Norvig (他目前是 Google 研發部門的主管之一)在一場演講中的說法 ,他的看法是 : Worry about the data before you worry about the algorithm,換句話說 Google 的競爭力不僅在於他們僱用了許多金頭腦,更在於他們擁有的大量數據。
Google 的官方部落格(The Official Google Blog )從今年三月初開始,發表一系列 Google 如何應用資料改善服務品質、提昇技術的文章,本系列的第一篇 Why Data Matters 便開宗明義地說 Better data makes for better science. The history of information retrieval illustrates this principle well 。
所以,答案就像柯林頓在1992年告訴選民的一樣簡單:It's the Data, Stupid.
今年一月中旬,我摘譯一位企業部落客 Chris Harris 的文章 Data or Algorithm ,加上自己的想法,寫了一篇「Data 和 Algorithm 應該放在一起比較嗎?」。敝人的看法很簡單,沒有數據(Data)就沒有分析的必要,演算法則是工具,兩者本不該放在天平兩端作計較,雖然個人不甚贊同 Chris 通篇文章的邏輯,不過 Chris 的結論也是認為充足數據才是競爭力的保障 - The more I think about, my gut instinct (直覺?)says that data is the only way to keep a lasting competitive advantage。
最近 Cambrian Venture 的創辦人,同時也在史丹佛大學兼課的 Anand Rajaraman ,談到他在 Data Mining 課程中,讓學生用 Netflix Prize 的資料作實驗的心得。他在一篇名為 More data usually beats better algorithms 的部落格文章中,提到他與他的學生們的經驗:
Team A came up with a very sophisticated algorithm using the Netflix data. Team B used a very simple algorithm, but they added in additional data beyond the Netflix set: information about movie genres from the Internet Movie Database (IMDB). Guess which team did better?Greg Linden(常拜訪本園地的讀者或許知道, Greg Linden 是我很喜歡的部落客之一)和 Andrew Parker 兩位部落客,都立刻撰文對Anand Rajaraman 的說法表達了他們的看法,Andrew Parker 更以 VC 從業者的身份下結論,如果你們收集到更多的資料,你將比競爭者有更多的優勢(a significant and defensible advantage)。
Team B got much better results, close to the best results on the Netflix leaderboard! I'm really happy for them, and they're going to tune their algorithm and take a crack at the grand prize.
先前筆者在談推薦系統的分類時,曾經引用過 AI 領域的大師級學者 Peter Norvig (他目前是 Google 研發部門的主管之一)在一場演講中的說法 ,他的看法是 : Worry about the data before you worry about the algorithm,換句話說 Google 的競爭力不僅在於他們僱用了許多金頭腦,更在於他們擁有的大量數據。
Google 的官方部落格(The Official Google Blog )從今年三月初開始,發表一系列 Google 如何應用資料改善服務品質、提昇技術的文章,本系列的第一篇 Why Data Matters 便開宗明義地說 Better data makes for better science. The history of information retrieval illustrates this principle well 。
所以,答案就像柯林頓在1992年告訴選民的一樣簡單:It's the Data, Stupid.
Friday, March 28, 2008
Wednesday, March 26, 2008
Novelty and Serendipity
前些時候,農曆年假期間,和幾位網路業界的朋友聊天,談到推薦系統種種,其中兩位(我是其中之一)由產業界回校園的老骨頭一致同意,推薦系統最迷人的地方是意外的驚喜(這個 surprise 和我才剛剛寫過的 Surprise Modeling 沒有關係,此事純粹是巧合)。
其實用 Surprise 這個字眼是不正確的,比較講究、比較有學術味道的說法應該是用 Novelty and Serendipity 這兩個字。如果查字典,這兩個字代表的是「新奇」、「意外的發現」;如果和實務相參照,我們會發現,Novelty/Serendipity 恰好是彌補準確度(accuracy)指標不足的概念。
僅僅只有準確度(accuracy),不足以評估推薦系統的良窳,已是產界、學界共同的認知,在筆者查閱過的資料中,以 Search Inside the Music 專案負責人 Paul Lamere 所寫的 The Music Recommender Face-Off 和 Greg Linden 的註解,解釋得最為生動。
筆者也曾經為文解釋準確度不是完善的評估推薦系統(準確度不是錯誤,只是不足)的指標的原因,在文章中我舉了書籍推薦的例子,說明為何推薦系統預估準確度、購買意願、增加營業額三者間沒有辦法畫等號。
談過 accuracy 之後,筆者先前也介紹了覆蓋率(coverage)指標,這是研究人員為了矯正準確率的缺失所作的努力之一,而 Novelty/Serendipity 則是從另外一個角度切入的結果。
以Paul Lamere 文章中的說明為例,他的研究主題是音樂的推薦,所以他認為一個好的推薦系統,要具備三個條件:
為甚麼要談 novelty/serendipity?為甚麼推薦名單的豐富性與多元性很重要?讓我們回到原點,來分析這個問題。
建置推薦系統的目的很單純,無非是為了提高營收。要達到目的,推薦系統首先要能提供正確的商品資訊,所以推薦清單中的物品一定與消費者的個人資料或是購買歷史紀錄有關聯,如果資訊正確,消費者也確有相關需求,這樣的名單很快就消耗光了。所以名單中必須有「可以認出關聯脈絡但直覺上不這麼相關的」、「新鮮的」項目,才能刺激出新的購買意願,而且藉著新項目的加入與購買行為的交互作用,才可以讓名單一直保持多元而豐富的成長下去。
我們在實體世界購買商品時,也是這樣。高明的店員,總是會試著用各種方法旁敲側擊、試探我們的喜好,瞭解各個商品成交的可能性,進而用語言刺激、提出不同的商品建議組合、提出替代方案等等方式,增加購買機會與意願,以達到增加營業額的最終目的。
Novelty/Serendipity 正是要在推薦名單中起到類似的作用,如果推薦名單中都是消費者心中早就知道的資訊,甚至對名單內容早有定見,這樣的推薦名單對「促進」銷售金額有多大幫助,實在是不樂觀。假如推薦名單能讓消費者感到新意,刺激消費者查詢、嘗試、思考,並進而購買原本不是十分熟悉的物品,對於提昇營業額有極大的幫助。
當我們在探討「推薦系統與長尾」時曾經提過,的確有些推薦系統會促成強者愈強 rich-get-richer 的情況,顯然提昇系統的 novelty/serendipity 是避免錦上添花效應的努力方向之一。
不過,Novelty/Serendipity 的觀念雖然迷人,但是這個指標比覆蓋率更難測量,雖然我們知道 Novelty/Serendipity 是推薦名單 nonobviousness 的程度,但是我們很難具體的評估某份推薦名單比另外一個名單要「新奇」或是「有用」的程度,因為我們沒辦法衡量、體會消費者的感受。
當然我們不能停在這兒,我們可以試著用幾個間接指標去衡量推薦名單的 novelty 程度,例如:
其實用 Surprise 這個字眼是不正確的,比較講究、比較有學術味道的說法應該是用 Novelty and Serendipity 這兩個字。如果查字典,這兩個字代表的是「新奇」、「意外的發現」;如果和實務相參照,我們會發現,Novelty/Serendipity 恰好是彌補準確度(accuracy)指標不足的概念。
僅僅只有準確度(accuracy),不足以評估推薦系統的良窳,已是產界、學界共同的認知,在筆者查閱過的資料中,以 Search Inside the Music 專案負責人 Paul Lamere 所寫的 The Music Recommender Face-Off 和 Greg Linden 的註解,解釋得最為生動。
筆者也曾經為文解釋準確度不是完善的評估推薦系統(準確度不是錯誤,只是不足)的指標的原因,在文章中我舉了書籍推薦的例子,說明為何推薦系統預估準確度、購買意願、增加營業額三者間沒有辦法畫等號。
談過 accuracy 之後,筆者先前也介紹了覆蓋率(coverage)指標,這是研究人員為了矯正準確率的缺失所作的努力之一,而 Novelty/Serendipity 則是從另外一個角度切入的結果。
以Paul Lamere 文章中的說明為例,他的研究主題是音樂的推薦,所以他認為一個好的推薦系統,要具備三個條件:
在拙文「為甚麼只有準確率是不夠的」以及「推薦系統的覆蓋率」 中,筆者用實際的例子說明準確度可以衡量 familiarity 和 relevance 這兩個方面的表現,但是不足以評估推薦名單的的豐富與多元的程度。
- familiarity - to help us gain trust in the recommender
- novelty - without new music, the recommendation is pointless
- relevance - the recommended music has to match my taste
為甚麼要談 novelty/serendipity?為甚麼推薦名單的豐富性與多元性很重要?讓我們回到原點,來分析這個問題。
建置推薦系統的目的很單純,無非是為了提高營收。要達到目的,推薦系統首先要能提供正確的商品資訊,所以推薦清單中的物品一定與消費者的個人資料或是購買歷史紀錄有關聯,如果資訊正確,消費者也確有相關需求,這樣的名單很快就消耗光了。所以名單中必須有「可以認出關聯脈絡但直覺上不這麼相關的」、「新鮮的」項目,才能刺激出新的購買意願,而且藉著新項目的加入與購買行為的交互作用,才可以讓名單一直保持多元而豐富的成長下去。
我們在實體世界購買商品時,也是這樣。高明的店員,總是會試著用各種方法旁敲側擊、試探我們的喜好,瞭解各個商品成交的可能性,進而用語言刺激、提出不同的商品建議組合、提出替代方案等等方式,增加購買機會與意願,以達到增加營業額的最終目的。
Novelty/Serendipity 正是要在推薦名單中起到類似的作用,如果推薦名單中都是消費者心中早就知道的資訊,甚至對名單內容早有定見,這樣的推薦名單對「促進」銷售金額有多大幫助,實在是不樂觀。假如推薦名單能讓消費者感到新意,刺激消費者查詢、嘗試、思考,並進而購買原本不是十分熟悉的物品,對於提昇營業額有極大的幫助。
當我們在探討「推薦系統與長尾」時曾經提過,的確有些推薦系統會促成強者愈強 rich-get-richer 的情況,顯然提昇系統的 novelty/serendipity 是避免錦上添花效應的努力方向之一。
不過,Novelty/Serendipity 的觀念雖然迷人,但是這個指標比覆蓋率更難測量,雖然我們知道 Novelty/Serendipity 是推薦名單 nonobviousness 的程度,但是我們很難具體的評估某份推薦名單比另外一個名單要「新奇」或是「有用」的程度,因為我們沒辦法衡量、體會消費者的感受。
當然我們不能停在這兒,我們可以試著用幾個間接指標去衡量推薦名單的 novelty 程度,例如:
- 分析推薦名單中物品受歡迎(比如說銷售金額、排行)的程度,我們可以計算所有推薦物品的平均普及度(average popularity),或者強迫規定名單中有若干比率的物品不能是暢銷商品
- 長期追蹤消費者購買物品的習慣,分析消費者購買的商品種類(category)是否增加?
人、女人、夫人
總統大選結束,該論功、諉過、爭位、避禍的,都各自努力去吧,為甚麼要在周美青是否辭職這件事上打轉呢?
不管你喜不喜歡選舉的結果,這會兒要做的事情可多了。拼經濟、拼外交、拼交班、拼入聯、拼奧運金牌、拼查弊案,有這麼多事情要作,那麼多事情好談,這些名嘴們究竟在執著什麼?
今日中國時報登出的評論「如果周美青當選總統」說得好,如果周女士當選總統,馬先生是否該辭職,絕對不會成為一個值得討論的命題;同理,如果希拉蕊當選美國總統,絕對不會有人要求柯林頓在家煮飯、烤餅乾。既然其理甚明,那還有什麼可吵的?
吳鄭重教授說得好:「那些思想落伍,滿腦子父權沙文主義的政論名嘴,該好好反省,了解一下世界的性別潮流。不要老拿以前跑新聞耳濡目染的那些封建的官場文化,當作政治評論的依據。 」。
這不應是政治問題,只是尊重和平權的問題,enough is enough。
不管你喜不喜歡選舉的結果,這會兒要做的事情可多了。拼經濟、拼外交、拼交班、拼入聯、拼奧運金牌、拼查弊案,有這麼多事情要作,那麼多事情好談,這些名嘴們究竟在執著什麼?
今日中國時報登出的評論「如果周美青當選總統」說得好,如果周女士當選總統,馬先生是否該辭職,絕對不會成為一個值得討論的命題;同理,如果希拉蕊當選美國總統,絕對不會有人要求柯林頓在家煮飯、烤餅乾。既然其理甚明,那還有什麼可吵的?
吳鄭重教授說得好:「那些思想落伍,滿腦子父權沙文主義的政論名嘴,該好好反省,了解一下世界的性別潮流。不要老拿以前跑新聞耳濡目染的那些封建的官場文化,當作政治評論的依據。 」。
這不應是政治問題,只是尊重和平權的問題,enough is enough。
Reality, Surprise and Chances
Technology Review 雜誌每年都會製作一次年度新興技術(Emerging Technologies)的專題報導,今年(2008)的專題報導 「10 Emerging Technologies 2008」將在三月/四月份的雜誌中刊登。
今年的十大技術裡,有兩項和筆者長期關注的資料挖掘(Data Mining)及(Machine Learning)有關,第一項是微軟的研究員 Eric Horvitz 開發的 Surprise Modeling,另外一項則是麻省理工的 Sandy Pentland 研究手機用戶行為的 Reality Mining。
資料挖掘,是人類為了因應科技進展所導致的資訊過載(information overload),所作的思考和對策之一。從大量資料中,找出規律和模型,是文獻中習見的研究課題,MIT 媒體實驗室的 Reality Mining 專案顯然就是這樣的一個題目。
去年底幾個重量級的技術觀察作者和部落格 - 例如 ReadWriteWeb 、Rough Type ,紛紛為文探討介紹媒體實驗室的 Reality Mining 研究和技術的(對行銷的)影響,無疑這個技術的知名度是比較高調(high-profile)的。
像 Surprise Modeling 這樣的題目,就比找出規律又多了一些轉折。如果說傳統「找出規律」的研究,是為了預測什麼事情會發生,那麼找出 surprise ,則是預測事情什麼時候會「開始不一樣」了。
研究員 Horvitz 用很淺白的句子(plain english)解釋他的研究動機, - "We think we can apply these methodologies to look at the kinds of things that have surprised us in the past and then model the kinds of things that may surprise us in the future."
報導中介紹了Horvitz 研究小組使用的 Bayesian Machine Learning 技術 (Technology Review 在 2004年將 Bayesian Machine Learning 選為當年十大新興技術),並舉出研究小組的成果 SmartPhlow 為例,最後評論這個領域雖然僅在起步階段,但在很多領域對決策者將有極大幫助 。
今年的十大技術裡,有兩項和筆者長期關注的資料挖掘(Data Mining)及(Machine Learning)有關,第一項是微軟的研究員 Eric Horvitz 開發的 Surprise Modeling,另外一項則是麻省理工的 Sandy Pentland 研究手機用戶行為的 Reality Mining。
資料挖掘,是人類為了因應科技進展所導致的資訊過載(information overload),所作的思考和對策之一。從大量資料中,找出規律和模型,是文獻中習見的研究課題,MIT 媒體實驗室的 Reality Mining 專案顯然就是這樣的一個題目。
去年底幾個重量級的技術觀察作者和部落格 - 例如 ReadWriteWeb 、Rough Type ,紛紛為文探討介紹媒體實驗室的 Reality Mining 研究和技術的(對行銷的)影響,無疑這個技術的知名度是比較高調(high-profile)的。
像 Surprise Modeling 這樣的題目,就比找出規律又多了一些轉折。如果說傳統「找出規律」的研究,是為了預測什麼事情會發生,那麼找出 surprise ,則是預測事情什麼時候會「開始不一樣」了。
研究員 Horvitz 用很淺白的句子(plain english)解釋他的研究動機, - "We think we can apply these methodologies to look at the kinds of things that have surprised us in the past and then model the kinds of things that may surprise us in the future."
報導中介紹了Horvitz 研究小組使用的 Bayesian Machine Learning 技術 (Technology Review 在 2004年將 Bayesian Machine Learning 選為當年十大新興技術),並舉出研究小組的成果 SmartPhlow 為例,最後評論這個領域雖然僅在起步階段,但在很多領域對決策者將有極大幫助 。
Although research in the field is preliminary, surprise modeling could aid decision makers in a wide range of domains, such as traffic management, preventive medicine, military planning, politics, business, and finance.看完了 Technology Review 的介紹,我卻不由自主的想到由日本人主導的 Chance Discovery 研究,按照他們的說法 - A “chance” means a new event/situation that can be conceived either as an opportunity or as a risk in the future ,所以 surprise 就是一種機會囉!?
Saturday, March 22, 2008
How to read a book ?
Quotes of G. K. Chesterton
Fairy Tales are more than true; not because they tell us that dragons exist, but because they tell us that dragons can be beaten.
A good novel tells us the truth about its hero; but a bad novel tells us the truth about its author.
Literature is a luxury; fiction is a necessity.
Tuesday, March 18, 2008
CS Conference Rankings
我向來不是很關注 Conference 的訊息,但是這學期開學後,一個月內接連聽到好幾個老師談他們對學術會議「價值」的看法,促使我反省原先的態度,所以這幾天作了一點功課。我發現下面三個 Conference Ranking 的列表頗有參考價值,抄錄於後,一則是備忘,再則分享給有興趣、有需要的人(grin)。
The Computer Science Conference Ranking Website 2008年2月1日公布的名單中,
筆者比較熟悉的 Databases / Knowledge and Data Management / Data Security / Web / Mining 領域,有 84 個會議進入排名中。
- The Computer Science Conference Ranking Website 維護的 Conference Ranking ,每三個月修訂一次,排名計算方式是所謂的 Estimated Impact of Conference(EIC),網站首頁提供了 EIC 計算方式的說明 。
- Osmar R. Zaïane 維護的 Computer Science Conference Rankings,使用顏色區分會議的研究領域(例如 Database、AI、etc),有不少部落格作者「轉載」這個列表。
- 新加坡南洋理工大學維護的 CS Conference Rankings,每個領域下分成 Rank1 、Rank2、Rank3 以及 Others 幾個等級
The Computer Science Conference Ranking Website 2008年2月1日公布的名單中,
筆者比較熟悉的 Databases / Knowledge and Data Management / Data Security / Web / Mining 領域,有 84 個會議進入排名中。
SIGMOD: ACM SIGMOD Conf on Management of Data (0.99)
VLDB: Very Large Data Bases (0.99)
KDD: Knowledge Discovery and Data Mining (0.97)
ICDE: Intl Conf on Data Engineering (0.97)
ICDT: Intl Conf on Database Theory (0.94)
SIGIR: ACM SIGIR Conf on Information Retrieval (0.94)
PODS: ACM SIGMOD Conf on Principles of DB Systems (0.94)
WWW: World-Wide Web Conference (0.92)
FODO: Intl Conf on Foundation on Data Organization (0.92)
ER: Intl Conf on Conceptual Modeling (ER)
(0.91)
CIKM: Intl. Conf on Information and Knowledge Management (0.90)
DOOD: Deductive and Object-Oriented Databases (0.90)
DEXA: Database and Expert System Applications (0.90)
SSDBM: Intl Conf on Scientific and Statistical DB Mgmt (0.90)
COMAD: Intl Conf on Management of Data (0.90)
EDBT: Extending DB Technology (0.90)
VDB: Visual Database Systems (0.88)
SSD: Intl Symp on Large Spatial Databases (0.88)
CoopIS: Conference on Cooperative Information Systems (0.87)
IFIP-DS: IFIP-DS Conference (0.86)
DaWaK: Data Warehousing and Knowledge Discovery (0.86)
ADTI: Intl Symp on Advanced DB Technologies and Integration (0.86)
NGDB: Intl Symp on Next Generation DB Systems and Apps (0.83)
MDM: Int. Conf. on Mobile Data Access/Management (MDA/MDM)
(0.83)
ARTDB: Active and Real-Time Database Systems (0.83)
SAM: Intl Conference on Security and Management (0.83)
CODAS: Intl Symp on Cooperative DB Systems for Adv Apps (0.83)
IFIP-DBSEC: IFIP Workshop on Database Security (0.83)
EFIS/EFDBS: Engineering Federated Information (Database)
Systems (0.83)
IDEAS: International Database Engineering and Application Symposium (0.82)
USITS: USENIX Symposium on Internet Technologies and Systems (0.82)
KRDB: Knowledge Representation Meets Databases (0.82)
ADBIS: Symposium on Advances in DB and Information Systems (0.81)
DBPL: Workshop on Database Programming Languages (0.80)
ICOMP: International Conference on Internet Computing (0.80)
NDB: National Database Conference (China)
(0.79)
IKE: Intl Conference on Information and Knowledge Engineering (0.79)
NLDB: Applications of Natural Language to Data Bases (0.79)
FQAS: Flexible Query-Answering Systems (0.79)
DMIN: Intl Conference on Data Mining (0.79)
DASFAA: Database Systems for Advanced Applications (0.79)
IDC(W): International Database Conference (HK CS)
(0.79)
NRDM: Workshop on Network-Related Data Management (0.78)
RTDB: Workshop on Real-Time Databases (0.78)
BNCOD: British National Conference on Databases (0.76)
WebDB: International Workshop on the Web and Databases (0.76)
MEWS: Mining for Enhanced Web Search (0.76)
DASWIS: Data Semantics in Web Information Systems (0.76)
DMDW: Design and Management of Data Warehouses (0.76)
OODBS: Workshop on Object-Oriented Database Systems (0.76)
ADC: Australasian Database Conference (0.75)
USENIX Security: USENIX Security Symposium (0.75)
PDIS: Parallel and Distributed Information Systems (0.75)
WCW: Web Caching Workshop (0.75)
DOLAP: International Workshop on Data Warehousing and OLAP (0.75)
WECWIS: Workshop on Advanced Issues of E-Commerce and Web Based Information Systems (0.74)
ICDM: IEEE International Conference on Data Mining (0.73)
KDEX: Knowledge and Data Engineering Exchange Workshop (0.72)
MobiDE: Workshop on Data Engineering for Wireless and Mobile Access (0.71)
MDDS: Mobility in Databases and Distributed Systems (0.71)
TAKMA: Theory and Applications of Knowledge Management (0.71)
WIDM: International Workshop on Web Information and Data Management (0.70)
DMKD: Workshop on Research Issues in Data Mining and Knowledge Discovery (0.69)
WAIM: International Conference on Web Age Information Management (0.69)
CDB: Constraint Databases and Applications (0.69)
SWWS: Semantic Web and Web Services (0.69)
DTVE: Workshop on Database Technology for Virtual Enterprises (0.69)
IWDOM: International Workshop on Distributed Object Management (0.69)
PAKDDM: Practical App of Knowledge Discovery and Data Mining (0.65)
ADMA: Advanced Data Mining and Applications (0.65)
PAKDD: Pacific-Asia Conf on Know. Discovery and Data Mining (0.64)
W4A: Workshop on Web Accessibility (0.63)
DATESO: Databases, Texts, Specifications, Objects (0.62)
K-CAP: International Conference on Knowledge Capture (0.62)
PKDD: Principles of Data Mining and Knowledge Discovery (0.62)
KDDMBD: Knowledge Discovery and Data Mining in Biological Databases Meeting (0.61)
KES: International Conference on Knowledge-Based Intelligent Information and Engineering Systems (0.61)
DBA: Databases and Applications (0.60)
DNIS: Databases in Networked Information Systems (0.59)
PAKM: Practical Aspects of Knowledge Management (0.57)
KDID: International Workshop on Knowledge Discovery in Inductive Databases (0.55)
SCN: International Conference on Security in Communication Networks (0.54)
KR: International Conference on Principles of Knowledge Representation and Reasoning (0.53)
SDM: SIAM Intl Conference on Data Mining (0.51)
Monday, March 17, 2008
愛需不說,文需無字
方才寫到密碼一文,不期想起去年寫的一篇文章,也是需大智慧方能通透的密碼,冷飯熱炒,供諸君朵頤。
話說『酒以不勸為歡,棋以不爭為勝,笛以無腔為適,琴以無弦為高,會以不期約為真率,客以不迎送為坦夷』,有人續貂了這麼幾句『文以無字為妙,情以不表為超,愛以不說為絕』。世間遂有了這麼一部小說:
2005 年4月, 當時任職於山西省地質勘探局宣傳部的作家胡文亮,發表了他所創作的無字小說,並且開價人民幣十四萬元懸賞破譯者,到了2006年,雖然其間有十來個人嘗試叩關「強作解人」,但是沒有一個人通過胡文亮的「標準」。
無字小說僅用十四個不同的標點符號創作而成,全篇內容是:
這部小說成為2005年中國最具影響的小說,胡文亮也跟在網路上製造話題的芙蓉姐姐、「超級女聲」冠軍李宇春,被列為2005年中國三大最具爭議人物。
但胡文亮說,無字小說是「一部纏綿悱惻的愛情小說」,不管社會上如何評論,他都不在乎,自己只所在乎新型文字標點語的推廣與普及。他還以「琴以無弦為高,文以無字為妙」形容自己不為名利的心境。
兩年後的今天,已經沒有人在意這篇小說的內容究竟是怎麼回事了,當初質疑、譴責、看笑話的人們也都充分享受了向人丟石頭的樂趣,我只是好奇,這位胡先生,現在究竟在作什麼?
(這可不是我瞎掰的故事,請看新華網的報導)
補充:
網路上有人試著解譯,究竟如何,諸君必有自己的判斷...
話說『酒以不勸為歡,棋以不爭為勝,笛以無腔為適,琴以無弦為高,會以不期約為真率,客以不迎送為坦夷』,有人續貂了這麼幾句『文以無字為妙,情以不表為超,愛以不說為絕』。世間遂有了這麼一部小說:
2005 年4月, 當時任職於山西省地質勘探局宣傳部的作家胡文亮,發表了他所創作的無字小說,並且開價人民幣十四萬元懸賞破譯者,到了2006年,雖然其間有十來個人嘗試叩關「強作解人」,但是沒有一個人通過胡文亮的「標準」。
無字小說僅用十四個不同的標點符號創作而成,全篇內容是:
:?:!「『...... 』」(、).《,》;--
這部小說成為2005年中國最具影響的小說,胡文亮也跟在網路上製造話題的芙蓉姐姐、「超級女聲」冠軍李宇春,被列為2005年中國三大最具爭議人物。
但胡文亮說,無字小說是「一部纏綿悱惻的愛情小說」,不管社會上如何評論,他都不在乎,自己只所在乎新型文字標點語的推廣與普及。他還以「琴以無弦為高,文以無字為妙」形容自己不為名利的心境。
兩年後的今天,已經沒有人在意這篇小說的內容究竟是怎麼回事了,當初質疑、譴責、看笑話的人們也都充分享受了向人丟石頭的樂趣,我只是好奇,這位胡先生,現在究竟在作什麼?
(這可不是我瞎掰的故事,請看新華網的報導)
補充:
網路上有人試著解譯,究竟如何,諸君必有自己的判斷...
[詩戀] 教改密碼
我一直以為聯合報三月九日的教改十四行裡面藏著密碼,但是把填充題做出來之後,怎麼也看不出來這些字之間有任何關聯。或許是我想得太多,或許是我不夠聰明,如果有人能解出謎題,請告訴我(們),謝謝!
(以下每行各有一個錯字,煩請挑出錯字,並將正確的答案寫在括弧內。)
(教)關於叫育
(未)國家胃來改革的目標
(主)在於煮體性的建立,以及
(基)雞本思維的確定
(貫)九年一罐的理想
(義)純然是異務教育的再昇華
(壓)升學鴨力的問題
(稍)在燒後便可以大幅改善
(第)台灣帝一
(歲)自由萬碎
(鍵)人民認同的關賤事項
(要)絕對是藥處理的優先事項
(斯)一切不容有撕毫的遲疑
(置)也不隨人事調整而擱痔
(以上題目,純屬虛構,如有雷同,絕非巧合。)
Sunday, March 16, 2008
「專注」是什麼?
Steve Jobs 接受 Fortune 雜誌訪問,對於何謂「專注」,有很精闢的解釋...
On Apple's Focus
On Apple's Focus
People think focus means saying yes to the thing you've got to focus on. But that's not what it means at all. It means saying no to the hundred other good ideas that there are. You have to pick carefully.flypig 的翻譯如下:
人們以為"專注"的意思就是對你必須關注的事情點頭稱是。這並不是"專注"的全部內涵。"專注"意味著必須對另外 100 個好點子說不。你必須謹小慎微地做出選擇。
Friday, March 14, 2008
[Video] Future Now: 在 1984 預測未來
Nicholas Negroponte (尼葛洛龐帝) 是麻省理工學院媒體實驗室的創辦人,也是 OLPC ( One Laptop per Child)專案的推手,還是暢銷書數位革命(Being Digital)的作者,而且他還是 Wired 雜誌最早的投資者之一 。
除此之外,他還是一個很好的 presenter ,他不僅對於數位化的未來有其獨到的洞見,更知道如何將想法呈現給大眾,說服閱聽眾。
Presentation Zen 介紹 Nicholas Negroponte 在1984 年的一場演講,那是還沒有 PowerPoint 的年代,沒有滿天飛的子彈(bullets),演講者本身的基本功很重要。更重要的是,他在演講中做的預測,命中率很高喔。
除此之外,他還是一個很好的 presenter ,他不僅對於數位化的未來有其獨到的洞見,更知道如何將想法呈現給大眾,說服閱聽眾。
Presentation Zen 介紹 Nicholas Negroponte 在1984 年的一場演講,那是還沒有 PowerPoint 的年代,沒有滿天飛的子彈(bullets),演講者本身的基本功很重要。更重要的是,他在演講中做的預測,命中率很高喔。
Call for Recommender Start-ups
繼 Neflix Prize 之後,推薦系統開發者又有一個新的競技場, MyStrands 公司舉辦 Strands $100,000 Call for Recommender Start-ups 活動,提供十萬美金給使用推薦系統技術的創業團隊(Start-Ups)。
獎金的精神不在於特定技術的比武較技,而是鼓勵參加評比團隊,充分開發推薦系統在各領域的應用與創新,換句話說,活動的目的是 identify the best early stage project in the area of recommendation technologies。參加競賽的團隊在送出文件後,主辦單位將從下面五個面向來評比團隊的成績。
MyStrands 是一家開發 social recommendation 技術的公司,依照 MyStrands 自己的說法, MyStrands technology is based on human-generated links between items (songs, videos, products, etc) much the way Google uses human-generated links between web-pages。若想進一步瞭解 social recommendation ,請參閱 拙作[推薦系統的分類](推薦系統的分類)或是ReadWrteWeb 的 The Art, Science and Business of Recommendation Engines 。
MyStrands 是一家很有野心的公司,雖然他們募款(fund raising)的成果還不錯,但在市場上的地位,仍然及不上 Amazon 或是 Netflix 這樣的 (well-established) big guns 。透過這個活動,隱然有把自身地位向上提昇一個層級的意味。
ReadWriteWeb 的作者群都很看重 Recommendation Engines 在未來(請參考 Web Technology Trends for 2008 and Beyond )網際網路的重要性,相關議題的討論和追蹤都很深入。針對這個獎金賽,Richard MacManus 的 MyStrands Offers $100k for Best Recommender Start-up,對於 MyStrands 的背景、獎金賽背後的操作以及 MyStrands 參與學術活動的情況,有很清楚的分析說明,值得一讀。
延伸閱讀:
獎金的精神不在於特定技術的比武較技,而是鼓勵參加評比團隊,充分開發推薦系統在各領域的應用與創新,換句話說,活動的目的是 identify the best early stage project in the area of recommendation technologies。參加競賽的團隊在送出文件後,主辦單位將從下面五個面向來評比團隊的成績。
- Implementation and integration of recommendation technologies
- Originality and creativity
- Likelihood of long-term success and scalability
- Effectiveness in addressing a need in the marketplace
- Team bios.
MyStrands 是一家開發 social recommendation 技術的公司,依照 MyStrands 自己的說法, MyStrands technology is based on human-generated links between items (songs, videos, products, etc) much the way Google uses human-generated links between web-pages。若想進一步瞭解 social recommendation ,請參閱 拙作[推薦系統的分類](推薦系統的分類)或是ReadWrteWeb 的 The Art, Science and Business of Recommendation Engines 。
MyStrands 是一家很有野心的公司,雖然他們募款(fund raising)的成果還不錯,但在市場上的地位,仍然及不上 Amazon 或是 Netflix 這樣的 (well-established) big guns 。透過這個活動,隱然有把自身地位向上提昇一個層級的意味。
ReadWriteWeb 的作者群都很看重 Recommendation Engines 在未來(請參考 Web Technology Trends for 2008 and Beyond )網際網路的重要性,相關議題的討論和追蹤都很深入。針對這個獎金賽,Richard MacManus 的 MyStrands Offers $100k for Best Recommender Start-up,對於 MyStrands 的背景、獎金賽背後的操作以及 MyStrands 參與學術活動的情況,有很清楚的分析說明,值得一讀。
延伸閱讀:
- Rethinking Recommendation Engines
- 10 Recommended Recommendation Engines (MyStrands 在名單中的第一位)
Wednesday, March 12, 2008
又是「作人的道理」
Daniel Lemire 教授的部落格是我每天必看的部落格之一,在學術界裡,他可算是擁抱網際網路科技與工具的 early adopter 。他的部落格不僅談他的研究主題:資料挖掘(Data Mining)與推薦系統(Recommender),也會分享他在研究工作中體會的 tips and tricks ,讀起來很有趣,一點都不像學術性文章那麼枯燥(grin)。
他常接到來自世界各地研究生的信件,向他請益或是尋求其他方面的協助,前兩天他寫了一篇 What you can ask of a researcher in an email,文中列出他認為向學者求助(求教)的信件應當有的分寸。他認為不應在信件中提的要求,包括下面幾項:
可是,大家都明白這個道理嗎?如果是的話,便不會有這兩篇文章吧...
他常接到來自世界各地研究生的信件,向他請益或是尋求其他方面的協助,前兩天他寫了一篇 What you can ask of a researcher in an email,文中列出他認為向學者求助(求教)的信件應當有的分寸。他認為不應在信件中提的要求,包括下面幾項:
- This friend of yours has written a paper, can I get a copy?
- Can I get an implementation of this standard algorithm?
- I don’t understand this standard algorithm, can you explain it to me?
- I need to adapt your algorithm to my own problem, can you do it?
- It is urgent, I need you to… (Hint: if it is urgent, don’t email a stranger about it.)
可是,大家都明白這個道理嗎?如果是的話,便不會有這兩篇文章吧...
Saturday, March 8, 2008
天那麼黑,風那麼大
在網路上衝浪(surfing)的時候,發現舊日國語課本剪影,想起「天那麼黑,風那麼大」的那個年代,還有站在小溪邊看魚兒奮力往上流游的偉人,不禁莞爾。
網路上有人把「爸爸捕魚去」的課文默寫出來,據說過去三十年間課文內容曾經有過少許異動,我已經不記得當初我唸得是那個版本,下面的版本據說是較早的文字,和我生長年代的氛圍比較接近。
記憶是靠不住的,所以不必細究,就當是這個版本吧。
有網友抓了一些令人懷念的圖片,有興趣的人自己去挖寶吧....
網路上有人把「爸爸捕魚去」的課文默寫出來,據說過去三十年間課文內容曾經有過少許異動,我已經不記得當初我唸得是那個版本,下面的版本據說是較早的文字,和我生長年代的氛圍比較接近。
記憶是靠不住的,所以不必細究,就當是這個版本吧。
天這麼黑 風這麼大 爸爸捕魚去
為什麼還不回家
聽狂風怒吼 真叫我害怕
爸呀 爸呀
只要你平安回家
就算是空船也罷
我的好孩子
爸爸回來了
滿船魚和蝦
你看有多少
賣了魚蝦買米布
全家大小得溫飽
爸爸不怕累
只要你們好
為什麼還不回家
聽狂風怒吼 真叫我害怕
爸呀 爸呀
只要你平安回家
就算是空船也罷
我的好孩子
爸爸回來了
滿船魚和蝦
你看有多少
賣了魚蝦買米布
全家大小得溫飽
爸爸不怕累
只要你們好
有網友抓了一些令人懷念的圖片,有興趣的人自己去挖寶吧....
Friday, March 7, 2008
[Video] 迷人的 Paperworks
Common Craft 是由兩個西雅圖的年輕人組成的公司,他們用白板加上剪紙造型的表現手法拍攝的短片,總是令人眼睛一亮。他們稱呼這樣的表現手法,叫做 Paperworks 。
他們拍攝的 Plain English 系列短片,以 Paperworks 製作風格,加上淺白易懂的英語口白,介紹資訊科技的新知,非常討好,筆者之前曾介紹過的 What is a Blog 就是這系列作品其中之一。
下面的影片是 Common Craft 為 Google Maps 的 My Location 功能做的介紹短片,喜愛他們風格的讀者,請到 CommonCraft 公司網站欣賞他們接受客戶委託的作品,或者上 YouTube 或者 Blip.tv 搜尋他們的作品。
他們拍攝的 Plain English 系列短片,以 Paperworks 製作風格,加上淺白易懂的英語口白,介紹資訊科技的新知,非常討好,筆者之前曾介紹過的 What is a Blog 就是這系列作品其中之一。
下面的影片是 Common Craft 為 Google Maps 的 My Location 功能做的介紹短片,喜愛他們風格的讀者,請到 CommonCraft 公司網站欣賞他們接受客戶委託的作品,或者上 YouTube 或者 Blip.tv 搜尋他們的作品。
It's all about "Sorting out demand"
2月底,Wired 雜誌報導一位神秘的 Netflix Prize 參賽者"Just a guy in a garage"的個人專訪,及令人驚訝的技術策略。
Just a guy 是一位退休的管理顧問 - Gavin Potter,有別於大部分參賽者所採取的策略(傳統的資訊科學或統計方式的技術策略可參考筆者寫的2007年度獎金得主 BellKor 的技術說明),他以 behavioral economics 的理論為基礎,佐以產業界經驗為輔,去年十一月參加比賽後,只花了一個月就衝到前十名,目前(2008/03/07)排行第八。
Wired 雜誌挖掘出 Just a guy 的身份,比較分析大部份參賽者策略與 Gavin Potter 方案的不同之處,並且指出一個令人期待的方向:心理學家與資訊科技工作者共同合作開發推薦系統。
Gavin Potter 在接受訪問時說 "The 20th century was about sorting out supply, The 21st is going to be about sorting out demand." 而 Wired 雜誌編輯「畫龍點睛」地為這句話下了註腳:- The Internet makes everything available, but mere availbility is meaningless if the products remain unknown to potential buyers。
文章很長,不方便摘譯,請到 Wired 網站閱讀原文 - This Psychologist Might Outsmart the Math Brains Competing for the Netflix Prize。
Just a guy 是一位退休的管理顧問 - Gavin Potter,有別於大部分參賽者所採取的策略(傳統的資訊科學或統計方式的技術策略可參考筆者寫的2007年度獎金得主 BellKor 的技術說明),他以 behavioral economics 的理論為基礎,佐以產業界經驗為輔,去年十一月參加比賽後,只花了一個月就衝到前十名,目前(2008/03/07)排行第八。
Wired 雜誌挖掘出 Just a guy 的身份,比較分析大部份參賽者策略與 Gavin Potter 方案的不同之處,並且指出一個令人期待的方向:心理學家與資訊科技工作者共同合作開發推薦系統。
Gavin Potter 在接受訪問時說 "The 20th century was about sorting out supply, The 21st is going to be about sorting out demand." 而 Wired 雜誌編輯「畫龍點睛」地為這句話下了註腳:- The Internet makes everything available, but mere availbility is meaningless if the products remain unknown to potential buyers。
文章很長,不方便摘譯,請到 Wired 網站閱讀原文 - This Psychologist Might Outsmart the Math Brains Competing for the Netflix Prize。
Wednesday, March 5, 2008
[Video] Understanding Contemporary China
了解現代中國,應該是華人文化圈的重要課題,可惜在台灣,真相的追求,多半被選擇顏色站隊的口水掩蓋,很難得聽到、看到由台灣本土發起有意義的對話與分享,常要從台灣之外的資源,去爬梳整理一些東西。
何毓琦教授在他的博客介紹哈佛大學歷史系教授 William C. Kirby 的演講"瞭解現代中國",值得仔細聆聽,聽聽研究中國史的「外國人」對中國的理解,順便練練英文聽力。Kirby 教授的中文也不錯,當他用標準的普通話說出「具有中國特色的社會主義」和「我們有五千年歷史」(捲舌音也發得很準)時,場面蠻有意思的。
何毓琦教授在他的博客上整理了這次演講的大綱,與視訊共同參照,對於掌握演講內容有些幫助。
(小小抱怨,影片前五分鐘的介紹有點無聊,直到五分三十六秒,演講主角才登場)
何毓琦教授在他的博客介紹哈佛大學歷史系教授 William C. Kirby 的演講"瞭解現代中國",值得仔細聆聽,聽聽研究中國史的「外國人」對中國的理解,順便練練英文聽力。Kirby 教授的中文也不錯,當他用標準的普通話說出「具有中國特色的社會主義」和「我們有五千年歷史」(捲舌音也發得很準)時,場面蠻有意思的。
何毓琦教授在他的博客上整理了這次演講的大綱,與視訊共同參照,對於掌握演講內容有些幫助。
(小小抱怨,影片前五分鐘的介紹有點無聊,直到五分三十六秒,演講主角才登場)
Monday, March 3, 2008
人力有時而窮,推薦系統呢?
人力有時而窮,人撰寫的電腦程式當然更不可能完美無缺,人的缺陷與不足一目了然,但是當程式犯錯的時候,有時真的很難解釋。
Computational Complexity 的作者之一 Lance Fortnow 說他被號稱推薦系統模範生的 Amazon 打敗了,在購買數片歌劇 DVD 之後,Amazon 向 Lance 推薦 "Male Perception"(這是本強調男性肢體美的攝影作品集)。
和 Lance 一起撰寫Computational Complexity 的 Bill Gasarch 請教許多「業內」人士後,得到三個可能的答案,但是除非亞馬遜自己揭開謎底,猜測終歸是猜測而已。
推薦系統當然不是完美的,因為這就是人生。
Computational Complexity 的作者之一 Lance Fortnow 說他被號稱推薦系統模範生的 Amazon 打敗了,在購買數片歌劇 DVD 之後,Amazon 向 Lance 推薦 "Male Perception"(這是本強調男性肢體美的攝影作品集)。
和 Lance 一起撰寫Computational Complexity 的 Bill Gasarch 請教許多「業內」人士後,得到三個可能的答案,但是除非亞馬遜自己揭開謎底,猜測終歸是猜測而已。
推薦系統當然不是完美的,因為這就是人生。
Saturday, March 1, 2008
閱讀的方法,作人的道理
Michael Nielsen 最近談到閱讀有兩種方式,一種是從文字中找出垃圾,然後予以譴責;第二種則是從文字中找出金子,然後讓金子發光。
There are two ways to approach the reading of a piece of writing (or, indeed, an idea presented in any form). One way is to take your intellectual firepower and use it to locate the dirt in the piece, all the errors and mistaken assumptions. The second way is to try with all your might to locate the hidden nuggets of gold, the new insights, and, once those insights are located, to extract and purify them as best you can.聰明的你,是那一種讀者?
Subscribe to:
Posts (Atom)
如果我的心是一朵蓮花
~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...
-
我向來不是很關注 Conference 的訊息,但是這學期開學後,一個月內接連聽到好幾個老師談他們對學術會議「 價值 」的看法,促使我反省原先的態度,所以這幾天作了一點功課。我發現下面三個 Conference Ranking 的列表頗有參考價值,抄錄於後,一則是備忘,再則分享給...
-
這是很多年前的舊文了,最近有些網友找到這篇文章,於是有了一些很有意思的對話,我記錄在下面兩篇文章,如果您有興趣,也歡迎看看這些簡短的記錄,批評指教。謝謝。 如何評估推薦系統(二) 記一次推薦系統對話 ----- 任何工作,包括學術研究與商業專案,都必須有衡量成績...
-
最近,有個朋友接了個不大不小( 不是 quick and dirty 的小案,但也不是可以讓供應商穿金戴銀的數字,所以叫做不大不小 )的系統開發案,甲、乙雙方為了文件交付標準,起了不小的爭執。經過協調,最後兩方都同意不用 CMMI 的標準(天曉得什麼是 CMMI 文件標準),改用...