Tuesday, April 29, 2008

互聯網女王的網際網路趨勢報告

昨天 TechCrunch 報導摩根史坦力(Morgan Stanley)三月份出版的網際網路趨勢報告內容,由號稱互聯網女王的 Mary Meeker 領軍的研究團隊聲稱,今日的網際網路是社群應用(social applications)的天下。

TechCrunch 找出同個團隊去年下半年出版的趨勢報告,指出研究團隊今年轉向社群應用的巨幅轉變。筆者索性把2006年的報告一併找出來,三年的報告一次看足(顯然是會頭昏的)。在深入報告內容之前,我唯一能確定的是報告越來越厚了。







(Disclaimer: 我知道這篇文章沒有牛肉,其實我只是要測試 SlideShare 的內嵌程式碼;坦白說,測試結果不太滿意, SlideShare 的程式碼似乎和 Windows Live Writer 八字不太合,不過直接用 blogger.com 的編輯器倒沒有什麼問題)


Share this post :

「冤家」 解

冤家兩字,既是情人,也是仇人,在中文裡這樣含意複雜的字眼,怕也不多。平日讀書,見冤家兩字,只莞爾以對,向來不求甚解。夜讀林以亮散文集更上一層樓,方知煙花記有所謂冤家六解:

情深意濃,彼此牽繫,寧有死耳,不懷異心,所謂冤家者一。

兩情相繫,阻隔萬端,心想魂飛,寢食俱廢,所謂冤家者二。

長亭短亭,臨歧分袂,黯然銷魂,悲泣良苦,所謂冤家者三。

山遙水遠,魚雁無憑,夢寐相思,柔腸寸斷,所謂冤家者四。

憐新棄舊,孤思負義,恨切惆悵,怨深刻骨,所謂冤家者五。

一生一死,角易悲傷,抱恨成疾,迨與俱逝,所謂冤家者六。

嗚呼噫吁,冤家今夜醉

 

Share this post :

Are you S.M.A.R.T enough?

The Key to success is being smart; it means having S.M.A.R.T goals.

前些日子,實驗室裡的小朋友們(以我的年紀稱呼他們小朋友,應該不算是佔便宜吧)接了個小案子,我出於善意幫他們把關,希望能對他們有所助益。

或許是因為沒有工作(真正的實戰)經驗,或許是因為大學期間沒有學到正確的軟工觀念,當我看到他們提出的完全抓不住重點的的工作計畫,不禁大為頭疼。於是我花了許多口舌,解釋什麼才是一個足以作為「溝通工具」的計畫,並舉了許多例子,希望能讓他們明白我所想傳達的訊息。但是從結果來看,我的「傳道說教」顯然是不成功的。

上週末整理以前工作時候的檔案和信件,找到一份 SMART 原則的教材,才猛然驚覺,我做了一件很不明智(smart)的舉動。花了偌多口舌,想要傳達的,無非就是這個 SMART 原則啊,用了那麼大力氣,白費口舌與光陰,竟然完全沒有想起我所講的東西,可以言簡意賅、精簡有力的說清楚、講明白。看來我的確不夠 SMART, GEEZE。

所謂的 SMART 原則,是制定計畫目標時,自我檢討的五項原則, SMART 分別是這五項檢驗原則的頭字母(initials),結合起來恰好組成 SMART 這個饒有寓意的單字。

歷來談 SMART 的書籍、網站很多,每個字母究竟代表那個單字有許多不同的版本。在眾多說法中, SMART = Specific 、Measurable 、Attainable、Realistic、Time-Based 是最常被引用傳述的版本,簡單的說,聰明的工作計畫必須要明確不模糊、有可衡量成敗的客觀標準目標是可達成的計畫必須務實而且有明確的截止期限

除了上面所述的主流說法外,ProjectSmart 整理了一份 SMART 的補充資料,將五個字母不同版本的說法整合在一起,有意思的是,這些單字完美的整合在一起,以互補的方式,將SMART 原則做了更精闢的闡述:

S - specific, significant, stretching

M - measurable, meaningful, motivational

A - agreed upon, attainable, achievable, acceptable, action-oriented

R - realistic, relevant, reasonable, rewarding, results-oriented

T - time-based, timely, tangible, trackable

總而言之,我犯了一個很不明智的錯誤,所以將聰明原則重述一遍,提醒自己,也希望讓閱者有所領會,這樣我才算是真的做了一件聰明的補償。

 

Share this post :

Monday, April 28, 2008

[FINAL] More Data or Better Algorithm?

筆者曾經在這個園地,談過許多次資料與演算法孰重的話題,用最精簡的文字說明這個問題應該是這樣的:當我們在執行資料探勘的工作時,究竟是大量的資料還是先進的演算法,對於專案的結果比較有幫助

在先前的討論裡,筆者曾表達敝人認為資料(數據)與演算法不應放在同一個天平比較的看法,然後我們看到 Anand Rajaraman 以他在史丹佛大學教授資料挖掘課程的經驗,他讓學生用 Netflix Prize 的資料作實驗,得到 More data usually beats better algorithms 的結論,令人印象相當深刻。所以筆者大膽的說,答案已經很清楚啦。

無獨有偶,KDNuggetsWho is KDNuggets??)今年四月份也辦了一次資料與演算法孰重的問卷調查,百分之四十五受訪者認為數據比較重要,但只有百分之二十的受訪者認為演算法比較重要(請參考下圖)。

KDNuggets 的總編輯Gregory Piatetsky-Shapiro 在下結論時說,這個問卷調查結果,與他心中所想的一樣 (當然也和筆者先前所作的結論完全相同 ))。

45% voted for more data, while 20% for a more advanced algorithm, confirming my rule of thumb:

More data (especially more relevant features) produces larger improvement than a more advanced algorithm,
  (especially in the initial stages of the project)

Of course, as with all such general sayings, a lot depends on specifics:

我想,這個問題既然已經有這麼整齊一致的共識,我們就此告一段落,去探討其他問題吧。下面是筆者在探討問題過程中,曾經閱讀過的資料,謹誌於後,供有意進一步深入者參考之用。

參考資料:

 

Share this post :

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...