Tuesday, April 26, 2011

Retrospect: Who's talking the Future of News

 一位數位移民的告白前言裡面提到作者 Nick Bilton 在 2009 年接受 Wired 網站訪問,談新聞的未來,竟因為訪問中提到他不再看以紙張印出的報紙(In fact, he doesn't even get the Sunday paper delivered to his house.),但是未來新聞或透過各種不同的方式、設備、媒介,不再局限於報「紙」這種媒介,這將給新聞產業和讀者一個更好的世界。

訪問刊出之後,雖然訪問中除了提到他不再看紙張印刷的報紙外,通篇稿子都是 Nick 對未來充滿信心的正面的訊息,作者仍然飽受同事和長官的抨擊和批評。有圖有真相,禍首就是下面這篇刊在Epiccenter專欄的稿子。



後記:

Wednesday, April 20, 2011

[Video] I do believe we shall overcome someday

一向很喜歡 Joan Baez 唱的 We Shall Overcome,睡前讀 @soundfury 寫的時代的噪音 Pete Seeger 章,才真正明白這首歌的意義和背後充滿血與淚的故事。睡前反覆聽這首歌不同的版本,心裡不停提醒自己,不要氣餒,比起前人的血淚,我遇到的困難算什麼,I do believe I shall overcome!


Pete Seeger - We shall overcome






Joan Baez - We shall overcome



Monday, April 18, 2011

[Video] MySQL's Happy Place ?

Twitter 的 DBA Lead Jeremy Cole 在 O'Reilly MySQL CE 2011 的演講《 Big and Small Data at @Twitter》很有意思,值得一看。9 分 41 秒開始解釋 MySQL 好在什麼地方,13分03秒談 MySQL 不擅長的應用場合,還有從 13 分半起談到 MySQL 的適用範圍(Happy Place)的部份,尤其讓在 PostgreSQL 和  MySQL 間左右為難的筆者眼睛一亮

配合視訊,Roland Bouman 做的整理很不錯,值得參考:

Sunday, April 17, 2011

NewSQL 是什麼?

在IT產業裏,每天總有翻新的Acronym(首字母縮略語)出現,不管是新瓶舊酒還是橫空出世,似乎只要每出現一個新詞,總能炒出新的話題和市場機會。在資料庫產業,繼爭議不斷的 NoSQL 之後,現在又出現了 NewSQL

The 451Group 的分析師 Matthew Aslett 在網誌文章中發明了新詞 NewSQL, 在 Matthew Aslett 筆下,NewSQL 不是結構性查詢語言的本身的變革,而是代表一些致力追求高縮放性及性能的資料庫廠商,這些廠商各自選擇不同的技術策略及社羣合作方式來達成目標。同時他還特別強調大家不要拘泥於字面的意義 - NewSQL is not to be taken too literally - NewSQL 指的是供應商(NewSQL is used to describe a loosely-affiliated group of companies),不是語言本身。

在4月6日的文章中,作者列出了他心目中屬於 NewSQL 陣營的廠商名單:
In the first group we would include (in no particular order) ClustrixGenieDBScalArc,SchoonerVoltDBRethinkDBScaleDB, Akiban, CodeFuturesScaleBaseTranslattice, andNimbusDB, as well as Drizzle, MySQL Cluster with NDB, and MySQL with HandlerSocket. The latter group includes Tokutek and JustOne DB. The associated “NewSQL-as-a-service” category includes Amazon Relational Database Service, Microsoft SQL AzureXeround, Database.com and FathomDB.

一週後,作者再度撰文解釋 NoSQL, NewSQL 爲什麼是關聯式資料庫的未來,同時他一語雙關的用 SPRAINed 來形容 RDBMS 的現況,和未來。



SPRAIN 分別是下列六個驅動力量的縮寫,不論是巧合還是精心打磨,確實是很具巧思的文字手法:

  • Scalability – hardware economics
  • Performance – MySQL limitations
  • Relaxed consistency – CAP theorem
  • Agility – polyglot persistence
  • Intricacy – big data, total data
  • Necessity – open source

RWW 和 High Scalability 對這個話題都做了報導,High Scalability 的 The NewSQL Market Breakdown 把 NewSQL 陣營中的廠商切割爲 New MySQL storage engines、 New databases 和 Transparent Sharding 三大類,各類別適合不同的應用需要,而不是一攬子全放在一起相提並論,倒是比 RWW  僅對原文摘要的簡略報導深入又易懂。

Sunday, April 10, 2011

失之毫釐是不是謬以千里

在西班牙電信公司 Telefonica 研究院 工作的學者 Xavier Amatriain,前幾天在網誌上發表了一篇文章 Recommender Systems: We're doing it (all) wrong ,談到研究推薦系統的學者和開發者,在使用數據時,務必要注意數據的性質。

很多人使用 Likert Scale 做評分(Ratings)的量表基礎,比如說像「非常不喜歡、喜歡、無所謂、不喜歡、非常不喜歡」這樣的評分表就極爲常見,但是 Xavier 提醒我們 Likert Scale 的數據是 ordinal data ,這種數據僅僅表達次序關係,但是兩兩評分之間未必是 equidistant 的。若用這樣的數據計算距離(計算距離是相似性的基礎),其結果可能是失真的,循此邏輯推演下去,計算推薦系統準確率的指標 RMSE 的意義也可能失準。

從數學的角度來看,誤用定義當然是極爲嚴重的基本功的失誤,但是若從實務上考量,把 Likert 式評分當做 internal data,對推薦系統的成果究竟影響又多大,實在不好說 。不過,看來在這一點上不察,誤把馮京當馬涼的研究人員和開發人員可能不少哦!

Xavier Amatriain 寫這篇文章,是受 Judy Robertson 在 Blog@ACM 上的文章 We're Doing It Wrong 所啓發。Judy 在文中提到 2010 ACM Conference on Human Factors in Computing Systems  有學者發表研究 前一年會議中發表論文《Powerful and consistent analysis of Likert-type rating scales 》,爬梳學者使用的數據和統計工具,發現驚人的事實,原文是這樣的:
Kaptein, Nass, & Markopoulos (2010) published a paper in CHI last year found that in the previous year's CHI proceedings, 45% of the papers reported on likert type data but only 8% used non-parametric stats to do the analysis. 95% reported on small sample sizes (under 50 people). This is statistically problematic even if it gets past reviewers!

使用 Likert Scale 作爲實驗分析方法的學者竟然約略達到五成,Judy 在文章下半部提出她對此現象原因的觀察和建議,我對統計是大外行,只能點頭諾諾。但最抓住我眼球的句子是“95% reports on small sample size”這句,產業界鮮少有人信服學界真能做出「有用」的東西,確實有點道理,怨不得人。


[參考資料]
Kaptein, M., Nass, C., Markopoulos, P. (2010) Powerful and consistent analysis of Likert-type rating scales. In Proceedings CHI 2010, ACM, New York, NY, 2391-2394. DOI= http://doi.acm.org/10.1145/1753326.1753686

拼搏在雲端,上面空氣好不好?

上週末 ReadWriteWeb 網站 雲端頻道介紹了 Horn Group 製作的一份雲端服務同溫層圖解。雲層依  Infrastructure as a Service、Platform as a Service 、Software as a Service 和 Communications and Social Applications 順序由下往上,每層雲中填滿了在這領域裡面耕耘廠商的名字的公司標誌(logo)。

若是依照 99 年 4月 29 日行政院第3193次院會通過經濟部提出的「雲端運算產業發展方案」,台灣上空應該是怎樣的圖像呢?


Saturday, April 9, 2011

[Video] Put Your Head On My Shoulder

我想說,什麼時候能換換角色,借個肩膀靠一下。

其實,若像歐陽永叔《浪淘沙》那樣把酒祝東風,且「共從容」,境界才叫人心怡哪,思考「明年知與誰同」就大可不必了。


Geeking and Murmuring

最近公司同事正在撰寫一份企劃書,部分章節需要一點「理論」支撐,讓觀點看來更有說服力,提及建議解決方案的章節,也需要找些學界的研究成果,作爲方案內容的基礎。毫不意外的,負責撰寫文件的同事,找到我這兒來尋求奧援,我沒怎麼考慮就答應幫忙。

四月初的長假裏,除了去聽迪倫伯在臺北的演唱會,就是打開瀏覽器,再次使用曾經每日相伴的 Google Scholar,尋找企劃書所需的相關文獻。重溫過去幾年每日例行不變的工作習慣,用不同的關鍵字反覆查找可能有用的文章,下載文章之後,快速的瀏覽摘要和論文的第一個章節,將文章加入 CiteULike 的書籤庫。曾經熟悉的節奏又回到心頭,唸書時候的種種壞習慣,也一一回到案頭,但是這陣子被諸多煩心事弄的起伏不定的心情,竟然意外的平靜下來;紛亂的思緒,也脈絡分明,條分縷析絲毫不爽。

把幾篇文章的導論和文獻回顧瀏覽過一遍,很快找出一個自己能掌握的脈絡,寫下幾點次日討論用的備忘記事,這過程是愉悅欣喜的。可惜,結束這個工作,回到現實,情緒又硬生生的落回原本惶然無奈的低檔。

突發奇想,邊收拾次日上班要用到的文件,邊思考著若是寫一篇《論 Google Scholar 和 CiteULike 可以安神》,不知要投到那個期刊,會不會被接受呢?

前些日子,看 Greg Linden 不定期發表的 Latest Reading 系列,既嘆服又嫉妒。月初假期裏的遭遇,讓我想到,東施效顰未必是個壞主意,倘若我寫個《Geeking and Murmuring》系列,強迫自己做更多的深層閱讀,或許對整理心情安神療傷大有俾益也未可知。

最近這段日子,身心都處於極糟的低潮狀態。原本以爲可以靠着自身免疫力熬過去的感冒愈發惡化,每每在講一小段話之後,連咳不止,直到胸痛頭暈仍欲罷不能。我明白,這症狀的源頭還是在心裏,心病心藥總心靈,問題還是在疲倦和失望,其實,寄望 Geeking and Murmuring 治病療傷其實一點也不可笑。

疲倦是因爲不自量力,以凡人肉軀硬扮內衣外穿的超人,將一個草莽階段的組織領往 well-established 境界的工作太多、太繁,精細處卻又微妙難言,領情識趣的同行之人不是太多。每每對朋友自我解嘲,每天早上九點帶上神采飛揚的面具,晚上八點變成沒有表情、沒有生氣的礦物。

肉體疲倦可以透過睡眠恢復,但是精神上的耗損卻沒有那麼容易恢復。過程中,自認為釋出對他人全心全意的善意和全無保留的信任,卻不知別人是如何解讀我這「自以爲是」的善意,過程裏益發看清自己的軟弱、不自量力和孟浪,如何能不讓自己心驚呢?我是對自己失望啊!

我想,撥點時間讓自己每隔一陣子回到熟悉的節奏,讓大腦拾回清明,是有必要的。傷春悲秋固然必要,情緒放縱之後,捻花看世情,繼續前行纔是王道啊!

Sunday, April 3, 2011

再次寫給未來的自己


很久以前就決定要在我和 Bob Dylan 都在這時空中消逝之前,聽一次他的現場演唱,今夜親聆大佬的歌聲,於我不僅是親歷一個時代標誌人物的(可能)最後風采,在安可歌聲中冥想,恰好也是反芻自己孟浪幼稚前半生,為自己的不自量力與明知其不可而為之做個註腳與見證的時機。

未來,我還是會繼續做各種愚不可及的蠢事,但那又怎樣,愚不可及又如何。太上忘情棄世,其下不及與言,在塵網中跌跌撞撞的,正是我輩這種假的聰明人。我心磊落,縱或浮沉顛倒,只要一顆本心還在,明天定然還看的到陽光。

今夜小巨蛋裡的聽眾比想像中少,平均年齡層卻又比想像中低,有趣的現像。雖然在場中曾經自責應該先做好功課再進場,但是,就算想事先做準備,預習這件事,對從不事先公布曲目,也不允許在現場放投影幕的 Dylan 伯是沒有用的。接近 100 分鐘的演出,含混不清的咬字和沁人心脾的口琴聲(真的好喜歡 Bob 吹的口琴)同樣令人顫慄,演唱到了五十分鐘之後,歌者和樂隊情緒益發的癲狂了。總之,不論媒體報導說些什麼,所謂專業樂評怎麼評價,我喜歡這個送給自己的禮物。

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...