Thursday, August 30, 2007

放慢腳步

最近寫文章的速度顯然慢了許多,不是倦怠,也不是找不到下筆的題材,而是正在思索做一個重要的改變 ─ 這個園地,使用獨立的域名(domain name)

雖然 Blogger.com 提供綁定私人域名的服務,設定方式很簡單 (在管理選單 Settings>>Publishing>>Custom Domain 項目下設定即可),但是我考慮的不只是換個域名而已,我思考的重點在於 blogging 平台的轉換和內容的整理:

有位朋友力薦我將平台轉換到 Wordpress ,而且提供了許多例子讓我參考,在做了一些功課後,我不得不承認,這個建議相當誘人。Wordpress 是個完整的平台,而且有眾多插件(plugins)提供各種想得到、想不到的功能;而且網路上可以找到的版型,比 blogger.com 圈子裡流行的版型普遍要漂亮多了(grin)。

不過真的要動手轉換平台,還是有點忐忑,我深知自己的毛病,一旦陷入「把玩新玩具」症候群,可能整天就花在試 plugin ,改 code 上,而忘了正事。這是我不敢「立刻」採取行動的原因,希望經過一陣時間的冷靜之後,可以找到最「平衡」的解決之道。

Don't get me wrong, 我沒有說明天就要「轉台」,我只是要表達,Wordpress 此刻和我花了不少心血的 Neo 都是選項之一罷了。

平台選定,真的換了域名之後,立即可見的浩大工程,就是逐一修改文章裡的超連結,指向新的、正確的位置。真正的大挑戰才要開始,這個大麻煩,就是文章的分類和整理

修訂內文的連結之後,很自然的會問,文章內容要不要順便修一修,如果有更新、更好的補充資料,要不要將原本使用的參考資料換掉?修改內容時,超連結的說明(title="xxx" 的標籤)要不要改善、充實?或者全部保持原樣,留下歲月的見證?

修改本文內容的原則決定了,還有一個麻煩等著哪!

剛開始動手寫東西的時候,參酌許多前輩們的經驗,將比較偏重私領域的東西,拆出去到另外一個部落格,但是這個決定讓我吃了不少苦頭。因為覺得兩邊調性不同,所以用了不同的版型,但是因為要維護兩個不同版型,在修改設定時,弄得一塌糊塗,常常忘了自己在改什麼,所以才會把不該刪除的東西,殺得一乾二淨(sigh)。

在這次做功課的過程中,發現國外有些高手(比如說 Alex King),充分運用 Wordpress 平台的功能,將部落格打造成個人的內容管理入口,不同屬性的文章,使用不同的 page 來管理,不需要拆成兩個網站,徒然造成管理和寫作的困擾。老實說,這個概念,也蠻吸引我的。

如果要改域名,我希望這次改變,能找到一個「平衡」的解決之道,讓日子好過一點。而且可能需要一點「實驗」的時間,看看這個改變是不是真的能讓我滿意。所以在做決定之前,這段時間,我覺得自己該放慢腳步,把這些因素都想清楚。

就像我在做了一件蠢事裡說的,有一天,我真的會做個改變,而且我是認真的在思考這件事,這篇東西,就是「我在考慮什麼的」說明。

除了說明我的思考方向之外,寫這篇文章,也有一點點解釋的意味。雖然這個部落格才剛剛開始,我想寫的主題也才剛有比較明確的規劃想法,知道這個園地的讀者也不是很多,但是從 FeedBurner 的數據來看,這個園地還是有人在關注的。所以順便用這篇短文向諸君解釋我放慢腳步的緣由。

如果正在看這篇文章的你(妳)有任何建議,歡迎留言指教。如果(又一個如果)你聽過「那一夜,我們說相聲」,必然不會責備我的衰弱,我是祈求你(妳)的指教和建議,不是 applaud....

好吧,我知道這個笑話不好笑...


Friday, August 24, 2007

Blog It and They May Come

前天寫了一篇文章,談到我對於我的部落格印鈔機這本書的不滿,從內容到書名,我都深深不以為然。

也許是巧合吧,在逛書籤網站的時候,看到了 Wall Street Journal 在八月二十日的一篇文章 ─ Blog It and They May Come。畢竟是大報的編輯,玩文字遊戲,玩得頗有水準。如果印鈔機這本書的編輯,用這樣的標題為書本做廣告,說不定我的不快會少一點吧 (懷疑的苦笑)。

據筆者所知,Blog It and They May Come 應是套用 1989 年出品的電影 Field of Dreams (台灣翻譯為夢幻成真或者夢田)裡很重要的一句話 "If you build it, he will come"。

《夢幻成真》是一部有點奇幻味道的電影,講的是一個農夫(凱文科斯納飾演的 Ray Kinsella)接手父親留下來的農田後,他在田裡聽見了「聲音」,指示他一步一步建立起了一塊讓夢想實現的田地,建了一座棒球場。凱文科斯納在決定去做這件瘋狂的事之前,他告訴老婆艾美麥狄根,之所以想去做,是因為不想和自己的父親一樣,一輩子中規中矩沒有做過任何大膽去追尋夢想的舉動。

他的父親生前對於因為黑襪事件而終生不能再參賽的八位職業棒球員的遭遇耿耿於懷,一直到這些球員過世,他自己也離開人間,一直是他心頭未解的結。 Ray Kinsella 一直聽到一句低語(whisper),說 "If you build it, he will come"。這句話變成他的信念和動力的來源,後來他把球場建起來,而且真的和 Sholess Joe 的鬼魂取得聯繫,和他在球場裡打了一場球賽。最後,八個孤獨的靈魂終於在球場上快快樂樂的打了一場球。

對於這部電影有興趣的人,可以在維基IMDB 查到這部片的資料,有詳細的劇情、導演、演員的介紹,這篇文章的目的不是影評,所以容我借用火行者的電影部落格裡的介紹,來總結這部電影的美麗之處:

《夢幻成真》真正在講的,是許多曾失去夢想、曾和夢想擦身而過的人,留下的遺憾。凱文科斯納建立起這一個球場,讓他們有機會重來一次,然而,這些球員都是已故之人,這些夢想,都是已過之雲煙,在這過程中,凱文科斯納藉著這一切,面對了他生命中自己從不承認的最大遺憾,和父親的關係。

.......

最後,凱文科斯納也得以和自己最大的遺憾面對面。他聽見的這「聲音」,是上天的聲音?是 Shoeless Joe 的聲音?還是他自己的心聲?回頭看看在門廊陪玩耍的女兒和陪她的老婆,他說,也許這就是天堂。
有人說這是一部教人珍惜的電影,也有人說這部片是教人要追夢。但是不論你怎麼看這部片,從那部片子之後,"If you build it, he will come",成了美國媒體常引用、延伸的典故。我印象裡好幾個 IT 界下筆犀利的專欄作家,就常用這句話來奚落那些他們認為不會成功的點子 - You build it, and they willl NOT come。

至於印鈔機這本書,如果真的用這種有美國味的宣傳手法,可能要花許多力氣解釋什麼是 Field of Dreams ,為什麼 shoeless joe 會呼應你的呼喚,然後大家一起圓夢。想到這些,我想到的是不知所云的行銷和悲慘的銷路,看來這還真是個餿主意呵!

IMDB 資料庫裡,介紹夢幻成真的 tagline 是這樣的

All his life, Ray Kinsella was searching for his dreams. Then one day, his dreams came looking for him.If you believe the impossible, the incredible can come true.

這麼美的故事,還是留給我們自己欣賞,不要和印鈔機一起攪和,破壞了我們的心境。


Tuesday, August 21, 2007

我的部落格閱讀清單

原本這篇文章是發表在 My Other Place 的,那邊的調子比較隨意,所以多了些情緒性的字眼,今天中午,把裡面需要求證資料出處的地方補上,改了一點點文字,重新發在這邊。

當如果遇上部落格

當如果遇上部落格的圖像書名:當如果遇上部落格
ISBN-10: 986820271X
ISBN-13: 9789868202719
出版者: 網路與書股份有限公司台灣分公司
出版日期: Mar 1, 2006


這是我的部落格啟蒙書,沒有刻意尋找,只是恰好在學校圖書館的架上不期而遇,就和這本書結緣了。書很薄,半天就可以看完,不是講技術的書,只是講述一種感覺和氛圍,講部落客的心情和書寫帶來的多種可能。

我是看了這本書才學會 blurkerblogroll 這兩個字的意義,當我決定要弄個部落格來玩,就叫自己的部落格是 blurker's lab ,所以說這是我的啟蒙書了。

這是本典型「企畫」出來的書籍,以一個編輯概念為軸,邀請兩岸的著名寫手,寫各種主題,加上編輯群蒐集的「一些」有趣的部落格列表。前半本書比較精彩,後面介紹所謂的優選部落格,和如何裝飾部落格的小玩意介紹沒什麼意思,配不起前半本書在視野和企圖上的「重量」。不過本書前面一半的篇幅,只夠做一本月刊的專題企畫,這樣的安排,或許是無可奈何吧。


誰沒部落格

誰沒部落格!的圖像


書名:誰沒部落格
ISBN-10: 9861245758
ISBN-13: 9789861245751
出版者: 商周文化事業股份有限公司
出版日期: Jan 1, 2006

也是在圖書館書架上找到的書,這次是「刻意」去書目系統找出來的,閱讀之前並不知道這本書的「份量」,也是一次誤打誤撞。看到中文書名的時候,本來很排斥這本書,以為又是一本小編們用概念做手工藝變出來的書,直到翻了序言和第一章的部分文字,才確定這本書就是我想要看的書。這本書的英文書名是 Blog Story ,直接、簡單,沒有石破天驚的效果(grin),不過至少我不會誤會這本書的出處和目的了。

作者在寫書前的功課作得很雜紮實,資料蒐集做得相當不錯,許多具歷史意義的文章和新聞稿,都有附上 URL。 anobii 的書評區(點書的圖片就可看 anobii 會員對於這本書的看法)反應普遍是好評,不論是當參考文獻或是消遣讀物,應當都不會失望。


Blockstar 有個文章叫 Blog History in Timeline Form, 就是照 Blog Story 這本書第一章做的:

Dawn of Internet Time: Tim Berners-Lee at CERN begins keeping a list of all new sites as they come online.
June 1993: NCSA's oldest archived What's New list of sites.
June 1993: Netscape begins running it's What's New! list of sites.
Jan 1994: Justin Hall launches Justin's Home Page which would become Links from the Underground.
April 1997: Dave Winer launches Scripting News. His company, Userland, will release Frontier, Manila and Radio Userland, all website and blog content software.
Sept 1997 Slashdot launches their news for nerds.
Dec 1997: Jorn Barger coins the term web log.
November 1998: Cameron Barrett publishes the first list of blog sites on Camworld.
Early 1999: Peter Merholz coins the term blog after announcing he was going to pronouce web blogs as "wee-blog". This was then shortened to blog.
Early 1999: Brigitte Eaton starts the first portal devoted to blogs with about 50 listings.
July 1999: Metafilter's earliest archives.
July 1999: Pitas launches the first free build your own blog web tool.
August 1999: Pyra releases Blogger which becomes the most popular web based blogging tool to date, and popularizes blogging with mainstream internet users.

用 Google Experimental Search 提供的 timeline view 來看,搜尋(Blog History view:timeline)的結果是這樣的:

第二章開始,作者花了大半本書的篇幅,說明為什麼要寫的理由,第三章則是介紹英文和法文世界的優選部落格。作者講的十大寫部落格的理由裡,我最愛的就是:部落格是最大的實驗室,這正是我開始動手寫部落格原因,我偏愛 lab 這個字眼,是有緣由的。

台灣的出版社為了這本書,做了一個部落格,雖然只是簡單介紹書的內容,但是將書中所有介紹過的部落格網址收集在一起,則是功德無量。本想一個一個網址去瞧瞧,看看網路世界兩三的變化到底有多大,不過實在太忙,所以打消了這個念頭。 :(


部落格是印鈔機嗎?

坦白說,我沒有看過印鈔機這本書,也不打算仔細拜讀。初次在住家附近的書局看到這本書,第一個反應就是止不住的厭惡。雖然 Blog Story 裡十個部落格的理由之九是「部落格就是金錢」,但是這麼赤裸落的標題,還真是刺眼。

博客來的書籍介紹網頁,說:『部落格是網路上火速成長的風潮,也是最棒、最簡單的網路獲利方式,快來學學如何挑選主題、架設部落格、吸引大批死忠的讀者上門,再利用廣告商、促銷方案、聯合行銷連結、及其他技巧獲利,讓你在家就能賺錢。』,這段文字和2000年前後,教導大家如何在網路上開店賺錢的 eCommerce 跟風書籍的介紹何其相似

顯然這才是一本不折不扣,找個當紅字眼用力出來的東西。把部落格和賺大錢連結在一起,把 Google AdWords 搬出來糊弄一下,想要讓大家相信,寫部落格就可以不用做朝九晚五的上班族?恐怕只有不會算術的人,才會相信那一套算法吧。如果真的有人照方抓藥,準備在網路上發財,不知道會是怎樣的光景?

Saturday, August 18, 2007

2010 年的搜尋引擎面貌是怎樣的?

以觀察、報導搜尋業界動態聞名的 Search Engine Land 在今年八月十日,發了一篇談搜尋服務未來展望的文章。作者 Gord Hotchkiss 首先拋出一個問題,如果我們現在要新建一個搜尋引擎,這個搜尋引擎的介面和功能應該是什麼樣子?。

作者解決這個問題的策略是,作者擬了一份專家名單,然後和這些專家做深度訪談,整理之後,變成一場紙上的、虛擬的圓桌會議。這個會議的主題是:2010年的搜尋服務。作者 很自豪的說,參加這場訪談的專家都是業界菁英,絕對是談這個問題的夢幻組合(Dream Team)。雖然老外講話喜歡用驚嘆號,不過看看下面眾巨頭的資歷,夢幻組合之說倒也不算離譜。這群專家的名單如下:

這篇文章談的議題既多又廣,從介面的設計,到個人化的利弊,甚至 Google 的獨佔地位等等,都有涉及。這篇文章的副標題有11個之多,羅列如下:
  • The look of the search results page
  • Does search become our own personal portal page?
  • Search as a social experience
  • Smarter search engines
  • Personalization
  • Is Google holding a number of personalization cards up their sleeve?
  • Will usefulness become part of a search algorithm?
  • Contextual search
  • The semantic search engine?
  • More hands-on experience with greater functionality
  • Stratification of user functionality
就像我在Beyond Google - 新一代搜尋服務和 Read/Write Web的 Top 17 Search Innovations Outside Of Google 的陳述,介面的改變、更多個人化、更多語意搜尋的技術,都是未來發展的方向,Google 的 Marissa Mayer 講的一段話,最叫人神往:
I think it will be, hopefully, a layout that’s a little bit less linear and text based, .....(中略)...... So if you imagine the results page, instead of being long and linear, and having ten results on the page that you can scroll through to having ten very heterogeneous results, where we show each of those results in a form that really suits their medium, and in a more condensed format. When you started seeing some diagrams, some video, some news, some charts, you might actually have a page that looks and feels more like an interactive encyclopedia.
換句話說,她認為未來的搜尋結果呈現方式,不會像今日這樣單調,而是配合輸出資料的特性,做呈現方式的調整。不知道這個觀點,和我前幾天介紹的正在實驗中的 timeline view 和 map view 是不是巧合?

因為文章很長,還有一部份要在九月份才會登出來,對於搜尋產業的技術和商業模式觀察有興趣的朋友,可以直接到這兒看原文。未來,我會選擇一些議題,做延伸報導。Stay tuned 講多了,自己也有點兒心虛,不過份量這麼重的文章,我們還是慢慢消化,慢慢談吧。

後記:
Search Engine Land 在 2007/9/7 發表了這篇文章的續集 : Search In The Year 2010 : Part 2

Thursday, August 16, 2007

什麼研究最熱門

Machine Learning ,etc 在 2005年12 月發表一篇文章,叫做 Trends in Machine Learning according to Google Scholar ,作者寫了一個小程式,可以接受指定搜尋關鍵字(Query)和指定相關領域(Relative to),然後分析使用 Google Scholar 搜尋的結果,將相關的論文篇數抓出來,以直方圖畫出搜尋結果。 從圖中,約略可以看出,指定查詢的字眼,與之相關的論文篇數消長的紀錄,一個 buzzword 的一生,可以見其梗概。

Google Scholar Trend Miner
後來,Konstantin Tretjakov 將 Yaroslav Bulatov 的原始程式修改的比較清爽精簡(slightly cleaned-up),釋出一個新的版本,有興趣的人可以下載研究;在Google Search Trend Miner 有個簡單的前端介面,使用者可以輕鬆的下查詢指令,然後看輸出的圖形。

輸出的結果,是 PNG 格式的圖形檔,有需要再利用的人,自行用瀏覽器 "save image as..." 的功能儲存起來即可。 如果想知道自己是不是夠格作個趨勢大師,或者自己正在做的研究是否有前途,那就自己動手試試吧。有一點要注意,這個程式,目前僅能處理 1950 到2006年的搜尋要求,如果超出範圍,系統會給一個 Invalid parameters 的錯誤訊息。

下面是我用 Social Network 和 Web 2.0 查詢的結果,讀者可以自行體會,說得再多,不如親自動手試試看吧。不過千萬要注意,不要太認真喔!


( social network 的確越來越紅喔)

( Web 2.0 是從 2005 年開始喊的,??

Google 又來了,這回是 Google Health

去年(2006)十一月,國內外媒體紛紛刊登一則「Google 搜尋醫療文章準確度達 58%」的新聞,這則新聞的根據是 British Medical Journal (BMJ)網站上發表的一份報告 - Googling for a diagnosis--use of Google as a diagnostic aid: internet based study。

Google as doctors' aide

根據 BCC 新聞網站的報導,澳洲的兩名醫師(Hangwi Tang,Jennifer Hwee Kwoon Ng )從新英格蘭醫學期刊(New England Journal of Medicine),找出二十六件個案記錄,從每件個案中挑選三到五個描述症狀的關鍵字,輸入 Google ,檢視前三十項搜尋結果,然後選擇與關鍵字相符的診療判斷。然後和期刊中登載的診療方式比對,發現在廿六種疾病的斷症中,有十五個答案是正確的, Google網站提供的資訊準確度近六成,達百分之五十八

BCC 的報導中說,Google 不可能代替醫師,但是它可以提供很有效的幫助:

The authors say Google can be a "useful aid", but UK experts said the internet was "no replacement" for doctors.

民生報和其他國內媒體,大都將這件事當作”寰宇搜奇”之類可供茶餘飯後談助之資的新聞來處理。但是這則新聞背後,有些更重要的意義沒有被傳達、被發掘(星島日報就處理的比民生報準確有用)。

根據這則報導,目前 Google 收錄了三十億篇(three billions)醫學相關的文章,因此 Google 能夠以他們的演算法和運算資源,將「可能」是合適答案的資料給篩選出來。這代表 Google 在技術上已達到某個高度,而網路上醫學相關的資料在質和量上也都達到一個相當的水準。

Google Health

以上分析,可能只是 提供Google 達成另外一個「野心」的充分條件而已,Google Blogoscoped 最近的一則新聞披露了正在研發中的 Google Health 的執行畫面。Google Health 是一個遠比單單查詢疾病診療用藥方式,更具野心、更全面的一個產品(服務)。紐約時報的報導 - Google and Microsoft Look to Change Health Care,更準確的說明了軟體雙雄對於改變醫療產業生態的野心,根據紐時報導, Google Health 的啟動畫面有以下的文字:

At Google, we feel patients should be in charge of their health information, and they should be able to grant their health care providers, family members, or whomever they choose, access to this information. Google Health was developed to meet this need.

這段話,把Google 的目的(或說野心)講得很清楚,Google 希望將每個人的醫療資訊納入索引範圍,結合他們原有的龐大醫療資訊源以及運算能力,這個產品不僅能將個人、醫藥業從業人員、保險業全部綁在一起。

Google 提供給某些醫療業內人士的展示畫面包括了 health profile 和 health guide 兩個大方向的功能:

...then has 17 other Web pages including a “health profile” for medications, conditions and allergies; a personalized “health guide” for suggested treatments, drug interactions and diet and exercise regimens; pages for receiving reminder messages to get prescription refills or visit a doctor; and directories of nearby doctors

Google Health 是一個已經開發超過一年半的產品,大陸極為有名的博客 GSeeker ,對於這個產品開發的來龍去脈,有很詳細的解說Google Blogoscoped 稍早的文章則公布了一些可能是測試版本的畫面。下面是其中的兩個畫面,若要看更多畫面,請到Google Blogoscoped 查閱。

(上方的 Tab 有 Profile 和 Medical Guide 兩項)



(把 Google Health 和 WebMD 查詢用藥方式的畫面做個比較)

撫今追昔,話天寶舊事

據筆者的記憶(記憶是會騙人的,所以以下說話不敢負責任),在西元兩千年前後,就是所謂的 Web 1.0 那個年代,國內有幾家網路業者,也打算改變以網際網路突破醫療業的產業結構,其中較著名的有以國際厚生健康園區(背後是秀傳醫院)、亞洲醫藥網(新黨某大老和創投)、國家網路醫院(KingNet 的頻道之一)。

當時有的廠商想做藥的聯合採購平台,有人想吃健保申報這塊餅,有人要做線上問診、有人要做比美 WebMD 的專業醫藥 ICP ,但是醫藥產業的生態鏈,不是 HTTP protocol 和納司達克(Nasdaq)的魅力可以打破的。2000 年的上半年,大夥兒都熱熱鬧鬧的開了記者會,但是日子一天天過去,醫界根本沒人理他們說什麼,最多就是多說服幾個診所醫師架網站而已。然後錢燒完了,大家都必須懂得權變,不約而同的轉型了。

七年過去了,現在這幾家廠商的網站,距離一個 ICP 的標準都還差得遠,有的網站裡的醫藥文章,最後編輯時間是 2004 年,就算仍然有在網站上更新文章,數量跟 billions 不知道差幾個零

有人轉型為做網站設計、客製軟體開發的軟體公司;厚生也只能做秀傳自己的採購罷了,距離 Hub 的概念是天差地遠了。曾經在這一波網路熱潮裡「參一卡」的經理人們,看到 Google Health 的新聞,不知道心裡有什麼想法。


為 Data Mining 正名?

先前曾經在 Data Mining 是否被污名化的文章裡,談到KDNuggets 新辦了一輪線上投票,問大家 "Is Data Mining" term tainted?”,並且要大家為資料挖掘取個新名字。

目前的投票結果顯示,超過三分之一的人並不支持換掉 Data Mining 這個名詞,擁護 Knowledge Discovery 的人和支持 Data Mining 的人數差不多。目前 Data Mining 和 KDD ,在很多場合就是交替使用的,所以這個投票可以詮釋為─維持現狀,一動不如一靜吧。

照例提醒各位讀者,千萬不要忽略了可能比本文更精彩的留言區,不過論壇裡的名字都很難念,看來都不是英語系國家的名字,不知道這又代表什麼現象咧?


Tuesday, August 14, 2007

使用 Google 會讓人變笨嗎?

商業週刊有一個單元,叫做 DebateRoom ,副標題是 "Find Out What Fellow Readers Think",開放讀者針對目前這個特定的題目發表正、反不同的意見。最近有個主題 ─ "Google Is Killing Intellect",發行了一集 Podcast。

這一集裡,負責串場主持的週刊執行編輯,先用他柔和的男中音,問了一個問題─ "Is Google making us dumber ?",然後邀請以研究 web usability 出名的 Jakob Nielson 和 "When Computers were Human" 的作者 David Alan Grier,從不同的角度,各自陳述不同的論點。之後主持人拿讀者所問的問題,讓兩位主講人分別回答,交織出一場十六分鐘的精彩對談。



我的聽力其實很一般,在聽的過程中,也常走神,想到別的問題就拉不回來了,等到回神,討論的主線輕舟已過萬重山,所見所聽早就不是原來的風景了。我不想誤導大家,只寫下幾點我聽到的和自己胡思亂想的,讓大家自己去思考。這樣的問題,每個人都該有一個屬於自己的答案才是

  • 如果你想查一個藥品的用法、K2 峰的高度、1988年奧運在哪裡舉行, Google 是非常好的工具;但是 Google 沒辦法讓你作進一步的思考,如果你想要進一步深入研究一個主題、研究一個國家的歷史、瞭解一個對於新的學問,Google 就力有未逮,而且使用 Google 可能妨礙你養成思考的習慣。
  • 使用百科全書、辭典查閱資料,本來就是學習的重要一環,現在有誰會指責”大英百科全書”讓你不再思考?
  • 網路的資料,尤其是有關爭議性主題的內容時,可靠性常常要打折扣。
  • 當我們在讀印刷媒體(比如說:用紙張印刷的書),也必須自己判斷閱讀內容的考靠度與有用的程度。不是說盡信書不如無書嗎?
  • Jakob 說他作的研究顯示 - The best pieces get least traffic ,我們該高興還是悲傷?
  • 有讀者建議我們該作個 Google Diet ?
  • 最後但不是最不重要的一點 (The last but not least): We're not claiming Google is evil.
再次聲明,以上不是翻譯,只是邊聽邊胡思亂想寫下來的,我的聽力實在不怎麼樣,我絕對不能負誤導之責

不熟悉 Podcast 的人可以,不妨到網路搜尋 podcast 101 (看看蘋果的解釋和 ZDNet 的影片),可以找到許多介紹”播客”的資料,目前訂閱、收聽 podcasts 最方便的,應該還是蘋果出的 iTune 了,如果想要安裝軟體,到蘋果電腦的下載網址去下載吧。

使用 iTune 的人,直接訂閱這個網址,可以在未來 用iTune 繼續收聽 DebateRoom 其他節目,如果只想聽這一集對談內容,可以直接下載這個 MP3 檔案,用你的播放器放來聽。

商業週刊網站裡 Cutting Edge 單元裡,也有一個 Podcast 101 的介紹,但是這個安排有點奇怪,不懂 Podcast 的人,怎麼能收聽到這一集節目呢?ZDNet 用短片來介紹 Podcast 的點子顯然合理得多了。

不知道這算不算 usability 的範疇,雖然商業週刊(BW)請 usability 專家上節目,但是自己網站的安排,還要改進空間喔。不知道 Jakob 會不會順便收顧問費?

Sunday, August 12, 2007

創新和研發不會停止...

雖然 RWW(Read/Write Web) 說,Google 已經贏了第一回合,大家要做好準備面對 post-search era ,而且也告訴大家用這篇 Top 17 Search Innovations Outside Of Google 告訴大家,世界上的金頭腦們(當然是複數嘍)不是只為 Googleplex 效力。

不過 Google 的研發人員也沒有閒著,在 Google Experimental Search 網頁,可以看到他們的研發人發最新的點子,隔一陣子來這兒逛逛,常會帶來不少驚奇(或驚喜)。目前我們在這裡看到的大多是使用介面上的創新,比如說鍵盤捷徑(keyborad shorcut)或是語意相關 (contextual search navigation),也有可能是資料整理或呈現的新方式,比如說最新的點子 ─ timeline view 和 map view 。

有的時候,逐行條列的呈現方式,不見得是最適合的資料呈現方式,以視覺化(visualized)的方式,呈現搜尋目標的時間空間的意涵,就是非常好的切入方向。

時間 (timeline view)

用例子來說明什麼是 timeline view,可能是最好的說明方式了。當我們搜尋亞當斯喬治布希奈米技術等關鍵字的結果時,timeline view 以時間軸的方式(見下圖)來呈現資料庫中與搜尋標的相關,且包含時間這項屬性的資料,這種方式,可以將一個人(一件事)的生平(大事記),快速的勾勒出來。

下面的圖形就是查詢的例子,時間軸上直方長條,表示那一段時間資料的多寡,直方條愈高,那個時段有與我們要搜尋標的有關的資料愈多,當滑鼠經過時間軸上,方框會顯示現在的焦點(foucs)。點擊下去,會顯示僅與該時段有關的資料。

上圖是查詢奈米技術的結果, 從這張圖我們可以看出,在西元 2005 左右,是相關資料最多的年份。所以從資料顯示,奈米熱是從約莫三、四年前開始加溫燃燒的,事實是這樣的嗎?

空間(map view)

同樣地,用實例來解釋空間呈現方式的奧妙,是再簡單不過了。假設我們要查詢奧林匹克運動會美國民權運動或是某個學術會議, map view 給我們的是搜尋目標的地理關係分佈圖。

拜 Google Map/Earth 之賜,Google 會以一張很精美的地圖表示歷年奧林匹克運動會舉辦地點,或者是這個學術會議的舉辦地點。然後使用 Google Map 的強大功能,就可以在地圖上查詢、作標記、看衛星地圖等等,作進一步的研究。

試試看

如果你想自己試試看這兩個功能的效果,只要在一般搜尋的文字窗裡輸入

keywords view:timeline 或是 keywords view:map

不見得要到 Google Experimental Search 網站才能嚐新。不這兩個功能還在概念性的測試,不是真正產品化的功能,結果不見得如人意,嚐鮮前不要期望太高。比如說,查詢在 Birth of Data Mining 裡談到的學術會議 IJCAI ,就沒有在時間軸上顯示出 1989 這個重要的年份。

展望

實驗室裡有個兄弟作 Text Mining,每回他們那一組人在跑資料的時候,就語多哀怨,貌似痛苦的很。不僅自憐沒有強大奧援,也自傷不知未來的應用何在?

看了 Google 實驗室的作品,他們應該會對這個領域的應用,有更多信心了。如果在搜索引擎畫面輸入 "白居易 view:timeline" ,搜索引擎就幫你畫出白居易的生平,相信這樣的服務,會有很多學子拍手歡迎。如果這樣的技術有進一步的發展,這樣的服務,不知會是奇摩知識的最佳伙伴還是競爭者?

補記

才剛寫完這篇文章,就追加”後記”似乎不是個好習慣,實在是因為才剛上傳文章, Java Update 就了跳出來,我不假思索地就同意安裝更新,不料安裝程式立刻問我要不要裝 Google Toolbar 和 Google Desktop,實在是讓人感受到 Google 在網路世界裡的無所不在

接下來,我們要問,有 Google 真的完全是好事嗎


Saturday, August 11, 2007

Eric Schmidt talked about Web 3.0 at Seoul Digital Forum

自從 Eric Schmidt(有人不知道他是誰嗎?) 在 Seoul Digital Forum 接受記者訪問時開了 Web 2.0 一個玩笑,說 two point o 是個行銷名詞(marketing term),韓國籍的博客趕緊將這段錄影上傳到 YouTube 去,一時間在每個書籤網站(尤其是國外的,咳),可以發現引用、轉錄這段錄影的博客,多得罄竹難書


其實這段只有一分多鐘的訪問,重點是後半段 Eric Schmidt 談 Web 3.0 那幾句話。這幾句話咬字很清楚,說的不快,要聽懂不算很難,不過為了避免二手傳播誤人,有位正港外國人把訪問內容寫下來,大家對照著聽吧...



My prediction would be that Web 3.0 would ultimately be seen as applications that are pieced together [and that share] a number of characteristics: the applications are relatively small; the data is in the cloud; the applications can run on any device - PC or mobile phone; the applications are very fast and they're very customizable; and furthermore the applications are distributed essentially virally, literally by social networks, by email. You won't go to the store and purchase them. ... That's a very different application model than we've ever seen in computing ... and likely to be very, very large. There's low barriers to entry. The new generation of tools being announced today by Google and other companies make it relatively easy to do. [It] solves a lot of problems, and it works everywhere.


延伸閱讀:

 

Google 更新資料的速度有多快

Google Blog Search Indexing Posts Within 120 Seconds月底,國外不少以搜尋產業和搜尋最佳化( SEO) 為主題的部落客─ 比如說 Google Operating SystemSEO by the SEABlogStormTamars-Sema,不約而同的談到 Google 更新資料的速度。

(題外話,又是一個 Blogoshphere 生態的寫照,同質性高的圈子裡,會在同一個時段裡,傾向談同一個話題 ─ 不過這不是今天我想談的主題)

有的人(eSema 和 Google Operating System)說網頁更新的速度以分鐘為單位,有人(BlogStorm、Tamr、Seo by the SEA)說部落格的更新更快,BlogStorm 甚至說他作的測試,反應速度達到120秒(兩分鐘耶,Argh, incredible...)。 總而言之,眾家說法有驚人的共識,部落格資料的更新比起一般網頁,的確是稍微快一點,但是無論是網頁還是部落格資料,反應速度都是 within minutes,以分鐘為單位,這個結論,實在是嚇人

Matt Cutts ─ 這個可能是除了創辦人和總裁 Eric Schmidt 之外,在搜尋業界最有名的 Google 員工,索性在他的個人部落格裡夫子自道,披露 Google 更新網頁資料庫的秘密,為眾人釋疑

根據 Matt 的說法,當他在 2000 年初加入 Google 的時候,網頁資料要三至四個月才能更新一次,到了 2000 年中,他們已經進步到一個月更新一次。而當時有些搜尋業界的競爭者,可能一年都沒有作一次 fresh update (他沒有指名道姓,不過這樣的廠商還存在的機率,可能是趨近於零吧)。

從2000夏天到2003年夏天,Google 大約每月作一次 index update。,每次更新時,必須依序將逐個資料中心離線,然後灌入新的資料,這樣一輪下來,約莫要花一個月,才能把所有資料中心更新完畢,這種動作, Matt 稱作 Google Dance。

過了2003年夏天,他們的 crawl/index 團隊,開始使用漸進式(incremental)的更新,不再每次都作全部索引的更新(fresh update)。經過這些年,index 團隊持續改善他們的程式和作業方式,現在的成果是以分鐘作為反應速度的單位,結果就是「持續」提高使用者的對服務品質的期望值。

Now raise your hand if you remember “Update Fritz” from summer 2003. That was the Google Dance where Google switched from a monthly batch update to an incremental update. That means that our crawl/indexing team updated a fraction of our index daily or near-daily. Back then we had not only the normal crawl but also a “fresh crawl,” and if documents were in the fresh crawl then Google would sometimes show a date in our snippet.

難怪 Read/Write Web(RWW) 要說,我們面對現實吧,Google 已經贏了第一回合,我們要面對 post-search era ,準備下一回合的競爭吧!

讓人感到欣慰的是,innovators 沒有懷憂喪志,仍然不斷拋出新創意和新技術,說不準真的有個 Google killer out there ,主宰下一回合的戰局。RWW 在今年五月發表了一篇Top 17 Search Innovations Outside Of Google,非常精彩。

這篇文章把將出現在新一代搜尋服務裡的技術分成四個分類:Query Pre-processing; Information Sources; Algorithm Improvement; Results Visualization and Post-processing。每個分類都有頗精彩的代表作,雖然不是每個創意或技術都能笑到最後,但是這些創意的衝擊和融合,勢必會給我們帶來更有趣的網路衝浪經驗(I hope)。



所以,還是那句老話 ─ stay tuned....


Wednesday, August 8, 2007

Is "Data Mining" term tainted?

我在柚子雜談裡,曾經說到這兩年以英語為主的媒體界,對於 Data Mining 這個字眼的猛烈抨擊,以及 Blogosphere 裡的無邊爭議。和 Data Mining 關連的搜索詞彙,最熱門是無非是 NSA , FBI , NewYork Times ,都不是和學術或商業產品有關的東西。
自從 911 事件後,美國政府聲言要使用 Data Mining 技術,協助偵測恐怖份子攻擊之後, Data Mining 和 Privacy 的爭議,就鬧得一塌糊塗。每天收到的 Google Alert 裡,和資料挖掘有關的條目,有一半是部落客對資料挖掘的各式指控。這兩年, Data Mining 就算不是 notorious 也是 controversial...
資料挖掘領域的著名網站KDNuggets (先前我曾經介紹過這個網站),打算辦新一輪線上投票,問大家 ”Is "Data Mining" term tainted ?”, 這個污名化的說法,倒和我的想法不謀而合。為了表示的確有這樣的疑慮KDNuggets 還舉了CBS 新聞的 "Data Mining" != "Surveillance? 和紐約時報的Mining of Data Prompted Fight Over U.S. Spying 為例。

KDnuggets預擬的選項如下,此刻我也不知道選一個才好:
  • Data mining is still OK to use
  • "Knowledge Discovery" is a better term
  • "Predictive analytics" is better
  • Prefer another term (please comment)
  • Don't care which term is used
依我看來,關鍵在於寫文章的人都不是技術人,都不約而同把技術的專有名詞(在這個例子裡是 Data Mining)當作政府父權心態的代名詞,討論的過程自然是纏夾不清,就像桃谷六仙在五嶽大會裡胡攪蠻纏,才是真正該被指責的對象,反倒說不清道不明了。

這類投票,對於現在正發生的事情,不會有任何影響,充其量只是代表,學術界中人的確有人看到這件事了,如此而已

[Reference] 你說的是哪一國話?

說的是國語、普通話還是北京話?你可能知道大陸人管軟體軟件,也可能聽說仆街早期是香港人的粗口,但是你真的清楚明白知道他們在講什麼嗎,試試看下面這幾個句子?

「這只是小打小鬧,當不得真」

「小菜一碟,難不倒我」

「此事必有貓膩,這個人水很深哪...」

「唔該,埋單」

「喺香港同埋廣東等地區經常有人掛喺口邊,亦都有喺塗鴉度出現」

地理區隔、歷史衝突,讓居住在不同地區的華人,書同文卻語不同,每個地區都各自發展出一套自己的口語,甚至進而影響了書寫的內容與風格。雖然使用同一種文字,要聽懂、看懂另外一個地區的語言和文字,有時候需要點天分(有人說過,有些事是講天分的),有時候,你可能需要一點幫助,比如說去上課,或者在網際網路上找資源....

香港中文大學普通話教育研究及發展中心

自從九七年香港回歸中國之後,香港人學習普通話成了不得不然的趨勢,嗅覺靈敏的商人當然聞到錢味,到處可見各式的普通話課程自然不在話下。正統教育界也當仁不讓跳了出來,配合國家政策,提升港人普通話水平,又能賺推廣教育的錢,一舉兩得,何樂不為。香港中文大學教育學院,結合香港教育研究所與國家語言文字工作委員會普通話培訓測試中心合作,於1998年9月9日,成立了普通話教育研究及發展中心

中文大學的教研機構,當然不能同坊間補習班相比,他們不僅有專業的普通話教育文學碩士學位課程、中小學普通話師資的培訓與評核,也有較平易近人的普通話正音課程,還辦理講座、研討會以及提供駐校專家等服務。

除了實實在在的課程和專家咨詢服務,當然不能少了線上資源。在普通話教研中心的網站,有一個欄目(瞧,我學的多快)叫普通話速遞。這個單元裡,有3百多篇文章,這些文章都是篇幅不長的小品,文字淺顯易懂,題材包羅甚廣。這個單元提供文章的目的在針對廣東人學習普通話在語音、詞彙、語法方面出現的問題,同時涉及社會中的語言使用現狀及文化風俗等議題,作說明和解釋。

文章的分類不少,包括口語詞、打呼招、用品、字音、慣用語、風速、娛樂消遣、粵普差異,多音字、飲食等等,一共有三十一類。如果你想知道什麼「寒磣」是什麼意思?「貓膩」又是怎麼回事?普通話速遞裡面都可找到答案。就算是閒來無事,上上網打發時間,看看這裡的文章,也是頂有意思的。

這網站還有不能不提的姊妹站─港式用語診症室 站名診症,作用當然是找病治病,其成立目的針對香港粵語人士(特別是中小學生),在學習和使用中文或普通話時誤用地方用語的毛病, 提示用語的意思及用法,提供規範的對應詞語和句子, 幫助學習者排除方言習慣的障礙

這個網站對生活在台灣的我們,意義可能不大,不過我們可以從這個網站的立意和內容,看到香港人做事的一個側面,值得我們思考。

港式用語診症室

以上介紹網站的資料,畢竟是學府中人取材、建立的,網路上廣大群眾所使用的江湖切口,就不是那麼齊全了。尤其是大陸上數億網民所孕育出的一整套說法,鮮活有趣,這時候就要參考中港台的網路特殊用語、日常用語翻譯及解析(火星文大全)了。

如果你能回答 YY 是什麼意思,網路次文化這堂課應該可以及格了,這個題目的答案很簡單,賈寶玉的人生境界 ─意淫是也 !



妹妹背著洋娃娃


A picture paints a thousand words ... 妹妹背著洋娃娃


Monday, August 6, 2007

[Reference] BCC Most Popular Now

Matthew Hurst said "I'm very late to it. But I'm posting it anyway". I'm way later than Matthew, I'm going to post it, too.

著名的國際新聞媒體 BCC ,在網站上提供了一個即時監控他們網站狀態的服務,用 Flash 作的動態網頁,很精緻,也很有趣。這個服務共有三個功能,Most popular stories nowMost popular around the siteMost Popular, day so far

Most popular stories now 是預設選項,提供動態更新的點閱率和轉寄率的排行榜,在畫面右邊的全球地圖,以顏色深淺顯示目前那個地區來 BBC 網站拜訪的流量大小。在地圖上點選區域後,左邊的排行榜也會依照選擇地區作相應的更動,給人一種很鮮活 -live- 的感覺。

中間的功能 - Most popular around the site ,則提供日期新聞類別兩個選項,讓使用者選擇最近一週內,某個新聞分類或是全部新聞的排行榜。

Most Popular, day so far 是顯示一天24 小時,每個小時內最受歡迎的文章和影片,使用者用滑鼠選擇要看那一個小時的資料,下方就會更新資料。看來只是有點炫罷了,好像用處不大。

BBC News Most Popular Now很不錯的視覺效果,而且以世界地圖來呈現流量的作法,充分展現 BCC 作為國際新聞媒體的自覺自我定位,這個動作的大氣是國內的媒體看不到也學不來的。

竊以為,如果有華文地區的媒體,作類似的動作,應該會讓人眼睛一亮

很期待有這麼一天...

Friday, August 3, 2007

和竹中合唱團有關的幾個網址

以前常看潘震澤教授的科普文章,但是直到最近才從他的部落格中知道,他是57年的竹中合唱團員,對於我們這些余生也晚的後生來說,他們那個年代的事蹟都是永遠在記憶裡的傳奇。潘教授在他的部落格裡放了竹中合唱團在53-55年間作的錄音,非常珍貴,而且透過他的部落格,還找到其他學長作的合唱相關的網站。

為了紀念,也為了備忘,把相關的書籤紀錄如下:

Thursday, August 2, 2007

這唱的是那一齣

雖然看戲的是傻子,但是當看戲的不甘於坐在台下打拍子、小聲哼著戲詞給自己聽,也要粉墨登台,搶著來上一段自己編的詞兒,這戲碼就不同了。這戲可變得好看了,雖然在台下的我們仍然不免要學著章回小說裡北京城裡的老戲迷,嘟嘟囔囔地說一句,這唱的是那一齣

專職演戲的人也不知道將演出的戲碼會是怎麼回事,纔是這年頭 people-powered services (我偏不說 xxx 2.0有趣的地方,看到回應比起本文還精彩、熱絡的文章,才是在網海裡衝浪泛舟迷人的地方。

一五一十部落的还原被扭曲的历史从林彪开始,就是一個好例子,在讀者回應區裡打筆仗的兩方殺得天昏地暗,比本文精彩許多。對於林彪、反右往事並不如煙那個時代的故事,身在台灣的我們,只有好奇和陌生,但是對於有些人總認為他能決定你應該知道什麼才是對你好,我們可一點都不陌生。不管作者還是跟他筆談的人是不是具有獨立思考能力,是不是真的知識份子,還是最新的一筆留言講得好:

希望有一天孩子們都能明明白白地學歷史。美並不那麼美,醜也並不那樣醜,把真實拋出來吧,我們能承受啊!別欺騙啊,明明有一天總要拆穿。那些把戲,真正是不瞞著一部分人的,比如新聞通氣會的與會者,比如所有「」內的人們,不管是新聞界、文化界、娛樂界還是教育界。那些把戲,真正是只對著孩子的。

作者提到的那些事情和名字,若為所有孩子們都知道,這世界就不會那麼蠢了。騙術總是對仍受著蒙騙的人一再有效,否則只是可笑。這就是為什麼有些把戲蠢得滑稽,卻仍然市場廣闊。

老貓學出版的文章[文化觀點]文言文有什麼用也是一樣,老貓的文筆和文章內容本就精彩,迴響區的內容比起本文也不遑多讓,精彩紛呈,火花四射。而蓄意用怪怪口吻回嗆的某些回應,則理直氣壯的說我就是不想要有程度,你們大人怎麼那麼煩。也許有人會想起某些 BSS 裡的鬧文、洗版文的風采,也許有人會認為這就是代溝的體現。

所以,看文章別忘了看讀者迴響區,縱然專業的歌手、寫手、演員、導演、新聞局長、總統,我就是要你目瞪口呆的說,這唱的是那一齣

Stay tuned, you haven't seen anything yet...

做一個更好的馬克杯

做一個更好的人,可以過上更好的生活,所以「我」要做一個更好的馬克杯!! Image Source: I NEED COFFEE: Life is Coffee Comics #23