(題外話,又是一個 Blogoshphere 生態的寫照,同質性高的圈子裡,會在同一個時段裡,傾向談同一個話題 ─ 不過這不是今天我想談的主題)
有的人(eSema 和 Google Operating System)說網頁更新的速度以分鐘為單位,有人(BlogStorm、Tamr、Seo by the SEA)說部落格的更新更快,BlogStorm 甚至說他作的測試,反應速度達到120秒(兩分鐘耶,Argh, incredible...)。 總而言之,眾家說法有驚人的共識,部落格資料的更新比起一般網頁,的確是稍微快一點,但是無論是網頁還是部落格資料,反應速度都是 within minutes,以分鐘為單位,這個結論,實在是嚇人。
Matt Cutts ─ 這個可能是除了創辦人和總裁 Eric Schmidt 之外,在搜尋業界最有名的 Google 員工,索性在他的個人部落格裡夫子自道,披露 Google 更新網頁資料庫的秘密,為眾人釋疑。
根據 Matt 的說法,當他在 2000 年初加入 Google 的時候,網頁資料要三至四個月才能更新一次,到了 2000 年中,他們已經進步到一個月更新一次。而當時有些搜尋業界的競爭者,可能一年都沒有作一次 fresh update (他沒有指名道姓,不過這樣的廠商還存在的機率,可能是趨近於零吧)。
從2000夏天到2003年夏天,Google 大約每月作一次 index update。,每次更新時,必須依序將逐個資料中心離線,然後灌入新的資料,這樣一輪下來,約莫要花一個月,才能把所有資料中心更新完畢,這種動作, Matt 稱作 Google Dance。
過了2003年夏天,他們的 crawl/index 團隊,開始使用漸進式(incremental)的更新,不再每次都作全部索引的更新(fresh update)。經過這些年,index 團隊持續改善他們的程式和作業方式,現在的成果是以分鐘作為反應速度的單位,結果就是「持續」提高使用者的對服務品質的期望值。
Now raise your hand if you remember “Update Fritz” from summer 2003. That was the Google Dance where Google switched from a monthly batch update to an incremental update. That means that our crawl/indexing team updated a fraction of our index daily or near-daily. Back then we had not only the normal crawl but also a “fresh crawl,” and if documents were in the fresh crawl then Google would sometimes show a date in our snippet.
難怪 Read/Write Web(RWW) 要說,我們面對現實吧,Google 已經贏了第一回合,我們要面對 post-search era ,準備下一回合的競爭吧!
讓人感到欣慰的是,innovators 沒有懷憂喪志,仍然不斷拋出新創意和新技術,說不準真的有個 Google killer out there ,主宰下一回合的戰局。RWW 在今年五月發表了一篇Top 17 Search Innovations Outside Of Google,非常精彩。
這篇文章把將出現在新一代搜尋服務裡的技術分成四個分類:Query Pre-processing; Information Sources; Algorithm Improvement; Results Visualization and Post-processing。每個分類都有頗精彩的代表作,雖然不是每個創意或技術都能笑到最後,但是這些創意的衝擊和融合,勢必會給我們帶來更有趣的網路衝浪經驗(I hope)。
所以,還是那句老話 ─ stay tuned....
有朋友把這篇文章推進黑米書籤,他讓我看了反應。有些「專業」的讀者指出,漸進式更新是學界存在很久以前的技術,至少早在1995年, GLIMPSE 就已有這樣的技術了。
ReplyDelete用 Google 找了一下,吳昇老師帶領的 GAIS 的確有使用 incremental indexing 的技術(http://gais.cs.ccu.edu.tw/aboutGAIS.php)。
CiteSeer 裡也可以找到 94 年就有人發表 incremental indexing 的論文了 。
Matt Cutts在2006年寫的 Google Dance 那邊文章,則是說他們是從 2003 summer 開始應用這個技術的。
本想更新原文,但是怕更改內文後,會改變 RSS 的順序,所以寫在回應裡。