Saturday, August 11, 2007

Google 更新資料的速度有多快

Google Blog Search Indexing Posts Within 120 Seconds月底,國外不少以搜尋產業和搜尋最佳化( SEO) 為主題的部落客─ 比如說 Google Operating SystemSEO by the SEABlogStormTamars-Sema,不約而同的談到 Google 更新資料的速度。

(題外話,又是一個 Blogoshphere 生態的寫照,同質性高的圈子裡,會在同一個時段裡,傾向談同一個話題 ─ 不過這不是今天我想談的主題)

有的人(eSema 和 Google Operating System)說網頁更新的速度以分鐘為單位,有人(BlogStorm、Tamr、Seo by the SEA)說部落格的更新更快,BlogStorm 甚至說他作的測試,反應速度達到120秒(兩分鐘耶,Argh, incredible...)。 總而言之,眾家說法有驚人的共識,部落格資料的更新比起一般網頁,的確是稍微快一點,但是無論是網頁還是部落格資料,反應速度都是 within minutes,以分鐘為單位,這個結論,實在是嚇人

Matt Cutts ─ 這個可能是除了創辦人和總裁 Eric Schmidt 之外,在搜尋業界最有名的 Google 員工,索性在他的個人部落格裡夫子自道,披露 Google 更新網頁資料庫的秘密,為眾人釋疑

根據 Matt 的說法,當他在 2000 年初加入 Google 的時候,網頁資料要三至四個月才能更新一次,到了 2000 年中,他們已經進步到一個月更新一次。而當時有些搜尋業界的競爭者,可能一年都沒有作一次 fresh update (他沒有指名道姓,不過這樣的廠商還存在的機率,可能是趨近於零吧)。

從2000夏天到2003年夏天,Google 大約每月作一次 index update。,每次更新時,必須依序將逐個資料中心離線,然後灌入新的資料,這樣一輪下來,約莫要花一個月,才能把所有資料中心更新完畢,這種動作, Matt 稱作 Google Dance。

過了2003年夏天,他們的 crawl/index 團隊,開始使用漸進式(incremental)的更新,不再每次都作全部索引的更新(fresh update)。經過這些年,index 團隊持續改善他們的程式和作業方式,現在的成果是以分鐘作為反應速度的單位,結果就是「持續」提高使用者的對服務品質的期望值。

Now raise your hand if you remember “Update Fritz” from summer 2003. That was the Google Dance where Google switched from a monthly batch update to an incremental update. That means that our crawl/indexing team updated a fraction of our index daily or near-daily. Back then we had not only the normal crawl but also a “fresh crawl,” and if documents were in the fresh crawl then Google would sometimes show a date in our snippet.

難怪 Read/Write Web(RWW) 要說,我們面對現實吧,Google 已經贏了第一回合,我們要面對 post-search era ,準備下一回合的競爭吧!

讓人感到欣慰的是,innovators 沒有懷憂喪志,仍然不斷拋出新創意和新技術,說不準真的有個 Google killer out there ,主宰下一回合的戰局。RWW 在今年五月發表了一篇Top 17 Search Innovations Outside Of Google,非常精彩。

這篇文章把將出現在新一代搜尋服務裡的技術分成四個分類:Query Pre-processing; Information Sources; Algorithm Improvement; Results Visualization and Post-processing。每個分類都有頗精彩的代表作,雖然不是每個創意或技術都能笑到最後,但是這些創意的衝擊和融合,勢必會給我們帶來更有趣的網路衝浪經驗(I hope)。



所以,還是那句老話 ─ stay tuned....


1 comment:

  1. 有朋友把這篇文章推進黑米書籤,他讓我看了反應。有些「專業」的讀者指出,漸進式更新是學界存在很久以前的技術,至少早在1995年, GLIMPSE 就已有這樣的技術了。

    用 Google 找了一下,吳昇老師帶領的 GAIS 的確有使用 incremental indexing 的技術(http://gais.cs.ccu.edu.tw/aboutGAIS.php)。
    CiteSeer 裡也可以找到 94 年就有人發表 incremental indexing 的論文了 。

    Matt Cutts在2006年寫的 Google Dance 那邊文章,則是說他們是從 2003 summer 開始應用這個技術的。

    本想更新原文,但是怕更改內文後,會改變 RSS 的順序,所以寫在回應裡。

    ReplyDelete

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...