Sunday, July 22, 2007

Beyond Google -新一代搜尋服務

一向以為自己找資料的功夫不錯,直到看了異塵行者推介的 Top 100 Alternative Search Engines, February 2007,和他的三篇大作走出Google & Yahoo,搜尋引擎大不同—替代性搜尋引擎推薦搜尋引擎大不同之二:我愛用的Search EngineYahoo推出Alpha搜尋,對決Google的Searchmash之後,才知道自己錯的厲害,以管窺天,羞煞人也。

異塵行者的文章,解說清楚圖文並茂,並且加上他自己的使用心得,實在是不可多得。但是這些資料散在好幾篇文章裡,找起來有些吃力,所以我依照自己的使用經驗和偏好(每個人的背景和使用目的都是不同的),將一般 Web 內容的搜尋引擎,重新彙整放在同一篇裡。至於部落格文章和所謂的 Web 2.0 應用的搜尋,等我對這個領域更熟悉的時候再說吧。 我個人將這種一般型的新一代搜尋引擎服務,分為三類,這只是我個人自己為了工作方便作的分類,不是學術上或者真正業內人士所用的分類 (taxonomy / classification),真正的方家見了,請勿大笑

1. Improved Google and Yahoo


SearchMash - http://www.searchmash.com
Alpha(Yahoo) - http://au.alpha.yahoo.com
Ask - http://www.ask.com

第一類是原本的搜尋服務提供者,優化本身原本搜尋引擎的輸出,結合本身所提供的其他服務,將搜尋服務變得更豐富、更便利,也試圖讓使用者繼續留在該業者的其他服務裡,製造更多的賺錢機會。

這類型的搜尋服務,不論是 Google 的 SearchMash 還是 Yahoo! 的 Yahoo! Alpha(beta) ,甚至是 Ask.com 新的 Ask3d 介面 ,螢幕的配置和組成方式,都非常相似。 首先,不再堅持原先被認為是 Google 成功要素之一的極簡風格,多了一些色彩和裝飾;其次,螢幕的右邊,無一例外的加上「建議搜尋」和影像、視訊、部落格的搜尋指引,和自家提供各式服務的超連結。這種作法,在雅虎中國的雅虎易搜網,也可以看到。

異塵行者寫作的 Yahoo推出Alpha搜尋,對決Google的Searchmash 裡,針對 SearchMashAlpha(beta) 這兩個服務,有很詳細的分析比較,他對這兩個服務的評價如下,有興趣的讀者,可以自己試試看。

透過上面的比較,Google的Searchmash和Yahoo Alpha除了在一些特色搜索的內容上有所區隔外,Yahoo Alpha目前以可以自訂的搜索側邊攔,應該是有成為個人化式搜索首頁的野心。而Google的Searchmash還是繼續維持著Google易上手、好操作的特色,尤其可以在同一個頁面展示更豐富瀏覽方式的特色更是深得我心。有興趣的朋友可以試用看看,或許它們可以取代原本大家習慣的傳統Google與Yahoo搜索頁面。

除了 SearchMash 和 Alpha 之外, 新改版Ask.com 也不錯,個人覺得比起 Google 和 Yahoo 猶有過之,諸君不妨自行試試。尤其是畫面最左邊的 Narrow your search ,有 aggregated and clustered 的味道。不過 Ask.com 在搜尋中文資料時,實在不怎麼靈光,可能是 Ask.com 目前不打算進攻中文市場的緣故,實在可惜了。

可能是因為還在測試階段的緣故, SearchMashAlpha 的頁面沒有廣告,看來很是清爽,不知道未來正式上線,會變成怎樣?

2. Dashboard for searching


goshme - http://www.goshme.com
CrossEngine - http://www.crossengine.com
Sidekiq - http://www.sidekiq.com

我把這類的搜尋服務,稱作 Dashboard 型的搜尋服務,這種搜尋引擎服務,就像一個大型的搜尋引擎控制面版,輸入關鍵字,選擇要使用的搜尋引擎,按鈕發射,然後看搜尋的結果。

在這一類搜尋服務中,Charles KnightTop 100 Alternative Search Engines 的作者)和異塵行者搜尋引擎大不同之二:我愛用的Search Engine),對於 goshme 都推崇備至,因為他的特別全面。嚴格來講,這不是一個所謂的正統 meta search engine,因為它在接收到關鍵字之後,不是立刻將關鍵字丟到各大搜尋引擎,然後彙總(aggregate)各個搜尋引擎的輸出,作資料分群和輸出美化的動作。 goshme 先分析這個關鍵字(詞)適用的搜尋引擎,列出各式搜尋引擎的選擇,包括一般目的(general purpose)和特殊領域的(Specialized search engines)搜尋引擎和資料庫服務,使用者選擇要使用的搜尋引擎後,goshme 方才執行搜尋和呈現的動作這是 goshme 和另外兩個搜尋服務 Sidekiq CrossEngine 最大的差別。

這個點子固然有趣,goshme 真正出色的地方在於它的全面,goshme 搜尋的對象除了幾個有名的大搜尋入口外,還包括各領域的垂直搜尋引擎(specialized search engine)或資料庫。goshme 在畫面左方的過濾器(Filter,見上圖)列出更細的選擇,它的選項包括 Recreation、Information、Tourism、Business、Arts、Movie、Arts、Games、Social Science、News、Sports、Shopping、Law、Kids、Adults、Home & Garden 等等,每個選項底下還有更細的子選項,例如 Tourism 之下,再細分為 Transportation、Guides 和 Information。 收羅之廣,令人嘆為觀止。還有,使用 goshme 需要先註冊,手續很間單,只要輸入電子郵件位址,設定一個使用密碼即可。

至於 Sidekiq 和 CrossEngine ,兩者在本質上非常相似,只是所包含的搜尋引擎數量,有很大的差異。Sidekiq 的搜尋引擎數量和廣度,屬於包山包海那一型,僅僅 The Web 一項,就包含 14 個通用型的 Web Content 搜尋引擎。選擇了要使用的搜尋引擎後,Sidekiq 呼叫該搜尋引擎,將輸出嵌在右邊的 Frame 裡面,Sidekiq 並不作整理和解讀。


CrossEngine 是這三者中最樸素的,可選擇的搜尋引擎按鈕只有十個,可以將控制面版放在上方或是螢幕左方,雖然沒有前兩者這麼豐富,對於一般的使用者,我想應該是足夠了。畢竟,不是每個人都有作 researcher 的必要(苦笑)。

3. Aggregated and Clustered

PolyMeta - http://www.polymeta.com
Clusty - http://www.clusty.com

第三類則是所謂的分類式引擎,基本出發點,就是所謂的三個臭皮匠,勝過一個諸葛亮(More heads better than one)。這種搜尋服務,將使用者輸入的關鍵字,送至其他各大搜尋業者的引擎,將不同引擎的輸出彙總在一起,然後應用 clustering 和 textual analysis 的技術,將結果重新整理,以分類的方式,呈現給使用者。使用者可以從分類的選單裡,找出自己真正感興趣的部分,繼續追蹤下去。

比如說,當我們使用 Google 搜尋 Coffee 這個關鍵字時,會產生大約 203,000,000 筆資料輸出,要在這樣大量的資料裡找到我們需要的資料,難度仍然不是普通的高。如果搜尋結果採用 aggregated and clustered 技術加工後,可以將輸出資料分群為咖啡豆、產地、咖啡因、健康、雜誌、烘焙、歷史、咖啡與茶、飲料等等分類,我們可以從這些分群後的結果,找到我們需要的入手處,這樣要找到合適的資料就容易多了。而且分群後的輸出,經過適當排版,可讀性提高,當然更容易找到資料。


這類的搜索引擎有不少,例如 jux2, mamma, dogpile, clusty,polymeta 等,依個人的使用經驗,PolyMetaClusty 的輸出結果,真正應用了 clustering 的技術,將搜尋結果分類,而且螢幕的配置易於閱讀,不會讓人迷失在大串資料裡,找不到重點和入手處。PolyMeta 使用的搜尋引擎主要是 Ask 、Exalead、Google、MSN 和Yahoo, Clusty 主要使用的搜尋引擎則包括 Gigablast、MSN、Open Directory、Wikipedia 等,所以輸出結果會有差異,兩者可以交替使用,互相參照

用得順手,就是好工具

不論是已經獨霸搜尋市場的 Google ,或是力圖挽回使用者難測的心的 Yahoo,抑或其他 Meta Search Engines 業者,都在努力改善自家的搜尋引擎的搜尋能力和輸出品質,提供更好的分類能力,整合多媒體的搜尋,競爭的結果,讓使用者擁有更便利、更人性的工具完成手上的工作,這是絕對值得稱許和期待的。不過,千萬不要忘了,每個人的工作習慣與工作目的都不同,所以沒有一個標準萬用的最好工具,只要用的順手、用的熟練,就是好工具

實際動手試試看,用你工作上常用的字詞,作個小小測試,就知道那一個服務最適合你了。

補充:Firefox Search Plugins

使用 Firefox(或是 Netscape)的讀者,可以在網路上找到現成的上面所介紹的搜尋引擎的 search plugins ,不知道從何找起的讀者,可以試試看下面幾個網站:

安裝後的效果如下,看起來挺不錯的(grin):

1 comment:

  1. 我一直期待看到這樣的引用方式,在原文的基礎上做了很多的延伸,讀後我自己也受益良多,希望以後能多多交流喔^^

    ReplyDelete

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...