Friday, July 27, 2007

The Future of Search - Google Edition

MIT Technology Review 是一本深度、廣度兼具,介紹科技新知的雜誌,最近這本雜誌訪問 Google 的研發部門主管(Director, Google Reseach)Peter Norvig ,雜誌網站在今(2007)年7月份發表了訪問的內容。看了這篇訪談,讓我想起去年初(2006年2月)的一則科技新聞...

背景回顧

去年二月在費城舉行的 Wharton Technology Conference 2006 中,三大搜尋引擎巨頭 - Google, MSN, Yahoo - 產品主管齊聚,各自陳述對未來搜尋引擎的看法,ZDnet UK 在會後發表了一篇新聞 Google and MSN disagree on future of search ,精簡扼要的將三個公司主管的發言排列比較,讓讀者領略這三家公司各自不同的戰略。簡單地說,MSN 認為使用者應該學習(換句話說就是被教育)改變搜尋的習慣,因為 MSN 的未來的策略是精進並改變搜尋引擎的介面,讓使用者和搜尋引擎有更多、更有益的互動,讓搜索更精準、更有用。Yahoo 則押寶在社群這個方向,認為搜尋的精度和準度,要靠 social search 的策略方向來達成。Google 則一派邪惡科技帝國模樣,認為重點是底層(underlying)的技術,以研發能力取勝。

部落客 Geeking with Greg 引用 ZDNet 的報導,將這三家公司的異同,作了畫龍點睛的陳述 Different Version of futire of search

MSN (and, until recently, A9) wants to give you more powerful tools. Yahoo wants the community of users to help improve search. Google wants computers to do all the work to get you what you need.

Peter Norvig 在訪談中,明確的表示, Google Research 的「核心研究課題」就是搜尋技術廣告,還有使用者如何和搜尋引擎互動,以此三者為軸心,開展的各項研究,目的還是在於 help us serve them better。身為未來所寄的研發部門主管,從他口裡透露 Google 對於搜尋引擎技術的立場和進行中專案的描述,是很令人期待的,雖然訪問的篇幅不算很長,但是畢竟我不是專業譯者,逐字翻譯對我來說實在太麻煩了,所以我試著將內容消化,並加上一點點自己的經驗和想法,所以這份摘要不能算是真正的翻譯(逐字翻譯在法律上也站不住腳,唔,又是一個偷懶的好藉口):

機器翻譯和語音辨識

根據 Peter 的說法,目前獲得最多財力和人力支援的專案是機器翻譯(machine translation)和語音技術(speech)的案子,Peter 說他並不認為這兩個技術對於視訊(video)資料的搜尋有很大幫助,因為視訊的搜尋還不是主流;但是他認為語音辨識是對於提供電話介面(用電話作搜尋介面)是很重要的技術,而且改善語音技術能夠對對聲音文件作更好的索引(indexing audio files)video search 的貢獻。

根據他的說法,在瞭解現有市場上可用技術後,他們決定自己開發相關技術,而且他認為以 Google 的資源和能力,一定可以對這個領域做出貢獻(他還用 advance 這個字眼)。 有一點特別值得一提,他說 data trains algorithms over time,這點讓我特別有感觸。作研究的人都知道,擁有 data 的可貴,能掌握資料源,就有發表論文的機會,不管是作什麼題目都好;沒有 data ,完全沒戲唱。

Peeter Norvig 本人在另外一次演講時,講了另外一段話,他認為 recommender 演算法根本沒有什麼好比較的,不管演算法再怎麼不入流,只要擁有更多資料,自然可以把演算法教育 (trains)成人,打敗原本的 winner 。

Rather than argue about whether this algorithm is better than that algorithm, all you have to do is get ten times more training data. And now all of a sudden, the worst algorithm ... is performing better than the best algorithm on less training data.

Worry about the data first before you worry about the algorithm.

總之,如果要作研究,擁有大量的資料,和鉅額的資本支出一樣重要。換個角度說,像谷歌這樣家大業大的富家翁,最令人羨慕的不是龐大的現金預算,而是可以使用的軟、硬體資源和最寶貴的資料(弔詭的是,這些東西是靠金錢堆積出來的)。

問題是什麼

Peter 認為,當我們在使用搜尋服務時,會面對很嚴重的 不均衡狀態(imbalance),我們可能輸入僅有兩、三個字構成的搜尋字組,但是有限的螢幕顯示空間,讓我們無法一次提供足夠多的有效資訊。另外一個問題,也值得關注,使用者需要更多的參與,才能獲得較佳的搜尋結果。只是輸入 map 或 coffee 這樣的字眼,實在很難判斷使用者要什麼,所以使用者的積極參與,對於問題的改善是正面的(這裡有點 MSN 產品經理說法的味道)。

當 TR(Technology Review) 詢問,此刻目前搜尋領域比較突出的問題是什麼? Peter 的回應是這樣的:

一般而言,主要有兩個方面的問題。 第一個是如何更佳地瞭解用戶需求,另一個則是瞭解文件內容的「意義」,不管是網頁還是視訊資料。用戶輸入資料之後,我們把輸入的詞組當作一個個的獨立字眼(individual words)來處理,但是用戶究竟是什麼意思,並不是那麼容易理解。

自然語言搜尋技術

既然如此,TR 當然想瞭解 Google 在自然語言(natual language)處理技術上的進展。如果用戶可以輸入一個完整的句子,不是獨立的若干關鍵字,似乎聽起來很迷人,很 fantatic ,很 promising ,不是嗎?

Peter 認為自然語言技術所指涉的範圍很廣,首先,Google 在瞭解同義字方面,下了許多功夫。比如說, San Franscisco 這兩個字必須是成對出現,不能單獨成立的;但是 Las Vegas 和 Vegas 雖然是兩個不同的字組,但卻是同一件事;再舉個相反的例子, New York 和 York 則是完全不同的兩回事。Google 在這方面下了不少功夫,也有相當的進展。

另外一個自然語言領域的技術,是將較長的查詢自串(longer query)分解成較小的元件(omponents),最理想的境界當然是用戶輸入一個完整的句子,處理後得到的答案也是個完整的句子。但是 Google 在這方面,沒有太多著力,我們可以處理一部份問題,像日本的人口(population of Japan)這樣的問題,我們可以給出不壞的結果。但是大部分的情況,這未必是使用者希望的,他們不一定希望在搜尋時,每個問題都要寫一個完整的句子。

至於 TR 詢問關於人工智慧(AI)技術運用的問題,Peter 則回應,人工智慧技術大部分用於解決沒有明確解答的問題,雖然人工智慧技術不能解決所有問題,但是谷歌的確用了許多人工智慧技術來開發產品。

雖然 Peter 在自然語言搜尋上,說得很保守,但並不代表別的研究機構也如此保守,目前運作中的 Answer.com 允許用戶以簡單的英文句子提出搜尋,有興趣的人可以自己是玩玩看。如果問 Who is the President of Taiwan 詢問 Answer.com ,跑出來的答案是總統府的網站。

Technology Review 近日介紹了一家公司- 的 Powerset, Inc., 以授權方式取得著名的 Palo Alto Research Center (PARC) 過去30年所累積技術的自然語言技術,將推出的自然語言搜尋引擎。這家公司的老總說,雖然自然語言技術近日沒有重大的突破(breakthrough), 但 Powerset 將整合許多PARC 的技術,推出的產品,一定會讓大家耳目一新云云。

除了上面提到的商業運轉的例子,我在一個介紹 Data Mining 技術的部落格,看到 Quanta (Beta) 的介紹,這應該是個學術界的專案,進入網站之後,畫面樸素得很誇張,沒有說明,沒有提示,版權宣示的地方,只留了一個北京清華大學的電子郵件地址,從畫面很難看出這是什麼回事。只有畫面下方兩個超連結─搜尋範例和搜尋歷史,透露這個網站可能是搜索引擎的線索。搜尋範例有許多比簡單句還複雜一點的英文句子,比如說「Who was the first person to run the mile in less than four minutes?」,「Who won the Oscar for best actor in 1970??」,看起來似乎很厲害的樣子。

我仍然用 Who is the President of Taiwan 考驗 Quanta,這個「黑箱」給出的答案是陳水扁三個字的漢語拼音,然後列出了一堆可能解答這個問題的網址。Quanta 的速度非常慢,我猜是在測試某些演算法吧,輸出結果會列出某個方法的 scoring ,然後是兩欄式的比較列表,畫面配置不甚美觀。雖然 Quanta 不是一個商業化的作品,不過從輸出結果的品質(準確度)來看,或許是個值得期待的東西吧。


No comments:

Post a Comment

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...