這個現象解釋起來很簡單,很多產品有不同的包裝版本(想像一下書籍的普及版、精裝本、典藏版, 等等),甚至同樣的版本,也可能在資料庫裡有兩筆以上資料(仍然以書籍做例子,想像一下同一本書的一刷、二刷),我們如何知道這些不同的商品其實都是同一個產品?Greg Linden 也曾經以 YouTube 為例,撰文 YouTube cries out for item authority 說明 item authority問題對服務提供者造成的困擾以及挑戰。
這對推薦系統的設計者,是個很「有趣」,也很艱鉅的挑戰!海峽兩岸間最大的書籍收藏網站-豆辦,當然也遇到這個問題,豆辦日誌昨日(2009/08/24)宣佈《豆瓣读书即将解决版本问题》,他們的解決方案,可以稱為用戶「自己動手,豐衣足食」吧:
豆瓣图书会将同一作品的不同版本归纳起来,展示在一个单独页面里。这个页面可以由书虫们来添加和编辑。如果你确切地知道06年上海译文出版社的《在路上》是01年漓江出版社的《在路上》的另一个版本,你可以添加;如果发现某个版本是指鹿为马,你可以报错。贡献者的信息会在版本页面被永久标记。
随着豆瓣数据库里的版本数据的完善,豆瓣猜的智商也将大大提高,再也不会推荐同一作品不同版本的书给你了;有些已经绝版不再出售的图书页面(比如 86年版的《傲慢与偏见》),会有最近新版的价格帮助购买(比如06年的《傲慢与偏见》有售);对于多达十几种版本的图书,版本页面还会显示各自的收藏人数和评分,帮助大家比较版本的好坏。
對這個問題有興趣的讀者,也可以到Resys看看,一起參加討論
ReplyDelete