Wednesday, March 3, 2010

How Big Is Digital Universe

早期 Data Mining 領域的論文,常以資訊科技進步造成資訊過載作為開場白,比如說“因為資訊科技的進步,人類儲存和收集的資料以倍數成長” (例句:with the rapid advance of information technology, blah blah blah...)。雖然這樣的開場白看多了,難免會覺得膩煩,但是 data mining 確是解決資訊過載的手段之一,論文還是得耐着性子看下去。

不過資訊科技到底把這個世界弄得多混亂,着實是個大問題。每個人都知道資訊過載是個問題,但究竟這個過載到底有多超,到底有多少資訊在人類社會流通(不論實體形式還是數位形式),實在很難說的清楚。資訊不是不生不滅的實體物質,資訊隨着人類的心智活動、社會活動而持續增加,所以資訊量是個逐漸變大的數字,不是恆久不變的常數。

不過寫文章的人,或是靠賣資訊維生的顧問們,為了表示自己說的話有根有據,足以信賴,還是得弄出幾個量化的數字出來。


Google 在 2008 年公布  MapReduce 的論文裡面說,在  2007 年 9 月 Google 每天要處理的資料量達到 20,000 terabytes (參見下圖),而且這個數字每天都在成長。網路設備生產廠商  Cisco 則估計從 2008 年到 2013 年, 全球 IP 網路的流量將增加 5 倍, 2013 年的全球流量將高達 667 exabyte ( 原報告是說 2/3 zetabyte , 1 zetabyte = 10^21 bytes)。


今年2月25日的經濟學人雜誌的主題是資訊洪流(Data Deluge),當期的專題報導裡提到:根據某個研究報告,人類在 2005 年製造(依照報告的說法是 created, captured and replicated)了 150 exabyte (1 exabyte = 1 billion gigabytes)數位資料,今年這個數字將成長到 1,200 exabyte 。在網路上搜尋相關數據之後,我想這個研究報告應該是指 EMC 支持 IDC 做的 Digital Universe 報告,這份報告在 2007 年首次發表,指出人類製造數位資料的本領愈來愈大,五年間可以成長到10倍, 2008 年將預估數值做了修正,報告中預估到了 2012 年,人類製造的數位資料將高達 1,800 exabyte。

  (資料來源 Digital Universe , The Economists )

雖然這些數字只是估計,但作為吹牛的談資,或是寫文章的參考依據,倒也足夠了。但對於個人而言,一輩子能 接觸、經手處理的資訊量,實在是極為有限,怎樣少碰些垃圾訊息,少做些無用功,才是更大的課題。

No comments:

Post a Comment

如果我的心是一朵蓮花

~ 林徽因 · 馬雁散文集 · 蓮燈 ~ 馬雁 在她的散文《高貴一種,有詩為證》裡,提到「十多年前,還不知道林女士的八卦及成就前,在期刊上讀到別人引用的《蓮燈》」 覺得非常喜歡,比之卞之琳、徐志摩,別說是毫不遜色,簡直是勝出一籌。前面的韻腳和平仄的處理顯然高於戴...