Generation 40s – 四十世代

Good articles for buddies

大數據與壓縮感知 如何影響日常生活

Leave a comment

Hong Kong Economic Journal
C01 | 今日焦點 | 圈來圈去 | By 卡夫卡 |
2013-08-24

十多年前,移動硬盤仍未普及,儲存媒介主要靠可載百餘個千位元組(KB)、須以手動翻轉的5吋軟式磁碟。時至今日,有報道說人類每天製造的新數據已達2.5 個艾位元組(即Exabyte或EB;一個EB等於十億個GB,而一個GB等於一百萬個KB)的天文數字。這麼多的數據,究竟從何而來,可以或應當如何處理和應用?早前,哈佛大學的孔祥重教授應邀到香港城巿大學演講,介紹大數據對日常生活的影響,並講解了他對這一問題的見解。

雲端運算

孔教授的演講題目為「大數據及壓縮感知」(Big Data and Compressive Sensing)。兩個名詞可能令一般大眾覺得陌生,但二者息息相關。大數據之所以被形容為「大」,是因為其數量驚人,以目前的電子運算能力,甚難加以收集、儲存、搜尋、分析。縱使谷歌、亞馬遜等「雲端運算」(Cloud computing)的開創者,面對如此龐大的數據資料,若以傳統方法處理,亦無從入手。故此,便須要採用「壓縮感知」技術,僅僅揀出數據中的獨特之處加以分析,才能使數據(Data)成為能夠幫我們作出決定的資訊(Information)。

大數據來源於近年研發出來的種種流動裝置、電子化裝置(如手機和無線射頻識別)、互聯網(特別是社交網絡如面書、推特等)和電子商貿所產生的大量資料,以及生物模擬、物理模擬、氣象、天文研究等領域使用的解像度日益增高的感應器所錄得的信息。大數據的特點可以概括為三個「V」:巨量(Volume)、高速(Velocity)、多種(Variety)。

孔教授亦指出,根據白威爾(Eric Brewer)的CAP理論,在任何可擴展、分散式的系統裏,在一致性(Consistency)、準備率(Availability)、分隔容忍度(Partition Tolerance)三者之中,我們只能選擇二者。因為當數據愈來愈多,須要把它們分開處理的時候,便難以在短時間內得出一致的結果。用谷歌搜尋時,會因為地點不同而得出不一樣的結果,其原因就在於此。另一方面,我們寧願多等一刻,也希望銀行存款的數目準確吧。

所謂「壓縮感知」,簡單來說就是從大數據中,把背景噪音或干擾分離出來,以常規模型去處理,然後專注於處理其餘的資料。我們日常使用的影像和音效壓縮技術,也是採用相似的原理,才可以把原本十幾個至幾十個兆位元組(MB)的檔案輕鬆地透過互聯網與人分享而又不喪失其意義。

資訊瀑布

從學術的角度來說,也就是把常規(Routine)資料跟具有稀疏性(Sparsity)的創意(Innovative)資料區別開來,用不同的方式分別處理、壓縮。關鍵在於要確保壓縮後的資料能有效表達原本資料的情況(在維基百科,有人就以「數獨」遊戲為例,說明如何以局部資料去重建完整版本),並減輕所需的運算工作負擔。

然而,孔教授在講座中多次提醒,處理大數據和壓縮感知時務須小心。假若在壓縮過程時,把有用的資料誤認為無關緊要而「丟棄」,又或在運用貝葉斯推斷(Bayesian inference)時沒有考慮前設(Prior)的問題,那麼得出來的結論不但沒有用,更可能和實際情況相差千萬丈遠,輕則把友人發來的電郵丟進垃圾郵箱,重則使公司損失慘重。

說到底,以數據為本(Data-driven)並不是萬應靈丹。此外,還有「資訊瀑布」(Information Cascade)和「富者更富」(Rich-Get-Richer)等問題,相當複雜。有興趣的讀者可以造訪孔教授的個人網頁(http://www.hcs.harvard.edu/~htk/),閱讀相關學術論文。

或許前不久的美國總統大選中的一樁逸聞,有助我們認識數據處理將如何影響我們的生活。有分析認為,奧巴馬和羅姆尼的勝負關鍵在於,奧巴馬的團隊懂得處理和運用各種數據,以助處理捐款和設計競選策略,而羅姆尼的「殺人鯨」(Orca)信息系統卻在競選期間錯漏百出。正如孔教授所指出的,在資料日益增多、應用日益普及、成本日益下降的今天,懂得如何分析運用資料,才是長久致勝之道。

卡夫卡

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s