雲計算、大數據時代

文章推薦指數: 80 %
投票人數:10人

雲計算、大數據時代

1.谷歌的架構變革

從2003年到2004年,谷歌(Google)陸續發表了關於GFS、MapReduce和

BigTable的3篇論文,基本上公開了谷歌內部用於處理搜索海量數據的平台架構。

GFS是大規模的分布式文件系統,MapReduce是一個並行處理框架下的編程模

式,BigTable是建立在GFS基礎上一個按鍵值方式組織的非關係型資料庫。

由於當時

的技術、產品和平台無法滿足谷歌快速增長的業務發展,谷歌根據搜索業務的特點,大

膽創新,打破了傳統分布式文件系統的條條框框,開發了一個支持大規模擴展性的容錯

分布式文件系統,並在其基礎上構建了並行計算平台和分布式資料庫,使得谷歌的搜索

平台能處理前所未有並不斷爆炸性增長的海量數據。

特別是MapReduce的並行處理編程框架,通過軟體對數據進行自動的切分,並把

任務分配到不同節點上,實現自動調度、均衡工作負載,同時自動監控,自動修復錯

誤,管理節點間通信。

傳統的並行處理應用,需要開發者掌握MPI編程等技能,一般

只是限於高性能計算領域。

而MapReduce框架簡化了並行處理系統的編程,大大降低

了開發者開發並行處理系統的門檻。

可以說,MapReduce框架,使得先天缺少並行計

算能力的馮·諾依曼架構的電腦,通過集群的並行處理,仍然能夠在網際網路時代煥發青

春。

谷歌的3篇論文奠定了網際網路大規模分布式系統的架構基礎,掀開了大數據時代的

帷幕。

谷歌的貢獻主要是基於其自身的業務需求,在對比傳統分布式架構優劣勢的基礎

上,提出了一套全新的分布式存儲、分布式並行計算和分布式資料庫的架構。

但其特點

還是在集中化模式管理下的可擴展分布式系統。

2.亞馬遜的架構變革

谷歌是首先提出雲計算概念的公司,而另一個首創雲計算業務模式的亞馬遜也不甘

落後,於2007年發表了Dynamo分布式資料庫論文。

與谷歌相同的是,亞馬遜也是根

據自身的業務特點來做創新,都將系統出錯作為常態處理;而與谷歌不同的是,亞馬遜

採用了一個無中心、完全分布式的架構。

亞馬遜的Dynamo論文公開了分布式鍵值資料庫Dynamo的設計和實施細節。

Dynamo的設計主要是針對大規模電商的應用場景,例如購物車,需要提供「Alwayson」

(總是在線),任何時候用戶都能修改,也就是高可用的客戶體驗。

其設計目標是把可

用性提到第一位,在某些場合犧牲一致性。

Dynamo論文很明確的提出「Eventual

Consistency」(最終一致性)的概念。

其設計理念參考Peer-to-Peer架構,整個分布式系

統採用無中心架構。

Dynamo綜合了一些著名的技術來實現可伸縮性和可用性:數據劃

分(Datapartitioned)和使用一致性哈希的複製(replicated),並通過對象版本(object

versioning)提供一致性。

在更新時,副本之間的一致性是由仲裁(quorum)中心化的

副本同步協議來維持的。

Dynamo中共涉及3個重要的參數,其中N代表數據的副本數,W代表一次寫操作

的最小必須寫成功節點數;R代表一次讀操作的最小讀成功節點數。

要求W+R>N,讀

數據時,只要有除了Coordinator之外的R-1個節點返回了數據,就算是讀成功(此時

可能返回多個版本的數據)。

同理,寫數據時,只要有除Coordinator之外的W-1個節

點寫入成功,就算數據寫入成功。

Dynamo採用了基於gossip協議分布式故障檢測及成

員(membership)協議。

Dynamo只需要很少的人工管理,存儲節點可以添加和刪除,

而不需要任何手動劃分或重新分配(redistribution)。

Dynamo很早就成為Amazon電子

商務平台的核心服務的底層存儲技術,它能夠有效地擴展到極端高峰負載,在繁忙的假

日購物季節也沒有任何的停機時間。

Dynamo和BigTable都屬於非關係型資料庫,也就是常說的NoSQL資料庫。

但兩

者設計理念有很大的不同。

Dynamo是完全無中心的設計,其假設是在內部信任網絡部

署,沒有安全的措施。

而BigTable是集中式管理,利用權限控制來提供安全措施。

Dynamo的數據模型是鍵值模型,而BigTable是多維排序圖。

Dynamo採用一致性哈希來實現分布式元數據管理,而BigTable採用集中式的元數

據管理。

兩者的適應場景也各不相同。

Dynamo主要針對電商購物車應用,對可用性要

求高,一致性要求不高,在CAP上強調對A(可用性)和P(分區容錯性)的要求,

是一個典型的AP資料庫。

而BigTable對一致性和可擴展性的要求比較高,比較適合處

理結構化的數據,是一個典型的CP資料庫。

3.雲計算架構的特點

雲計算雙雄谷歌和亞馬遜開啟了雲計算、大數據時代。

但云計算、大數據的概念卻

很快淪為廠商炒作的概念,使得很多客戶感到困惑。

美國的標準和技術組織(NIST)給了一個比較客觀、經得起時間檢驗的定義,可

以澄清很多誤解。

NIST給出的定義是:「雲計算是一個提供泛在、方便、按需,並通過網絡訪問一個

共享的可配置的計算資源池(包括網絡、伺服器、存儲、應用和服務)的模式,該模式

下資源能夠迅速地被創建或釋放,而不需太多的管理開銷或服務提供商的人工干預。

NIST還進一步總結出一個「三四五」要點來進一步闡釋雲計算概念:「三」是指雲計

算的3種服務模式(基礎設施即服務IaaS、平台即服務PaaS、軟體即服務SaaS);「四」

是指雲計算的4種部署模式(私有雲、公有雲、混合雲、社區雲);五」是指雲計算的5

個特點(按需自服務、寬頻訪問、資源池、快速彈性擴展、計量服務)。

前面我們在架構的特點中提到,架構不單單是技術的簡單組合,其中很重要的是要

權衡效率和成本,也就是說,在架構中的諸多考慮因素中,一個很重要的考慮因素是經

濟的因素。

缺少合理經濟模型的架構,是很難成為主流架構的,從馮·諾依曼架構和哈

佛架構的對比可以看出這一點,從雲計算的架構特徵來看也是一樣。

NIST的雲計算定義還是太正式,太文縐縐地不好理解。

用大白話來解釋,雲計算

其實就是用容錯、並行調度軟體來把大規模的廉價的標準工業伺服器組成資源池,把資

源池的IT能力(具體包括計算能力、網絡能力、存儲能力、應用能力)轉化成服務,

以彈性按需的方式提供出去。

這裡面有幾個值得關注的地方:

1) 雲計算是在分布式架構的基礎上融入集約化管理的能力,具有集中化的架

構特點。

雲計算時代,大部分的業務邏輯、數據處理都集中在運行於大型

數據中心的雲上,移動端主要是做展現。

網際網路時代的瀏覽器/服務端

(BS)架構也逐漸向客戶端/雲端(CC)架構轉型。

2) 雲計算架構是成本和效率的權衡。

通過使用廉價的標準工業伺服器,而不

是昂貴的品牌設備來降低硬體成本,同時利用軟體的容錯來彌補廉價硬體

質量的問題,並採用並行、虛擬化技術來提升資源的使用效率。

雲計算是一種方便的提供計算、網絡、資源以及在此之上構建的IT能力的一種服

務模式。

在該模式下會形成一個雲計算所特有的架構特點。

這些架構特點就是面向服務

(ServiceOrientedArchitecture)、資源池化(ResourcePooling)、軟體定義(Software

Defined)、標準化廉價硬體(CommodityHardware)、計量服務(MeasuredService)、水

平擴展及彈性(Scale-out&Elastic)。

其中軟體定義和標準化廉價硬體對傳統IT的衝擊

最大。

軟體定義網絡、軟體定義存儲、軟體定義安全的一個重要特點就是將控制層面與

數據層面分離,將控制軟體與硬體解耦,這樣可以大幅度提高系統的開放性、擴展性和

靈活性,也使得管理更為方便。

另外一個從經濟層面考慮的因素就是能大幅度降低成

本,讓傳統IT網絡、存儲和安全廠商失去專用硬體的保護壁壘。

而以標準化廉價硬體

為目標的OCP(OpenComputePlatform)以及天蠍計劃則把話語權從傳統廠商方面轉

到最終用戶方面。

不難想像,Cisco、EMC等以生產品牌產品為主業的傳統廠商將會面

臨來自「白牌機」廠商的巨大挑戰。

4.大數據產生的根源

BigData這個概念是在麥肯錫諮詢公司在其2011年5月發表的報告《Bigdata:The

nextfrontierforinnovation,competition,andproductivity》中首次提出。

在其報告中給

出的大數據定義是:大數據指的是大小超出常規的資料庫工具獲取、存儲、管理和分析

能力的數據集。

大數據概念一經提出,迅速占領媒體的封面,出現了各行業言必稱大數據的局面。

很多傳統的BI、數據倉庫方案也被重新包裝,以大數據面目出現,甚至很多與大數據

無關的項目,也被包裝成大數據。

大數據一時間成了一個包裝標籤。

國際數據公司(IDC)從大數據的4個特徵來定義它,即海量的數據規模

(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型

(Variety)、巨大的數據價值(Value)。

亞馬遜的大數據科學家JohnRauser則給出了一

個簡單的定義:大數據是任何超過一台計算機處理能力的數據量。

其實大數據的定義可

能不是很重要,畢竟不同的角度觀察可以有不同的定義。

但有一個現象確實是不爭的事

實,數據量的指數型爆炸性增長給人類帶來了前所未有的挑戰。

這個挑戰表現在計算能

力上,表現在支持計算的能力的能源消耗上。

因為,計算後面需要有能源的支持。

理論

上來說,數據的增長永遠會在越來越短的時間裡倍增,但能源卻沒有辦法跟隨。

最後結

果只能是產生的數據被廢棄。

根據思科的預測,全球數據中心每年的IP流量會在2019

年達到10.4ZB,平均每月863EB,幾乎3倍於2014年的(2014年是3.4ZB,平均每月

287EB)。

這種增長速度將直接推動IT架構的創新和變革。

那為什麼大數據的挑戰會突然在21世紀初期出現呢?其實,冰凍三尺,非一日之

寒,大數據現象是持續幾十年的人類社會信息化、數字化的結果。

回顧二三十年前,大

部分的通信信號都是模擬信號。

但數字化革命後,大部分的信號都從模擬信號轉化成數

字信號。

IT的發展更加速了數字化的進程。

早期的電腦只是把業務和管理信息化、數

字化;網際網路和移動網際網路使得人與人的交流數字化;到了物聯網時代,物與物的交互

所產生的數據量會變得比前者更大。

大數據的出現,要求更大的計算處理能力,從而推動了IT架構的發展。

Google的

3篇論文實際上就是在這種背景下產生。

目前大部分人看到的是大數據帶來的機遇,希望通過大數據分析,能更準確地掌握

客戶需求,能夠更好地把握市場變化的脈搏,能更快地通過大數據的輔助決策來響應業

務的變化。

如果說,大數據的處理能力需要雲計算來支撐,那麼,大數據的分析,就要

與行業知識相結合,建立相應的行業大數據分析模型。

而與行業進行深度結合,也催生

了網際網路+時代的到來。

11.2.6 網際網路+時代

網際網路+時代實際上雲計算和大數據時代的一個延伸,是雲計算和大數據技術和行

業深度融合的一個階段,其實質是企業數字化轉型。

1.網際網路+——企業數字化轉型

IDC認為,IT行業正在進入以雲計算、移動互聯、大數據和社交媒體為代表的第

三平台時期。

IBM也提出向CAMSS(Cloud,Analytics,Mobile,Social,Security)領

域全面轉型。

在國內,「網際網路+」成了2015年一個最凝聚共識的詞。

上至國家領導人,

下到老百姓,都在熱議「網際網路+」。

「網際網路+」的一個重要特點是實現傳統企業的數字化

轉型,而雲計算是承載企業數字化的架構和平台基礎。

對於「網際網路+」的內涵和外延有很多爭論。

比較趨同的看法是:「網際網路+」是網際網路

時代從消費網際網路向產業網際網路過渡的一個重要階段,其主要特點是傳統行業採用「互

聯網思維」來創新業務模式,利用網際網路和大數據技術,通過線下、線上的緊密結合,

為客戶提供更好價值的服務和產品。

如此一來,也產生了各種網際網路技術與行業結合的

模式,例如:網際網路

+金融、網際網路+製造、網際網路+教育、網際網路+金融、網際網路+交通、網際網路+能源

等。

2.網際網路+金融——Fintech

其中網際網路+金融成為最引人關注的領域。

在國外,與網際網路+金融對應的概念叫

Fintech(中文意思是「金融科技」)。

Fintech最早源於用於大型金融企業的後台的IT技

術,包括帳務系統、交易平台、支付、結算、清算等技術。

進入網際網路時代,Fintech

的概念外延延伸到覆蓋支撐金融行業業務創新的IT技術,包括P2P借貸、眾籌、移動

支付、虛擬貨幣、客戶行為大數據分析等。

典型的代表是P2P借貸的Prosper和

LendingClub,移動支付的谷歌錢包、蘋果錢包、阿里的支付寶和騰訊的微信支付、資

金整體管理平台Mint、智能理財顧問(Robo-advisor)LearnVest,以及比特幣Bitcoin

等。

3.區塊鏈——Fintech的天之驕子

前面我們談到,一部IT架構發展的歷史,經歷了從大型機集中式,到CS分布

式,再到雲計算集中式的發展。

分久必合,合久必分,歷史不是簡單的重複,而是以螺

旋上升的軌跡發展。

我們看到,谷歌的3篇論文都是關於以集中式的架構來管理分布

式的計算。

這樣的好處是統一了元數據管理和調度,同時保證了一致性。

而亞馬遜的

Dynamo架構,則有明顯的去中心化的特點。

中心化架構的一個很大的問題就是管理節

點的性能瓶頸,容易成為攻擊目標。

還有一個最重要的問題就是在一個大的分布環境裡

建立、維護中心節點的信任所需要的成本非常大。

中心化的架構還有一個重要問題就是,如果管理中心節點的人的發生主觀錯誤,或

有誠信問題,或者受第三方影響而失掉獨立性,將會對整個網絡帶來災難性的影響。

特幣的發明人中本聰於2009年1月3日在挖出的第一個創世紀比特幣區塊中留言:

「Chancelloronbrinkofsecondbailoutforbanks」。

這句話是當天在英國泰晤士報登的封

面頭條新聞,中文意思是「財長處於第二輪銀行緊急救助的懸崖邊緣」。

當時所處的背景

正是席捲全球的金融危機的愈演愈烈的時期。

據普林斯頓出版的《比特幣和密碼學技

術》一書的作者分析,中本聰是出於對中心化的銀行體系濫發貨幣、不加節制的擴張信

用不滿,而開發了一個完全去中心化的虛擬貨幣系統。

中本聰一開始就開放比特幣系統

源碼,比特幣系統也不受任何人控制,比特幣系統的總貨幣發行量也設計成固定的

2100萬比特幣,按一定的規則逐漸發行。

因此,比特幣像黃金那樣,具一定的稀缺

性,是一個不會通脹的虛擬貨幣。

比特幣自2009年上線以來,已經不間斷地正常運行了7年多。

比特幣的試驗證

明,完全無中心化的分布式架構可以在陌生環境下通過合適的經濟模型(挖礦激勵)和

共識算法形成信任。

這就規避了中心化分布式架構在中心節點的致命弱點。

同時,比特

幣底層的區塊鏈架構也解決了一個網際網路無法解決的問題,就是高昂的信任建立和維護

成本。

另外區塊鏈通過密碼學的簽名、哈希算法解決了在網際網路上難以解決的防偽問

題。

還有一個不太引人注意的獨特地方是,在區塊鏈上的計算需要用「燃料」(Gas)或

交易費支撐,也就是說,計算與支撐計算的成本綁定。

這和傳統IT架構有很大的不

同。

在傳統IT架構中,沒有金融的元素。

這樣做的隱患是可以通過計算來攻擊計算,

這也是目前在網際網路上無法杜絕的「拒絕服務」(DDoS)攻擊的原因。

而在區塊鏈上,

DDoS攻擊的可能性大為減少,因為發動DDoS攻擊需要動用很大的虛擬貨幣儲備。

個無論從成本上還是攻擊源的掩飾上都會給黑客帶來很大的不利影響。

因此,區塊鏈是

天然的和金融緊密結合的IT架構。

更重要的是,結合腳本引擎、密碼學和虛擬貨幣機制,區塊鏈上可以實現支付、自

動結算和清算。

因此,區塊鏈也被NorthwestPassageVentures公司的CEOAlexTapscott

稱為「價值網際網路」。

因此,區塊鏈的意義是不言而喻的。

特別是對金融行業來說,信用風險是傳統金融

業中一個揮之不去的夢魘。

但區塊鏈卻帶來了解決信用風險的近乎完美的解決方案。

此,區塊鏈技術被認為是下一代網際網路顛覆性技術也就不足為怪了。

華爾街日報甚至宣

稱,區塊鏈是最近500年以來在金融領域最重要的突破。

因此,區塊鏈可以說是

Fintech領域中當之無愧的天之驕子。

11.2.7 區塊鏈+時代

網際網路+時代是網際網路技術和行業業務的深度融合,但網際網路在信任的建立、維護

以及安全上存在致命的先天缺陷。

未來網際網路+必須與區塊鏈+相結合,才能彌補這個

缺陷。

區塊鏈架構的獨特之處在於:

·去中心化

·公正性和透明性

·防偽、防篡改

·准匿名性

·全網共識機制

·交易可追溯

·狀態全網記錄

·安全性

·合約自動執行

·低成本及高效率

根據這些特點,區塊鏈可以和很多行業結合,從當前的網際網路+向區塊鏈+發展,

使得業務交易更安全,交易成本更低,交易效率更高。

1.區塊鏈+金融

區塊鏈在金融行業無疑會得到廣泛的應用。

在支付、結算、清算領域,區塊鏈可以

成為「殺手級」的應用。

例如在多方參與的跨地域、跨網絡支付場景中,Ripple支付就是

一個很好的案例;在多方參與的結算、清算場景,R3聯盟也在利用區塊鏈技術構建銀

行間的聯盟鏈。

同時在多方參與的虛擬貨幣發行、流通、交易、股權(私募、公募)、

債券以及金融衍生品(包括期貨、期權、次貸、票據)的交易(NASDAQLinq平台案

例),以及在眾籌、P2P小額信貸、小額捐贈、抵押、信貸等方面,區塊鏈也可以提供

公正、透明、信用託管的平台。

在保險方面,區塊鏈也可以應用於互助保險、定損、理

賠等業務場景。

2.區塊鏈+政府

區塊鏈防偽、防篡改的特性能夠廣泛用於政府主管的產權、物權、使用權、知識產

權和各類權益的登記方面,包括公共記錄,如地契、房地產權證、車輛登記證、營業許

可證、專利、商標、版權、軟體許可、遊戲許可、數字媒體(音樂、電影、照片、電子

書)許可、公司產權關係變更記錄、監管記錄、審計記錄、犯罪記錄、電子護照、出生

死亡證、選民登記、選舉記錄、安全記錄、法院記錄、法醫證據、持槍證、建築許可

證、私人記錄、合同、簽名、遺囑、信託、契約(附條件)、仲裁、證書、學位、成

績、帳號等方面的記錄登記。

3.區塊鏈+醫療

區塊鏈在醫療行業中可以應用於診斷記錄、醫療記錄、體檢記錄、病人病歷、染色

體、基因序列的登記,也可以用在醫生預約、診所挂號等應用場景,以建立公平、公正

透明的機制。

另外在藥品、醫療器械及配件來源追蹤、審計方面也有比較好的應用場

景。

4.區塊鏈+物聯網

利用區塊鏈的智能合約,可以通過接口和物理世界的鑰匙、酒店門卡、車鑰匙、公

共儲物櫃鑰匙做程序的對接,可以達到區塊鏈上一手交錢、物理世界一手交貨的原子交

易的效果。

區塊鏈在物聯網的應用非常廣泛,特別是在智能設備的自主管理,以及智能

設備之間的互聯、協調方面有著非常大的優勢。

5.區塊鏈+商業

區塊鏈在商業上的應用也非常廣泛。

凡是涉及交易、支付、積分等的場景都是比較

適合區塊鏈的應用場景。

這裡包括用區塊鏈技術來實現打折券、抵用券、付款憑單、發

票、預訂、彩票、球票、電影票等業務流程的去中心化管理,以達到降低成本、提升效

率的目的。

6.區塊鏈+能源

區塊鏈在能源行業的應用前景廣闊。

採用區塊鏈技術,可提供公正、透明的能源交

易多邊市場和碳交易市場,以達到降低對手信用風險,同時減少支付和結算成本、提高

效率的目的。

另外在繳費領域、分布式發電,特別是新能源微電網中發電家庭、用電家

庭和電網間的電交易,區塊鏈都是非常理想的技術。

區塊鏈也可以用來記錄發電、配

電、輸電、調度、用電、售電記錄,提供公正、可追溯、透明的審計、監管記錄。

更重

要的是,區塊鏈在未來智能電網、能源網際網路中會扮演更重要的角色,理論上可以通過

區塊鏈智能合約實現發、輸、變、配、用電的同步調控。

區塊鏈在別的行業,像電信、教育、交通、工業製造、文化娛樂等行業都有非常廣

泛的應用場景。

只要是有防篡改數據記錄、審計需求,業務上涉及交易、結算、清算、

仲裁的行業,都是區塊鏈+的潛在應用對象。

11.3 未來展望

中國古代六經之首的《易經》強調「象、數、理、占」。

「象」可以簡單理解為現象;

「數」就是涉及現象中有關計算的數據屬性;而「理」就是隱含在現象和數據中的規律、道

理;「占」實際上就是計算,特別是帶有預測性質的計算。

古希臘畢達哥拉斯學派認為,

數是萬物的本原,事物的性質是由某種數量關係決定的,萬物按照一定的數量比例而構

成和諧的秩序。

畢達哥拉斯學派的觀點對後來的柏拉圖、甚至文藝復興時期的思想都有

極其重要的影響。

由此看出,一部計算的發展史,貫穿了人類的文明發展史。

到今天,人類文明的發展到了一個前所未有的新階段。

一方面,數據量正以指數型

增長速度膨脹,現有的以馮·諾依曼架構體系為基礎的IT架構似乎已經接近其能力的極

限。

長遠來說,地球上數據的存儲介質也存在極限。

因此,人類走出地球,奔向宇宙的

驅動力可能不僅僅是來自居住空間需求的驅動,更大的驅動力可能來自數據增長的驅

動。

另一方面,我們也看到,以圖靈機模型為基礎發展起來的電腦科技,已經使人類看

到了未來無機物智能超越人類智能的可能。

這兩方面都給人類文明帶來極大挑戰。

可以

說,人類已經別無選擇,未來只能靠非生物計算來應對數據膨脹帶來的挑戰,這就需要

有革命性的新計算技術。

而在這一方面,非馮·諾依曼架構的神經系統晶片、量子計算

機已經逐漸走出實驗室,給人們的希望帶來了一線曙光。

但人類也更擔心由非生物計算髮展起來的日益強大的非生物智能會對人類倫理、社

會,甚至生存產生很大的威脅。

如何解決這兩方面的矛盾,是一個值得整個人類思考的

問題。

根據過往的歷史,我們不妨大膽假設,未來能真正解決該問題的,一定不是某一

項技術,而是集多種技術為一體的某種新架構。

我們也可以更進一步地大膽假設,在這

個新架構中,量子計算可以解決計算能力的問題;神經系統計算可以解決智能認知的問

題;而更關鍵的是,區塊鏈可以解決電腦、機器人行為規範、自治管理的問題。

如此想來,未來還是充滿機遇,因此我們也對未來充滿憧憬和希望。


請為這篇文章評分?


相關文章