2015年國務院向社會公布的《促進大數據發展行動綱要》明確提出了大數據的基本概念:大數據是以容量大、類型多、存取速度快、應用價值高位為主要特征的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。近幾年來,隨著企業積累的數據越來越多。如何利用大數據技術構建企業大數據平臺,以充分體現大數據的價值,是各行各業一直在不斷探索和追求的目標。那么,企業大數據平臺技術體系架構究竟如何規劃呢?筆者結合多年企業大數據平臺建設經驗,將企業大數據平臺概括為6個主要環節。從數據源開始,依次為數據采集、數據處理、數據存儲、數據服務、數據展示以及數據質量管理。企業大數據平臺技術體系架構,如下圖所示:

數據采集層的主要目標是從數據源收集數量巨大、來源分散、格式多樣的數據到企業大數據平臺。一般采取實時數據增量采集和歷史數據批量采集兩種解決方案。實時數據增量采集在監控領域應用比較廣泛,快速、高效收集數據源產生的實時數據,以便即時響應和處理;歷史數據批量采集則是將數據源歷史一段時間的數據全部抽取到企業大數據平臺,數據采集存在一定的延遲,適合數據補采、周期性計算等實時性要求不高的業務應用場景。

數據處理層是從大量的原始數據中發現新知識、創造新價值、提升新能力的過程,是企業大數據平臺建設的關鍵環節。數據處理層既要滿足常規的統計分析和有價值的數據挖掘等離線歷史大數據處理要求,還要兼顧時效性要求高的在線實時流數據處理要求。
在線實時流數據處理要求數據實時采集、實時處理、實時反饋和實時輸出,響應時間在秒級甚至于毫秒級。離線歷史大數據處理通常是針對批量采集數據,數據處理量大,達到TB、PB級以上,數據處理周期以分鐘、小時、天為單位。
當然,對于實時增量數據,我們可以以增量方式處理分鐘、小時、天為單位的統計數據,以提高系統處理效率。

數據存儲層是大數據集合、主題數據、業務數據、基礎數據等持久化的存儲中心
一般包括關系型數據庫和分布式文件系統兩種。關系型數據庫用于存儲主題數據、業務數據、基礎數據等;分布式文件系統用于存儲大數據集合。
數據服務層是大數據對外共享發布通道。
目前應用最多的是以服務接口的形式對外提供,或者以消息訂閱推送的方式對外提供。
數據展示層是企業大數據平臺的圖形用戶接口。
展現形式可以多樣化,最典型的三種方式是:移動客戶端、個人工作站和可視化大屏幕。數據質量管理是貫穿數據采集、數據處理、數據存儲、數據服務和數據展現的全過程質量管理體系。
結束語:企業大數據平臺技術架構實現的關鍵是如何選擇開源技術實現數據采集、數據處理、數據存儲、數據服務和數據展現5個層次的應用,以及建設一套標準化的全過程的數據質量管理體系。