上海瑞鷹互聯網科技有限公司

多模數據處理破繭成蝶大(dà)數據“卡脖子”成爲過去(qù)！

發布時間：2020-05-27 16:43:35 來源：中(zhōng)國軟件網作者：劉學習

大(dà)數據，的的确确正在改變我(wǒ)(wǒ)們的世界。

在這場出人意料的新冠疫情之下(xià)，中(zhōng)國的大(dà)數據技術展現了驚人的威力：

追蹤流動人口，極速公布各地疫情報告，覆蓋所有人群的健康碼大(dà)數據服務，電(diàn)商(shāng)數據調動醫療資(zī)源，AI+大(dà)數據助力醫藥研發······

不管是傳統的結構化數據，如人員(yuán)信息、醫院等醫療資(zī)源信息等，還是複雜(zá)的非結構化數據，如地理位置數據、圖像數據、文本數據、語音數據等，各個層面的海量數據在客觀、透明的基礎上，以不同的技術進行處理、分(fēn)析，助力全民戰疫。

溫州城區菜市場實時人口監測

這些應用的背後是中(zhōng)國大(dà)數據技術與應用的進步，大(dà)數據基礎軟件自主研發成果不斷，大(dà)數據軟件國産化替代加速，大(dà)數據上雲向用戶提供按需服務，金融、航空航天、新零售等行業大(dà)數據應用卓有成效。

而在數字化商(shāng)業世界中(zhōng)，新的時代會産生(shēng)新的機會，新的技術會創造更廣闊的空間。

随着數據量和數據種類的不斷增多，由單一(yī)一(yī)個數據平台處理一(yī)類數據的應用雖然能力不斷完善，但是還是難以滿足用戶用一(yī)個平台處理不同類型數據模型的需求。

人們也期望用一(yī)個統一(yī)的平台，處理不同類型的數據，提高數據處理和分(fēn)析的效率，降低成本。

1.用戶呼喚多模型數據處理平台

大(dà)數據平台是囊括大(dà)數據存儲、處理和數據應用分(fēn)析的集成化數據開(kāi)發平台。建設這樣一(yī)個大(dà)數據平台必然會面臨很多問題：如何管理一(yī)個單體(tǐ)大(dà)集群;多源數據如何錄入;當數據接入之後，如何高效的存儲和查詢這些數據，如何管理這些數據，避免形成數據沼澤;如何保障數據安全，如何将數據展現給用戶等。這些基本上就是一(yī)個企業級大(dà)數據平台需要具備的能力。

IDC公布的2016～2020年全面生(shēng)産的數據量與增長率

從2008年誕生(shēng)起，大(dà)數據平台從落地上看就是一(yī)組技術或者工(gōng)具的組合，是以海量數據存儲、計算及不間斷流數據實時計算等場景爲主的基礎設施。

而開(kāi)源社區其實已經發展出了多種組件，可以供市場組合一(yī)套大(dà)數據平台.但是由于涉及到公司内部的業務場景以及模式，以及很難有非常全面掌握這些工(gōng)具的人才，所以這些工(gōng)具組合可能不完全适用。

開(kāi)源的大(dà)數據平台工(gōng)具

到目前爲止，對于一(yī)些單一(yī)的典型場景，市場上出現不同的産品，有了知(zhī)名的解決方案，解決數據的多樣性。

例如，結構化數據使用Hive，動态列模型使用Bigtable、Hbase，應用于數據存儲的文檔數據庫MongDB，專注于滿足各類複雜(zá)搜索需求的ElasticSearch，常被應用于會話(huà)緩存的高速NoSQL數據庫Redis，圖數據庫Neo4J，以及由實時計算引擎正成爲通用大(dà)數據引擎的Flink等。

但是這些産品都是孤立的，每一(yī)個或者類隻能解決一(yī)類問題。當用戶的數據有很多類型，就不得不采用不同種類的數據庫，并把它混在一(yī)起使用。

接受記者采訪的一(yī)位不願署名的專家認爲，新的數據類型，傳統關系結構數據、半結構化、非結構化數據，以及新的業态(如IOT)、新的數據來源(外(wài)部爬蟲數據)、新的數據格式(如社交、遊戲、地理)等多元化的數據出現，都對多模異構數據處理産生(shēng)訴求。

接受記者采訪的星環研發總監呂程認爲，由于各個數據庫各自爲政，應用開(kāi)發商(shāng)或客戶不得不自己架設一(yī)層，來解決數據在不同庫間的導入導出、數據在不同庫中(zhōng)的一(yī)緻性、綜合集群整體(tǐ)運維等一(yī)系列問題。因此，混合使用的方式操作不便、運維複雜(zá)的問題會日益凸顯。

今天，客戶對這種架構越來越難容忍，希望能用一(yī)套大(dà)數據平台，解決各種複雜(zá)的數據結構問題。

星環科技創始人、CEO孫元浩接受中(zhōng)國軟件網記者采訪時認爲，目前，大(dà)數據行業一(yī)個明顯的發展趨勢就是推出一(yī)個統一(yī)的大(dà)數據平台，能夠處理多種數據模型，能夠提供統一(yī)的編程語言、統一(yī)的計算引擎，使用統一(yī)的存儲管理系統、統一(yī)的資(zī)源調度系統，能夠支持多種不同的數據模型。

孫元浩說：“星環科技把這個統一(yī)的大(dà)數據平台，稱爲多模型異構的數據處理平台。”

2.兩條發展路徑，兩種不同結果

在大(dà)數據軟件發展中(zhōng)，技術路線發展演繹精彩紛呈，令人目不暇接。畢竟這是一(yī)個巨大(dà)的市場機會，創造天量的市場機會，也會誕生(shēng)像微軟、谷歌、AWS一(yī)樣的行業巨人。

雖然專家們将大(dà)數據的技術路線大(dà)體(tǐ)上分(fēn)爲Hadoop路線、Spark路線、自主研發路線、以及上一(yī)代MPP架構沿用路線等，但是記者認爲，在發展多模型大(dà)數據平台方面，幾本上可以分(fēn)爲兩大(dà)技術路線，一(yī)是開(kāi)源路線，另一(yī)個是自主研發路線。

不管是那種技術路線，一(yī)些數據庫或大(dà)數據廠商(shāng)在多模型數據處理上都提出自己的“行業解決方案”，一(yī)些則推出自己的“數據雲平台”等。雖然各種描述五花八門，但其解決的核心問題和其核心架構，還是解決異構數據庫間的數據同步等底層問題，使客戶從這些底層問題中(zhōng)解放(fàng)出來，像使用單一(yī)數據平台一(yī)樣簡便易用，從而爲客戶創造價值。

開(kāi)源路線的代表就是Hadoop和Spark。

提起大(dà)數據，依然不能不提Hadoop。因爲Hadoop讓海量的數據能分(fēn)布存儲，并能分(fēn)布的存取與處理。過去(qù)Hadoop幾乎成了大(dà)數據的代名詞。

專家認爲，作爲大(dà)數據基礎軟件的一(yī)大(dà)技術路線，基于開(kāi)源Hadoop發展的最大(dà)優勢就是可處理的數據量龐大(dà)且運行穩定。在節點資(zī)源不增加的情況下(xià)，運行速度雖然不占優勢，但卻十分(fēn)穩定。既是優勢也是劣勢，Hadoop在批處理方面的強大(dà)無法掩蓋其在交互式分(fēn)析和流處理方面的缺憾。

在大(dà)數據發展中(zhōng)，開(kāi)源大(dà)數據平台Hadoop占據至關重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車(chē)。

2018年，Cloudera和Hortonworks因爲連連虧損，兩大(dà)巨頭公司宣布平等合并，Cloudera以股票方式收購Hortonworks。但合并後公司股價繼續下(xià)跌。

2019年6月，MapR就預告公司營收遇到困難，正在尋求解困的措施。随後的8月6日，惠普企業HPE宣布收購MapR的資(zī)産，包括MapR的技術、知(zhī)識産權、人工(gōng)智能以及數據管理方面的專業經驗。

Spark技術的代表企業是Databricks。Databricks公司是由加州大(dà)學伯克利分(fēn)校負責開(kāi)發流行的開(kāi)源Apache Spark數據處理框架的團隊創建的。該公司幫助大(dà)企業快速處理、整合和分(fēn)析大(dà)量數據。它的統一(yī)分(fēn)析平台旨在孤立的數據存儲系統之間建立數字管道，并幫助工(gōng)程師和數據科學家更好地溝通。

Databricks公司業務方向已經轉移到“大(dà)數據分(fēn)析和人工(gōng)智能解決方案”。現在行業内更多的将其看成一(yī)家AI公司。

針對多模型數據處理，開(kāi)源路線方面的舉措是推出多模型數據庫，當然這些數據庫也是開(kāi)源的。

ArangoDB是一(yī)個開(kāi)源的、原生(shēng)的多模型NoSQL數據庫，同時支持Doc、Graph、K/V三種存儲，它有适用于全部三種數據模型的統一(yī)内核和統一(yī)數據庫查詢語言—AQL (ArangoDB Query Language)，非常适用于搭建高性能的應用和服務。

ArangoDB還允許在單個查詢中(zhōng)混合使用三種數據模型。因此，用戶可以在單次查詢過程中(zhōng)混合使用多種數據模型，而無需在不同數據模型間相互“切換”，也不需要執行數據傳輸過程，并且這三種數據模型均支持水平擴展。

2018年初，ArangoDB完成1156萬美元融資(zī)，深受投資(zī)人追捧。2020年初，ArangoDB 3.6 發布。

多模數據庫ArangoDB的優勢

不過ArangoDB的優勢是一(yī)個内核、一(yī)個查詢語言、支持三種數據模型。其缺點也是僅支持三種數據模型，應用受到了限制。

對于一(yī)些單一(yī)的典型場景，市場上出現的不同産品和知(zhī)名的解決方案大(dà)都是開(kāi)源系統，所以對多模型數據支持的産品很難放(fàng)棄自身優勢的開(kāi)源項目，而是在原數據模型支持基礎上的擴充，而更多的是新的開(kāi)源項目。

另一(yī)條技術路線就是以星環科技爲代表的自主開(kāi)發。

中(zhōng)國用戶需要處理的數據量遠超過之前在其他國家的需求。同時中(zhōng)國用戶在應用場景方面有着非常強的創新意識，需要處理的場景複雜(zá)度也超過了其他國家用戶。

星環科技就是專注解決用戶的這些難點，走出了一(yī)條獨特的自主研發技術創新之路。星環的産品體(tǐ)系已經從最早的分(fēn)析型數據庫擴展至閃存加速分(fēn)析型數據庫、實時計算、全文檢索數據庫、圖數據庫、Bigtable數據庫、交易數據庫、基于容器技術的數據雲等，從底層資(zī)源調度到上面的計算引擎，形成了一(yī)條有别于Hadoop或Spark、而具有星環特色的技術路線，實現了多個領域的技術突破。

Transwarp Data Hub(TDH)是星環科技推出的企業級大(dà)數據平台，經過7年的快速演進，不斷發展成熟，在郵政、交通、金融、政府等行業獲得了大(dà)量的部署實施經驗，同時向新生(shēng)的大(dà)數據技術領域進行的拓展和探索。

5月15日，星環科技推出一(yī)站式大(dà)數據平台TDH 7.0版本，主打一(yī)站式多模異構數據處理，打破了行業内普遍存在的不同數據庫産品切換的不便利，通過一(yī)個平台處理多種數據模型，讓用戶無需維護多種數據庫成爲現實。

呂程告訴中(zhōng)國軟件網記者，作爲一(yī)個多模型的數據處理平台，TDH 7.0可以提供統一(yī)的數據操作/查詢語言SQL、統一(yī)的數據計算引擎、統一(yī)的分(fēn)布式存儲管理系統、統一(yī)的資(zī)源管理框架，滿足利用一(yī)個多模異構平台，處理多種數據的需求。

星環的一(yī)站式多模處理平台示意

同時，TDH 7.0版本一(yī)站式多模異構數據處理性能亮眼，徹底解決大(dà)數據發展的一(yī)大(dà)瓶頸。據介紹，TDH從上而下(xià)劃分(fēn)爲五個層次：

最上層是SQL層，開(kāi)發了統一(yī)的SQL引擎，兼容各種不同的SQL“方言”;

計算層，開(kāi)發了統一(yī)的計算引擎，進行統一(yī)的計算任務優化和分(fēn)發;

其下(xià)的存儲模型層，TDH一(yī)個平台支持七種不同的存儲模型，适用于不同的應用場景，包括圖存儲Graph Storage、文檔存儲Document Storage、全文檢索 Full-text Search、鍵值存儲 Key-Value Storage、行列混合存儲 Row-Columnar Storage、時空地理存儲 Sequential Geospatial Storage、非結構化對象存儲 Unstructured Object Storage。

存儲管理層，開(kāi)發了統一(yī)的存儲管理引擎，提供數據塊分(fēn)布管理、數據多副本一(yī)緻性管理、文件服務管理等功能。

最底層資(zī)源調度層，開(kāi)發了統一(yī)的資(zī)源調度框架，通過容器化編排，統一(yī)調度計算、存儲、網絡資(zī)源。

統一(yī)的數據處理平台幾大(dà)的優勢：

多模型的數據處理平台的核心是對外(wài)提供統一(yī)的SQL編程接口、統一(yī)的計算引擎，以及統一(yī)的綜合式的存儲管理系統和統一(yī)的銷售框架。因此，星環TDH 7.0的優勢體(tǐ)現在這幾大(dà)特性的統一(yī)和融合上。

TDH 7.0統一(yī)的數據處理平台支持超過7種不同的數據模型，支持結構化的數據和非結構化數據，支持KeyValue介質存儲、全行搜索、排索引、圖存儲、圖數據庫、存儲文檔，也能夠存儲時空數據。這是TDH 7.0的第一(yī)大(dà)優勢。

星環科技第一(yī)家提供了一(yī)個能夠橫跨多種數據模型的統一(yī)的計算引擎。雖然有不少公司也在嘗試提供一(yī)個标準的數據接口，但是由于底層是不同的數據庫，沒用統一(yī)的計算引擎，雖然有統一(yī)的SQL接口，但是很難把不同的接口靜态的路由到功能數據庫上。因此，需要一(yī)個動态的計算引擎來動态地進行接口的調度，進行執行計劃的統一(yī)的管理。

同時在星環科技的TDH 7.0也提出了一(yī)個統一(yī)的分(fēn)布式管理系統，是實現數據分(fēn)布管理以及數據一(yī)緻性的數據管理系統，比過往使用HTVS效率更高、一(yī)緻性更強。

在同一(yī)個平台上可以将一(yī)份數據存儲成多種模型，用戶在應用發生(shēng)變化時能夠自行地采用最佳的倉儲模型來響應查詢需求，運行效率會更高。同時因爲一(yī)個平台處理多種數據模型，整運維成本、管理成本都會降低。

孫元浩說，未來的數據平台都應該是多模型的，但是用戶使用起來更應該是像使用一(yī)個數據庫一(yī)樣使用。

匿名的受訪專家認爲，星環的方案，不再沿用傳統的數據彙聚方式，而是使用更爲輕量化的模式，利用分(fēn)布式的存儲管理系統，達到邏輯上的統一(yī)存儲，再其上構建統一(yī)的計算能力。這一(yī)變革，無疑對多模異構數據的使用帶來更大(dà)的便捷性。

采用TDH 7.0 多模型數據處理平台的某個用戶表示，應用常常需要對一(yī)份數據進行多種不同模型分(fēn)析，如分(fēn)析查詢、模糊匹配查詢、關系推理查詢等。TDH可以針對不同需求采用多種最優存儲模型，如分(fēn)析查詢采用行列混合存儲，模糊匹配查詢采用全文檢索，關系推理查詢采用圖數據存儲。多種模式的存儲，可以使各場景下(xià)的查詢分(fēn)析性能都得到極大(dà)優化。

在傳統混合模型中(zhōng)，不同模型數據間做關聯分(fēn)析，需要進行跨數據庫的數據導入導出，十分(fēn)複雜(zá)。而采用了統一(yī)的數據管理，一(yī)個簡單的SQL語句就可以直接進行關聯查詢，如同操作同一(yī)個數據庫一(yī)般，使應用開(kāi)發變得十分(fēn)便捷。

在傳統混合模型中(zhōng)，不同模型需要運維不同數據庫。特别當同一(yī)份數據存儲于多數據庫時，數據一(yī)緻性成爲極大(dà)挑戰。此外(wài)，數據總體(tǐ)情況的運維，需要各個運維子系統彙總并二次開(kāi)發，運維成本巨大(dà)。而采用了統一(yī)的數據管理，在産品底層服務中(zhōng)直接保障數據一(yī)緻性，同時對多模型的數據進行整體(tǐ)運維，是天然的一(yī)體(tǐ)化系統。

3.大(dà)數據替代即将來臨， “卡脖子”會成爲過去(qù)?

多模型數據處理平台的進步隻是大(dà)數據技術發展的一(yī)個縮影。

呂程認爲，多模異構數據平台未來的發展方向之一(yī)是積極推動主要服務、組件、模塊的标準化。由于數據相關技術異常複雜(zá)，技術日新月異，各類基礎服務、組件、模塊要做到面面俱到，是異常困難的。而通過建設一(yī)定的标準，設立一(yī)定的規範，讓更多的企業參與其中(zhōng)，無論是開(kāi)源社區，還是閉源廠商(shāng)，都能貢獻自己的力量，創造自己的價值。

第二，構建一(yī)個良性的生(shēng)态。除了最基本的作用以外(wài)，平台還應當能支撐更多的上層應用，在不同行業、不同企業、不同業務中(zhōng)創造更高價值。這就對基礎數據平台的生(shēng)态提出了巨大(dà)的挑戰，越來越多的應用，越來越多的廠商(shāng)适配的接入，就會創造一(yī)個更加良性循環的生(shēng)态，從而促進整個産品和平台的繁榮。

第三，堅持新技術探索。面對現在日益複雜(zá)場景，不能停留在解決的單點問題。在日益凸顯的複雜(zá)場景面前，不同技術的組合是否能創造出新價值呢?是否需要新技術來解決複雜(zá)場景呢?這些地方是很值得深入研究和發展探索的，如現在讨論比較多的批流一(yī)體(tǐ)，又(yòu)如檢索和分(fēn)析同時使用等。

開(kāi)源路線與自主研發路線正在演繹另一(yī)場大(dà)數據領域的國産化技術替代。

近年來，大(dà)數據産業飛速發展，應用層和基礎層軟件不斷進步，但是實施複雜(zá)、技術進步步伐遲滞的Hadoop卻不斷遭遇挑戰，各種替代技術不斷湧現。

因此，大(dà)數據領域因爲開(kāi)源技術的複雜(zá)性日益增加，用戶采用商(shāng)用系統或者雲服務商(shāng)的技術方案成爲一(yī)大(dà)方向。

Hadoop技術上碰到了難以逾越的挑戰。Hadoop是基于15年前的技術環境設計的，如今的硬件技術環境發生(shēng)根本性變化，網絡普及萬兆，存儲每秒鍾能夠做上百萬次操作，當時的架構已經完全跟不上現在硬件的發展。

另一(yī)個原因，Hadoop軟件是仿造谷歌的系統來構建的，最初的目标是用于互聯網公司的日志(zhì)處理和營銷推廣等場景。當這個技術應用到各行各業時，就發現它在功能缺失、一(yī)緻性和可靠性、高性能并發等問題上的局限性，無法突破，甚至有分(fēn)析機構說Hadoop已死。

以前因爲有開(kāi)源軟件，大(dà)家常常有一(yī)種感覺，既然有免費(fèi)的，就用免費(fèi)的就好了。但是後面慢(màn)慢(màn)逐漸認識到這種模式的問題，想使用開(kāi)源Hadoop，就需要大(dà)量專業技術人員(yuán)，要知(zhī)道Hadoop是個軟件棧，裏面有上百款的組件，如何建成大(dà)數據平台，并維護平台成爲一(yī)大(dà)挑戰。

很多雲服務商(shāng)會推出自己研發的産品。目前，大(dà)數據上雲，很多雲服務商(shāng)會基于開(kāi)源軟件和自己研發的系統，爲用戶建立大(dà)數據平台，支持用戶大(dà)數據應用開(kāi)發與維護。目前，它正成爲一(yī)大(dà)方向。

很多大(dà)數據專業企業堅持自主研發路線。星環科技CEO孫元浩表示，星環科技堅持大(dà)數據基礎軟件的完全自主研發，原創了一(yī)條完全自研的技術路線。

大(dà)數據領域另一(yī)個替換則是國産大(dà)數據基礎軟件産品在不同領域開(kāi)始替換甲骨文、IBM等國外(wài)軟件。國内衆多大(dà)數據平台已經在衆多行業開(kāi)始替代包括甲骨文、IBM，甚至一(yī)些國外(wài)Hadoop供應商(shāng)的産品。

記者獲悉，近日中(zhōng)興通訊簽約國内大(dà)數據企業永洪科技，利用後者提供的擁有自主知(zhī)識産權的一(yī)站式大(dà)數據平台與可視化分(fēn)析方案，實現從企業管理到客戶經營的精細化運營，提升企業運營效率，打造合作共赢的産業生(shēng)态環境。

接受記者采訪的永洪科技市場總監張旭軍說，國産化替代已經從軟硬件國産化的“去(qù)IOE”(IBM、Oracle、EMC)延伸到頂層設計咨詢國産化的“去(qù)SOA”(SAP、Oracle、Accenture)，保證全方位的信息安全。大(dà)數據領域的國産化替代會快得多。

孫元浩表示，替代國外(wài)産品主要還是技術革命造成的，不光在中(zhōng)國發生(shēng)，在美國創新型的大(dà)數據基礎軟件也開(kāi)始替代傳統企業的數據庫等産品，面對日益增加的數據量，傳統軟件的處理性能已經無法滿足用戶需求，分(fēn)布式技術帶來的性能飛躍是客戶進行替換的一(yī)個重要動力。在新的技術領域，星環科技走得會更快一(yī)點，替代成功的項目更多一(yī)點。

另外(wài)，國外(wài)的大(dà)數據軟件在中(zhōng)國“水土不服”。因爲國内的數據體(tǐ)量通常比國外(wài)大(dà)一(yī)到兩個數量級，數據應用也更爲複雜(zá)。1TB和100TB在數據分(fēn)析是完全不同的兩件事，而由于國外(wài)并沒有這樣的應用場景，所以國外(wài)的大(dà)數據軟件在處理這類的問題時天生(shēng)不足。國産軟件在設計時就會充分(fēn)的考慮這些情況。

帆軟市場經理丁明浩告訴記者，大(dà)數據國産化替代最直接的效果是降低采購成本和運營維護成本，同時國内公司能定制化地爲企業解決運營管理線上化進程中(zhōng)遇到的各種問題。

工(gōng)業和信息化部新聞發言人、信息技術發展司司長謝少鋒介紹，基礎軟硬件方面，将實施國家軟件重大(dà)工(gōng)程，集中(zhōng)力量解決關鍵軟件的“卡脖子”問題，着力推動工(gōng)業技術的軟件化，加快推廣軟件定義網絡的應用。

而大(dà)數據領域的替代，正在從軟件、應用等不同領域開(kāi)展，大(dà)數據領域的“卡脖子”就成爲過去(qù)。