在這場出人意料的新冠疫情之下(xià),中(zhōng)國的大(dà)數據技術展現了驚人的威力:
追蹤流動人口,極速公布各地疫情報告,覆蓋所有人群的健康碼大(dà)數據服務,電(diàn)商(shāng)數據調動醫療資(zī)源,AI+大(dà)數據助力醫藥研發······
不管是傳統的結構化數據,如人員(yuán)信息、醫院等醫療資(zī)源信息等,還是複雜(zá)的非結構化數據,如地理位置數據、圖像數據、文本數據、語音數據等,各個層面的海量數據在客觀、透明的基礎上,以不同的技術進行處理、分(fēn)析,助力全民戰疫。
溫州城區菜市場實時人口監測
這些應用的背後是中(zhōng)國大(dà)數據技術與應用的進步,大(dà)數據基礎軟件自主研發成果不斷,大(dà)數據軟件國産化替代加速,大(dà)數據上雲向用戶提供按需服務,金融、航空航天、新零售等行業大(dà)數據應用卓有成效。
而在數字化商(shāng)業世界中(zhōng),新的時代會産生(shēng)新的機會,新的技術會創造更廣闊的空間。
随着數據量和數據種類的不斷增多,由單一(yī)一(yī)個數據平台處理一(yī)類數據的應用雖然能力不斷完善,但是還是難以滿足用戶用一(yī)個平台處理不同類型數據模型的需求。
人們也期望用一(yī)個統一(yī)的平台,處理不同類型的數據,提高數據處理和分(fēn)析的效率,降低成本。
1.用戶呼喚多模型數據處理平台
大(dà)數據平台是囊括大(dà)數據存儲、處理和數據應用分(fēn)析的集成化數據開(kāi)發平台。建設這樣一(yī)個大(dà)數據平台必然會面臨很多問題:如何管理一(yī)個單體(tǐ)大(dà)集群;多源數據如何錄入;當數據接入之後,如何高效的存儲和查詢這些數據,如何管理這些數據,避免形成數據沼澤;如何保障數據安全,如何将數據展現給用戶等。 這些基本上就是一(yī)個企業級大(dà)數據平台需要具備的能力。
IDC公布的2016~2020年全面生(shēng)産的數據量與增長率
從2008年誕生(shēng)起,大(dà)數據平台從落地上看就是一(yī)組技術或者工(gōng)具的組合,是以海量數據存儲、計算及不間斷流數據實時計算等場景爲主的基礎設施。
而開(kāi)源社區其實已經發展出了多種組件,可以供市場組合一(yī)套大(dà)數據平台.但是由于涉及到公司内部的業務場景以及模式,以及很難有非常全面掌握這些工(gōng)具的人才,所以這些工(gōng)具組合可能不完全适用。
開(kāi)源的大(dà)數據平台工(gōng)具
到目前爲止,對于一(yī)些單一(yī)的典型場景,市場上出現不同的産品,有了知(zhī)名的解決方案,解決數據的多樣性。
例如,結構化數據使用Hive,動态列模型使用Bigtable、Hbase,應用于數據存儲的文檔數據庫MongDB,專注于滿足各類複雜(zá)搜索需求的ElasticSearch,常被應用于會話(huà)緩存的高速NoSQL數據庫Redis,圖數據庫Neo4J,以及由實時計算引擎正成爲通用大(dà)數據引擎的Flink等。
但是這些産品都是孤立的,每一(yī)個或者類隻能解決一(yī)類問題。當用戶的數據有很多類型,就不得不采用不同種類的數據庫,并把它混在一(yī)起使用。
接受記者采訪的一(yī)位不願署名的專家認爲,新的數據類型,傳統關系結構數據、半結構化、非結構化數據,以及新的業态(如IOT)、新的數據來源(外(wài)部爬蟲數據)、新的數據格式(如社交、遊戲、地理)等多元化的數據出現,都對多模異構數據處理産生(shēng)訴求。
接受記者采訪的星環研發總監呂程認爲,由于各個數據庫各自爲政,應用開(kāi)發商(shāng)或客戶不得不自己架設一(yī)層,來解決數據在不同庫間的導入導出、數據在不同庫中(zhōng)的一(yī)緻性、綜合集群整體(tǐ)運維等一(yī)系列問題。因此,混合使用的方式操作不便、運維複雜(zá)的問題會日益凸顯。
今天,客戶對這種架構越來越難容忍,希望能用一(yī)套大(dà)數據平台,解決各種複雜(zá)的數據結構問題。
星環科技創始人、CEO孫元浩接受中(zhōng)國軟件網記者采訪時認爲,目前,大(dà)數據行業一(yī)個明顯的發展趨勢就是推出一(yī)個統一(yī)的大(dà)數據平台,能夠處理多種數據模型,能夠提供統一(yī)的編程語言、統一(yī)的計算引擎,使用統一(yī)的存儲管理系統、統一(yī)的資(zī)源調度系統,能夠支持多種不同的數據模型。
孫元浩說:“星環科技把這個統一(yī)的大(dà)數據平台,稱爲多模型異構的數據處理平台。”
2.兩條發展路徑,兩種不同結果
在大(dà)數據軟件發展中(zhōng),技術路線發展演繹精彩紛呈,令人目不暇接。畢竟這是一(yī)個巨大(dà)的市場機會,創造天量的市場機會,也會誕生(shēng)像微軟、谷歌、AWS一(yī)樣的行業巨人。
雖然專家們将大(dà)數據的技術路線大(dà)體(tǐ)上分(fēn)爲Hadoop路線、Spark路線、自主研發路線、以及上一(yī)代MPP架構沿用路線等,但是記者認爲,在發展多模型大(dà)數據平台方面,幾本上可以分(fēn)爲兩大(dà)技術路線,一(yī)是開(kāi)源路線,另一(yī)個是自主研發路線。
不管是那種技術路線,一(yī)些數據庫或大(dà)數據廠商(shāng)在多模型數據處理上都提出自己的“行業解決方案”,一(yī)些則推出自己的“數據雲平台”等。雖然各種描述五花八門,但其解決的核心問題和其核心架構,還是解決異構數據庫間的數據同步等底層問題,使客戶從這些底層問題中(zhōng)解放(fàng)出來,像使用單一(yī)數據平台一(yī)樣簡便易用,從而爲客戶創造價值。
開(kāi)源路線的代表就是Hadoop和Spark。
提起大(dà)數據,依然不能不提Hadoop。因爲Hadoop讓海量的數據能分(fēn)布存儲,并能分(fēn)布的存取與處理。過去(qù)Hadoop幾乎成了大(dà)數據的代名詞。
專家認爲,作爲大(dà)數據基礎軟件的一(yī)大(dà)技術路線,基于開(kāi)源Hadoop發展的最大(dà)優勢就是可處理的數據量龐大(dà)且運行穩定。在節點資(zī)源不增加的情況下(xià),運行速度雖然不占優勢,但卻十分(fēn)穩定。既是優勢也是劣勢,Hadoop在批處理方面的強大(dà)無法掩蓋其在交互式分(fēn)析和流處理方面的缺憾。
在大(dà)數據發展中(zhōng),開(kāi)源大(dà)數據平台Hadoop占據至關重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車(chē)。
2018年,Cloudera和Hortonworks因爲連連虧損,兩大(dà)巨頭公司宣布平等合并,Cloudera以股票方式收購Hortonworks。但合并後公司股價繼續下(xià)跌。
2019年6月,MapR就預告公司營收遇到困難,正在尋求解困的措施。随後的8月6日,惠普企業HPE宣布收購MapR的資(zī)産,包括MapR的技術、知(zhī)識産權、人工(gōng)智能以及數據管理方面的專業經驗。
Spark技術的代表企業是Databricks。Databricks公司是由加州大(dà)學伯克利分(fēn)校負責開(kāi)發流行的開(kāi)源Apache Spark數據處理框架的團隊創建的。該公司幫助大(dà)企業快速處理、整合和分(fēn)析大(dà)量數據。它的統一(yī)分(fēn)析平台旨在孤立的數據存儲系統之間建立數字管道,并幫助工(gōng)程師和數據科學家更好地溝通。
Databricks公司業務方向已經轉移到“大(dà)數據分(fēn)析和人工(gōng)智能解決方案”。現在行業内更多的将其看成一(yī)家AI公司。
針對多模型數據處理,開(kāi)源路線方面的舉措是推出多模型數據庫,當然這些數據庫也是開(kāi)源的。
ArangoDB是一(yī)個開(kāi)源的、原生(shēng)的多模型NoSQL數據庫,同時支持Doc、Graph、K/V三種存儲,它有适用于全部三種數據模型的統一(yī)内核和統一(yī)數據庫查詢語言—AQL (ArangoDB Query Language),非常适用于搭建高性能的應用和服務。
ArangoDB還允許在單個查詢中(zhōng)混合使用三種數據模型。因此,用戶可以在單次查詢過程中(zhōng)混合使用多種數據模型,而無需在不同數據模型間相互“切換”,也不需要執行數據傳輸過程,并且這三種數據模型均支持水平擴展。
2018年初,ArangoDB完成1156萬美元融資(zī),深受投資(zī)人追捧。2020年初,ArangoDB 3.6 發布。
多模數據庫ArangoDB的優勢
不過ArangoDB的優勢是一(yī)個内核、一(yī)個查詢語言、支持三種數據模型。其缺點也是僅支持三種數據模型,應用受到了限制。
對于一(yī)些單一(yī)的典型場景,市場上出現的不同産品和知(zhī)名的解決方案大(dà)都是開(kāi)源系統,所以對多模型數據支持的産品很難放(fàng)棄自身優勢的開(kāi)源項目,而是在原數據模型支持基礎上的擴充,而更多的是新的開(kāi)源項目。
另一(yī)條技術路線就是以星環科技爲代表的自主開(kāi)發。
中(zhōng)國用戶需要處理的數據量遠超過之前在其他國家的需求。同時中(zhōng)國用戶在應用場景方面有着非常強的創新意識,需要處理的場景複雜(zá)度也超過了其他國家用戶。
星環科技就是專注解決用戶的這些難點,走出了一(yī)條獨特的自主研發技術創新之路。星環的産品體(tǐ)系已經從最早的分(fēn)析型數據庫擴展至閃存加速分(fēn)析型數據庫、實時計算、全文檢索數據庫、圖數據庫、Bigtable數據庫、交易數據庫、基于容器技術的數據雲等,從底層資(zī)源調度到上面的計算引擎,形成了一(yī)條有别于Hadoop或Spark、而具有星環特色的技術路線,實現了多個領域的技術突破。
Transwarp Data Hub(TDH)是星環科技推出的企業級大(dà)數據平台,經過7年的快速演進,不斷發展成熟,在郵政、交通、金融、政府等行業獲得了大(dà)量的部署實施經驗,同時向新生(shēng)的大(dà)數據技術領域進行的拓展和探索。
5月15日,星環科技推出一(yī)站式大(dà)數據平台TDH 7.0版本,主打一(yī)站式多模異構數據處理,打破了行業内普遍存在的不同數據庫産品切換的不便利,通過一(yī)個平台處理多種數據模型,讓用戶無需維護多種數據庫成爲現實。
呂程告訴中(zhōng)國軟件網記者,作爲一(yī)個多模型的數據處理平台,TDH 7.0可以提供統一(yī)的數據操作/查詢語言SQL、統一(yī)的數據計算引擎、統一(yī)的分(fēn)布式存儲管理系統、統一(yī)的資(zī)源管理框架,滿足利用一(yī)個多模異構平台,處理多種數據的需求。
星環的一(yī)站式多模處理平台示意
同時,TDH 7.0版本一(yī)站式多模異構數據處理性能亮眼,徹底解決大(dà)數據發展的一(yī)大(dà)瓶頸。據介紹,TDH從上而下(xià)劃分(fēn)爲五個層次:
最上層是SQL層,開(kāi)發了統一(yī)的SQL引擎,兼容各種不同的SQL“方言”;
計算層,開(kāi)發了統一(yī)的計算引擎,進行統一(yī)的計算任務優化和分(fēn)發;
其下(xià)的存儲模型層,TDH一(yī)個平台支持七種不同的存儲模型,适用于不同的應用場景,包括圖存儲Graph Storage、文檔存儲Document Storage、全文檢索 Full-text Search、鍵值存儲 Key-Value Storage、行列混合存儲 Row-Columnar Storage、時空地理存儲 Sequential Geospatial Storage、非結構化對象存儲 Unstructured Object Storage。
存儲管理層,開(kāi)發了統一(yī)的存儲管理引擎,提供數據塊分(fēn)布管理、數據多副本一(yī)緻性管理、文件服務管理等功能。
最底層資(zī)源調度層,開(kāi)發了統一(yī)的資(zī)源調度框架,通過容器化編排,統一(yī)調度計算、存儲、網絡資(zī)源。
統一(yī)的數據處理平台幾大(dà)的優勢:
多模型的數據處理平台的核心是對外(wài)提供統一(yī)的SQL編程接口、統一(yī)的計算引擎,以及統一(yī)的綜合式的存儲管理系統和統一(yī)的銷售框架。因此,星環TDH 7.0的優勢體(tǐ)現在這幾大(dà)特性的統一(yī)和融合上。
TDH 7.0統一(yī)的數據處理平台支持超過7種不同的數據模型,支持結構化的數據和非結構化數據,支持KeyValue介質存儲、全行搜索、排索引、圖存儲、圖數據庫、存儲文檔,也能夠存儲時空數據。這是TDH 7.0的第一(yī)大(dà)優勢。
星環科技第一(yī)家提供了一(yī)個能夠橫跨多種數據模型的統一(yī)的計算引擎。雖然有不少公司也在嘗試提供一(yī)個标準的數據接口,但是由于底層是不同的數據庫,沒用統一(yī)的計算引擎,雖然有統一(yī)的SQL接口,但是很難把不同的接口靜态的路由到功能數據庫上。因此,需要一(yī)個動态的計算引擎來動态地進行接口的調度,進行執行計劃的統一(yī)的管理。
同時在星環科技的TDH 7.0也提出了一(yī)個統一(yī)的分(fēn)布式管理系統,是實現數據分(fēn)布管理以及數據一(yī)緻性的數據管理系統,比過往使用HTVS效率更高、一(yī)緻性更強。
在同一(yī)個平台上可以将一(yī)份數據存儲成多種模型,用戶在應用發生(shēng)變化時能夠自行地采用最佳的倉儲模型來響應查詢需求,運行效率會更高。同時因爲一(yī)個平台處理多種數據模型,整運維成本、管理成本都會降低。
孫元浩說,未來的數據平台都應該是多模型的,但是用戶使用起來更應該是像使用一(yī)個數據庫一(yī)樣使用。
匿名的受訪專家認爲,星環的方案,不再沿用傳統的數據彙聚方式,而是使用更爲輕量化的模式,利用分(fēn)布式的存儲管理系統,達到邏輯上的統一(yī)存儲,再其上構建統一(yī)的計算能力。這一(yī)變革,無疑對多模異構數據的使用帶來更大(dà)的便捷性。
采用TDH 7.0 多模型數據處理平台的某個用戶表示,應用常常需要對一(yī)份數據進行多種不同模型分(fēn)析,如分(fēn)析查詢、模糊匹配查詢、關系推理查詢等。TDH可以針對不同需求采用多種最優存儲模型,如分(fēn)析查詢采用行列混合存儲,模糊匹配查詢采用全文檢索,關系推理查詢采用圖數據存儲。多種模式的存儲,可以使各場景下(xià)的查詢分(fēn)析性能都得到極大(dà)優化。
在傳統混合模型中(zhōng),不同模型數據間做關聯分(fēn)析,需要進行跨數據庫的數據導入導出,十分(fēn)複雜(zá)。而采用了統一(yī)的數據管理,一(yī)個簡單的SQL語句就可以直接進行關聯查詢,如同操作同一(yī)個數據庫一(yī)般,使應用開(kāi)發變得十分(fēn)便捷。
在傳統混合模型中(zhōng),不同模型需要運維不同數據庫。特别當同一(yī)份數據存儲于多數據庫時,數據一(yī)緻性成爲極大(dà)挑戰。此外(wài),數據總體(tǐ)情況的運維,需要各個運維子系統彙總并二次開(kāi)發,運維成本巨大(dà)。而采用了統一(yī)的數據管理,在産品底層服務中(zhōng)直接保障數據一(yī)緻性,同時對多模型的數據進行整體(tǐ)運維,是天然的一(yī)體(tǐ)化系統。
3.大(dà)數據替代即将來臨, “卡脖子”會成爲過去(qù)?
多模型數據處理平台的進步隻是大(dà)數據技術發展的一(yī)個縮影。
呂程認爲,多模異構數據平台未來的發展方向之一(yī)是積極推動主要服務、組件、模塊的标準化。由于數據相關技術異常複雜(zá),技術日新月異,各類基礎服務、組件、模塊要做到面面俱到,是異常困難的。而通過建設一(yī)定的标準,設立一(yī)定的規範,讓更多的企業參與其中(zhōng),無論是開(kāi)源社區,還是閉源廠商(shāng),都能貢獻自己的力量,創造自己的價值。
第二,構建一(yī)個良性的生(shēng)态。除了最基本的作用以外(wài),平台還應當能支撐更多的上層應用,在不同行業、不同企業、不同業務中(zhōng)創造更高價值。這就對基礎數據平台的生(shēng)态提出了巨大(dà)的挑戰,越來越多的應用,越來越多的廠商(shāng)适配的接入,就會創造一(yī)個更加良性循環的生(shēng)态,從而促進整個産品和平台的繁榮。
第三,堅持新技術探索。面對現在日益複雜(zá)場景,不能停留在解決的單點問題。在日益凸顯的複雜(zá)場景面前,不同技術的組合是否能創造出新價值呢?是否需要新技術來解決複雜(zá)場景呢?這些地方是很值得深入研究和發展探索的,如現在讨論比較多的批流一(yī)體(tǐ),又(yòu)如檢索和分(fēn)析同時使用等。
開(kāi)源路線與自主研發路線正在演繹另一(yī)場大(dà)數據領域的國産化技術替代。
近年來,大(dà)數據産業飛速發展,應用層和基礎層軟件不斷進步,但是實施複雜(zá)、技術進步步伐遲滞的Hadoop卻不斷遭遇挑戰,各種替代技術不斷湧現。
因此,大(dà)數據領域因爲開(kāi)源技術的複雜(zá)性日益增加,用戶采用商(shāng)用系統或者雲服務商(shāng)的技術方案成爲一(yī)大(dà)方向。
Hadoop技術上碰到了難以逾越的挑戰。Hadoop是基于15年前的技術環境設計的,如今的硬件技術環境發生(shēng)根本性變化,網絡普及萬兆,存儲每秒鍾能夠做上百萬次操作,當時的架構已經完全跟不上現在硬件的發展。
另一(yī)個原因,Hadoop軟件是仿造谷歌的系統來構建的,最初的目标是用于互聯網公司的日志(zhì)處理和營銷推廣等場景。當這個技術應用到各行各業時,就發現它在功能缺失、一(yī)緻性和可靠性、高性能并發等問題上的局限性,無法突破,甚至有分(fēn)析機構說Hadoop已死。
以前因爲有開(kāi)源軟件,大(dà)家常常有一(yī)種感覺,既然有免費(fèi)的,就用免費(fèi)的就好了。但是後面慢(màn)慢(màn)逐漸認識到這種模式的問題,想使用開(kāi)源Hadoop,就需要大(dà)量專業技術人員(yuán),要知(zhī)道Hadoop是個軟件棧,裏面有上百款的組件,如何建成大(dà)數據平台,并維護平台成爲一(yī)大(dà)挑戰。
很多雲服務商(shāng)會推出自己研發的産品。目前,大(dà)數據上雲,很多雲服務商(shāng)會基于開(kāi)源軟件和自己研發的系統,爲用戶建立大(dà)數據平台,支持用戶大(dà)數據應用開(kāi)發與維護。目前,它正成爲一(yī)大(dà)方向。
很多大(dà)數據專業企業堅持自主研發路線。星環科技CEO孫元浩表示,星環科技堅持大(dà)數據基礎軟件的完全自主研發,原創了一(yī)條完全自研的技術路線。
大(dà)數據領域另一(yī)個替換則是國産大(dà)數據基礎軟件産品在不同領域開(kāi)始替換甲骨文、IBM等國外(wài)軟件。國内衆多大(dà)數據平台已經在衆多行業開(kāi)始替代包括甲骨文、IBM,甚至一(yī)些國外(wài)Hadoop供應商(shāng)的産品。
記者獲悉,近日中(zhōng)興通訊簽約國内大(dà)數據企業永洪科技,利用後者提供的擁有自主知(zhī)識産權的一(yī)站式大(dà)數據平台與可視化分(fēn)析方案,實現從企業管理到客戶經營的精細化運營,提升企業運營效率,打造合作共赢的産業生(shēng)态環境。
接受記者采訪的永洪科技市場總監張旭軍說,國産化替代已經從軟硬件國産化的“去(qù)IOE”(IBM、Oracle、EMC)延伸到頂層設計咨詢國産化的“去(qù)SOA”(SAP、Oracle、Accenture),保證全方位的信息安全。大(dà)數據領域的國産化替代會快得多。
孫元浩表示,替代國外(wài)産品主要還是技術革命造成的,不光在中(zhōng)國發生(shēng),在美國創新型的大(dà)數據基礎軟件也開(kāi)始替代傳統企業的數據庫等産品,面對日益增加的數據量,傳統軟件的處理性能已經無法滿足用戶需求,分(fēn)布式技術帶來的性能飛躍是客戶進行替換的一(yī)個重要動力。在新的技術領域,星環科技走得會更快一(yī)點,替代成功的項目更多一(yī)點。
另外(wài),國外(wài)的大(dà)數據軟件在中(zhōng)國“水土不服”。因爲國内的數據體(tǐ)量通常比國外(wài)大(dà)一(yī)到兩個數量級,數據應用也更爲複雜(zá)。1TB和100TB在數據分(fēn)析是完全不同的兩件事,而由于國外(wài)并沒有這樣的應用場景,所以國外(wài)的大(dà)數據軟件在處理這類的問題時天生(shēng)不足。國産軟件在設計時就會充分(fēn)的考慮這些情況。
帆軟市場經理丁明浩告訴記者,大(dà)數據國産化替代最直接的效果是降低采購成本和運營維護成本,同時國内公司能定制化地爲企業解決運營管理線上化進程中(zhōng)遇到的各種問題。
工(gōng)業和信息化部新聞發言人、信息技術發展司司長謝少鋒介紹,基礎軟硬件方面,将實施國家軟件重大(dà)工(gōng)程,集中(zhōng)力量解決關鍵軟件的“卡脖子”問題,着力推動工(gōng)業技術的軟件化,加快推廣軟件定義網絡的應用。
而大(dà)數據領域的替代,正在從軟件、應用等不同領域開(kāi)展,大(dà)數據領域的“卡脖子”就成爲過去(qù)。