《影響中國大數(shù)據(jù)產(chǎn)業(yè)進程100人》第85期 黃暉:創(chuàng)新引領(lǐng)國內(nèi)大數(shù)據(jù)分析挖掘發(fā)展
發(fā)布日期:2017-02-042016年3月,由中國首席數(shù)據(jù)官聯(lián)盟發(fā)起,北京大學信息化與信息管理研究中心、中國新一代IT產(chǎn)業(yè)推進聯(lián)盟協(xié)辦的“影響中國大數(shù)據(jù)產(chǎn)業(yè)進程100人”大型人物專訪活動全面啟動,被采訪對象分別來自政府、產(chǎn)、學、研、企各個領(lǐng)域,他們將從不同角度,不同層面向大家闡述當前大數(shù)據(jù)產(chǎn)業(yè)熱點、難點、疑點問題,為中國大數(shù)據(jù)產(chǎn)業(yè)健康、持續(xù)發(fā)展探索經(jīng)驗、保駕護航!
黃暉,首席數(shù)據(jù)官聯(lián)盟專家組成員,上海天律信息技術(shù)有限公司CEO。美國北卡羅來納大學信息社會學博士、上海市信息學會會長、上海市領(lǐng)軍人才、國務院特殊津貼專家。長期從事大數(shù)據(jù)分析挖掘和機器學習算法研究,帶領(lǐng)團隊成功開發(fā)出中國第一套大數(shù)據(jù)分析挖掘軟件“馬克威分析系統(tǒng)”和“馬克威云挖掘軟件”。曾任美國MBNA銀行數(shù)據(jù)挖掘顧問、美國FirstUSA銀行數(shù)據(jù)挖掘咨詢顧問、美國醫(yī)學科學院數(shù)據(jù)挖掘咨詢顧問等,在北美的信息社會學以及數(shù)據(jù)挖掘領(lǐng)域擁有超過十年的工程和管理經(jīng)驗。
首席數(shù)據(jù)官聯(lián)盟:作為大數(shù)據(jù)分析挖掘資深專家,近些年數(shù)據(jù)分析挖掘技術(shù)發(fā)展及工具變遷是怎樣的?
數(shù)據(jù)分析挖掘技術(shù)的發(fā)展經(jīng)歷了五個階段,最初的數(shù)據(jù)分析工具主要是針對關(guān)系型數(shù)據(jù)庫和文本格式的數(shù)據(jù)集。當多個數(shù)據(jù)庫出現(xiàn)以后,就有了數(shù)據(jù)倉庫(Data Warehouse)的產(chǎn)生以及針對數(shù)據(jù)倉庫挖掘分析的需求。當數(shù)據(jù)量達到TB和PB時,以Hadoop為代表的分布式數(shù)據(jù)存儲和云架構(gòu)蜂擁而出,針對云端大數(shù)據(jù)的分析挖掘逐漸成為主流。然而,Hadoop架構(gòu)在處理實時數(shù)據(jù)時出現(xiàn)不足,隨之出現(xiàn)了以SPARK為代表的分布式內(nèi)存計算技術(shù),解決了數(shù)據(jù)處理過程中實時性的問題。當前,流數(shù)據(jù)的處理和計算正收到歡迎,以STORM為代表的流式大數(shù)據(jù)處理技術(shù)受到越來越多人的關(guān)注??偠灾?,數(shù)據(jù)分析挖掘技術(shù)隨著數(shù)據(jù)量及數(shù)據(jù)形態(tài)的不斷變化而不斷進步。
就數(shù)據(jù)分析工具的演變和發(fā)展而言,大致可以分為三代:
1.數(shù)據(jù)找算法時代,即基于關(guān)系型數(shù)據(jù)庫的分析軟件:以SAS,SPSS和馬克威分析軟件為代表。
馬克威作為國產(chǎn)分析軟件,屬中國第一套完全自主知識產(chǎn)權(quán)的全中文統(tǒng)計分析和數(shù)據(jù)挖掘軟件。經(jīng)中國統(tǒng)計學會認證,該軟件的算法是科學準確的,計算結(jié)果與國際同類成熟軟件的計算結(jié)果一致。
2.算法找數(shù)據(jù)時代,即分布式挖掘軟件:以馬克威運挖掘軟件、Mahout以及部分R程序為代表;
在分布式計算時代,馬克威已經(jīng)超越了傳統(tǒng)分析軟件巨頭。競爭對手變?yōu)殚_源組織R和Mahout。傳統(tǒng)分析軟件由于不能針對分布式集群進行分析挖掘而正在淡出新一代分析師的視野。而R和Mahout僅有少量分布式算法,且作為開源組織,他們不保證計算結(jié)果的準確性,不提供技術(shù)支持和售后服務,需要用英文寫代碼進行操作。馬克威云挖掘軟件已包含近百種分布式算法,且數(shù)量仍在不斷增加,操作界面采用拖拽的方式建立工作流,不用寫代碼,中文界面便于操作,軟件內(nèi)包括模型庫,可做到一次建模,多次利用,支持二次開發(fā)。
3.算法互聯(lián)網(wǎng)平臺化時代:以馬克威算法交易平臺為代表。
馬克威算法交易平臺(www.markwaymall.com)作為中國第一個大型數(shù)據(jù)分析算法和應用模型共享平臺于2016年12月16日正式上線。該平臺包含大量獨立封裝的數(shù)據(jù)分析和機器學習算法工具,適應各種運行環(huán)境,海納各種行業(yè)大數(shù)據(jù)應用模型,匯集全球開源算法和工具軟件,提供豐富全面的數(shù)據(jù)分析知識庫,為數(shù)據(jù)分析和人工智能開發(fā)提供一站式服務,助力中國智能化的發(fā)展以及企業(yè)決策科學化。
首席數(shù)據(jù)官聯(lián)盟:從數(shù)據(jù)分析到云挖掘再到算法交易平臺,天律公司過去15年間進行了三次產(chǎn)品飛躍,可謂與時俱進。請問當時這些新品推出背后,您的商業(yè)推斷和市場發(fā)現(xiàn)是什么?(換言之:您是如何做到的?)
在美國學習和工作期間,我曾參與多個數(shù)據(jù)分析挖掘項目,深刻體會到數(shù)據(jù)挖掘?qū)τ谝粋€企業(yè),乃至一個國家的發(fā)展具有無法估量的作用。而當時的中國還沒有意識到數(shù)據(jù)挖掘的重要性,數(shù)據(jù)分析也僅停留在依賴國外軟件的階段,對于數(shù)據(jù)安全性及數(shù)據(jù)價值并沒有特別關(guān)注。2001年,我回國創(chuàng)業(yè),第一件事就是想填補中國數(shù)據(jù)分析行業(yè)的空白,打造一款純國產(chǎn)的數(shù)據(jù)分析工具。2003年,馬克威分析系統(tǒng)成功問世,當中國統(tǒng)計學會認證,該軟件的算法是科學準確的,計算結(jié)果與國際同類成熟軟件的計算結(jié)果一致時,我知道我的想法已經(jīng)實現(xiàn),馬克威分析軟件也在用戶的口碑相傳中不斷應用于各個政府部門、企業(yè)及高校。
隨著互聯(lián)網(wǎng)的發(fā)展,當阿里開始初露頭角時,我開始意識到下一波的數(shù)據(jù)分析技術(shù)將面臨大數(shù)據(jù)的挑戰(zhàn),同時這也是馬克威彎道超車,超越老牌數(shù)據(jù)分析軟件的大好機會。因此,當阿里委托我們?yōu)榘⒗镌骑w天云平臺開發(fā)一套分布式分析挖掘工具的時候,我們幾乎是一拍即合的。當馬克威云挖掘軟件研制成功時,我們在大數(shù)據(jù)時代已經(jīng)占據(jù)技術(shù)領(lǐng)先地位。
作為一家高新技術(shù)企業(yè),技術(shù)的發(fā)展,產(chǎn)品的更新始終是我不斷思考的問題。當越來越多互聯(lián)網(wǎng)企業(yè)如雨后春筍般出現(xiàn),當國家開始鼓勵大數(shù)據(jù)產(chǎn)業(yè)發(fā)展時,當算法時代,算法經(jīng)濟,人工智能這些字眼越來越為人們所熟知時,我開始醞釀馬克威算法交易平臺的研制和發(fā)布問題。當資本追捧獨角獸企業(yè)的時候,我看到的是螞蟻的力量,既然算法是未來的發(fā)展方向,那么集大眾的智慧一定會使中國在算法革命的浪潮中立于不敗之地。為了打造一個匯集全球所有能公開獲得的算法庫和行業(yè)應用模型庫,為各行各業(yè)的分析人員提供一站式服務,我將數(shù)據(jù)分析和挖掘算法以及行業(yè)應用模型開發(fā)成獨立封裝、適應各種運行環(huán)境的產(chǎn)品放在互聯(lián)網(wǎng)上,以PGC的模式帶動UGC的效應,旨在助力中國智能化的發(fā)展。
首席數(shù)據(jù)官聯(lián)盟: 大數(shù)據(jù)最近幾年才深入人心,作為國內(nèi)最早開發(fā)分析挖掘軟件的公司,在產(chǎn)品推廣應用中曾經(jīng)遇到哪些挑戰(zhàn)和困難?后來是如何解決的?
的確,先行者和先烈者往往只有一步之遙。天律公司成立于2001年,當時國內(nèi)市場對于數(shù)據(jù)分析挖掘的需求還沒有顯現(xiàn),產(chǎn)品的應用范圍也不是那么廣泛。我們公司的發(fā)展只有一個秘訣,就是善于啃骨頭。當國家統(tǒng)計局遇到CPI難題,當2010年上海世博會遇到人流預測難題,當大型企業(yè)遇到?jīng)Q策分析難題找到我們時,我們都能用專業(yè)的知識,豐富的經(jīng)驗以及過硬的技術(shù)超過預期的滿足客戶的需求,口碑就是最好的廣告。
在企業(yè)發(fā)展的過程中,我們也遇到過人才被挖走,市場推廣不力的問題。但最主要的問題還是思想理念的問題。企業(yè)的經(jīng)營、政府的決策到底是以經(jīng)驗為主還是用數(shù)據(jù)說話,模糊決策還是精準科學決策??上驳氖牵瑖鴥?nèi)越來越多的機構(gòu)和單位都在走向科學決策和精準服務。
因此,數(shù)據(jù)分析和挖掘技術(shù)越來越被采納或受到關(guān)注。
首席數(shù)據(jù)官聯(lián)盟:目前公司主要服務哪些行業(yè)客戶?傳統(tǒng)的套裝軟件售賣模式逐漸不合時宜,在客戶拓展和服務方面有哪些新實踐?
我們的客戶分為三類,政府、企業(yè)以及高校,包括國家統(tǒng)計局、國家海關(guān)總署、國家商務部、阿里巴巴、天弘基金余額寶、寶武鋼鐵集團、中國海運集團、海南航空、中國電信、中國移動、華中科技大學、南京財經(jīng)大學、中南大學等等。
作為一家專業(yè)化程度比較高的數(shù)據(jù)分析挖掘軟件公司,我們的核心競爭力在于我們自主研發(fā)的算法。我們的產(chǎn)品遠不止套裝軟件,我們的定位是算法時代數(shù)據(jù)智能的引擎。馬克威算法交易平臺的推出也預示著我們將來的市場不僅是垂直行業(yè),橫向領(lǐng)域崛起的數(shù)據(jù)交易所、各大云平臺以及看似同行的大數(shù)據(jù)應用企業(yè)都將成為我們的服務對象。