百分點科技蘇萌:數據科學50年演進 數智化的基石
50年,在這個科技飛速躍遷的時代意味著什么?
對通信工程來說,低損耗光纖的發明直接推動了數據通信、視頻數據流、云計算的發展,造就了當今世界萬物互聯的生活方式;
對數據科學來說,被提出后的50年中不斷豐富自身的內涵和外延,構成了今天數智化時代的基石。
五十年前,很難想象到這些開創性的事件對當今世界的影響。
百分點科技董事長兼CEO 蘇萌
蘇萌說,這50年來非常幸運——在信息技術起飛的年代里親歷了數據科學1.0-3.0,見證了每一個關鍵時刻。
3月30日,當他站在2023數據科學峰會的演講臺上,以自身和百分點科技的視角全面解構數據科學的四個代際之時,吸引了上百萬人次沉浸式體驗這場數據科學穿越之旅。
數據科學1.0:小數據時代 & 求學任教
數據科學從誕生之日起,就與數據演進的每一個階段息息相關。
1974年發生了三件事:
因科學研究計算機模擬產生了大量數據,需要依靠算法發現其中規律,圖靈獎得主Peter Naur首次提出了數據科學(Data Science)的概念:基于數據處理的科學,這標志著數據科學的開端;
IBM發明了結構化查詢語言SQL,奠定了關系型數據庫的基礎;
互聯網之父羅伯特.卡恩和文頓.瑟夫成功實驗了數據包在網絡和電腦之間的信息傳輸,并公布了TCP/IP協議,這奠定了互聯網的基礎。
這一年,在遠離科技中心的中國東北,蘇萌剛剛出生。
之后的30多年里,被稱為數據科學的小數據時代,主要面向結構化數據、歷史數據和線下數據,運用關系型數據庫、統計、ETL和數據倉庫等技術,服務于商業和公共事務。
例如,金融行業較早地將數據分析技術應用到風險管理和投資決策等方面;電信運營商通過用戶畫像進行套餐營銷;零售行業通過RFID等技術進行供應鏈數字化改造。
在小數據時代,數據整合、描述性分析和商業智能分析是重點需求。
這些需求催生了一批老牌的數據科學公司,如SAS、SPSS、MathWorks、Wolfram、Alteryx、Palantir等等,帶來了數據科學技術應用的早期繁榮。
在這個信息技術起飛的時期,蘇萌以求學和科研為主。
1997年到美國留學,完成了統計學、計量經濟學和營銷模型等學科的學習,在康奈爾大學師從國際營銷模型領域大師 Vithala R. Rao 教授,獲得了博士學位。期間也曾就職于全球頂尖的計算軟件公司Wolfram, 并推動了數據科學軟件Mathematica與三十所中國高校的合作。
2006年,北大在全球范圍招聘教授,蘇萌從兩百多位世界知名高校博士畢業生中脫穎而出,受聘北大光華擔任助理教授,成為國內高校引進的博士畢業于美國常青藤大學營銷模型專業的第一位全職教授,為碩士博士生開設數據建模方面的課程。
2000年前后,美國的Yahoo、Google、Facebook、Twitter等互聯網公司紛紛崛起,中國也出現了BAT等巨頭,世界進入到了互聯網時代。
互聯網開啟了嶄新的數據空間,為數據科學創造了更大的舞臺。
這些互聯網企業需要用分布式集群的方式來存儲、分析和挖掘海量互聯網數據,以提高業務運營和決策效率。2004年,Google 發布MapReduce,隨后Hadoop的誕生,一個嶄新的時代正在開啟。
數據科學2.0:大數據時代 & 創業之初
時隔30多年后,無論是數據量還是數據處理能力,都發生了量變到質變,數據科學迎來了進階時刻。
2008年也發生了三件事:
這一年,中國網民數量2.53億,首次超過美國,網民規模躍居世界第一;
這一年,中國使用手機上網的人數占網民總數的近30%,進入了手機上網的大眾化階段;
這一年,自然科學國際頂尖期刊《Nature》上首次提出了“Big Data”的概念。這猶如一聲驚雷,開啟了接下來近10年的數據科學大數據時代。
互聯網和移動互聯網的浪潮不僅帶來了更海量的數據,也催生了數據處理分析技術的更迭。
這個階段,大數據技術風起云涌,Storm、Spark、Flink等新型分布式計算框架像雨后春筍般不斷涌現,極大地提高了數據處理的深度、廣度和速度。Python語言開始流行,機器學習開始成為數據科學的重要技術手段。
市場端的數據科學應用以單點技術和場景為主,最典型的包括個性化推薦、數字競價廣告、金融風控等。其中,個性化推薦算法是蘇萌在康奈爾大學讀書期間跟導師共同的研究方向之一。
2008年,他和幾位美國頂尖高校的教授合作發表了一篇關于個性化推薦的文章。
蘇萌認為,科研不能只體現在論文的發表上,也應該能真正地為產業帶來價值。2009年夏天,懷著這個樸素的想法,他在北大附近的中關村公館租了一間80平米的小公寓,向家人借了50萬元,注冊成立了百分點科技,專注于研發個性化推薦引擎的算法與技術實現。之后的幾年,服務了2,000多家互聯網電商和媒體客戶,并成為了國內規模最大的推薦引擎技術服務商。
數據科學賽道的獨特性在于,它是利用科學方法、流程、算法和系統從數據中提取價值的跨學科領域,一方面是人才培養門檻高,一方面是要具備領域知識。
百分點科技之所以成為國內用數據科學為產業賦能的先行者,并逐漸成長為標桿性企業,與公司創始團隊具備深厚的數據科學理論功底和實踐經驗分不開。
隨著資本與技術人才的涌入,以及大數據技術的采納周期和新的市場需求,互聯網領域的大數據浪潮,迅速擴展到了傳統行業,一批龍頭企業開始擁抱大數據,探索數字化轉型。
他和團隊感受到了這股浪潮,并率先將在互聯網端沉淀下來的大數據技術應用到To B端的企業數字化轉型中,并在服務零售、金融、媒體、制造、地產等各行業頭部客戶的過程中,積累了扎實的行業知識、業務理解和行業上下游生態。
然而,數據科學被更多人關注是因為Patil和 Davenport于2012年在哈佛商業評論上發表的《數據科學家——21世紀最性感的職業》,讓數據科學從象牙塔走向公眾視野。
隨著商業上的繁榮和大眾的廣泛關注,各國政府開始將發展大數據提升為國家戰略。
美國很早便在國家安全領域利用大數據技術,大家熟知的Palantir輔助抓捕本拉登便是經典案例。早在2012年,美國就通過了《大數據研究和發展計劃》,后續每年都不斷有政策推出,以促進和規范大數據行業發展。
中國在2015年首次提出“國家大數據戰略”,發布《促進大數據發展行動綱要》,并在第二屆世界互聯網大會上首次提出推進數字中國建設。
從此,“數據”成為了自上而下的焦點,大數據也成為了孕育AI的沃土。而數據科學所承載的釋放數據生產力的使命從未改變,為數字化持續提供基礎性的價值。
數據科學3.0:AI時代 & 業務進階
數據科學在AI驅動下,持續進行技術融合,成為數智化時代的技術集大成者。
2016年,AlphaGo擊敗了圍棋世界冠軍李世石,以深度學習算法為代表的人工智能技術掀起了一波新的浪潮。
2017年,谷歌迭代了Kubernetes多個版本,以容器化技術解決了應用在云上部署的問題。
2018年,谷歌發布了AutoML技術,Facebook推出了PyTorch深度學習框架,人們可以輕松構建和訓練自己的自動化機器學習和深度學習模型。Google提出了BERT預訓練語言模型,該技術在自然語言處理領域得到廣泛應用。
最近OpenAI發布了大型語言模型GPT4.0,生成式AI作為一種全新的運算模式,就像PC、互聯網和云計算一樣,會有很多應用程序基于GPT誕生。
新技術和新應用,產生了更加海量和實時的文本、語音、圖像和視頻等多模態數據,這些數據需要進入到可分析、可解釋、可參與預測和決策輔助的場景中來。
近幾年,中國對于大數據、AI等技術的重視提到了史無前例的高度。
2017年黨的十九大將“數字中國”納入報告之中,推動互聯網、大數據、人工智能和實體經濟深度融合,發展數字經濟形成新動能。為拓展數字經濟領域的全球合作,2017年的世界互聯網大會上,中國等多個國家共同發起《“一帶一路”數字經濟國際合作倡議》。
這一年,對于數據科學工程化的產業轉化需求從企業端擴展到了政府端,百分點科技也正式開啟了To G業務,將之前在互聯網和企業服務沉淀的數據科學產品與技術應用于政務領域,面向數字城市、公安、應急、生態環境、營商環境和統計等領域,構建智慧城市數字底座和場景智能應用,助力政府治理能力提升和治理體系現代化。
這一年,百分點科技第一個國際業務項目落地,開啟了新一代信息技術科技企業出海的新篇章。七年來,百分點科技用數據科學技術與產品服務了全球20多個國家。
2017年,百分點科技也發布了DeepMatrix 1.0,該系統融合了大數據與人工智能技術,支持復雜業務問題的自動識別和判斷,并可以做出前瞻或實時決策。在算力、數據、算法三重因素的驅動下,DeepMatrix 2.0進一步強化了自然語言處理、動態知識圖譜等多項認知智能技術。
2021年,經過多年行業成功實踐,百分點科技基于探索出的行業落地新范式,正式推出DeepMatrix 3.0。和前兩代產品相比,這一版本在數據治理和數據資產運營層面有所加強,將數據自動化地引入到數據治理過程中,并運用搜索、可視化分析等技術挖掘和發揮數據的價值。
數據科學在不斷地發展和變遷之中,保持了其價值的基礎性和技術的集大成性。隨著技術、數據和場景的深化,政企客戶對于數據科學的訴求不再是單一工具和單點技術的支持,而是尋求整體解決方案的介入。
國內外一些領先的廠商開始沉淀通用型的數據科學工具,致力于打造端到端的數據科學解決方案。2019年華為推出了ModelArts和DataArts,打通了大數據和人工智能,實現數據全生命周期治理;2021年阿里云PAI首次進入了Gartner魔力象限,標志著國際市場對于中國頂尖企業的數據科學能力的認可。在這期間,國外的Plantir和Alteryx紛紛迭代自己的產品技術并且完成了上市。
經過13年的技術積累與實踐,2023年,百分點科技也推出了一站式價值實現平臺——數據科學基礎平臺DeepMatrix 4.0,服務于數據工程師、數據分析師和數據科學家,助力便捷高效地將數據轉化為業務知識并輔助決策和行動,最終釋放數據價值。
相比于目前數據科學平臺市場上的其它產品,DeepMatrix 4.0具備三方面的獨特優勢:
首先是一體化。平臺中的工具、數據、模型、知識都遵循統一的協議、標準和規范,可以無縫對接和互操作。產品中每個模塊都可以獨立部署和使用,為用戶提供了更多的選擇和靈活性,滿足不同場景的需求。
二是知識化。平臺不斷沉淀領域中的數據科學知識,包括程序性知識、事實性知識和概念性知識。傳統企業的數字化轉型面臨著冷啟動問題,平臺能夠借助行業內已有的專業知識為其破局。
三是智能化。數據科學基礎平臺內置了智能輔助開發系統,可以自動化地輔助開發者選擇方案以及完成數據適配,并智能化地進行方案精調和改進。同時,能夠在數據治理的多個環節依托知識庫及語義理解等智能技術幫助開發者提高效率。
百分點科技進入大數據行業較早,因此得以擁有持續完善迭代自身平臺產品的條件,擁有從數字化轉型方法論、路徑規劃、產品工具到項目交付、運營服務的一體化方案構建能力,這是目前很多新興企業難以做到的。
數據科學4.0:數據原生時代 & 踐行使命
對于數據科學的未來發展,蘇萌說,數字技術的大融合將產生疊加態,我們將進入原生的數據時代。
未來,全球80億人和無數的物聯網設備連接到網絡并成為數據源,不斷產生關于他們的活動、認知和智慧的大量數據。我們期待這些數據形成普惠型的生產要素,每個人都能通過數據的生產和使用而獲益,形成更加平等的生產關系,更加和諧的社會關系。
在這個階段,大數據、AI、云計算、智能交互等技術將與物理世界深度融合,數據的模態更豐富、質量更高、時效性更強,算法更先進、算力更強大。更重要的是,企業將利用數據原生應用實現對現實世界的理解和改造,這將極大地釋放數據要素紅利,促進產業數字化的廣度和深度,最終解放生產力。
未來的數據科學將走向平民化,隨著數據科學通用工具的一體化和平臺化、領域知識的程序化和服務化,交互方式的自然語言化,數據科學技術將像互聯網一樣普惠大眾,業務和決策人員將可以跨過程序員直接與數據進行交互,提高分析和決策效率。
針對數據的科學技術將作為重要生產力推動商業模式和社會組織的變革。數據科學的發展將帶來新的社會分工,會有一些業務和商業模式可以不依賴于現實世界而直接生長在數據世界里,進而重塑生產關系和商業秩序。
他總結過去五十年中的發展規律:信息技術創造了數字世界,數字技術推動數字經濟不斷發展,數字經濟促進了人類和組織的社會變革,變革又進一步為創新提供了土壤。
他說,用數據科學構建更智能的世界,是百分點科技的使命,也將是其未來繼續不懈努力的方向。