九章云極DataPilot:大模型駛入向量海的數據領航員
算力、算法、數據,被譽為AI的三大要素。對于當前大火的生成式AI、大模型,也不例外。
隨著國內外硬件廠商、云廠商的百花齊放,AI算力成為最容易實現的要素;AI算法也有相對成熟的經典算法、調優手段,況且還有眾多的AI基礎軟件提供堅實保障。
而大模型之所以“大”,更多的與數據相關。數據量越大、數據質量越高,大模型的效果就越好。PC互聯網、移動互聯網、物聯網等產生了海量的數據,而文字、圖片、視頻等多模態的形式,則進一步加大了數據的復雜度。如何有效地解決數據存儲、計算和流通,使之為大模型進化提供可靠的學習源,成為大模型發展的當務之急。
2023年6月30日,AI基礎軟件提供商九章云極DataCanvas在北京召開新品發布會,發布人工智能應用構建基礎設施平臺AIFS的同時,面向全球首提數據“向量海”(Vector Ocean),并推出暢游于“向量海”的基于大模型的新一代數據架構工具產品DataPilot數據領航員。

九章云極DataCanvas產品戰略地圖
向量海,數據發展的終極形態
一直以來,AI和數據關系密切。以往更多的是數據對AI的單向輸出,通常被認為是AI的原料、基礎要素,而大模型的出現,讓數據得到了AI的反向賦能。
當AI能力躍升而與數據實現“雙向奔赴”時,數據的未來在哪里?DataPilot給出的答案是——“向量海”。
向量,一個數學名詞,是指具有大小和方向的量。在二維空間中,向量通常由兩個數值組成,表示在水平和豎直方向上的大小。在三維空間中,向量通常由三個數值組成,表示在三個方向上的大小。
在計算機科學中,向量是一種常用的數據結構,也被稱為數組或列表。每個向量都包含多個元素,每個元素都有一個索引,可用于訪問或修改其對應的值。
在機器學習和數據科學中,向量通常表示為一組數字,它們構成了一個多維的數值空間。向量的每個維度代表該空間的一個不同的特征或屬性,例如圖像中不同像素點的顏色值、文本中每個詞的出現頻率等。通過對向量進行數學運算,可以實現各種機器學習算法和數據分析技術,例如聚類、分類、回歸等。
“向量海”的提出,是九章云極DataCanvas基于多年來在數據庫領域的研究和實踐,結合向量數據的發展方向,創造性提出的數據發展的終極形態。
DataPilot,大模型駛入向量海的數據領航員
作為向量海和大模型之間需要一座橋梁,九章云極DataCanvas此次提出的DataPilot便是這樣的角色,為向量數據在大模型中的應用建立鏈接和指明方向。
作為一種數據處理新范式、基于大模型的新一代數據架構工具產品,DataPilot通過充分利用DataCanvas Alaya九章元識大模型的通用文本的理解和生成能力以及在數據領域的微調優化,幫助用戶實現數據在建模全生命周期的智能化與自動化。
據九章云極DataCanvas公司副總裁周曉凌介紹,DataPilot的特性包括多模“向量海”數據架構,按需自動化數據集成、代碼生成、流程編排和分析計算,以及基于自然語言的數據獲取、分析和機器學習建模能力。DataPilot能夠大幅降低數據集成、治理、建模、計算、查詢、分析、機器學習建模全鏈路的技術門檻,降低數據驅動業務發展的成本,加快數字化創新的進程。
正是基于“向量海”理念,DataPilot所包含的DataCanvas RT實時決策中心平臺、開源DingoDB多模向量數據庫等各類數據軟件,讓用戶具備AI技術突破情況下亟需的實時、多模態的數據能力。
其中,DingoDB作為一款開源的多模態向量數據庫,將是向量海時代的強大引擎。它結合了數據湖和向量數據庫的特性,支持存儲任何類型(鍵值、PDF、音頻、視頻等)和任何大小的數據。通過DingoDB,用戶可以構建專屬的數據“向量海”,不論是結構化還是非結構化數據,僅通過1套SQL即可完成多模態數據的分析與科學計算。
向量數據庫,未來已來
去年以來,隨著生成式AI及大模型的爆火,向量數據庫站上風口浪尖。
作為一種專門用于存儲、索引和查詢嵌入向量的數據庫系統,向量數據庫可以讓大模型更高效地存儲和讀取知識庫,并且以更低的成本進行 Fine Tune(模型微調)。同時,向量數據庫還自帶多模態功能,可以大幅度拓展大模型的時間邊界和空間邊界。這些都注定向量數據庫成為了大模型的數據好伴侶。
向量數據庫市場空間巨大,目前尚處于從 0-1 階段。去年以來,國內外多個向量數據庫產品均獲得了可觀的融資。據東北證券預測,到 2030 年,全球向量數據庫市場規模有望達到 500 億美元,國內向量數據庫市場規模有望超過600億元人民幣。
“數據的有效存儲、計算和流通仍然具有廣闊的發揮空間,在現實世界中,行業、企業、專業之間存在眾多獨立的數據領地,龐大的數據量和貫通數據領地的難度預示著通用大模型的落地難度。”九章云極DataCanvas公司董事長方磊表示。
DataPilot攜向量海、向量數據庫DingoDB的出現,正是為了解決大模型的新一代數據難題而生。面向未來,DataPilot有望在大模型發展中留下濃墨重彩的一筆。