九章云極DataCanvas公司DingoDB完成中國信通院權(quán)威多模數(shù)據(jù)庫測試
2024年5月16日,九章云極DataCanvas公司自主研發(fā)和設(shè)計的開源多模向量數(shù)據(jù)庫DingoDB順利完成中國信息通信研究院(以下簡稱中國信通院)多模數(shù)據(jù)庫產(chǎn)品測試。本次測試的成功標(biāo)志著DingoDB在技術(shù)能力、性能表現(xiàn)和產(chǎn)品穩(wěn)定性方面得到了權(quán)威機構(gòu)的高度認(rèn)可,并進(jìn)一步印證其為用戶提供可靠高效數(shù)據(jù)管理解決方案的能力,以及在多模數(shù)據(jù)庫領(lǐng)域的領(lǐng)先地位和卓越品質(zhì)。目前,DingoDB已完成中國信通院《向量數(shù)據(jù)庫標(biāo)準(zhǔn)》和《多模數(shù)據(jù)庫技術(shù)要求》兩大數(shù)據(jù)庫領(lǐng)域的重量級測試。
DingoDB多模向量數(shù)據(jù)庫的多重能力
中國信通院作為國家級科研機構(gòu),承擔(dān)了多項國家級重大科研任務(wù)和標(biāo)準(zhǔn)制定工作,具有極高的權(quán)威性和公信力,其測試和認(rèn)證在業(yè)內(nèi)廣受認(rèn)可。中國信通院定期對數(shù)據(jù)庫產(chǎn)品進(jìn)行全面測試,為用戶選擇合適的數(shù)據(jù)庫產(chǎn)品提供權(quán)威指南,本次多模數(shù)據(jù)庫產(chǎn)品測試正是基于《多模數(shù)據(jù)庫技術(shù)要求》的標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)由中國信通院云計算與大數(shù)據(jù)研究所聯(lián)合多家企業(yè)專家制定,涵蓋了多模數(shù)據(jù)庫的基本能力、管理能力、兼容能力、安全能力、擴展能力、高可用等六大能力域,共33個測試項(包括21個必選項和12個可選項),測試產(chǎn)品需要滿足所有必選項方可通過。
DingoDB——功能完全內(nèi)建的數(shù)據(jù)庫,而非多組件的簡單堆砌
DingoDB集成了關(guān)系型、文檔、向量和鍵值四種數(shù)據(jù)模型,能為用戶提供高效多模型數(shù)據(jù)庫解決方案。區(qū)別于市場上很多多模數(shù)據(jù)庫廠商,它不是多個數(shù)據(jù)模型組件的簡單堆砌,而是一款具備在線強一致性的完全內(nèi)建的數(shù)據(jù)庫。
DingoDB產(chǎn)品特性:
· 企業(yè)級存儲可靠性:基于Multi-Raft多副本存儲,確保數(shù)據(jù)強一致性,滿足企業(yè)級容災(zāi)需求。
· 多模數(shù)據(jù)聯(lián)合檢索:支持通過SQL進(jìn)行執(zhí)行關(guān)系、向量、文檔的聯(lián)合檢索,并提供豐富的索引類型,簡化RAG應(yīng)用的開發(fā)復(fù)雜度,滿足各種場景需求。
· 多模數(shù)據(jù)庫的能力:部署一套DingoDB即可擁有鍵值緩存加速、關(guān)系數(shù)據(jù)庫和向量數(shù)據(jù)庫和文檔的服務(wù)能力,減少多個數(shù)據(jù)庫系統(tǒng)的維護(hù)和管理成本,提高整體系統(tǒng)的效率和靈活性。
· 兼容MySQL協(xié)議:用戶可以直接使用原生的MySQL客戶端訪問,無需學(xué)習(xí)新的數(shù)據(jù)庫語法和工具,降低用戶的使用門檻。
· 水平擴縮容:基于存算分離的架構(gòu)設(shè)計,DingoDB能夠?qū)崿F(xiàn)對性能和資源的一鍵水平擴容和縮容,使得企業(yè)能夠根據(jù)業(yè)務(wù)需求快速調(diào)整數(shù)據(jù)庫規(guī)模,有效應(yīng)對流量變化。
· 多存儲引擎兼容:支持多種存儲引擎,使得企業(yè)可以根據(jù)業(yè)務(wù)特點選擇最適合的存儲引擎,最大化性能效益。
· 分布式事務(wù):支持多種數(shù)據(jù)模態(tài)下的分布式事務(wù),同時提供多種隔離級別,既兼容樂觀事務(wù)和悲觀事務(wù),確保事務(wù)在分布式環(huán)境下的完整性和一致性。
· 多租戶支持:原生支持多租戶,服務(wù)隔離防止數(shù)據(jù)泄露與干擾。支持請求級動態(tài)流控,靈活分配資源。支持混合存儲與按租戶和資源組隔離,確保資源的合理分配和高效利用。
· 開源開放:完整開放數(shù)據(jù)庫源代碼,提供豐富的多語言SDK及詳盡的開發(fā)文檔,滿足用戶在不同應(yīng)用開發(fā)場景中的需求。
DingoDB場景應(yīng)用:
1)基于RAG技術(shù)的場景的應(yīng)用
DingoDB覆蓋關(guān)系型、文檔、向量和鍵值等多種數(shù)據(jù)模型的特點,使得它在基于RAG技術(shù)(Retrieval Augmented Generation)的場景中得到廣泛應(yīng)用,例如企業(yè)知識管理場景。該場景的目標(biāo)是從海量的技術(shù)文檔中找到與問題相關(guān)的片段并生成回答。這個過程需要結(jié)合大語言模型(LLM,large language model)和多模數(shù)據(jù)庫的能力。其中,LLM因為無法直接生成與技術(shù)內(nèi)容相關(guān)的答案,只起到輔助性作用,效果好壞是由執(zhí)行檢索任務(wù)的多模數(shù)據(jù)庫決定。在該場景,DingoDB提供兩種不同的檢索方式來召回相關(guān)文本數(shù)據(jù),包括向量檢索和關(guān)鍵詞檢索。向量檢索依賴于DingoDB的向量數(shù)據(jù)庫功能,而關(guān)鍵詞檢索則依賴于其文檔數(shù)據(jù)庫功能。這種多模檢索方式能有效提高生成內(nèi)容的準(zhǔn)確性、連貫性和信息量,確保用戶獲得更高質(zhì)量的響應(yīng)。
使用DingoDB的企業(yè)知識管理場景的流程如下,分為下列三個步驟:
基于DingoDB多模向量數(shù)據(jù)庫的RAG構(gòu)建流程
· Step1.文檔解析入庫
將企業(yè)的技術(shù)文檔上傳,通過Text Splitter模塊進(jìn)行分割,生成多個文本塊(段落、句子等)。對文本塊進(jìn)行標(biāo)注提取,生成標(biāo)題或標(biāo)簽,便于檢索。對于包含表格的數(shù)據(jù),生成描述性句子,確保表格內(nèi)容能被準(zhǔn)確理解和檢索。最后,通過Embedding模型將文本塊向量化,生成用于向量檢索的表示,存入DingoDB。
· Step2. 基于DingoDB的向量檢索和關(guān)鍵詞檢索
用戶提出問題后,通過Embedding模型生成向量表示,在DingoDB中進(jìn)行向量檢索,找到最相關(guān)的多個文本塊。關(guān)鍵詞檢索是為解決用戶口頭表達(dá)與專業(yè)文檔不匹配而造成的檢索不準(zhǔn)確問題。關(guān)鍵詞檢索通過LLM提取關(guān)鍵詞,輸入DingoDB進(jìn)行關(guān)鍵詞匹配(match召回),找到相關(guān)文本塊。DingoDB支持標(biāo)量向量聯(lián)合檢索,結(jié)合關(guān)鍵詞匹配和向量召回進(jìn)行混合召回,返回TopN相關(guān)文本塊。
· Step3. 答案生成
將檢索到的TopN相關(guān)文本塊通過預(yù)定義的Prompt模板傳遞給LLM,由LLM生成詳細(xì)且準(zhǔn)確的答案。
綜上所述,在大語言模型時代的RAG典型應(yīng)用企業(yè)知識管理場景,DingoDB可以高效地處理和檢索海量技術(shù)文檔,提供精準(zhǔn)、及時的答案,支持企業(yè)內(nèi)部的信息查詢和知識管理。依托該場景,DingoDB在多家央企客戶得到應(yīng)用。
2)分布式KV場景的應(yīng)用
在金融行業(yè)的實時風(fēng)控、反欺詐、精準(zhǔn)營銷、產(chǎn)品推薦等需要亞秒級決策的場景,DingoDB以其高性能和低延遲的特點,輕松駕馭亞秒級大規(guī)模數(shù)據(jù)處理與分析,為實時決策提供堅實的服務(wù)支撐。DingoDB采用先進(jìn)的數(shù)據(jù)復(fù)制與故障轉(zhuǎn)移機制,并通過持久化技術(shù)確保數(shù)據(jù)安全可靠。同時,能根據(jù)業(yè)務(wù)需求靈活擴展計算與存儲資源,從容應(yīng)對數(shù)據(jù)處理需求的持續(xù)增長。DingoDB具備滿足信創(chuàng)標(biāo)準(zhǔn)的高頻Serving計算能力,使企業(yè)在面對實時數(shù)據(jù)處理和決策時能夠快速響應(yīng)。
3)其他場景的應(yīng)用
除上述兩類場景,DingoDB還在多種豐富場景應(yīng)用中展現(xiàn)了其強大的功能和多樣化的能力。
DingoDB多模向量數(shù)據(jù)庫支撐多種業(yè)務(wù)場景
● Vector Ocean數(shù)據(jù)支撐:Vector Ocean是九章云極DataCanvas對數(shù)據(jù)架構(gòu)的一種全新設(shè)想。DingoDB在Vector Ocean中提供結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲,支持多模態(tài)數(shù)據(jù)分析能力和科學(xué)計算能力。其強大的數(shù)據(jù)處理能力使得企業(yè)能夠在一個平臺上處理多種數(shù)據(jù)類型,簡化數(shù)據(jù)管理流程。
● 大模型記憶體:DingoDB輔助大語言模型生成前的Prompt管理,提供高效并發(fā)的搜索答案能力。這在大語言模型時代尤為重要,能夠為AI模型提供可靠的數(shù)據(jù)支持,提升模型生成答案的準(zhǔn)確性和效率。
● 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的融合分析:DingoDB支持音頻、視頻、文本等非結(jié)構(gòu)化數(shù)據(jù)的向量化存儲,提供結(jié)構(gòu)化與向量數(shù)據(jù)的聯(lián)合分析和計算能力。這種融合分析能力使得企業(yè)能夠從多維度進(jìn)行數(shù)據(jù)分析,獲取更全面的洞察。
總結(jié)
綜上所述,DingoDB作為一款多模數(shù)據(jù)庫,在企業(yè)知識管理、實時決策、數(shù)據(jù)支撐、大語言模型應(yīng)用以及多類型數(shù)據(jù)檢索和分析等方面展現(xiàn)出強大的應(yīng)用能力,獲得了廣泛的認(rèn)可和好評。DingoDB不僅可以充當(dāng)海量數(shù)據(jù)的存儲中心,還是推動數(shù)據(jù)驅(qū)動決策的核心動力。在數(shù)字化轉(zhuǎn)型的浪潮中,DingoDB成為傳統(tǒng)業(yè)務(wù)與前沿技術(shù)的重要橋梁。無論是云計算的高效處理、大數(shù)據(jù)的深度分析、人工智能的智能決策,還是物聯(lián)網(wǎng)的實時數(shù)據(jù)交換,DingoDB都能提供堅實的數(shù)據(jù)分析和處理支撐。