“通識(shí)+產(chǎn)業(yè)”大模型,“Alaya元識(shí)”的賦能路徑

2023年11月,國(guó)家工業(yè)信息安全發(fā)展研究中心、工信部電子知識(shí)產(chǎn)權(quán)中心發(fā)布的《中國(guó)AI大模型創(chuàng)新和專利技術(shù)分析報(bào)告》顯示,我國(guó)大模型專利申請(qǐng)總數(shù)已突破4萬余件,大模型相關(guān)領(lǐng)域的創(chuàng)新日益活躍。
相對(duì)于“能做詩(shī)會(huì)畫畫”的針對(duì)to C市場(chǎng)的大模型而言,面向to B市場(chǎng)的大模型如何深耕行業(yè),充分了解行業(yè)知識(shí),并且深入到行業(yè)客戶的業(yè)務(wù)流程中,是形成行業(yè)壁壘或者說差異化競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵。新華社研究院中國(guó)企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗(yàn)報(bào)告3.0》顯示,大模型廠商在技術(shù)實(shí)力上呈現(xiàn)出百家爭(zhēng)鳴的態(tài)勢(shì),不同廠商在產(chǎn)品特點(diǎn)和優(yōu)勢(shì)上各有千秋。
除了身處熱潮中心的大模型廠商與大模型本身以外,那些為大模型的行業(yè)落地賦能并提供相關(guān)基礎(chǔ)軟硬件和服務(wù)支撐的企業(yè),不應(yīng)該只是“無名英雄”,相反他們才是行業(yè)用戶用好大模型不可或缺的可靠保證。
大模型落地最重要
對(duì)于很多致力于大模型普惠的基礎(chǔ)設(shè)施提供商以及服務(wù)商而言,大模型是AI基礎(chǔ)設(shè)施及服務(wù)中的一個(gè)重要組成部分,是撬動(dòng)AI行業(yè)應(yīng)用的一個(gè)支點(diǎn)。他們開發(fā)、優(yōu)化大模型,旨在為那些自身不具備獨(dú)立開發(fā)大模型的能力,或者沒有必要自己開發(fā)大模型的企業(yè)用戶提供一個(gè)快速部署和應(yīng)用大模型的路徑和平臺(tái),讓各行各業(yè)的用戶現(xiàn)在就能享受到大模型帶來的紅利。
作為AI基礎(chǔ)軟件供應(yīng)商,九章云極DataCanvas為企業(yè)訓(xùn)練和應(yīng)用大模型賦能,公司自研的多模態(tài)大模型系列——DataCanvas Alaya九章元識(shí)作為基礎(chǔ)軟件設(shè)施AIFS(AI Foundation Software)的重要組成部分,為企業(yè)用戶提供了Foundation model,方便用戶在此基礎(chǔ)之上訓(xùn)練、微調(diào)自己的大模型。
對(duì)于大模型訓(xùn)練的更大挑戰(zhàn)在于,如何在減少算力消耗的情況下,加速大模型的訓(xùn)練,并且在訓(xùn)練完成后更,更好地調(diào)教這個(gè)模型,并使之能夠“飛入尋常百姓家”,讓廣大的中小企業(yè)受益。
九章云極DataCanvas之所以傾心打造Alaya元識(shí)系列大模型,初衷亦是如此。所謂元識(shí),來源于佛教用語(yǔ),意為先天具備的認(rèn)識(shí)能力。Alaya元識(shí)系列大模型本身綜合并消納多種能力,旨在通過大模型的通用能力,最大程度地感知人類古今的所有知識(shí)、外界的運(yùn)行規(guī)律、科學(xué)道理等,在此基礎(chǔ)上更好地支持人類的各項(xiàng)業(yè)務(wù),并具有類人的能力。
Alaya元識(shí)系列大模型的本質(zhì)還是賦能AI應(yīng)用:一方面,企業(yè)用戶可以在Alaya元識(shí)大模型之上進(jìn)行二次訓(xùn)練或微調(diào),以滿足業(yè)務(wù)應(yīng)用需求;另一方面,九章云極DataCanvas擁有自己的智算中心,Alaya元識(shí)系列大模型就部署在此智算中心里,中小企業(yè)用戶可以直接調(diào)用九章云極DataCanvas提供的大模型服務(wù)。
以Alaya元識(shí)系列大模型為牽引,九章云極DataCanvas正在積極尋找大模型在企業(yè)業(yè)務(wù)中的落地場(chǎng)景。目前除了通用大模型以外,公司還推出了金融行業(yè)大模型,未來還將發(fā)布更多針對(duì)行業(yè)的大模型,賦能和推動(dòng)大模型應(yīng)用的普及。
元識(shí)大模型的與眾不同
隨著“百模大戰(zhàn)”漸成氣候,產(chǎn)業(yè)界、學(xué)術(shù)界還有媒體紛紛發(fā)布自己的大模型評(píng)測(cè)榜單。但由于沒有公認(rèn)有效的評(píng)測(cè)標(biāo)準(zhǔn)和方式,以及不同榜單的側(cè)重點(diǎn)不同,導(dǎo)致不同的排行榜的結(jié)果差異很大,甚至是有天壤之別。公開公平公正的評(píng)測(cè)確實(shí)能夠?yàn)樾袠I(yè)用戶選擇大模型提供有益的借鑒和參考,但是除了一些關(guān)鍵的技術(shù)指標(biāo)之外,大模型能否有效地解決行業(yè)用戶的業(yè)務(wù)痛點(diǎn),不僅好用更要易用,才應(yīng)該是選擇大模型的重要標(biāo)準(zhǔn)。
Alaya元識(shí)大模型是九章云極DataCanvas自研的“通識(shí)+產(chǎn)業(yè)”白盒大模型。作為九章云極DataCanvas AIFS的核心能力之一,它秉持開放友好的開源理念,提供了一系列不同配置和參數(shù)、具備業(yè)界前沿能力和技術(shù)的預(yù)訓(xùn)練大模型,賦予用戶更大自由度的AI創(chuàng)新能力,以加速實(shí)現(xiàn)大模型在多元業(yè)務(wù)場(chǎng)景中的落地和應(yīng)用。

1.“白盒”大模型為用戶提供更大自由度
現(xiàn)在,市場(chǎng)上的很多大模型都是“黑盒”,雖然在一定程度上開源了算法和架構(gòu),允許用戶在上面進(jìn)行訓(xùn)練,但是仍然受到諸多限制。比如,雖然允許用戶使用該大模型,但是不能做微調(diào),或者不允許用戶做一些自己特有的商業(yè)化應(yīng)用。Alaya元識(shí)是全面開源且license友好的“白盒”大模型,遵循Apache 2.0 license,行業(yè)用戶可以在Alaya元識(shí)大模型之上自由地訓(xùn)練、微調(diào)自己的大模型。
2.“多模態(tài)”是必要前提,更是創(chuàng)新的手段
所謂多模態(tài)大模型,是指可以處理來自不同模態(tài),如圖像、語(yǔ)音、文本等多種信息的機(jī)器學(xué)習(xí)模型。今天,多模態(tài)已經(jīng)成了大模型的“標(biāo)配”。Alaya元識(shí)大模型不僅可以支持文本、圖像,還能支持時(shí)序數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)等。
舉例來說,我們?cè)谠O(shè)備維修手冊(cè)中可能會(huì)經(jīng)常看到類似的描述——“如圖所示,故障點(diǎn)為圖中紅圈所示的位置……”如果是一個(gè)僅僅基于文檔的大模型,就很難理解這句話的正確含義。圖文示意就是一個(gè)典型的多模態(tài)應(yīng)用。
對(duì)于Alaya元識(shí)大模型來說,深耕多模態(tài)毋庸置疑。九章云極DataCanvas還想做得更多,即將“數(shù)據(jù)”也作為重要的模態(tài)之一進(jìn)行深入研究。應(yīng)用大模型,數(shù)據(jù)是必須跨越的一道門檻。九章云極DataCanvas在自然語(yǔ)言的理解、文生圖、代碼生成等是大模型應(yīng)用得比較好的領(lǐng)域有很多已經(jīng)落地的成功案例。但是將數(shù)據(jù)作為一個(gè)模態(tài)進(jìn)行研究并訓(xùn)練大模型的公司屈指可數(shù),而九章云極DataCanvas走在前列。比如,九章云極DataCanvas發(fā)布的DataPilot,作為一種數(shù)據(jù)處理新范式和基于大模型的新一代數(shù)據(jù)架構(gòu)工具,通過充分利用元識(shí)大模型的通用文本的理解和生成能力,以及在數(shù)據(jù)領(lǐng)域的微調(diào)優(yōu)化,能夠幫助用戶實(shí)現(xiàn)數(shù)據(jù)在建模全生命周期內(nèi)的智能化、自動(dòng)化。
在訓(xùn)練大模型的過程中,數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類、數(shù)據(jù)標(biāo)簽制作、數(shù)據(jù)存儲(chǔ)等是費(fèi)時(shí)費(fèi)力的工作。以前,如果有類似需求,通常是由業(yè)務(wù)部門先向IT部門提出需求,IT部門還要求助數(shù)據(jù)湖倉(cāng)建設(shè)部門,假如沒有現(xiàn)成的數(shù)據(jù),還要再找到原始存儲(chǔ)數(shù)據(jù),進(jìn)行轉(zhuǎn)換、清洗才能導(dǎo)入到數(shù)倉(cāng)中并進(jìn)行展現(xiàn)。有效縮短這條數(shù)據(jù)處理的長(zhǎng)鏈條對(duì)于大模型的應(yīng)用具有重要價(jià)值,可以有效減少大模型訓(xùn)練、應(yīng)用過程中所耗費(fèi)的人力,還能提升大模型應(yīng)用的效果。DataPilot能可以大幅降低數(shù)據(jù)集成、治理、建模、計(jì)算、查詢、分析、機(jī)器學(xué)習(xí)建模全鏈路的技術(shù)門檻,同時(shí)降低數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展的成本,加快企業(yè)數(shù)字化創(chuàng)新的進(jìn)程。

3.新的模型訓(xùn)練機(jī)制,降本增效
眾所周知,訓(xùn)練一個(gè)大模型的成本是十分高昂。高就高在,大模型不可能僅憑一句話就能準(zhǔn)確理解其含義,而是要輸入和處理更多的語(yǔ)議語(yǔ)境,因此對(duì)算力的消耗是巨大的。大模型必須容納更多更長(zhǎng)的內(nèi)容。Alaya元識(shí)大模型采用了改進(jìn)的Attention機(jī)制、更長(zhǎng)的Context window、可組合的微調(diào)以及全新的Masking機(jī)制等,在有效減少訓(xùn)練所消耗的算力基礎(chǔ)之上,保證其理解的準(zhǔn)確性,同時(shí)提升處理速度。
九章云極DataCanvas擁有一支研發(fā)團(tuán)隊(duì),專門負(fù)責(zé)訓(xùn)練機(jī)制的研發(fā)與創(chuàng)新。Alaya元識(shí)大模型采用了新的Attention機(jī)制,不僅可以降低算力的消耗,而且在訓(xùn)練前與訓(xùn)練后,能夠針對(duì)多模態(tài)實(shí)現(xiàn)有效的數(shù)據(jù)對(duì)齊。這是九章云極DataCanvas獨(dú)有的技術(shù),在訓(xùn)練時(shí)能夠很好地容納多模態(tài)這樣一種訓(xùn)練方式。
4.系列模型矩陣,更好地滿足“通識(shí)+產(chǎn)業(yè)”的需求
Alaya元識(shí)不是一個(gè)大模型,而是一系列大模型,模型參數(shù)由小到大,覆蓋從通識(shí)到垂直行業(yè),能夠更好地滿足用戶多樣化的需求。九章云極DataCanvas正式開源大模型矩陣中Alaya-7B Foundation Model通識(shí)大模型和Alaya-7B Chat Model對(duì)話大模型兩大模型,以及LLMOps大模型工具鏈中的LMS模型運(yùn)行工具和LMPM 提示詞管理器兩大工具,能夠有效地推動(dòng)大模型在各類行業(yè)場(chǎng)景的實(shí)際應(yīng)用。
Alaya-7B:https://github.com/DataCanvasIO/Alaya

LMS模型運(yùn)行工具:https://github.com/DataCanvasIO/LMS
LMPM提示詞管理器:https://github.com/DataCanvasIO/LMPM

在應(yīng)用場(chǎng)景中,九章云極DataCanvas以Alaya元識(shí)大模型和LLMOps大模型工具鏈為基礎(chǔ)研發(fā)出TableAgent數(shù)據(jù)分析智能體,TableAgent在充分的理解用戶意圖后,能夠自主地利用統(tǒng)計(jì)科學(xué)、機(jī)器學(xué)習(xí)、因果推斷等高級(jí)建模技術(shù)從數(shù)據(jù)中挖掘價(jià)值,進(jìn)而提供分析觀點(diǎn)和指導(dǎo)行動(dòng)的深刻見解,實(shí)現(xiàn)人人都是數(shù)據(jù)分析師。
TableAgent公測(cè)地址:https://tableagent.DataCanvas.com

在金融、制造、新能源等領(lǐng)域,Alaya元識(shí)大模型已經(jīng)有了很多落地的場(chǎng)景,并且實(shí)現(xiàn)了工具鏈、大模型和行業(yè)應(yīng)用的融合創(chuàng)新。比如, Alaya元識(shí)大模型結(jié)合工具鏈之一的DingoDB多模向量數(shù)據(jù)庫(kù),為企業(yè)提供了企業(yè)知識(shí)管家解決方案。
九章云極DataCanvas通過軟件基礎(chǔ)設(shè)施為to B應(yīng)用賦能的定位也決定了打造一個(gè)白盒大模型,讓各行各業(yè)的用戶都能通過元識(shí)大模型和AIFS基礎(chǔ)軟件,在自己的專業(yè)領(lǐng)域訓(xùn)練、優(yōu)化屬于自己的大模型。從通識(shí)起步,將積累的經(jīng)驗(yàn)用于不同產(chǎn)業(yè),這就是九章云極DataCanvas打造“通識(shí)+產(chǎn)業(yè)”大模型的初衷。
Alaya元識(shí)大模型包含在AIFS之中,而AIFS提供了大模型所需的數(shù)據(jù)準(zhǔn)備、訓(xùn)練微調(diào)方式等,用戶只要告訴AIFS數(shù)據(jù)在哪里,它就可以自動(dòng)完成基礎(chǔ)設(shè)施軟件的加速、數(shù)據(jù)處理、數(shù)據(jù)打標(biāo)等工作。用戶不必再像以前那樣自己選擇不同的工具,并將其串接起來。AIFS自動(dòng)完成了所需的串接和處理工作,大大減輕了用戶的負(fù)擔(dān)。Alaya元識(shí)大模型和AIFS的這種定制化能力也是其深受用戶青睞的一個(gè)重要原因。
“大模型+小模型”兩手硬
現(xiàn)在一說到人工智能,言必提大模型。但是這并不意味著要拋棄小模型,一下子全部轉(zhuǎn)到大模型。九章云極DataCanvas認(rèn)為,未來的生態(tài)一定是“大模型+小模型”,具有不同特點(diǎn)的模型可以適配不同的場(chǎng)景。
不可否認(rèn),大模型在面對(duì)通用的、具有一定邏輯推理能力、類人的自然語(yǔ)言處理方面具有天生的優(yōu)勢(shì)。但是目前,大模型的應(yīng)用場(chǎng)景還不夠豐富,仍處于不斷摸索之中。而在那些需要精確計(jì)算或者是一些特定的應(yīng)用場(chǎng)景中,小模型還是不可或缺的。在大模型之上,采用垂式蒸餾技術(shù),將其蒸餾到小模型上,利用小模型可以更好地滿足科學(xué)計(jì)算、歸因分析等場(chǎng)景的應(yīng)用需求。另外,現(xiàn)在市場(chǎng)上也有很多AI引擎通過調(diào)用、編排一些小模型,為業(yè)務(wù)提供支撐。從產(chǎn)品線布局看,九章云極DataCanvas正在進(jìn)行內(nèi)部調(diào)整,希望未來更多業(yè)務(wù)和產(chǎn)品能夠由大模型提供支撐,同時(shí)也會(huì)堅(jiān)定地依托“大模型+小模型”不斷進(jìn)行拓展。
中國(guó)科學(xué)技術(shù)信息研究所發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,在中國(guó)已發(fā)布的大模型中,超過半數(shù)已經(jīng)開源。九章云極DataCanvas不僅將大模型開源,而且將AIFS中的一些組件也開源,目的就是讓各種規(guī)模的企業(yè),尤其是中小企業(yè)甚至個(gè)人,都能在九章云極DataCanvas開源的大模型和相關(guān)基礎(chǔ)設(shè)施之上完成大模型的訓(xùn)練、微調(diào)以及應(yīng)用的商業(yè)化。九章云極DataCanvas致力于人工智能開源生態(tài)的建設(shè),希望在其中占據(jù)一席之地并深深扎根。(作者/郭濤)