澳鵬中國上半年營收1.83億人民幣,在AI和大模型數據賽道勇攀高峰
上海2024年9月3日 /美通社/ -- 過去5年,整個社會對于數據的觀念和認知,發生了天翻地覆的改變。這要歸功于OpenAI與預訓練大語言模型(以下簡稱大模型)的問世以及橫掃全球的ChatGPT。從2020年1月OpenAI發表《自然語言模型的"摩爾定律"(Scaling Law for Neural Language Models)》論文到2023年的"百模"大戰,數據成為了與算力和模型參數并駕齊驅的三駕馬車之一。
澳鵬Appen獲評2024全球數據標注領域Top領軍者
在AI與大模型數據服務這條賽道上,澳鵬Appen位于Everest Group 2024 AI/ML數據標注解決方案Peak Matrix領導者象限第一。2019年,澳鵬(中國)正式成立了,作為獨立于澳鵬Appen全球而在中國市場"白手起家"的澳鵬(中國),5年來闖過了中國AI數據"江湖",實現了在中國市場遙遙領先——從 2020 年到 2023 年,5年來澳鵬的復合營收增長率是 90+%以上,2023年澳鵬(中國)實現了近2.5億人民幣營收,剛剛發布的2024年上半年實現了1.83億人民幣(2540萬美元)營收,遠超業界頭部友商。預計2024年將實現3.5~4億人民幣營收,YOY 的收入增長率 50%~60%以上,2029年將跨入年營收10億人民幣大關。澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示:“過去5年澳鵬(中國)的成功,可以總結為五大因素:順勢而為、創新為要、資源多樣化、洞察客戶需求、員工滿意與數據合規。
數據來源:澳鵬Appen全球2024上半年財報
AI數據三維度爆發式裂變
所謂AI數據,即經過人工或機器方式標注過的數據。澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,澳鵬(中國)在近五年經歷了三大AI浪潮,同時收獲了AI數據在三個維度的爆發式裂變增長紅利:即從深度學習和機器學習浪潮、到自動駕駛浪潮、再到大模型的"滔天巨浪";相應帶來AI數據在數據規模、數據質量和數據復雜度等三個維度的裂變增長。
在數據規模方面,傳統深度學習模型訓練數據規模在GB級到TB級,自動駕駛模型和大模型訓練數據進一步上升至PB級。一輛智能汽車真實路況采集視頻數據可達PB到數十PB,而通用大模型訓練甚至已經耗盡了互聯網數據,并向更廣闊的私域數據高速拓展。
在數據質量方面,由于自動駕駛模型對于真實路況安全的重要性等,要求數據標注的準確性從之前的95%或96%進一步提升到99.5%甚至100%,這就意味著極大提高了數據標注的要求。而對于大模型訓練來說,高質量數據則意味著更高水平的人工標注,例如需要量子力學等小眾專業知識以及醫療、音樂、科技、金融、制造等垂直行業知識。
數據復雜度更在近年來急劇上升。在自動駕駛、VR/MR、機器人等領域,此前主要為2D、3D和 2D&3D融合標注,這兩年進一步發展到4D標注,也就是將時間作為新增維度,而4D標注對技術和復雜度要求非常高。此外,由于大量AI模型訓練和多頻次模型迭代的需求,數據流轉越來越復雜,數據處理的專業性要求越來越高,既有短周期甚至臨時性項目、高頻次數據標注需求,也有臨時數據耗盡而項目掛起的需求,還有要求安全可控數據標注環境、專業數據人才能力等等。
整體而言,經過了2019年到2024年的飛速發展,從深度學習/機器學習的精品式小模型訓練,到自動駕駛的規模化模型訓練和高頻次迭代,再到"百大"大模型和生成式 AI的規模化生產,引發了AI數據在規模、質量和復雜度三個維度的同時爆發式裂變,這對于AI數據服務商來說,既是機遇更是挑戰。
"押注"技術平臺產品,打造核心競爭力
技術能力是傳統數據標注服務商長期缺失的核心能力。隨著AI數據在三個維度的爆發式裂變,單純依靠手工方式進行數據標注已經遠遠不能滿足需求,更無法持續降低數據標注項目的成本、提高數據標注的質量、加快數據的有效流轉。
在數據標注技術工程平臺方面,特斯拉為整個行業立了一面旗幟。從2018到2021年,特斯拉的數據工程平臺經歷了3次迭代,通過自動標注與多種技術手段配合,一個clip(即最小標注單位,通常特斯拉的一個clip包括45秒到1分鐘的路段數據)的標注僅需0.5小時算力+0.1小時人工,效率較2018年提升了800倍之多。
在全球市場,2019年的時候也僅有包括澳鵬Appen在內的少數頂級AI數據標注服務商投資了自有的數據標注工程平臺。在2019年澳鵬(中國)成立的時候,當時除了從IBM等世界一流IT公司出來的幾位核心主創人員以及澳鵬Appen全球對中國團隊的初始投資外,可以說"一窮二白"。
與其它全球公司的中國分公司不同,由于數據行業的高度安全合規要求,澳鵬(中國)必須要獨立自主地在中國市場重建所有的資源、系統和流程。擯棄了"拿來主義",擺在澳鵬(中國)創始團隊面前的就是一張白紙,而團隊決定對技術進行"押注"式投入:目前公司有60余名全職資深研發技術工程師,其中一半專門聚焦于公司的技術平臺產品研發;另一半專門聚焦于和客戶在平臺數據接收和驗收的無縫對接。2023年,澳鵬(中國)投資近5000萬元用于技術和系統建設,包括對澳鵬MatrixGo企業級高精度數據標注平臺和大模型智能開發平臺的開發和增強。
澳鵬MatrixGo企業級高精度數據標注平臺
今天的澳鵬(中國)有兩大拳頭產品:MatrixGo企業級高精度數據標注平臺和大模型智能開發平臺,并用這兩大平臺扛住了AI數據三維度裂變的"滾滾洪流"。澳鵬MatrixGo平臺和大模型智能開發平臺完全由澳鵬(中國)團隊在本地研發,擁有全部的知識產權和產品主導能力。
目前,澳鵬(中國)對MatrixGo平臺和大模型智能開發平臺每年迭代近百次,相當于每周都有產品更新,國內本地客戶的 AI 數據需求能夠快速反應到產品設計和開發中。同時澳鵬自主研發的預標注通用模型和交互式算法在數據標注任務中能產生25%至10倍以上的效率提升。
具體來看,澳鵬MatrixGo平臺主要針對深度學習和機器學習小模型的數據采集與標注需求,也服務于自動駕駛場景,覆蓋文本、語音、圖像、視頻、多模態等各種數據類型。目前澳鵬MatrixGo平臺已經演進到2.0版本,并不斷增強AI輔助智能標注引擎,持續提升人工標注的效率和質量,降低數據標注成本。
例如,澳鵬MatrixGo平臺在2D圖像類項目上可達到5倍以上的效率提升;3D語義分割數據標注效率提升可達到35%以上;2/3D物體檢測預標注模型效率提升15%-30%;數據交付準確率平均達到99%以上。在自動駕駛場景方面,澳鵬MatrixGo平臺支持單幀100億以上點云的加載、提供了多種4D數據標注工具,能夠為客戶增效30%以上。
澳鵬MatrixGo平臺針對各種中國客戶的不同信息安全性需求,還提供了客戶On-Premise、專屬安全屋On-premise、SaaS等多種不同的部署形式, 如On-premise的部署在48小時內可以完成,不僅極大地滿足了針對客戶的安全性需求適配,更解決客戶快速交付的緊急訴求,已在中國成功地提供幾十家客戶的On-Premise部署。
澳鵬大模型智能開發平臺
澳鵬大模型智能開發平臺是澳鵬(中國)在2023年全新開發的一個新技術工程平臺。針對大模型場景,澳鵬(中國)研發了專業的多模態數據標注工具、多輪對話數據標注工具、思維鏈數據標注工具、工具調用數據標注工具、知識庫數據標注工具等多種專業標注工具,支持RLHF、RLAIF、SFT等多種高質量數據的生產;該平臺對數據集管理、模型評估進行了針對性設計,通過A/B測試、紅藍對抗、排序打分等對大模型質量進行評估和分析;該平臺還集成了算力資源的調度和對接,可以進行算法的微調和部署,一站式完成大模型數據開發。
大模型智能開發平臺的快速上線讓澳鵬(中國)迅速抓住了大模型商機。2023年,澳鵬(中國)在中國、日本和韓國共拓展了82家新客戶,其中8家客戶帶來了20個大模型項目。2023年全年,澳鵬(中國)大模型業務營收接近3300萬,2024上半年更直逼5000萬,呈爆發式增長態勢。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,正是依托澳鵬MatrixGO平臺和大模型智能開發平臺兩大平臺的技術能力,讓澳鵬(中國)在眾多數據項目中脫穎而出,也是獲得頭部客戶青睞的重要原因。
在自主創新方面,澳鵬(中國)目前累計申請的專利數達到24項(其中20個專利申請處于已遞交狀態);軟著登記共計62項,其中56項已獲證。澳鵬(中國)與很多高校和科研院所在計算機視覺、多模態算法、大模型等領域進行了項目合作,也與許多院校在人工智能訓練師、人工智能數據標注產業培養等方面深入合作。
正是因為堅持對核心技術進行布局,澳鵬(中國)成功入選艾瑞咨詢的《2024年中國AI基礎數據服務研究報告》,并作為行業標桿之一被列入AI基礎數據服務廠商案例。而在2024世界人工智能大會(WAIC2024)期間,澳鵬(中國)入選了億歐的2024 AI產業鏈圖譜,并被評選為2024中國AI企業商業落地基礎設施服務商Top20等。
躬身入局AI數據"江湖",闖出新天地
整個AI數據標注行業在過去5年經歷了全面重塑。2019年的數據標注市場,仍處于野蠻生長狀態,主要以勞動力密集型企業為主,其競爭優勢主要體現在低價格和傳統渠道,不少企業在四五線城市建立了低成本的數據標注基地。當時的數據標注員幾乎零門檻,整個行業良莠不齊,惡意競爭、低價競爭等種種亂象叢生,可以用"江湖"一詞來形容當時的市場狀態。
2019年澳鵬(中國)成立的時候,當時已經成立23年、上市4年的澳鵬Appen全球擁有百萬眾包資源,支持235+種語言和方言,具備成熟的眾包人力資源體系和項目管理能力。但對于2019年僅有不到10個人的澳鵬(中國)初創團隊來說,這些來自頂級IT公司的專業精英人才,卻要面對當時AI數據標注服務市場的各種亂象。
澳鵬(中國)精彩亮相2024世界人工智能大會
針對處于初級階段的中國AI數據標注市場,澳鵬(中國)投入了大量時間和精力進行眾包資源的招募、培訓、流程建設和管理,特別是在二線城市創造性地建立了自營數據服務交付基地,通過自有專職人員+眾包資源的方式,適配了中國數據標注行業的初級階段。
所謂自營數據服務交付基地,即在無錫、大連、重慶等地租用辦公樓,招聘專職數據標注服務員工入駐辦公,同時為項目提供安全封閉的項目辦公空間,供團隊與客戶共同完成高保密性的項目。而在項目管理方面,面對數據標注項目節奏快、數據需求量不穩定、數據規則不斷變化等挑戰,澳鵬(中國)從多個維度提升項目管理能力,保障對客戶項目交付的穩定性。
澳鵬(中國)非常重視AI數據服務項目的安全和隱私保護,不僅在中國的各個自營基地均已獲得ISO 27001、27701、9001、14001、45001、ISO 37301等安全及管理領域國際認證,還與客戶、眾包資源等100%簽訂NDA協議。此外,根據項目對數據的安全級別、隱私安全等要求,澳鵬(中國)為客戶定制專屬項目室,包括安全屋、網絡專線、信息安全管控等,特殊項目要求員工在進入項目前還需要上交手機。正是因為澳鵬(中國)不遺余力地建設數據安全與隱私保護,才在市場競爭中獲得了頭部客戶的青睞。
為什么要建自營服務交付基地?澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士介紹,盡管澳鵬自身非常重視數據安全與隱私保護,但很多BPO服務商特別是中小BPO服務其實在這方面并不重視,也很難具備高等級數據安保設施,相比之下只有自營服務交付基地才能滿足客戶高安全、高保密等高等級要求。澳鵬(中國)的自營服務交付基地也為中國AI數據標注行業建立了一個新規范、新標桿。有客戶表示在國內所有大型數據標注服務商中,只有澳鵬(中國)是真正將數據安保真正落地的服務商,也是少有的全員交社保的數據標注服務商。
選擇在二線城市建設自營數據服務交付基地,還有一個出發點就是為了滿足AI數據對于高知識專業人才的需求。田小鵬表示,團隊在成立之初就前瞻到了AI模型將越來越向垂直領域和專業化方向發展,對于知識的需求將越來越高。相比于四五線城市,二線城市有大量高水平的高校以及具備高知識的專業化人才,選擇在二線城市建設自營數據服務交付基地可就近招募高知識專業化人才,滿足AI模型的長期演進需求。
在澳鵬(中國)創業的5年中,經歷了中國AI數據標注行業從初期亂象走向規范化發展之路,在這期間還經歷了三年疫情這樣百年未遇的公共事件,這些都是澳鵬(中國)創業團隊在創業之初都始料未及的挑戰。
例如,有的客戶在項目進行過程中或項目結束就破產了,或因各種原因出現賴賬,導致無法收回上百萬的項目款或者打折結算,而與此同時很多眾包人員的工作已經在進行中或完成了,澳鵬(中國)團隊經過慎重考慮選擇自行墊款結算所有眾包人員和BPO商的項目款,因為對于很多地方上的眾包和 BPO人員來說,項目款是維持生計的重要來源,特別在疫情期間甚至是唯一生計來源。
從"科技向善"的公司理念出發,澳鵬(中國)并沒有因為AI數據"江湖"的亂象而放棄原則,而是知行合一地實踐了這一理念,杜絕各種"踩紅線"行為,為整個行業樹立科技向善的標桿,引領AI數據標注行業走出無序和不良競爭亂象,走向更加光明的未來。
下一個5年,勇攀高峰
在過去5年中,出現了大量不確定性的事件,包括全球疫情和中美科技競爭,但也幸運地趕上了自動駕駛和大模型浪潮以及由此引發的AI數據三維度爆發式裂變。由于澳鵬(中國)堅持以科技創新立身,堅定投入自有技術平臺,依靠更高效率、更高質量、更高安全性的技術平臺和人力資源優勢,在市場中站穩了腳跟。
澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士
過去5年澳鵬(中國)的成功,可以總結為五大因素:順勢而為、創新為要、資源多樣化、洞察客戶需求、員工滿意與數據合規。
順勢而為。澳鵬(中國)非常幸運地抓住了ChatGPT、LLM等AI科技突破性技術創新和成就所產生的商機,特別是敏銳察覺和把握了AI數據三維度爆發式裂變,堅定了對AI數據標注服務、AI和未來科技演進的信心與信念,在前瞻性戰略思考基礎上,謀定而后動。
創新為要。澳鵬(中國)將創新視為公司和行業發展的動力,以創新謀新局、開新篇:創造性地建立在中國自營 AI 數據服務交付基地模式;大膽投資開發了澳鵬MatrixGo平臺和大模型智能開發平臺并建立了技術護城河;率先嘗試各種AI數據服務,包括3D數據標注、4D數據標注、大模型數據服務、多模態數據服務、海外路采等等。
資源多樣化。通過眾包、BPO和專職數據標注與服務人員等多種資源布局與協同,解決了客戶在AI數據規模、質量與復雜性方面的挑戰,同時也解決了部分大眾就業、中小企業生存發展等民生問題,將創業與企業責任結合起來,用實踐向業界展現了AI向善的商業與社會價值,引領整個行業走上可持續發展之路。
洞察客戶需求。在AI數據服務行業,客戶真正關心的是優異的品質和合理的價格。澳鵬(中國)一直秉承"季布一諾千金"的優良文化,全心全意服務好客戶,不斷打磨精細化管理,以優異的數據質量品質,在業界形成了良好的口碑。
員工滿意和數據合規。澳鵬(中國)非常重視員工的滿意度,授予員工充分的自主權,讓員工全方位參與公司管理,獲得員工的高認可度。數據合規紅線是企業運營的根本,公司通過各種獨立項目交付合規室的建設和管控措施以及ISO信息安全認證等多種舉措建立了安全合規的企業文化。
目前,澳鵬(中國)客戶主要分布在互聯網/電商企業、算法科技公司、自動駕駛等行業,客戶包括國內前十大汽車公司、前十大互聯網公司和前四大移動互聯網公司等。鑒于AI數據與AI模型越來越密不可分,澳鵬(中國)為頭部客戶配置了專屬的客戶經理,從而深入理解客戶業務,并根據客戶業務發展,提前準備相應的資源和能力,靈活及時滿足客戶需求。
例如,在服務某中國頭部社交媒體海外實體公司的過程中,雙方在大模型文本生成和多模態數據處理等領域展開了深入合作。澳鵬(中國)在東南亞地區建立了多個大模型標注的基地,招募了當地優秀的本科、碩士畢業生以及部分垂直領域的專家。借助海外專業且穩定的人力資源以及澳鵬豐富的管理經驗,為該客戶實現了大模型高精度+高一致率的標注結果。目前該客戶大模型的業務量已經躋身澳鵬(中國)前三,成為重要的業務支柱。
在下一個5年到來之際,澳鵬(中國)又站在了一個新的起點。未來5年,在大模型的持續影響和應用需求激增下,全社會全面進入AI規模化應用階段,相關數據標注的需求也呈現爆發式增長。面對下一波AI浪潮,澳鵬(中國)已經做好了充分的準備。
首先,澳鵬(中國)將持續投入兩大平臺的研發,不斷提高產品力,從而提升產品在整個營收中的占比。在數據標注服務外,客戶對于數據處理平臺、數據處理工具和數據處理算法有大量需求。為此,澳鵬(中國)投入產品研發,打造可商業化的數據標注平臺、多模態數據標注工具、成品數據庫產品以及覆蓋數據采集、數據清洗、數據脫敏、數據挖掘等不同階段的自動化算法產品,為客戶提供全面的產品矩陣。
澳鵬(中國)的團隊與客戶團隊一起,共同探討算法研發的思路和數據標注工具的產品設計。澳鵬(中國)團隊每天都在為客戶定制化需求而研發,這些需求可能是為了客戶算法工程師的一個新思路而實現一個特殊的數據標注功能以標注特定的數據特征,也可能是為了讓客戶更好更快地驗收數據標注結果而開發更便捷、可視化功能和數據準確率看板。所有這些新算法、新功能、新工具都匯入澳鵬(中國)的兩大平臺,惠及更多客戶。
其次,澳鵬(中國)將繼續開拓大模型和中國企業出海兩大市場。在大模型市場,科技企業對于AI/LLM的研發投入巨大,迫切需要具有的高質量訓練數據交付能力的公司,幫助更好、更快地處理模型訓練數據,而澳鵬(中國)已經構建了強大的競爭力。
在中國企業出海市場,企業出海首先面對的就是語言和全球資源的挑戰,澳鵬在全球170多個國家擁有290多種語言的資源,同時在菲律賓、越南、美國等地區擁有大型交付中心,這是澳鵬在行業內獨一無二的優勢,可以很好地支持國內企業出海拓展海外市場業務。
第三,針對AI技術深入行業應用帶來的長期需求,包括代碼、醫療、教育、金融、工業、汽車等行業,澳鵬(中國)已經儲備了超過1500人的高學歷專業人士,而且還在無錫、大連、重慶等多地的交付基地同時招聘招募專業人員,從而打造全國性的專業資源能力池。
艾瑞咨詢預計到2028年,中國AI基礎數據服務市場規模將達170億元,未來五年的復合增長率為30.4%。澳鵬Appen全球高級副總裁、大中華及北亞區總經理田小鵬博士表示,有信心在5年后實現12億人民幣的年營收,以至少27.8%+的高速復合增長率,成為中國及亞洲區AI數據專業服務行業的領軍服務商。
其中,產品和服務兩條線更均衡發展,產品項目的占比將從2024年的4%至少提升到2029年的12%;進一步加速開拓亞洲市場,占比將從 2024年10%至少提升到2029年15%,澳鵬中國5 年后將完成亞洲、歐洲、非洲、中東、南美、北美等地所有AI數據服務的全覆蓋。
展望5年后乃至更長遠的未來,田小鵬認為廣闊天地在于突破AI數據標注服務窄領域,進入AI數據服務寬領域,即:AI數據服務將會有更廣泛行業的覆蓋拓展;AI 數據類型將向多模態、垂類細分顆粒度等演變;AI 數據產品將更國際化、全球化、多語言覆蓋。例如:大模型就將AI數據服務推進到了人工反饋算法迭代服務和模型評估服務,今后隨著AI技術的持續發展或將出現新的AI模型,相應帶來新的AI數據服務需求,這為澳鵬(中國)基業長青奠定了信心。
回顧過去5年走過的路,田小鵬笑說如果再來一遍,肯定不會選擇創業這條道路。因為在一個市場的初級階段搏殺,再疊加全球三年疫情這樣極具挑戰的公共事件,即便是老兵創業也是每日如履薄冰。
5年前創業之初,澳鵬(中國)從零起步,沒有客戶、沒有產品、沒有流程、沒有團隊、只有投資和勇氣;5年后,澳鵬(中國)已經有兩大產品平臺、3000+員工、3000+BPO合作伙伴、近百萬眾包資源、6大服務交付基地、完整的組織、流程與管理以及350+家優質客戶……
闖過了前面的險灘,后面就是奔騰不息的大江大河。面向下一個5年,田小鵬說"澳鵬(中國)并不完美,但一直在追求完美的道路上。在 AI 的未來浪潮中,在AI數據主航道上我們將勇往直前。澳鵬(中國)愿做客戶在 AI成功的幕后英雄和鋪路石,成就客戶是我們永遠不變的初心!"