揭秘聽見世界APP:人工智能公益助盲,復(fù)旦眸思大模型打破視覺界限
隨著科技的不斷發(fā)展,人工智能不僅在商業(yè)領(lǐng)域取得了巨大成功,也在公益事業(yè)中展現(xiàn)了強(qiáng)大的潛力。一部名為《聽見世界》的公益短片在社交媒體上引起了關(guān)注,它不僅讓觀眾感受到深刻的情感共鳴,還展示了復(fù)旦眸思大模型如何借助AI科技為視障者打破視覺界限的努力。
目前,聽見世界APP已經(jīng)上線,盲人朋友可以在安卓商店進(jìn)行應(yīng)用下載。為揭開聽見世界項(xiàng)目的神秘面紗,我們對復(fù)旦眸思公益助盲項(xiàng)目團(tuán)隊(duì)進(jìn)行了專訪。
源起:復(fù)旦眸思大模型,助力產(chǎn)品打破視覺界限
“在多模態(tài)大模型開發(fā)過程中,我們一直在探討利用多模態(tài)大模型能具體做些什么。我們在眸思多模態(tài)大模型構(gòu)建過程中使用了數(shù)億張圖片進(jìn)行訓(xùn)練,其中有大量的自然場景,在測試過程中,我們發(fā)現(xiàn)它可以非常好地對自然環(huán)境,甚至是可以對非常罕見的自然場景進(jìn)行準(zhǔn)確描述,”中工互聯(lián)首席科學(xué)家、復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授張奇講道:“我們覺得這就像是機(jī)器長了眼睛。由此,我們很快想到將圖像轉(zhuǎn)換為語音,可以為盲人朋友在行走、尋找物品等場景下提供巨大的幫助。”
圖:聽見世界項(xiàng)目研發(fā)團(tuán)隊(duì)部分成員
顯而易見,復(fù)旦眸思大模型成為了聽見世界APP運(yùn)行的基石。
張奇教授表示:眸思大模型提出了全新的多視覺專家混合架構(gòu)。它將擅長圖文匹配、光學(xué)字符識(shí)別(OCR)和圖像分割等多種經(jīng)典視覺任務(wù)的專家巧妙地融為一體。在各類場景中,眸思大模型展現(xiàn)出良好的性能和邏輯推理能力。
中工互聯(lián)(北京)科技集團(tuán)有限公司創(chuàng)始人、董事長智振講道:“眸思大模型是復(fù)旦大學(xué)NLP實(shí)驗(yàn)室的最新力作,代表國內(nèi)科研機(jī)構(gòu)最先進(jìn)的技術(shù)水平。聽見世界APP的表現(xiàn)非常驚艷。長遠(yuǎn)來看,隨著人工智能技術(shù)的進(jìn)步和未來腦機(jī)接口技術(shù)的突破,可能盲人朋友真就能‘看到’世界了。要實(shí)現(xiàn)這一長遠(yuǎn)的目標(biāo),需要全世界科技工作者共同的努力。”
圖:中工互聯(lián)董事長智振
推進(jìn):項(xiàng)目研發(fā)團(tuán)隊(duì),產(chǎn)學(xué)研用強(qiáng)強(qiáng)聯(lián)合
復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室與復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室在開發(fā)復(fù)旦眸思多模態(tài)大模型時(shí)就同步進(jìn)行了聽見世界項(xiàng)目的開發(fā)工作。該項(xiàng)目由復(fù)旦大學(xué)桂韜、紀(jì)燾、張奇、黃萱菁、邱錫鵬、吳祖煊、姜育剛等主導(dǎo),樊曉然、江常皓、李爍、金森杰等近20名博士和碩士研究生共同參與了產(chǎn)品研發(fā)。
圖:張奇教授
“中工互聯(lián)在整個(gè)項(xiàng)目的研發(fā)過程中給予了全方位的支持,”張奇教授講道:“我們之間建立了良好的戰(zhàn)略合作關(guān)系,在中工互聯(lián)擅長的工業(yè)領(lǐng)域,我們一起利用多模態(tài)大模型,在圖紙理解、產(chǎn)品質(zhì)檢和異常檢測等領(lǐng)域開展了廣泛的產(chǎn)品落地。”
智振董事長表示:中工互聯(lián)復(fù)旦大學(xué)聯(lián)合實(shí)驗(yàn)室,以及智工·工業(yè)大模型研發(fā)團(tuán)隊(duì)全程參與了項(xiàng)目研發(fā)。項(xiàng)目團(tuán)隊(duì)由頂級(jí)大學(xué)科研隊(duì)伍和務(wù)實(shí)的產(chǎn)品落地成員組成。既有創(chuàng)新精神又可以高效快速落地。這種能力在智工工業(yè)大模型的研發(fā)中得以展現(xiàn)。
應(yīng)用:我是你的眼,世界就在你耳邊
聽見世界APP采用安卓系統(tǒng)進(jìn)行開發(fā),可以支持最低端的智能手機(jī)。在后端模型架構(gòu)層面,研發(fā)團(tuán)隊(duì)采用了非常靈活的部署策略,可以使用智算中心的閑置算力,甚至是居民個(gè)人家庭中3090顯卡的閑置時(shí)間。
聽見世界APP的全部識(shí)別功能都全部來源于眸思大模型,在不同的模式下預(yù)設(shè)了不同的Prompt,從而方便盲人朋友使用。
據(jù)悉,聽見世界APP產(chǎn)品目前設(shè)計(jì)了街道行走、物品尋找、自由問答和電視介紹等四種模式。它可以成為視障人士的生活助手與智能管家。
圖:聽見世界APP電視介紹模式
舉個(gè)例子。當(dāng)盲人朋友開啟街道行走模式,聽見世界APP會(huì)通過攝像頭實(shí)時(shí)捕捉交通畫面,并將畫面?zhèn)鬟f給復(fù)旦眸思大模型,由模型識(shí)別當(dāng)前場景中的情況,并對紅綠燈、路口、臺(tái)階、坡道等信息進(jìn)行重點(diǎn)識(shí)別,進(jìn)而生成文字并合成語音,播放給盲人朋友。
圖:聽見世界APP街道行走模式
“其他模式與這個(gè)類似,都是通過攝像頭捕捉圖像,盲人朋友通過語音與模型進(jìn)行交互,從而得到整體結(jié)果,”張奇教授講道:“未來,我們會(huì)圍繞盲人的衣食住用行等方方面面的需求,全面完善產(chǎn)品功能。讓聽見世界APP真正變成盲人的朋友的‘眼睛’。”
圖:聽見世界APP物品尋找模式
智振董事長表示:聽見世界APP,我們?yōu)樗业搅艘粋€(gè)產(chǎn)品推廣語——我是你的眼,世界就在你耳邊。這款產(chǎn)品既可以成為盲人朋友生活的必備工具,讓他們和正常人一樣感受到世界的美好。
圖:聽見世界APP可以實(shí)現(xiàn)實(shí)時(shí)交互
未來:定位公益項(xiàng)目,讓每一份生活都更美好
關(guān)于聽見世界APP產(chǎn)品應(yīng)用成本,研發(fā)團(tuán)隊(duì)曾經(jīng)算過一筆賬。
張奇教授分析道:在大模型層面,我們目前有80億、140億和350億等三個(gè)參數(shù)版本。即便采用80億參數(shù)的版本,一個(gè)終端每小時(shí)所消耗的GPU計(jì)算費(fèi)用在1元左右,估算下來,服務(wù)每個(gè)盲人朋友每個(gè)月大約需要150元左右。但是,我們希望盡最大努力,協(xié)調(diào)各方資源,將這個(gè)產(chǎn)品免費(fèi)提供給盲人朋友。
張奇教授表示:“在政府的支持下,我們計(jì)劃與NGO組織、智算中心和硬件廠商等開展合作,致力于讓盲人朋友免費(fèi)使用產(chǎn)品和相關(guān)的服務(wù)。”
圖:復(fù)旦大學(xué)NLP實(shí)驗(yàn)室青年副研究員桂韜
“在人工智能引領(lǐng)的時(shí)代潮流中,我們不應(yīng)該忽視任何一個(gè)人,眸思項(xiàng)目能夠幫助1800萬盲人重新找回生活的色彩,這不僅是技術(shù)的一次飛躍,也是人工智能在服務(wù)人類,改善我們生活方面道出的重要一步,”復(fù)且大學(xué)自然語言處理實(shí)驗(yàn)室青年副研究員桂韜表示:“這代表著我們實(shí)驗(yàn)室對于打造一個(gè)更加包容、更加美好世界的堅(jiān)定承諾。”
“人工智能等一切科技文明都是人類集體智慧的結(jié)晶,我們需要在科技的發(fā)展中尋求更多的公正和平等。聽見世界,我們對它的定位是公益項(xiàng)目,”智振董事長講道:“與此同時(shí),我們會(huì)加快眸思大模型的商業(yè)化落地進(jìn)程,盡快惠及更多行業(yè)更多用戶。我們計(jì)劃在復(fù)旦大學(xué)中工互聯(lián)聯(lián)合實(shí)驗(yàn)室的框架內(nèi),加大科研經(jīng)費(fèi)的投入,首期計(jì)劃投入1500萬研發(fā)經(jīng)費(fèi)來加大基礎(chǔ)大模型的研究。”
-
陜西鋼材一手貨源---眾唐鋼材批發(fā)市場一件也是批發(fā)價(jià)
-
錫山區(qū)鵝湖鎮(zhèn)專業(yè)疏通下水道、環(huán)衛(wèi)抽糞卓通環(huán)保工程有限公司
-
藍(lán)小象快裝服務(wù)材料介紹石晶仿瓷板電話
-
南京Java學(xué)習(xí)首選:動(dòng)力節(jié)點(diǎn)南京校區(qū),你不容錯(cuò)過!
-
重慶病人出院轉(zhuǎn)院選擇正規(guī)潤興救護(hù)車轉(zhuǎn)運(yùn)服務(wù)機(jī)構(gòu)
-
高效穩(wěn)定的網(wǎng)絡(luò)傳輸利器-思科C9200L交換機(jī)的詳細(xì)介紹
-
造船行業(yè)的“得力助手”—使用30噸扁平吊裝帶提升吊裝生產(chǎn)力