智源研究院黃鐵軍：視覺大模型處于“爆發(fā)前夜”

發(fā)表于: 2023-06-13 15:37:51 來源：環(huán)球網(wǎng)

“與語言大模型相比，視覺大模型還處于‘爆發(fā)前夜’，需要一個‘殺手級’應(yīng)用出現(xiàn)。”近日，在2023北京智源大會（以下簡稱“大會”）期間，智源研究院院長黃鐵軍在接受記者采訪時如是說。

(資料圖片僅供參考)

當(dāng)前，大模型相關(guān)新研究、新產(chǎn)品競相涌現(xiàn)。《中國人工智能大模型地圖研究報告》（以下簡稱《報告》）顯示，據(jù)不完全統(tǒng)計，截至目前，參數(shù)在10億規(guī)模以上的大模型全國已發(fā)布79個。

在黃鐵軍看來，大模型需要具備三個條件：一是規(guī)模要大，參數(shù)甚至能達(dá)到百億規(guī)模以上；二是涌現(xiàn)性，能夠產(chǎn)生預(yù)料之外的新能力；三是通用性，不限于專門問題或領(lǐng)域，能夠處理多種不同的任務(wù)。

早在2020年10月，智源研究院就開始對超大規(guī)模預(yù)訓(xùn)練模型“悟道”項目進(jìn)行路徑探索。隨后在2021年3月，作為中國首個超大規(guī)模預(yù)訓(xùn)練模型，“悟道1.0”發(fā)布；同年6月，智源研究院又再次發(fā)布“悟道2.0”。

經(jīng)過一段時間的技術(shù)積淀，全面開源的“悟道3.0”在大會上面世。此次發(fā)布的一系列成果包括“悟道·天鷹”語言大模型系列、天秤開源大模型評測體系與開放平臺、“悟道·視界”視覺大模型系列，以及一系列多模態(tài)模型成果。

以悟道·天鷹為例，黃鐵軍介紹，作為首個具備中英雙語知識，支持商用許可協(xié)議、國內(nèi)數(shù)據(jù)合規(guī)需求的開源語言大模型，其在中英文高質(zhì)量語料基礎(chǔ)上從“0”開始訓(xùn)練，通過數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法，實現(xiàn)在更小的數(shù)據(jù)集、更短的訓(xùn)練時間獲得更優(yōu)的性能。

大模型發(fā)展邁入“快車道”

回憶起“悟道”的迭代歷程，黃鐵軍曾表示，“人工智能的發(fā)展已經(jīng)從‘大煉模型’逐步邁向了‘煉大模型’的階段，業(yè)界通過設(shè)計先進(jìn)的算法整合盡可能多的數(shù)據(jù)，匯聚大量算力，并集約化地訓(xùn)練大模型供大量企業(yè)使用，已是必然趨勢?！?/p>

顯然，智源研究院對大模型的預(yù)判已照進(jìn)現(xiàn)實?！秷蟾妗凤@示，當(dāng)前我國大模型正呈現(xiàn)蓬勃發(fā)展態(tài)勢。一批通用類大模型正快速發(fā)展，應(yīng)用行業(yè)正從辦公、生活、娛樂等方向，向醫(yī)療、工業(yè)、教育等領(lǐng)域加速拓展。

黃鐵軍告訴記者，之所以這么多大模型迎來爆發(fā)，是因為出現(xiàn)了新的學(xué)習(xí)方法，其中最重要的方法便是自監(jiān)督學(xué)習(xí)。據(jù)悉，自監(jiān)督學(xué)習(xí)的優(yōu)勢是可以在無標(biāo)簽的數(shù)據(jù)上完成訓(xùn)練，監(jiān)督學(xué)習(xí)則需要有標(biāo)簽數(shù)據(jù)，而數(shù)據(jù)的標(biāo)注也離不開人力成本。

“小數(shù)據(jù)是訓(xùn)練不出來一個大模型的，但基于自監(jiān)督學(xué)習(xí)，數(shù)據(jù)不再受限于成本、人力等因素。只要數(shù)據(jù)有結(jié)果，模型就能通過自監(jiān)督學(xué)習(xí)從中智能地提煉出隱藏的規(guī)律，然后去解決相應(yīng)的問題?！秉S鐵軍說。

按類別來看，黃鐵軍認(rèn)為，與已在全世界掀起浪潮的語言大模型相比，視覺大模型仍處于“爆發(fā)前夜”，依然有很多問題有待解決。當(dāng)有一種“殺手級”應(yīng)用出現(xiàn)，便能激發(fā)出視覺大模型背后的能力，以及大家對視覺大模型的熱情。

業(yè)界應(yīng)“集中力量辦大事”

值得關(guān)注的是，已邁上“快車道”的大模型依然存在發(fā)展掣肘。黃鐵軍坦言，“現(xiàn)在大模型的‘大’遠(yuǎn)遠(yuǎn)沒有達(dá)到天花板和包羅萬象的程度。僅從語言這一大類來說，可能也得三年左右的時間才能做到包羅萬象。未來三年大模型的規(guī)模還會增大，能力還會更強，這應(yīng)該是基本趨勢?！?/p>

對此，黃鐵軍也建議，業(yè)界應(yīng)該在大模型研究領(lǐng)域形成合力，擴(kuò)容生態(tài)?！拔矣X得重復(fù)性發(fā)力，發(fā)力得越多反而可能會發(fā)散資源。咱們總說集中力量辦大事，在大模型方面業(yè)界能否各自發(fā)揮各自優(yōu)勢，在自己最擅長的環(huán)節(jié)做到最強，然后將最強的這些環(huán)節(jié)連接在一起，有機形成一個生態(tài)，這才是我們應(yīng)該努力的方向?！?/p>

在開源生態(tài)方面，智源研究院也作出一系列努力。比如，今年年初發(fā)布的FlagOpen大模型技術(shù)開源體系，為大模型發(fā)展夯實了底層技術(shù)棧?；贔lagOpen，智源研究院希望打造出全面支撐大模型技術(shù)發(fā)展的開源算法體系和一站式基礎(chǔ)軟件平臺，與業(yè)界共建共享大模型時代的“新Linux”開源開放生態(tài)。

而在數(shù)據(jù)集方面，智源已開源首個大規(guī)模、可商用的中文指令數(shù)據(jù)集COIG。據(jù)介紹，COIG一期已開放總計19.1萬條指令數(shù)據(jù)，COIG二期正在建設(shè)最大規(guī)模、持續(xù)更新的中文多任務(wù)指令數(shù)據(jù)集。其整合了1800多個海量開源數(shù)據(jù)集，人工改寫了3.9億條指令數(shù)據(jù)，并提供了完善的數(shù)據(jù)篩選、版本控制工具。

談到大模型對人們生活的影響，黃鐵軍表示，一方面，作為技術(shù)工具，人工智能替代了很多原本只有人才能完成的任務(wù)，為企業(yè)帶來效率的提升和成本的降低。另一方面，有些職業(yè)因此會面臨沖擊，比如一些重復(fù)性的工作可以通過AI以更低成本實現(xiàn)，不過新機會也會出現(xiàn)，受到?jīng)_擊的這些人可以找到更能發(fā)揮自己能力的新工作。

“我認(rèn)為這就是技術(shù)發(fā)展的一個常態(tài)，一方面會帶來‘蜜月期’，另外一方面也會有些陣痛，但是相信人機結(jié)合會在未來一二十年有很好的發(fā)展?！秉S鐵軍說。

關(guān)鍵詞：

精品熟女后入一区二区三区,色偷偷中文字幕一区二区,本庄优花人妻一区二区三区,青青青爽不卡一区二区,大黑鸡巴操逼内射委内瑞拉妓女,内射歐美日老阿姨老,julia在线观看中文字幕,欧美卡一卡二卡三卡四,青青草99国产视频

智源研究院黃鐵軍：視覺大模型處于“爆發(fā)前夜”

推薦閱讀

熱門標(biāo)簽