![]()
今年以來(lái),隨著chatGPT持續(xù)火爆,“大語(yǔ)言模型”這個(gè)名詞頻頻出現(xiàn)在大家的視野。
話說(shuō)回來(lái),什么是大語(yǔ)言模型?它包含哪些方面?和自然語(yǔ)言處理有何區(qū)別?經(jīng)常和大語(yǔ)言模型一起出現(xiàn)的“AIGC”又指什么?
作為這個(gè)賽道的一員,下面我將結(jié)合司普科技這些年的積累和經(jīng)驗(yàn),來(lái)為大家簡(jiǎn)單介紹下。
什么是大語(yǔ)言模型?
其實(shí)我們常說(shuō)的大語(yǔ)言模型,翻譯自專業(yè)名詞:Large Language Model,簡(jiǎn)稱:LLM。因?yàn)槟壳按蠹矣玫降拇笳Z(yǔ)言模型遠(yuǎn)不止一個(gè),所以我們經(jīng)常還會(huì)看到它的復(fù)數(shù)形式——LLMs。
之所以被稱為大語(yǔ)言模型,其實(shí)很大程度上源于:它是建立在無(wú)標(biāo)注文本數(shù)據(jù)上訓(xùn)練的語(yǔ)言模型,而且參與訓(xùn)練的數(shù)據(jù)集往往非常龐大。
舉個(gè)例子,此前一鳴驚人的GPT-3就訓(xùn)練了1750億個(gè)參數(shù)大型語(yǔ)言模型。而到了GPT-4,訓(xùn)練的模型參數(shù)更是達(dá)到約1.8萬(wàn)億,訓(xùn)練數(shù)據(jù)多達(dá)13萬(wàn)億。
而大語(yǔ)言模型的工作原理也很簡(jiǎn)單:主要借助深度學(xué)習(xí)機(jī)制,把海量訓(xùn)練數(shù)據(jù)中的各種語(yǔ)言邏輯、語(yǔ)言組織規(guī)律有效提取出來(lái),再借助AI算法,在實(shí)際用戶需求中,理解或生成自然語(yǔ)言文本。
為了保證更好的輸出質(zhì)量和精度,同時(shí)避免生成內(nèi)容帶有“負(fù)面色彩”,除了“預(yù)訓(xùn)練語(yǔ)言模型”((Pretrained Language Models),往往還會(huì)用到“訓(xùn)練打分模型”(Reward Model),對(duì)其進(jìn)行強(qiáng)化學(xué)習(xí)和打分規(guī)則的微調(diào),打分越高的,輸出效度和精度越高,也越能滿足人們的期待和偏好。
當(dāng)這整套工作完成,也就有了投喂大量訓(xùn)練數(shù)據(jù)后,能像人一樣,進(jìn)行高水平對(duì)話或創(chuàng)作的人工智能應(yīng)用。
布局大語(yǔ)言模型要做好哪些?
目前,布局大語(yǔ)言模型賽道的廠商不少,而且聚焦的業(yè)務(wù)面也越來(lái)越廣,但進(jìn)行大語(yǔ)言模型的開(kāi)發(fā)并不簡(jiǎn)單。
如上面所說(shuō),大語(yǔ)言模型底層的運(yùn)作,離不開(kāi)預(yù)訓(xùn)練和打分模型。其中,預(yù)訓(xùn)練語(yǔ)言模型作為核心技術(shù)基座,要想模型擁有更強(qiáng)的性能,模型結(jié)構(gòu)和規(guī)模、樣本數(shù)據(jù)、算力等都是關(guān)鍵性要素。
以參數(shù)規(guī)模為例,因?yàn)閰⑴c訓(xùn)練的數(shù)據(jù)量,直接影響預(yù)訓(xùn)練模型在下游任務(wù)中的效果,所以效果較好的大語(yǔ)言模型,參數(shù)規(guī)模基本超過(guò)千億級(jí)(100B)。
比如OpenAI的GPT 4參數(shù)規(guī)模約為180B,Google旗下LaMDA的參數(shù)規(guī)模約為137B,PaLM的規(guī)模約為540B,DeepMind旗下的Gogher參數(shù)規(guī)模為280B等。
而完成如此大的數(shù)據(jù)量訓(xùn)練,對(duì)算力和資金的需求極大,所以目前大語(yǔ)言模型底層技術(shù)的開(kāi)發(fā)多集中在巨頭企業(yè)之間,而大型LLM廠商單次的訓(xùn)練成本可能就高達(dá)百萬(wàn)甚至千萬(wàn)美元。
為了推動(dòng)行業(yè)發(fā)展和生態(tài)合作,很多基礎(chǔ)性大語(yǔ)言模型實(shí)行了開(kāi)源,加上LangChain等LLM集成工具的出現(xiàn),依然為大眾開(kāi)發(fā)者在大語(yǔ)言模型底層之上進(jìn)行各類應(yīng)用的開(kāi)發(fā)創(chuàng)造了便利。
目前,利用通用大模型搭配行業(yè)小模型,并根據(jù)不同業(yè)務(wù)場(chǎng)景給到相應(yīng)的解決方案,是很多應(yīng)用層布局者的常見(jiàn)做法,由此也衍生出了多模態(tài)的大語(yǔ)言模型應(yīng)用。
大語(yǔ)言模型和自然語(yǔ)言處理有何區(qū)別?
作為人工智能技術(shù)的重要分支,自然語(yǔ)言處理(NLP)任務(wù)早年就火出了圈。
從表面看,大語(yǔ)言模型和自然語(yǔ)言處理都高度聚焦于“語(yǔ)言文本”的處理,都離不開(kāi)深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的支持,兩者甚至都涉及語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)義理解、機(jī)器翻譯等方面的應(yīng)用。
但大語(yǔ)言模型在這些領(lǐng)域的應(yīng)用更廣,而且在上下文理解、連續(xù)對(duì)話、邏輯推理等方面比單純的自然語(yǔ)言處理,顯得更智能、更有優(yōu)勢(shì)。
從應(yīng)用看,自然語(yǔ)言處理主要集中于“從文本到文本的輸入輸出”,基本是一問(wèn)一答式。
而大語(yǔ)言模型已經(jīng)能實(shí)現(xiàn)文字、圖片、音視頻等多模態(tài)數(shù)據(jù)的輸出,對(duì)話成文、文生圖、文生視頻等都能輕松實(shí)現(xiàn),人機(jī)交互面積更大,通用性也更強(qiáng)。
就此來(lái)說(shuō),自然語(yǔ)言處理很多還停留于簡(jiǎn)單理解語(yǔ)言含義后進(jìn)行“基礎(chǔ)對(duì)話”,而大語(yǔ)言模型已經(jīng)能在掌握語(yǔ)言規(guī)律的基礎(chǔ)上“自由對(duì)話”。
所以在談?wù)搩烧邥r(shí),很多人都將大語(yǔ)言模型稱為自然語(yǔ)言處理的“奇點(diǎn)”或“拐點(diǎn)”。
什么是AIGC?和大語(yǔ)言模型有何關(guān)系?
AIGC翻譯自專業(yè)名詞:Artificial Intelligence Generated Content,簡(jiǎn)單來(lái)說(shuō)就是“利用人工智能技術(shù)來(lái)生產(chǎn)內(nèi)容”。目前,比較有代表性的AI生成內(nèi)容,就包括文本、圖像、音頻、視頻等。
從表面來(lái)看,AIGC其實(shí)可以算是大語(yǔ)言模型當(dāng)下最熱門(mén)的一大方向。而大語(yǔ)言模型的發(fā)展,正是AIGC各項(xiàng)應(yīng)用得以高速發(fā)展的基礎(chǔ)和關(guān)鍵。
從技術(shù)上看,AIGC的成功,主要得益于GAN、Transformer、Diffusion、CLIP、LLM等基礎(chǔ)生成算法模型的不斷發(fā)展,而它的成功也在極大地推進(jìn)著內(nèi)容生產(chǎn)的自動(dòng)化和智能化進(jìn)程。
備注:以上首發(fā)sipu-tech,僅做分享。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.