網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

3分鐘帶你看懂大語(yǔ)言模型基礎(chǔ)知識(shí)

2023-12-08 08:57:21　來(lái)源: 有聊有理

廣東舉報(bào)

分享至

今年以來(lái)，隨著chatGPT持續(xù)火爆，“大語(yǔ)言模型”這個(gè)名詞頻頻出現(xiàn)在大家的視野。

話說(shuō)回來(lái)，什么是大語(yǔ)言模型？它包含哪些方面？和自然語(yǔ)言處理有何區(qū)別？經(jīng)常和大語(yǔ)言模型一起出現(xiàn)的“AIGC”又指什么？

作為這個(gè)賽道的一員，下面我將結(jié)合司普科技這些年的積累和經(jīng)驗(yàn)，來(lái)為大家簡(jiǎn)單介紹下。

什么是大語(yǔ)言模型？

其實(shí)我們常說(shuō)的大語(yǔ)言模型，翻譯自專業(yè)名詞：Large Language Model，簡(jiǎn)稱：LLM。因?yàn)槟壳按蠹矣玫降拇笳Z(yǔ)言模型遠(yuǎn)不止一個(gè)，所以我們經(jīng)常還會(huì)看到它的復(fù)數(shù)形式——LLMs。

之所以被稱為大語(yǔ)言模型，其實(shí)很大程度上源于：它是建立在無(wú)標(biāo)注文本數(shù)據(jù)上訓(xùn)練的語(yǔ)言模型，而且參與訓(xùn)練的數(shù)據(jù)集往往非常龐大。

舉個(gè)例子，此前一鳴驚人的GPT-3就訓(xùn)練了1750億個(gè)參數(shù)大型語(yǔ)言模型。而到了GPT-4，訓(xùn)練的模型參數(shù)更是達(dá)到約1.8萬(wàn)億，訓(xùn)練數(shù)據(jù)多達(dá)13萬(wàn)億。

而大語(yǔ)言模型的工作原理也很簡(jiǎn)單：主要借助深度學(xué)習(xí)機(jī)制，把海量訓(xùn)練數(shù)據(jù)中的各種語(yǔ)言邏輯、語(yǔ)言組織規(guī)律有效提取出來(lái)，再借助AI算法，在實(shí)際用戶需求中，理解或生成自然語(yǔ)言文本。

為了保證更好的輸出質(zhì)量和精度，同時(shí)避免生成內(nèi)容帶有“負(fù)面色彩”，除了“預(yù)訓(xùn)練語(yǔ)言模型”（(Pretrained Language Models），往往還會(huì)用到“訓(xùn)練打分模型”（Reward Model），對(duì)其進(jìn)行強(qiáng)化學(xué)習(xí)和打分規(guī)則的微調(diào)，打分越高的，輸出效度和精度越高，也越能滿足人們的期待和偏好。

當(dāng)這整套工作完成，也就有了投喂大量訓(xùn)練數(shù)據(jù)后，能像人一樣，進(jìn)行高水平對(duì)話或創(chuàng)作的人工智能應(yīng)用。

布局大語(yǔ)言模型要做好哪些？

目前，布局大語(yǔ)言模型賽道的廠商不少，而且聚焦的業(yè)務(wù)面也越來(lái)越廣，但進(jìn)行大語(yǔ)言模型的開(kāi)發(fā)并不簡(jiǎn)單。

如上面所說(shuō)，大語(yǔ)言模型底層的運(yùn)作，離不開(kāi)預(yù)訓(xùn)練和打分模型。其中，預(yù)訓(xùn)練語(yǔ)言模型作為核心技術(shù)基座，要想模型擁有更強(qiáng)的性能，模型結(jié)構(gòu)和規(guī)模、樣本數(shù)據(jù)、算力等都是關(guān)鍵性要素。

以參數(shù)規(guī)模為例，因?yàn)閰⑴c訓(xùn)練的數(shù)據(jù)量，直接影響預(yù)訓(xùn)練模型在下游任務(wù)中的效果，所以效果較好的大語(yǔ)言模型，參數(shù)規(guī)模基本超過(guò)千億級(jí)（100B）。

比如OpenAI的GPT 4參數(shù)規(guī)模約為180B，Google旗下LaMDA的參數(shù)規(guī)模約為137B，PaLM的規(guī)模約為540B，DeepMind旗下的Gogher參數(shù)規(guī)模為280B等。

而完成如此大的數(shù)據(jù)量訓(xùn)練，對(duì)算力和資金的需求極大，所以目前大語(yǔ)言模型底層技術(shù)的開(kāi)發(fā)多集中在巨頭企業(yè)之間，而大型LLM廠商單次的訓(xùn)練成本可能就高達(dá)百萬(wàn)甚至千萬(wàn)美元。

為了推動(dòng)行業(yè)發(fā)展和生態(tài)合作，很多基礎(chǔ)性大語(yǔ)言模型實(shí)行了開(kāi)源，加上LangChain等LLM集成工具的出現(xiàn)，依然為大眾開(kāi)發(fā)者在大語(yǔ)言模型底層之上進(jìn)行各類應(yīng)用的開(kāi)發(fā)創(chuàng)造了便利。

目前，利用通用大模型搭配行業(yè)小模型，并根據(jù)不同業(yè)務(wù)場(chǎng)景給到相應(yīng)的解決方案，是很多應(yīng)用層布局者的常見(jiàn)做法，由此也衍生出了多模態(tài)的大語(yǔ)言模型應(yīng)用。

大語(yǔ)言模型和自然語(yǔ)言處理有何區(qū)別？

作為人工智能技術(shù)的重要分支，自然語(yǔ)言處理（NLP）任務(wù)早年就火出了圈。

從表面看，大語(yǔ)言模型和自然語(yǔ)言處理都高度聚焦于“語(yǔ)言文本”的處理，都離不開(kāi)深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的支持，兩者甚至都涉及語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)義理解、機(jī)器翻譯等方面的應(yīng)用。

但大語(yǔ)言模型在這些領(lǐng)域的應(yīng)用更廣，而且在上下文理解、連續(xù)對(duì)話、邏輯推理等方面比單純的自然語(yǔ)言處理，顯得更智能、更有優(yōu)勢(shì)。

從應(yīng)用看，自然語(yǔ)言處理主要集中于“從文本到文本的輸入輸出”，基本是一問(wèn)一答式。

而大語(yǔ)言模型已經(jīng)能實(shí)現(xiàn)文字、圖片、音視頻等多模態(tài)數(shù)據(jù)的輸出，對(duì)話成文、文生圖、文生視頻等都能輕松實(shí)現(xiàn)，人機(jī)交互面積更大，通用性也更強(qiáng)。

就此來(lái)說(shuō)，自然語(yǔ)言處理很多還停留于簡(jiǎn)單理解語(yǔ)言含義后進(jìn)行“基礎(chǔ)對(duì)話”，而大語(yǔ)言模型已經(jīng)能在掌握語(yǔ)言規(guī)律的基礎(chǔ)上“自由對(duì)話”。

所以在談?wù)搩烧邥r(shí)，很多人都將大語(yǔ)言模型稱為自然語(yǔ)言處理的“奇點(diǎn)”或“拐點(diǎn)”。

什么是AIGC？和大語(yǔ)言模型有何關(guān)系？

AIGC翻譯自專業(yè)名詞：Artificial Intelligence Generated Content，簡(jiǎn)單來(lái)說(shuō)就是“利用人工智能技術(shù)來(lái)生產(chǎn)內(nèi)容”。目前，比較有代表性的AI生成內(nèi)容，就包括文本、圖像、音頻、視頻等。

從表面來(lái)看，AIGC其實(shí)可以算是大語(yǔ)言模型當(dāng)下最熱門(mén)的一大方向。而大語(yǔ)言模型的發(fā)展，正是AIGC各項(xiàng)應(yīng)用得以高速發(fā)展的基礎(chǔ)和關(guān)鍵。

從技術(shù)上看，AIGC的成功，主要得益于GAN、Transformer、Diffusion、CLIP、LLM等基礎(chǔ)生成算法模型的不斷發(fā)展，而它的成功也在極大地推進(jìn)著內(nèi)容生產(chǎn)的自動(dòng)化和智能化進(jìn)程。

備注：以上首發(fā)sipu-tech，僅做分享。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.