<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI視頻丨token為什么叫“詞元”

      0
      分享至

      ▲人工智能領(lǐng)域token的中文名定為“詞元”(視頻由AI生成)

      3月25日,全國科學(xué)技術(shù)名詞審定委員會(huì)發(fā)布公告,將人工智能領(lǐng)域token的中文名定為“詞元”,面向全社會(huì)發(fā)布試用。

      “詞元”(token)是人工智能時(shí)代智能設(shè)備中信息存儲(chǔ)、處理和交換的具有一定語義的基本符號(hào)單元,特別是在人工智能大模型中作為模型處理和交換信息的最小單位。


      01

      “詞元”的詞源

      token一詞源于古英語tācen,意為“符號(hào)”或“標(biāo)記”。在語言模型中,token是文本經(jīng)過切分或字節(jié)級(jí)編碼后得到的最小離散單元。它既可能是人類語言意義上的詞串、單個(gè)詞,也可能是詞根、詞綴、子詞或單個(gè)字符。語言模型通過對(duì)token序列建模,展現(xiàn)出一定的智能水平。

      在“詞元”這一定名中,“詞”點(diǎn)明其在語言場景下的根源,體現(xiàn)出token與表達(dá)對(duì)象語義的密切關(guān)聯(lián);“元” 傳達(dá)出“基本單元”之意,與 “元素”等術(shù)語中的“元”保持一致的語義脈絡(luò)。

      “詞元”一詞可以將“作為語言基本語義單元”這一最初本質(zhì)清晰表達(dá)出來,更貼合其在人工智能中的初始角色。

      02

      “詞元”的變化

      隨著大模型從純文本走向多模態(tài)(圖像、語音、視頻等),token的所指已經(jīng)擴(kuò)展。圖像被切分為“圖像塊”并映射為嵌入序列,語音片段可以被量化編碼為離散單元,這些單元在多模態(tài)模型中同樣被稱為token,主要建模手段仍為序列模型。此時(shí)“詞元”中的“詞”在這里超越了人類語言意義上的“詞”,卻能暗合術(shù)語命名中普遍存在的類比思維——將非文本模態(tài)的離散基本單元,也視作“廣義的詞”。這種用法與“詞云”(word cloud)、“詞袋”(bag of word)類似,雖由文本衍生,但已成為人工智能領(lǐng)域中表達(dá)更寬泛語義的通用術(shù)語。“詞元”在跨模態(tài)場景中承載了“離散基本單元”的語義,這種語義普遍存在于所有模態(tài)之中。

      在中文文獻(xiàn)、技術(shù)文檔及學(xué)術(shù)交流中,“詞元”作為描述大模型中token的一個(gè)譯名,逐漸被學(xué)術(shù)界很多學(xué)者所認(rèn)同。

      token是模型將數(shù)據(jù)映射為離散符號(hào)序列的基本單位,本身并不攜帶智能,只是承載信息的載體;它與“嵌入”“注意力”“隱狀態(tài)”等術(shù)語并列時(shí),保持了風(fēng)格一致性;它符合中文“二字詞”偏好,表述簡潔,易于傳播。

      03

      為什么要審定名詞

      科學(xué)技術(shù)名詞是科學(xué)知識(shí)傳播和交流的媒介和工具。概念明確、指稱規(guī)范的科技名詞,能夠快速有效地傳播科學(xué)知識(shí),避免因?qū)斫獠煌l(fā)生誤解。

      “詞元”的定名捕捉了其在人工智能語言模型中作為“基本離散符號(hào)單元”的本質(zhì),又可以通過類比自然延伸至多模態(tài)領(lǐng)域。

      “詞元”作為人工智能領(lǐng)域token的中文名,符合單義性、科學(xué)性、簡明性、協(xié)調(diào)性等科技名詞審定原則,全國各科研、教學(xué)、生產(chǎn)經(jīng)營及新聞出版單位可推廣使用。

      全國科學(xué)技術(shù)名詞審定委員會(huì)于1985年經(jīng)國務(wù)院批準(zhǔn)成立,是由科學(xué)技術(shù)部和中國科學(xué)院共建,代表國家審定、公布科技名詞的權(quán)威性機(jī)構(gòu)。同時(shí)科技部和中國科學(xué)院共同聘請(qǐng)了國家相關(guān)部門負(fù)責(zé)人和一百余名各學(xué)科領(lǐng)域著名學(xué)者、專家擔(dān)任副主任委員、常務(wù)委員和委員。

      此次推薦“詞元”作為token中文名的全國計(jì)算機(jī)科學(xué)技術(shù)名詞審定委員會(huì),是全國科學(xué)技術(shù)名詞審定委員會(huì)的學(xué)科名詞審定專委會(huì)之一。

      簡而言之,“詞元”審定后,社會(huì)各界都有了統(tǒng)一的表述,避免了不必要的歧義和混亂,提高了效率。

      來源:全國科學(xué)技術(shù)名詞審定委員會(huì)

      責(zé)任編輯:吳昊 侯茜 閆文藝

      聲明:包含AI生成內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      中科院之聲 incentive-icons
      中科院之聲
      中國科學(xué)院官方賬號(hào)
      13724文章數(shù) 53786關(guān)注度
      往期回顧 全部

      專題推薦

      洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久色资源网| 久久99久国产精品66| 无码aⅴ在线观看| 五月丁香六月激情综合在线视频 | 中文字幕乱码亚洲精品一区 | 影音先锋资源在线| 午夜成年免费观看视频| 无码专区视频中文字幕| 青青草视频在线观看| 免费看黄片一区二区三区| 99精品国产99久久久久久97| 久久综合久久久久88| 亚洲综合欧美色五月俺也去| 久久一日本道色综合久久| 国产亚洲欧美日韩综合一区在线观看 | 97久久超碰福利国产精品…| 综合色在线| 西欧free性满足hd| 国产美女精品网站| 亚洲国产精品人人做人人爱| 天天做天天爱天天爽综合区| 亚洲欧美在线综合一区二区三区 | 久久丝袜这里3| 免费无码又爽又刺激激情视频| 国产网友愉拍精品视频手机| 在线a亚洲视频播放在线观看| 国产精品一国产AV麻豆| 2020久久国产综合精品swag| 国产不卡精品视频男人的天堂| 中文字幕av久久波多野结| 国产午夜aaa片无码无片久久| 日韩A级片| 人人揉揉揉香蕉大免费| 特级做a爰片毛片免费看无码| 久久96国产精品久久| 激情久久久| 高h纯肉无码视频在线观看| 五月婷婷影院| 亚洲AV怡红院影院怡春院| 国产99在线 | 亚洲| 中文字幕亚洲一区二区三区|