在人工智能领域,Token(中文定名为“词元”)是模型处理信息的最小基础单元。它不仅仅是字数统计,而是文本经过切分或字节级编码后得到的最小离散单元,可以是单个汉字、词语、标点或子词片段。作为智能时代可计量、可定价、可交易的特征单位,词元是大模型理解语言、图像等多模态数据的基本符号单元,直接关系到计算资源消耗、成本核算及服务定价,是连接技术供给与商业需求的关键结算单位。
中国社会科学网:人工智能领域"token"正式定名“词元”
中国社会科学网讯 (记者 孙美娟) 近日,人工智能领域名词"token"的使用频率激增,译名不统一问题引发社会关切。3 月 25 日,全国科学技术名词审定委员会正式发布公告,优先推荐“词元”作为人工智能领域"token"的标准中文名。据了解,“词元”(token) 是人工智能时代智能设备中信息存储、处理和交换的具有一定语义的基本符号单元,特别是在大模型中作为模型处理和交换信息的最小单位。“词元”的定名捕捉了其在人工智能语言模型中作为“基本离散符号单元”的本质,又可以通过类比自然延伸至多模态领域。
词元
词元是一个计算机行业多领域通用术语,在不同技术场景中具有不同含义和中文译名。在身份验证和授权、语言模型、区块链以及计算机科学等领域中,词元都扮演着重要的角色。在信息技术中,它作为随机字符串或加密数据块用于身份验证、安全访问控制,代表用户、设备或会话的授权信息。。在加密货币领域,指的是基于某个区块链平台发行的代币。在语言模型中,token 是文本经过切分或字节级编码后得到的最小离散单元,词元是大模型处理信息的最小基础单元,单个汉字、词语、标点均可视为一个词元。。2026 年,国家数据局明确将 AI 领域的 Token 定名为“词元”。
王坚院士:话说 Token“词元”
Token 是区分数据和信息的分水岭 我们讲信息讲了很久了,后来就开始讲数据。可是在很长时间里面,我们事实上是没有把信息和数据很好的把它区分出来。无论是过去讲的比特也好,字节也好,其实它都是过去信息的一个非常好的度量。在很长时间我们也有同样的度量来计算数据的这一次数据本身的度量有了一个非常明确的一个说法,叫词元。这是把数据和信息区分出来一个非常重要的分水岭。一般情况下我们用两个字节去表达一个汉字。所以大家可以设想一下,我们过去在信息领域怎么表达我喜欢你,其实就是每一个字用两个字节加起来四个字就是八个字节。这就是我们讲的,在字节时代就是这么看的。
FAQ
为什么 Token 被定名为“词元”?
在“词元”这一定名中,“词”点明其在语言场景下的根源,体现出"token"与表达对象语义的密切关联;“元”传达出“基本单元”之意,与“元素”等术语中的“元”保持一致的语义脉络。“词元”一词可以将“作为语言基本语义单元”这一最初本质清晰表达出来,更贴合其在人工智能中的初始角色。
词元经济是如何形成的?
所谓“词元经济”,是指在生成式人工智能运行和应用过程中,以词元为基础计量单位,围绕模型调用、信息处理、成本核算、服务定价和价值转化所形成的一种资源配置方式。2024 年初我国日均词元调用量为 1000 亿,至 2026 年 3 月已超过 140 万亿,两年增长超千倍。