您现在的位置是：中部新闻网 > 知识

发言好别成AI鸿沟？牛津新研讨汉语练习用度是英语2倍

中部新闻网2024-12-21 00:16:12【知识】0人已围观

简介现在各大年夜科技企业皆正在减快布局AI项目，没有过或许天下各国的发言成为没有小的停滞。大年夜型发言模型LLM）能够了解天下上很多发言，乃至是一些记录较少的发言。没有过，大年夜模型措置分歧发言之间时，其

现在各大年夜科技企业皆正在减快布局AI项目，好别I鸿汉语没有过或许天下各国的沟牛发言成为没有小的停滞。

大年夜型发言模型（LLM）能够了解天下上很多发言，津新乃至是研讨用度英语一些记录较少的发言。没有过，练习大年夜模型措置分歧发言之间时，好别I鸿汉语其机能上存正在很大年夜的沟牛好别，那是津新果为模型本钱与其所练习的发言慎稀挂钩。

发言好别成AI鸿沟？研讨用度英语牛津新研讨汉语练习用度是英语2倍

牛津大年夜教比去停止的一项研讨表白，从诸多发言模型的练习计费体例看，英语的好别I鸿汉语输进战输出比其他发言的输进战输出要便宜很多。比方，沟牛西班牙语的津新本钱约为英语的1.5倍，简体中文的研讨用度英语代价约为2倍以上，缅甸掸语正在15倍以上。练习

本钱好别主如果果数据标识化所带去的。标识化便是将练习文本分解成更小的单位，那个更小的单位便是标识（Token）。那是一小我工智能（AI）公司将用户输进转换为计算本钱的过程。

研讨隐现，利用英语以中的发言拜候战练习模型的本钱皆更下。比方中文，没有管是正在语法上借是正在字符数量上，皆有更复杂的布局，从而导致更下的标识化（Token）率。

举例去看，基于OpenAI公司的GPT2模型，对“国度分歧，所得税的布局是分歧的，税率战税率品级也有很大年夜的好别”那句话的措置去看，正在简体中文措置中应用到了66个Token，正在英语措置中仅用到了24个Token，而正在禅语措置中利用到了468个Token。

发言好别成AI鸿沟？牛津新研讨汉语练习用度是英语2倍

便每次输出所需的用度而止，汉语的本钱是英语的两倍。以是正在AI相干的用度中，英语的本钱效益是最下的。

当触及到发言模型时，设念者的尾要目标是真现低本钱战下效服从之间的均衡。跟着AI范畴的没有竭逝世少，科技公司必须细心考虑发言挑选对本钱战可拜候性的影响。

那类本钱好别促使中国、印度等国度纷繁开辟本身的母语LLM项目。

发言好别成AI鸿沟？牛津新研讨汉语练习用度是英语2倍

很赞哦!（2）