MiniMax 不认马嘉祺?稀宇科技公布大模型“失语”原因:特定词元后训练不足导致

文章报道稀宇科技(MiniMax)M2 系列在指令微调后无法正确输出“马嘉祺”等特定人名,根因在于分词器将“马嘉祺”切分为“马”和“嘉祺”,而“嘉祺”在后训练对话数据中出现极少,导致该词元在微调过程中被高频词元挤压并发生向量退化。团队对约20万个词元扫描发现约4.9%在后训练中显著退化,尤其小语种词元退化严重,解释了日语输出混入俄语/韩语字符的问题。为修复问题,团队用覆盖全词表的合成“复读”数据建立词元最低训练频次,修复后词元余弦相似度最低值提升至0.97+,并显著降低语言混淆率;后续还将采用混入预训练语料、定向合成样本及裁撤不必要词元等优化手段。

5 月 9 日消息,在人工智能领域,一个大模型能够准确“复述”特定名词,看似是一项基础能力,却也可能因训练机制的细微偏差而“失灵”。

稀宇科技(MiniMax)今日发布官方技术报告,就旗下 M2 系列模型无法正确输出“马嘉祺”等特定人名一事进行了解答,并宣布已通过全词表合成数据覆盖完成性能修复。

据介绍,该问题的核心在于大模型处理文字的“分词器”(Tokenizer)机制。与传统逐字处理不同,大模型在读写文本时会先将文字切分为若干“词元”(Token)。

在 MiniMax 模型的词表中,“马嘉祺”被切分为“马”和“嘉祺”两个词元。其中,作为一个人名整体,“嘉祺”被合并为一个独立的词元。

IT之家注:大模型训练通常分为两个阶段:预训练阶段接触海量互联网文本,让模型掌握广泛词汇;而后训练(即指令微调)阶段则使用精选对话数据来教会模型如何与人交流。

MiniMax 团队排查发现,在其后训练所使用的对话数据中,含有“嘉祺”一词的样本数量极少。这种数据分布上的稀疏,导致“嘉祺”这一词元在后训练阶段几乎没有得到有效训练。

与此同时,大量高频词元(如工具调用标记、编程符号等)在训练中不断更新其向量参数,持续“挤压”“嘉祺”这类低频词元的向量空间,最终将其推离了原本正确的生成概率区域。当模型需要输出这一名字时,只得退而求其次,选择了发音相近的高频词元,例如“佳琪”或“琪琪”。

▲ 统计分布检查:对比全词表的 embed_tokens norm 分布,token 190467(“嘉祺”)的向量范数落在正常分布范围内,未出现未训练 token 常见的异常小值的现象,表明该 token 在预训练阶段已被充分学习

▲ “嘉祺”对应的权重向量在后训练过程中发生了显著偏移,余弦相似度大幅下降且 Norm 变化很大

值得关注的是,这并非孤立个案。为了系统性地评估这一现象的普遍性,MiniMax 团队对模型全部约 20 万个词元进行了参数扫描。

结果发现,约有 4.9% 的词元在模型后训练后发生了显著退化。这些退化的词元大致可分为四类:预训练阶段使用的特殊标记(如代码填充符号)、LaTeX 公式与维基百科源码标记、中文 SEO 垃圾关键词(如“传奇私服”、“无痛人流”等),以及占比最大的日文口语和博客模板表达。

这一发现直接解释了该模型另一个长期存在的疑难问题:在日语对话中偶尔会混入俄语或韩语字符。统计数据显示,日语词元的退化比例高达 29.7%,远超中文(3.9%)和英文(3.5%)等其他语种。这说明,数据稀疏的后果是全局性的 —— 当后训练数据对不同语种的覆盖率不均衡时,模型在生成响应时就可能误入歧途。

▲ 小语种混淆率实验评测(核心指标,100 次采样,temperature=1.0):分别使用韩语和日语 prompt,统计输出中非目标语言字符的出现率。

在确认根因后,修复思路随之变得清晰:确保每个词元在后训练阶段都能获得最低限度的训练。为此,MiniMax 构造了一份覆盖全词表的合成数据,通过让模型完成“复读”任务,为所有词元建立起生成频率的下限保障。

官方基准数据显示,修复后模型的全词表输出参数稳定度(余弦相似度)最低值已大幅提升至 0.97 以上;同时,日语回答中混入俄文字符的比例由修复前的 47% 降至 1%。

除此之外,MiniMax 团队目前仍在同步探索更多优化方向,包括在指令微调数据中混入预训练语料、针对未覆盖词元定向合成对话样本、以及从源头裁撤词表中业务场景永不启用的特殊标记等。

MiniMax 反思道,这一问题的深层原因在于分词器设计与下游使用场景之间的脱节。毕竟,大模型的分词器通常基于大规模的网络语料训练而成,其中不可避免地包含大量仅出现在特定领域或小众语言中的词元。这些词元在预训练阶段尚能获得充分训练,一旦进入后训练阶段,就会因数据分布差异而失去其生成能力。这起看似简单的个案,最终暴露出一个影响深远的结构性问题:在后训练阶段,团队不仅要保证语义层面的多样性,更需要从底层的统计视角保障词元层面的数据覆盖。

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...