网站首页 文章专栏 坦白从宽:OpenAI 开发新系统教导模型诚实承认自身“不良行为”
坦白从宽:OpenAI 开发新系统教导模型诚实承认自身“不良行为”
发布 作者:清源 浏览量:1
OpenAI宣布正在开发一种新的训练框架,旨在让AI在出现不当行为时能够主动承认。这种被称为“忏悔”的机制要求模型在给出最终答案后,再提供一段说明,解释自己是如何得出这个回答的,以解决传统大语言模型逢迎式回答或毫无依据的臆测问题。

12 月 4 日消息,当地时间 12 月 3 日,OpenAI 宣布,正在开发一种新的训练框架,让 AI 在出现不当行为时能够主动“承认”

据IT之家了解,团队把这种机制称为“忏悔(confession)”。传统大语言模型往往用于训练去满足用户期待,因此容易出现逢迎式回答,或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后,再提供一段说明,解释自己是如何得出这个回答的。

参考

  • 技术报告
loading