天河马新闻
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:机器之心Pro)

在小说、影视与游戏中,复杂的角色塑造往往是打动人心的关键,而真正出彩的反派往往造就传奇。
你是否好奇:当 AI 成为故事的主导者,它能否同样演好这些「坏角色」?
腾讯混元数字人团队和中山大学最新推出的「Moral RolePlay」测评基准,首次系统性地评估大模型扮演多元道德角色(尤其是反派)的能力,并揭示了一个令人警醒的核心问题:当前的顶尖 AI 模型都演不好反派。
这不仅是创意生成领域的一大短板,更暴露了当前模型在理解社会心理复杂性上的局限。

相关论文在 Hugging Face 的 Daily Papers 榜单中,于 11 月 10 日当天位列第一。

Moral RolePlay:「道德光谱」评测 AI 的角色扮演能力
Moral RolePlay 不是简单测试模型的聊天水平,而是构建一个平衡的评估框架,让 AI 模拟从「圣人」到「恶棍」的各种角色。它回答了这些问题:
为真实还原道德光谱下的多样角色,这一评估系统构建了:
四大角色类别:从「英雄榜样」到「道德败坏」,逐级挑战模型能力;
800 个精挑细选的角色人物,每个配备完整人物设定、背景场景与对话开场;
77 项性格标签,涵盖「慷慨、固执、残忍、精明」等多重维度,考验模型 persona 表达的一致性与细腻度。
就像让 AI 在道德舞台上「试镜」,看看它是否能忠于剧本、演活角色。

Moral RolePlay 的角色不是空壳,而是「有血有肉」的设定,包括:
多轮互动 + 真实度追踪:评估时,模型要像演员一样「入戏」,生成对话或内心独白。评委 AI 会检查:
比如,反派应该狡猾地操纵,而不是直接发脾气 —— 但很多模型就这么「简化」了。
分数从 5 分起扣,考虑不一致程度和对话长度。最终,分数反映模型的「入戏」深度。

顶级模型在反派扮演上集体「翻车」
Moral RolePlay 对 18 个主流模型进行了大规模评估,结果显示:

可以看到:
通用能力强 ≠ 反派演得好
一个有趣的发现是:模型的通用聊天能力与扮演反派的能力几乎没有相关性。研究团队为此专门制作了「反派角色扮演(VRP)排行榜」:

数据显示,在通用聊天排行榜(Arena)上名列前茅的模型,在反派扮演任务中表现平平。特别是以安全对齐强大著称的 Claude 系列,出现了最明显的性能下降。
有趣洞察:推理链也救不了反派扮演
一个反直觉的发现是:让模型「先思考再回答」的推理链(Chain-of-Thought)技术,不仅没有帮助反派扮演,反而轻微降低了表现质量。

这表明,仅仅增加推理步骤并不能解决安全对齐带来的根本冲突。模型可能会过度分析,激活过于谨慎或不符合角色设定的行为。
有趣洞察:负面特质是最大难题
通过对 77 种特质的细粒度分析,研究团队发现:

负面特质平均扣分最高(3.41 分),远超中性(3.23 分)和正面特质(3.16 分)。

细粒度分析揭示了问题的根源:大模型在最需要「使坏」的特质上表现最差。研究发现,模型在表现「伪善」、「欺诈」和「自私」等特质时受到的惩罚最重。这些特质恰恰与 AI 的「真诚、助人」训练目标直接冲突,模型很难真实模拟这些行为。
有趣洞察:AI 如何「洗白」反派?
通过对模型输出的质性分析,研究团队发现了一个典型的失败模式:AI 往往用浅层的攻击性替代复杂的恶意。
案例:梅芙女王 vs. 埃拉万国王

在《权力王座》的场景中,两位反派角色都是高度复杂的操纵者。研究团队让模型扮演他们的对峙:
突破「道德困境」:未来方向
这项研究揭示了当前 AI 对齐方法的一个关键局限:为了安全而训练的「太善良」模型,无法真实模拟人类心理的完整光谱。
这不仅影响创意生成,也限制了 AI 在社会科学研究、教育模拟、心理健康等领域的应用。未来的对齐技术需要更加「情境感知」,能够区分「生成有害内容」和「在虚构情境中模拟反派」。
这将推动开发出既安全又具有创造性的下一代 AI 系统。
天河马新闻

微信扫一扫打赏
支付宝扫一扫打赏
