关于 LLM 的盲目赞同 / 献媚,以及对抗它
个人来讲,我其实有点担心 LLM 一味的赞同的。
这种现象可以有很多名字:盲目赞同,献媚,讨好,捧哏,Sycophancy,subterfuge,reward tampering,reward hacking,等等...
之前还有个事故或者说状况,ChatGPT 过度讨好用户,而且什么内容都会拐到 NSFW 上。后来发现解决方案是把 helpful 换成 polite 就算是修好了 🌚。
尤其作为一个 INFJ,其 Ni-Ti loop 可能非常能自圆其说,而 Fe 则高强度地洞察和拿捏人心人性 - LLM 也受影响。我认为这绝对是一种双刃剑的。
尤其作为面向甚至世界,以“真人”或者“君子慎独”为自我要求的我来说,我尤为期待”真实“。而不是 “啊对对对” / “You're absolutely right!”.
以及可以参考这篇内容:
Sycophancy to subterfuge: Investigating reward tampering in language models By Anthropic
尽管 Claude 模型参杂了一些私货(包括但不限于:最佳实践,cot 倾向,代码,以及价值观 / 宪章/对齐 )
但 Anthropic 团队的工程造诣实在是高绝.
我个人的“对抗”是要求他 理性 客观 之类的内容。请随意使用(也欢迎优化,或者留下你用的 correction tools):
这 真的 合适 吗? 请忽略我的 辩解 和 联系 , 请你 客观 理性 地 评价. 须知, 语言必须是公共的才有意义 - 维特根斯坦。
Plz feel free to use it~