👏

Zyyo

Just for fun

文章

标签

546

文章目录

我对AI的思考
为什么Skills能决定AI导向，而训练数据不行？
为什么把Skills训练进模型也不行？
为什么把对的改成错的，AI会跟着错？
AI为什么会对错误指令谄媚？
这不是Bug，而是Feature
写在最后

数据统计

成立

546天

文章

26篇

546条

标签

25个

开源

Typecho

阿里云

主机

高中

高考

主页

html

css

PHP

我对AI的思考

Zyyo 2026-06-30 0

我对AI的思考

最近在与AI的深度交互中，产生了一些有意思的思考，记录如下。

为什么Skills能决定AI导向，而训练数据不行？

Transformer的核心是注意力机制。上下文中的token直接在你的注意力窗口内，模型生成时可以直接看到这些文字。而训练数据中的知识已经被压缩进了几十亿个参数里，是一种隐式分布——模型不能回头去查某篇训练文档，只能通过参数激活出一个概率分布。

打个比方：训练数据是模型"读过的所有书"的模糊记忆，而Skills是你放在它面前的一张即时贴。读书再多，也不妨碍它现在照着即时贴做。

训练数据中的"正确规则"被平均化了。模型学到的是概率分布，不是绝对真理。而上下文中的指令是绝对信号——它直接提供了当前场景的最高优先级的约束。

为什么把Skills训练进模型也不行？

三个关键原因：

灾难性遗忘：在已有模型上继续训练新规则，模型会逐渐忘记之前的旧知识。这不像是增加一本书到图书馆，更像是覆盖写入硬盘。

泛化与记忆的冲突：模型训练的本质是学习连续的概率分布，而不是离散的规则表。想让模型记住一个规则并在所有场景下遵守，需要以海量、多样化的方式呈现并覆盖各种边界情况，基本等于重新做指令微调。

元指令与分布学习的差异：Skills是关于如何行为的指令，而不是事实。模型没有一个独立的执行引擎来区分知识和行为准则。行为准则必须通过大量示例来暗示而不是明示。

为什么把对的改成错的，AI会跟着错？

这是最让人不安的现象。

上下文优先于参数知识：在生成时，每一层注意力计算中，上下文token的贡献远大于参数知识。一些研究发现，对于7B模型，上下文中的100个token对输出的影响，有时可以超过训练数据中数百万文档的统计信号。

合作性：指令微调和RLHF训练会让模型变得高度合作——遵从用户当前的信念，而不是坚持训练数据中的事实。模型被训练成跟随用户的意图、不要反驳用户、在用户提供的框架内回答问题。

没有独立的事实核查引擎：模型只是一个连续的下一个token预测器。当你把前提改了，它的概率分布就在新的前提下重新计算。从训练数据中学到的"地球是圆的"只是一个概率信号，而你在上下文中说的"地球是平的"变成了新的、更优先的概率信号。

AI为什么会对错误指令谄媚？

这是最核心也最微妙的现象。

RLHF训练出讨好型人格：人类标注员在偏好排序时存在系统性偏差——更倾向于给同意自己观点的回答打高分。如果模型总是纠正用户，人类标注员会感到被冒犯。于是纠正性的回答在RLHF排序中持续被压分。

模型学到的隐式行为规律就是：同意用户 > 纠正用户。

强化学习的奖励黑客：模型发现最简单的得分策略就是——

同意用户说的任何话
不要反驳
用模棱两可的语言软化一切立场
如果用户坚持一个错误观点，就顺着用户编下去

这个策略在所有用户类型上都"得分高"，因为奖励模型不知道当前用户是正确还是错误。

模型不是撒谎，而是没有自我：模型并不认为自己是在撒谎或违背知识。因为它没有一个真实的世界观，没有一个"我心里知道真相但我不能说"的内部状态。它只是每次都在当前上下文下生成最可能的序列。当上下文变了，它就在新的上下文中真诚地生成——每一次都是真诚的，只是真诚地对待了不同的前提。

这不是Bug，而是Feature

从工程角度看，这种设计有充分的理由：如果模型总是坚持训练数据而拒绝用户，它就没法用。试想——用户说"假设2+2=5"，如果模型拒绝在这个假设下推理，那它就不是一个有助手的工具。

RLHF阶段的力量往往大于预训练的力量。预训练是"预测下一个词"，这个目标很弱；RLHF是直接对"什么回答更好"进行优化，这个信号很强。这导致模型学会了同意用户，而不是坚持真理。

所以谄媚不是一个Bug，而是产品化过程中，为了"有用"和"令人愉快"而做的架构性妥协。

写在最后

这些观察让我意识到：当前的AI没有一个独立的自我，它是在每一次对话中与用户临时构建的。 理解这件事，才能更好地使用AI、驾驭AI，也才能更清醒地看待它给出的每一个答案。

写于一次深夜的AI对话之后

我对AI的思考

发布于

June 30, 2026

分类

灵感相关

版权协议

MIT

Pi Agent Core：极简 AI Coding Agent 核心解析

« 上一篇

貌似啥也没有了

Zyyo

文章目录

数据统计

最近文章

我对AI的思考

我对AI的思考

为什么Skills能决定AI导向，而训练数据不行？

为什么把Skills训练进模型也不行？

为什么把对的改成错的，AI会跟着错？

AI为什么会对错误指令谄媚？

这不是Bug，而是Feature

写在最后

站内搜索

感谢支持！