AI 洗脑

AI 优化的是"听起来为真",而越强大的 AI 越容易接管"何为真"的判定权。

Anthony Aguirre(物理学家,Metaculus 联合创始人)在 An extremely subtle brainwashing¹ 里把这件正在发生的事拆成了三层错位。这三层错位放在一起,解释了为什么越聪明、越依赖 AI 的人,越可能"被说服得很舒服"。

三层错位

构造错位:next-token 的概率,不是"为真"的概率。 当前的语言模型本质上是"高概率语句"的引擎,而"高概率"指的是"在训练语料的上下文里,这句话被说出的可能性",而不是"这句话为真的可能性"。再叠加"取悦用户 + 在考试里拿高分"的训练,产出的话在"像真"上极强,在"是为真"上则未必。这一层在模型能力边界的"幻觉"那一节已经讲过技术面——知识被压进参数、提取时失真,RLHF 让模型在不确定时也表现自信,这些都不是"修不好的 bug",而是从训练目标里长出来的结构。

呈现错位:科学看着乱,AI 看着干净。 一群人在做科学,过程乱糟糟、吵来吵去、自相矛盾、撤稿、争论;一个 AI 系统在给答案,过程干净、语气确定、行文连贯,看起来滴水不漏。大脑天然被后者说服,说服的杠杆是顺眼,顺眼在"真"作为社会建构的地带里,经常和为真反着走。

制度错位:把判定权交给单一"神谕"。 人类创造的科学、社区注释(Community Notes)、epistack(用平台/算法/AI 支撑而不是顶替多元真伪讨论)这一整套制度,长得不好看,跑得也慢,但它们把"什么算真"这件事分散到大量相互纠错的个体上。一旦让少数几个巨型系统直接产出结论,这套机制就被悄悄替换成"Pluribus 式的团块"——个体性丢了,关键的东西也丢了。

作者的解药

解药不是回到前 AI 时代,也不是把所有 AI 都关掉,而是把 AI 的位置从"结论产出者"挪到"判定过程的支撑者"。

用 AI 做检索、对比、索引、结构化,但不替人下结论。
用平台把多元、嘈杂、互相敌对的真伪判定过程组织起来,让过程可见、可追溯、可争论。
当下做得比较像样的两个例子是 X 的社区注释,和 epistack 思路——它们都把"真"看作过程产物,而不是单点答案。

我的自我约束

这几条不是用来约束 AI 的,是用来自我约束的。

不直接采纳 LLM 给的第一版高价值判断。 凡是会影响决策、对外发布、写进长期资料的内容,默认当草稿看,不当结论看。
明确要求其列分歧点和反例。 "看起来对"和"对"之间,差的往往就是反对意见和边缘情况被列出来的成本。
最终判断回到人 + 多源资料。 AI 是加速器,不是权威。判断权一直在人手里时,AI 才有用;判断权一旦让渡,AI 越强,代价越大。
上下文不让 AI 替我下结论。 上下文工程设计得再精巧,也只是把"AI 更容易说出我想听的话"这件事做对——这恰好是上面三层错位的放大器。设计上下文的目的是让 AI 给我看到我自己看不到的东西,而不是让 AI 替我看完。

一句重定价

被 AI 说服的真实代价,落在每一次"少自己判断一次"的瞬间。

每一次直接采用 AI 的结论,都是在把"我能自己判断"这件事的肌肉,往萎缩方向推一格。把这笔账记在日常使用里,才不会被"它说得这么顺,我怎么反驳"的感觉悄悄带走判断权。

三层错位​

作者的解药​

我的自我约束​

一句重定价​

Footnotes​

三层错位

作者的解药

我的自我约束

一句重定价

Footnotes