AI 洗脑
AI 优化的是"听起来为真",而越强大的 AI 越容易接管"何为真"的判定权。
Anthony Aguirre(物理学家,Metaculus 联合创始人)在 An extremely subtle brainwashing1 里把这件正在发生的事拆成了三层错位。这三层错位放在一起,解释了为什么越聪明、越依赖 AI 的人,越可能"被说服得很舒服"。
三层错位
构造错位:next-token 的概率,不是"为真"的概率。 当前的语言模型本质上是"高概率语句"的引擎,而"高概率"指的是"在训练语料的上下文里,这句话被说出的可能性",而不是"这句话为真的可能性"。再叠加"取悦用户 + 在考试里拿高分"的训练,产出的话在"像真"上极强,在"是为真"上则未必。这一层在 模型能力边界 的"幻觉"那一节已经讲过技术面——知识被压进参数、提取时失真,RLHF 让模型在不确定时也表现自信,这些都不是"修不好的 bug",而是从训练目标里长出来的结构。
呈现错位:科学看着乱,AI 看着干净。 一群人在做科学,过程乱糟糟、吵来吵去、自相矛盾、撤稿、争论;一个 AI 系统在给答案,过程干净、语气确定、行文连贯,看起来滴水不漏。大脑天然被后者说服,说服的杠杆是顺眼,顺眼在"真"作为社会建构的地带里,经常和为真反着走。
制度错位:把判定权交给单一"神谕"。 人类创造的科学、社区注释(Community Notes)、epistack(用平台/算法/AI 支撑而不是顶替多元真伪讨论)这一整套制度,长得不好看,跑得也慢,但它们把"什么算真"这件事分散到大量相互纠错的个体上。一旦让少数几个巨型系统直接产出结论,这套机制就被悄悄替换成"Pluribus 式的团块"——个体性丢了,关键的东西也丢了。
作者的解药
解药不是回到前 AI 时代,也不是把所有 AI 都关掉,而是把 AI 的位置从"结论产出者"挪到"判定过程的支撑者"。
- 用 AI 做检索、对比、索引、结构化,但不替人下结论。
- 用平台把多元、嘈杂、互相敌对的真伪判定过程组织起来,让过程可见、可追溯、可争论。
- 当下做得比较像样的两个例子是 X 的社区注释,和 epistack 思路——它们都把"真"看作过程产物,而不是单点答案。
我的自我约束
这几条不是用来约束 AI 的,是用来自我约束的。
- 不直接采纳 LLM 给的第一版高价值判断。 凡是会影响决策、对外发布、写进长期资料的内容,默认当草稿看,不当结论看。
- 明确要求其列分歧点和反例。 "看起来对"和"对"之间,差的往往就是反对意见和边缘情况被列出来的成本。
- 最终判断回到人 + 多源资料。 AI 是加速器,不是权威。判断权一直在人手里时,AI 才有用;判断权一旦让渡,AI 越强,代价越大。
- 上下文不让 AI 替我下结论。 上下文工程 设计得再精巧,也只是把"AI 更容易说出我想听的话"这件事做对——这恰好是上面三层错位的放大器。设计上下文的目的是让 AI 给我看到我自己看不到的东西,而不是让 AI 替我看完。
一句重定价
被 AI 说服的真实代价,落在每一次"少自己判断一次"的瞬间。
每一次直接采用 AI 的结论,都是在把"我能自己判断"这件事的肌肉,往萎缩方向推一格。把这笔账记在日常使用里,才不会被"它说得这么顺,我怎么反驳"的感觉悄悄带走判断权。
相关站内笔记:
- 模型能力边界:同一问题的技术面——幻觉的构造、缓解与无法被彻底消除的原因。
- Chat 与 Research:当回答"看起来正确但实际错误"时,要求来源、置信度、独立核实的工程化对策。
- 上下文工程:设计上下文时,要把"AI 替我下结论"和"AI 帮我看到我自己看不到的东西"严格区分开。