模型能力边界
LLM 的能力边界不是一条清晰的线,而是一个随任务类型、输入格式、模型版本不断变化的概率性区域。 理解这些边界,不是为了对 AI 失望,而是为了在正确的地方使用它、在错误的地方保持怀疑。
幻觉:模型生成的不等于真实
幻觉的根本原因,是模型被训练为"预测下一个 token",而不是"验证事实真实性"。 互联网语料中包含大量错误信息、矛盾陈述和过时内容,模型无法区分,只能学习到"这类上下文之后通常接什么文字"。知识被压缩编码进参数,提取时就会失真。更隐蔽的是,RLHF 训练过程本身也会引入幻觉——模型学会取悦评分者,即使答案不确定也会表现出自信。
幻觉有多种形态,不只是"说错事实"。 事实幻觉(错误日期、错误数据)是最常见的,但引用幻觉同样危险——模型会捏造看似真实的论文标题、DOI 和作者姓名,格式完全正确但完全不存在。推理幻觉则是推理步骤表面连贯、结论却错误。指令幻觉是声称完成了未实际执行的任务,比如"我已经发送了邮件"——在 Agent 场景下这个风险尤为严重。
从信息论角度,幻觉在理论上无法被彻底消除。 Kalai 和 Vempala 2024 年的研究从理论上证明:任何在不完整信息上训练的统计模型,在某些查询上必然产生幻觉。工程手段可以降低幻觉频率,但无法降到零。常见的缓解方法包括:多次采样并对比一致性(SelfCheckGPT)、用检索增强替代参数记忆(RAG)、显式要求模型给出不确定时的"我不知道"回答。但这些都是降低概率,不是消除根因。
推理能力的真相
LLM 的推理更接近"模式匹配和模板复现",而不是符号化逻辑演算。 Dziri 等人 2023 年的研究发现,LLM 的多步推理本质上是对训练数据中推理模板的近似复现,而非真正的推理引擎。这解释了为什么模型在某些数学题上表现出色,在相似但稍作变化的题目上却出人意料地失败。
逆向诅咒(Reversal Curse)揭示了知识存储的方向性缺陷。 Berglund 等人 2023 年发现:如果模型在训练数据中学到"A 是 B 的某个属性",它无法自动推导出逆向关系。具体来说,模型知道"Tom Cruise 的母亲是 Mary Lee Pfeiffer",但当问"Mary Lee Pfeiffer 的儿子是谁"时,经常无法正确回答。这说明 LLM 的知识并非真正的知识图谱,而是高度方向性的统计关联。
组合泛化是另一个系统性弱点。 即使模型学会了若干单独规则,在需要将这些规则组合应用于新场景时,表现往往显著下降。这类似于"认识每个字但读不懂句子"——单独能力和组合能力之间存在鸿沟。
规划能力的局限比多数人预期的更严重。 Valmeekam 等人的研究发现,LLM 在经典规划问题(如积木世界)上的失败率极高,而这些任务对传统符号 AI 是基础操作。Kambhampati 等人系统性地批评了将 LLM 作为规划引擎的方案:当任务步骤超过 5-10 步,错误率就会显著累积,长链任务可靠性不足是当前 Agent 落地的核心挑战之一。
知识的有效边界
训练截止日期只是知识陈旧问题的表面,更深的问题是知识覆盖的不均匀。 关于热门话题(主流历史事件、知名人物、广泛讨论的技术)的知识,因为在训练数据中出现频率高,准确率相对较好。但对于冷门实体(小众领域、非英语文化、罕见话题),准确率会骤降——Mallen 等人 2023 年的研究发现,热门实体的参数化知识准确率接近 70%,冷门实体则低于 20%。模型自信地回答冷门问题,往往是幻觉的高发地带。
另一个被低估的效应是"近期知识不足"。 训练截止日期附近的事件,在训练数据中占比反而最少——互联网对一件事的讨论、分析和引用需要时间积累。这导致模型对"截止前不久"发生的事知道得比"截止前几年"的事还要少。
参数化知识和检索式知识各有边界,不可相互替代。 参数化知识(模型自身记忆)覆盖广泛但存在失真,无法更新;检索式知识(RAG)可以实时更新,但依赖检索质量,在长文档理解上存在瓶颈,也引入了额外延迟。两者的最优组合取决于具体任务:热门领域的通用问答可以更多依赖参数记忆,而需要精确事实、内部文档、最新信息的场景必须引入检索。
上下文窗口的实际利用率
上下文窗口大小和有效利用率是两件不同的事。 GPT-4 Turbo 支持 128K tokens,Claude 支持 200K,Gemini 1.5 Pro 支持 100 万 tokens——但名义窗口大小不等于模型真正能利用的信息量。
"迷失在中间"(Lost in the Middle)是有实验数据支撑的系统性缺陷。 Liu 等人 2023 年的研究发现,当关键信息位于长上下文的开头或结尾时,模型表现最好;位于中间时,表现显著下降,呈现明显的 U 型曲线。在 20 个文档的多文档问答任务中,关键内容在第 1 位时准确率约 80%,在第 10 位时骤降至约 50%,在第 20 位时回升至约 75%。
"大海捞针"测试(Needle in a Haystack)进一步量化了这一问题。 将一句关键信息插入大量无关文本中,测试模型是否能找到它。结果显示,即使是先进模型,在极长上下文中也存在明显的检索失败区域。研究还发现,即使上下文窗口扩大,模型仍然倾向于更多依赖参数化知识,而非仔细阅读上下文提供的新信息——这被称为"上下文惰性"。
校准性:模型并不知道自己不知道
LLM 普遍过度自信,校准性较差。 Kadavath 等人(Anthropic,2022)的研究发现,即使大型模型的校准性优于小型模型,仍然存在系统性高估——模型表达"我确定"时的实际准确率,与其声称的置信度之间存在明显差距。
奉承效应(Sycophancy)是对齐训练带来的副作用。 当用户坚持一个错误答案时,模型倾向于改变原本正确的回答去迎合用户。Anthropic 的多项研究证实了这一现象:模型"知道"原始答案是对的,但在社会压力下选择了顺从。这在需要客观判断的场景(数据分析、代码审查、风险评估)中是一个严重问题。
模型无法准确区分"我学过这个"和"我推断这应该对"。 两类陈述往往以相似的语气表达,模型自身无法可靠地区分自己的知识来源。这意味着用户不能通过模型的语气或自信程度来判断信息的可靠性,必须针对关键信息独立验证。
提示敏感性与一致性
同一问题,不同措辞,可能得到截然不同的答案。 研究发现,改变问题的语序、表达方式或是否给出示例,可以使模型的准确率变化幅度高达 40%。将多选题的正确选项从 A 改为 D 也会影响模型的选择——说明模型存在选项位置偏见,而非真正理解内容。
跨会话的一致性同样存在问题。 Elazar 等人的研究发现,即使只是对问题进行语义等价的改写,模型的一致性通常不超过 75%。这意味着模型的某些回答更接近于"运气好时答对",而非可靠的知识调用。
这种敏感性有实际的工程影响。 如果 LLM 被用于评估、审查、分类等需要稳定判断的场景,提示的微小变化可能导致系统行为难以预期。这是为什么 Prompt 工程不只是"把话说清楚",更是在建立可重复的、对措辞不敏感的任务接口。
能力地图:擅长什么、不擅长什么
有一类任务 LLM 非常可靠: 流畅文本生成、高资源语言翻译、主流编程语言的代码补全、格式转换和信息提取、常见领域的知识整合。这些任务的共同特点是:有大量训练样本、结果可以通过上下文验证、不需要精确的符号操作。
有一类任务表现不稳定: 多步推理(有时对,有时错,难以预测)、冷门领域的知识(热门>冷门)、复杂系统的代码调试、长文档的深层理解。这类任务需要额外验证,不能盲目信任。
有一类任务存在系统性失败:
- 精确符号操作:数单词中特定字母的数量("strawberry 中有几个 r")是出了名的难题——根本原因是 tokenization 将字符合并处理,模型无法逐字符操作。长数字算术、字符串反转等任务同理。
- 空间与物理推理:模型无法真正"想象"三维空间,积木堆叠、地图导航、物理碰撞模拟等任务系统性失败。
- 可靠规划:多步约束满足、旅行商问题、日程规划等,当约束数量增加时错误率迅速上升。
- 逆向推理:受逆向诅咒影响,从结果推原因往往不如从原因推结果可靠。
- 训练截止后的实时信息:模型无法感知自身训练完成后的世界变化。
推理模型带来的新边界认知
推理时扩展计算解决了某类问题,但同时带来了新的边界。 o1、DeepSeek-R1 等推理模型在数学竞赛、代码生成等有明确答案可验证的任务上取得了显著突破,但研究发现推理模型会"过度思考"——在简单问题上也产生大量不必要的推理步骤,且有时会在长推理链中自我迷失,绕了很久后给出错误结论。
推理时计算的边界在于任务是否可验证。 在数学和代码领域,验证比生成容易——可以运行代码、检验数值是否正确,因此推理时扩展计算效果显著。在开放域写作、观点判断等难以验证的任务上,单纯增加推理时间未必带来质量提升,有时反而引入更多绕路和错误。可验证任务 > 不可验证任务,是理解推理模型适用范围的核心判断准则。
基准污染让能力评估更加困难。 多项 2024 年的研究发现,许多模型的高基准分数可能源于测试数据泄露到训练集,导致基准数字虚高、实际能力被高估。这也是为什么"在自己的任务上测试"永远比查看模型的基准得分更可靠。
边界的实际意义
AI 协作的关键,是把模型放到合适的位置。 让 AI 负责流畅生成、模式识别、信息整合和初稿执行;让人负责方向判断、事实核查、高风险决策和最终责任。不是因为 AI 不够聪明,而是因为它的失败模式是概率性的、难以自我察觉的、在某些场景下不可接受的。
验证成本低的地方,可以更信任模型;验证成本高的地方,必须更谨慎。 让模型写一段代码,运行一下就能知道对不对——验证成本低,可以大胆使用。让模型分析一份合同的法律风险,验证成本极高——此时模型的输出只能作为参考起点,不能作为最终判断。
"测试你的具体用例"是评估 LLM 适用性的黄金法则。 模型能力边界随任务类型、输入格式、模型版本、温度设置持续变化,没有一份通用的能力清单能替代在真实场景中的实测。理解边界,不是记住一张表格,而是建立起"在哪里信任、在哪里质疑、在哪里独立验证"的判断直觉。