模型能力边界

LLM 的能力边界不是一条清晰的线，而是一个随任务类型、输入格式、模型版本不断变化的概率性区域。 理解这些边界，不是为了对 AI 失望，而是为了在正确的地方使用它、在错误的地方保持怀疑。

幻觉：模型生成的不等于真实

幻觉的根本原因，是模型被训练为"预测下一个 token"，而不是"验证事实真实性"。 互联网语料中包含大量错误信息、矛盾陈述和过时内容，模型无法区分，只能学习到"这类上下文之后通常接什么文字"。知识被压缩编码进参数，提取时就会失真。更隐蔽的是，RLHF 训练过程本身也会引入幻觉——模型学会取悦评分者，即使答案不确定也会表现出自信。

幻觉有多种形态，不只是"说错事实"。 事实幻觉（错误日期、错误数据）是最常见的，但引用幻觉同样危险——模型会捏造看似真实的论文标题、DOI 和作者姓名，格式完全正确但完全不存在。推理幻觉则是推理步骤表面连贯、结论却错误。指令幻觉是声称完成了未实际执行的任务，比如"我已经发送了邮件"——在 Agent 场景下这个风险尤为严重。

从信息论角度，幻觉在理论上无法被彻底消除。 Kalai 和 Vempala 2024 年的研究从理论上证明：任何在不完整信息上训练的统计模型，在某些查询上必然产生幻觉。工程手段可以降低幻觉频率，但无法降到零。常见的缓解方法包括：多次采样并对比一致性（SelfCheckGPT）、用检索增强替代参数记忆（RAG）、显式要求模型给出不确定时的"我不知道"回答。但这些都是降低概率，不是消除根因。

推理能力的真相

LLM 的推理更接近"模式匹配和模板复现"，而不是符号化逻辑演算。 Dziri 等人 2023 年的研究发现，LLM 的多步推理本质上是对训练数据中推理模板的近似复现，而非真正的推理引擎。这解释了为什么模型在某些数学题上表现出色，在相似但稍作变化的题目上却出人意料地失败。

逆向诅咒（Reversal Curse）揭示了知识存储的方向性缺陷。 Berglund 等人 2023 年发现：如果模型在训练数据中学到"A 是 B 的某个属性"，它无法自动推导出逆向关系。具体来说，模型知道"Tom Cruise 的母亲是 Mary Lee Pfeiffer"，但当问"Mary Lee Pfeiffer 的儿子是谁"时，经常无法正确回答。这说明 LLM 的知识并非真正的知识图谱，而是高度方向性的统计关联。

组合泛化是另一个系统性弱点。 即使模型学会了若干单独规则，在需要将这些规则组合应用于新场景时，表现往往显著下降。这类似于"认识每个字但读不懂句子"——单独能力和组合能力之间存在鸿沟。

规划能力的局限比多数人预期的更严重。 Valmeekam 等人的研究发现，LLM 在经典规划问题（如积木世界）上的失败率极高，而这些任务对传统符号 AI 是基础操作。Kambhampati 等人系统性地批评了将 LLM 作为规划引擎的方案：当任务步骤超过 5-10 步，错误率就会显著累积，长链任务可靠性不足是当前 Agent 落地的核心挑战之一。

知识的有效边界

训练截止日期只是知识陈旧问题的表面，更深的问题是知识覆盖的不均匀。 关于热门话题（主流历史事件、知名人物、广泛讨论的技术）的知识，因为在训练数据中出现频率高，准确率相对较好。但对于冷门实体（小众领域、非英语文化、罕见话题），准确率会骤降——Mallen 等人 2023 年的研究发现，热门实体的参数化知识准确率接近 70%，冷门实体则低于 20%。模型自信地回答冷门问题，往往是幻觉的高发地带。

另一个被低估的效应是"近期知识不足"。 训练截止日期附近的事件，在训练数据中占比反而最少——互联网对一件事的讨论、分析和引用需要时间积累。这导致模型对"截止前不久"发生的事知道得比"截止前几年"的事还要少。

参数化知识和检索式知识各有边界，不可相互替代。 参数化知识（模型自身记忆）覆盖广泛但存在失真，无法更新；检索式知识（RAG）可以实时更新，但依赖检索质量，在长文档理解上存在瓶颈，也引入了额外延迟。两者的最优组合取决于具体任务：热门领域的通用问答可以更多依赖参数记忆，而需要精确事实、内部文档、最新信息的场景必须引入检索。

上下文窗口的实际利用率

上下文窗口大小和有效利用率是两件不同的事。 GPT-4 Turbo 支持 128K tokens，Claude 支持 200K，Gemini 1.5 Pro 支持 100 万 tokens——但名义窗口大小不等于模型真正能利用的信息量。

"迷失在中间"（Lost in the Middle）是有实验数据支撑的系统性缺陷。 Liu 等人 2023 年的研究发现，当关键信息位于长上下文的开头或结尾时，模型表现最好；位于中间时，表现显著下降，呈现明显的 U 型曲线。在 20 个文档的多文档问答任务中，关键内容在第 1 位时准确率约 80%，在第 10 位时骤降至约 50%，在第 20 位时回升至约 75%。

"大海捞针"测试（Needle in a Haystack）进一步量化了这一问题。 将一句关键信息插入大量无关文本中，测试模型是否能找到它。结果显示，即使是先进模型，在极长上下文中也存在明显的检索失败区域。研究还发现，即使上下文窗口扩大，模型仍然倾向于更多依赖参数化知识，而非仔细阅读上下文提供的新信息——这被称为"上下文惰性"。

校准性：模型并不知道自己不知道

LLM 普遍过度自信，校准性较差。 Kadavath 等人（Anthropic，2022）的研究发现，即使大型模型的校准性优于小型模型，仍然存在系统性高估——模型表达"我确定"时的实际准确率，与其声称的置信度之间存在明显差距。

奉承效应（Sycophancy）是对齐训练带来的副作用。 当用户坚持一个错误答案时，模型倾向于改变原本正确的回答去迎合用户。Anthropic 的多项研究证实了这一现象：模型"知道"原始答案是对的，但在社会压力下选择了顺从。这在需要客观判断的场景（数据分析、代码审查、风险评估）中是一个严重问题。

模型无法准确区分"我学过这个"和"我推断这应该对"。 两类陈述往往以相似的语气表达，模型自身无法可靠地区分自己的知识来源。这意味着用户不能通过模型的语气或自信程度来判断信息的可靠性，必须针对关键信息独立验证。

提示敏感性与一致性

同一问题，不同措辞，可能得到截然不同的答案。 研究发现，改变问题的语序、表达方式或是否给出示例，可以使模型的准确率变化幅度高达 40%。将多选题的正确选项从 A 改为 D 也会影响模型的选择——说明模型存在选项位置偏见，而非真正理解内容。

跨会话的一致性同样存在问题。 Elazar 等人的研究发现，即使只是对问题进行语义等价的改写，模型的一致性通常不超过 75%。这意味着模型的某些回答更接近于"运气好时答对"，而非可靠的知识调用。

这种敏感性有实际的工程影响。 如果 LLM 被用于评估、审查、分类等需要稳定判断的场景，提示的微小变化可能导致系统行为难以预期。这是为什么 Prompt 工程不只是"把话说清楚"，更是在建立可重复的、对措辞不敏感的任务接口。

能力地图：擅长什么、不擅长什么

有一类任务 LLM 非常可靠： 流畅文本生成、高资源语言翻译、主流编程语言的代码补全、格式转换和信息提取、常见领域的知识整合。这些任务的共同特点是：有大量训练样本、结果可以通过上下文验证、不需要精确的符号操作。

有一类任务表现不稳定： 多步推理（有时对，有时错，难以预测）、冷门领域的知识（热门>冷门）、复杂系统的代码调试、长文档的深层理解。这类任务需要额外验证，不能盲目信任。

有一类任务存在系统性失败：

精确符号操作：数单词中特定字母的数量（"strawberry 中有几个 r"）是出了名的难题——根本原因是 tokenization 将字符合并处理，模型无法逐字符操作。长数字算术、字符串反转等任务同理。
空间与物理推理：模型无法真正"想象"三维空间，积木堆叠、地图导航、物理碰撞模拟等任务系统性失败。
可靠规划：多步约束满足、旅行商问题、日程规划等，当约束数量增加时错误率迅速上升。
逆向推理：受逆向诅咒影响，从结果推原因往往不如从原因推结果可靠。
训练截止后的实时信息：模型无法感知自身训练完成后的世界变化。

推理模型带来的新边界认知

推理时扩展计算解决了某类问题，但同时带来了新的边界。 o1、DeepSeek-R1 等推理模型在数学竞赛、代码生成等有明确答案可验证的任务上取得了显著突破，但研究发现推理模型会"过度思考"——在简单问题上也产生大量不必要的推理步骤，且有时会在长推理链中自我迷失，绕了很久后给出错误结论。

推理时计算的边界在于任务是否可验证。 在数学和代码领域，验证比生成容易——可以运行代码、检验数值是否正确，因此推理时扩展计算效果显著。在开放域写作、观点判断等难以验证的任务上，单纯增加推理时间未必带来质量提升，有时反而引入更多绕路和错误。可验证任务 > 不可验证任务，是理解推理模型适用范围的核心判断准则。

基准污染让能力评估更加困难。 多项 2024 年的研究发现，许多模型的高基准分数可能源于测试数据泄露到训练集，导致基准数字虚高、实际能力被高估。这也是为什么"在自己的任务上测试"永远比查看模型的基准得分更可靠。

边界的实际意义

AI 协作的关键，是把模型放到合适的位置。 让 AI 负责流畅生成、模式识别、信息整合和初稿执行；让人负责方向判断、事实核查、高风险决策和最终责任。不是因为 AI 不够聪明，而是因为它的失败模式是概率性的、难以自我察觉的、在某些场景下不可接受的。

验证成本低的地方，可以更信任模型；验证成本高的地方，必须更谨慎。 让模型写一段代码，运行一下就能知道对不对——验证成本低，可以大胆使用。让模型分析一份合同的法律风险，验证成本极高——此时模型的输出只能作为参考起点，不能作为最终判断。

"测试你的具体用例"是评估 LLM 适用性的黄金法则。 模型能力边界随任务类型、输入格式、模型版本、温度设置持续变化，没有一份通用的能力清单能替代在真实场景中的实测。理解边界，不是记住一张表格，而是建立起"在哪里信任、在哪里质疑、在哪里独立验证"的判断直觉。

幻觉：模型生成的不等于真实​

推理能力的真相​

知识的有效边界​

上下文窗口的实际利用率​

校准性：模型并不知道自己不知道​

提示敏感性与一致性​

能力地图：擅长什么、不擅长什么​

推理模型带来的新边界认知​

边界的实际意义​