無止界

人工智能基础认知

AI发展简史

几十年来,人工智能发展主要集中在开发新的训练方法和模型上。这些努力也都取得了成功,从击败国际象棋和围棋世界冠军,到在SAT和律师资格考试中超越大多数人类,再到赢得国际数学奥林匹克竞赛(IMO)和国家信息学奥林匹克竞赛(IOI)金牌。这些载入史册的里程碑(深蓝、AlphaGo、GPT-4/O)的背后,是人工智能方法论的根本性创新。搜索、深度强化学习、扩展和推理。

强化学习通过泛化实现了成功。经过数次重大尝试和一系列的成果,利用语言和推理来解决各种各样的强化学习任务。一个方案就能解决软件工程、创意写作、国际奥林匹克竞赛级的数学、鼠标键盘操作以及长篇问答等问题,这些任务个个都极其困难,在以前,许多研究人员终其一生智能专注在其中一个狭窄领域。

最具影响力的论文均来自更好模型算法的突破。无论是 Transformer、AlexNet、GPT-3等,都是训练方法或模型,而非基准测试或任务,及时最具影响力的基础测试ImageNet,其引用量只有AlexNet的三分之一。而在其他领域,比如Transformer的主要基准测试是WMT‘14,引用量为1300次,而Transformer的引用量则超过16万次。

强化学习中有三个关键组成部分:算法、环境和先验知识。长期以来,强化学习研究者主要关注算法,而将环境和先验信息视为固定不变或最小化的。环境的重要性已通过经验验证,算法的性能往往高度依赖于其开发和测试环境,忽略环境只会构造一个仅在实验环境下表现优异的算法。

根据环境找算法并不能做到泛化。OpenAI早期的计划中,开发了一个用于各种游戏的标准强化学习环境(gym),随后又推出了World of Bits和Universe项目,试图将互联网或计算机变成游戏。一旦将数字世界变成一个环境,并用强化学习算法来解决它,就可能拥有数字通用人工智能(AGI)。但最后并未奏效,OpenAI虽然最终利用强化学习解决了Dota游戏机器人手等问题。但它始终未能解决计算机使用等难题,而在一个领域中的强化学习智能体也无法迁移到另一个领域。

GPT-2/3让人们意识到关键在于先验知识。需要强大的语言预训练能力,才能将通用常识和语言知识提炼到模型中,然后对这些模型进行微调,使其成为智能体。事实证明,强化学习最重要的部分甚至可能不是强化学习算法或环境,而是先验知识,而先验知识的获取方式与强化学习本身无关。

语言预训练为聊天提供了良好的先验知识,但对于控制计算机或玩电子游戏却效果不佳。因为这些领域与互联网文本的分布相差甚远,简单地在这些领域进行系统框架训练/强化学习(SFT/RL)泛化能力很差。比如在玩有个简单寻宝游戏时,人类可以轻松玩一个新游戏,并在零样本学习的基础上显著提高。我们会思考要避免火焰、避免掉入陷阱、用钥匙打开门等思考和推理能力。

思考或推理让语言预训练能够泛化。它并不会直接影响外部世界,但推理的空间却是开放的、组合无限的,可以思考一个词、一个句子、一段文字,或者一万个随机英语单词,但周围的世界并不会立刻改变。在强化学习中,这太糟糕了,决策根本无法进行。通过将推理加入到任何强化学习环境的动作空间中,可以利用语言预训练的先验信息进行泛化,并能够灵活地进行测试时计算,以应对不同的决策。通过强化学习先验知识(语言预训练)和强化学习环境(将语言推理作为动作),强化学习算法本身反而是最微不足道的部分。于是OpenAI才开发出O系列、R1、深度学习、计算机智能体。长期以来,强化学习研究者过于关注算法而忽视了环境,先验知识更是无人问津,所有强化学习实验本质上都是从零开始。然而,业内却花了数十年曲折才意识到,之前的优先级应该完全颠倒过来。

上半场重点是构建新模型和方法,评估和基准测试是次要的。从零开始创建新的算法或模型架构,需要非凡的洞察力和工程技术,比如反向传播算法、卷积神经网络(AlexNet)或Transformer(GPT-3)。而定义测试集显得更加直接,只需要将别人已完成的任务(比如翻译、图像识别、国际象棋等)转换为基准即可。新模型或方法往往比单个任务更具有通用性和广泛适用性,因此也更具价值。

未来人工智能的开发与应用范式发生转变。原先通过开发出新的训练方法或模型,并设定更严格标准,整个链路已经标准化,只需要不断循环,无需引入太多新思路。你可能针对特定任务将性能提升5%,然而下一个ChatGPT O系列模型在不专门针对该任务的情况下,却能将性能提升30%。

下半场将从能不能训练一个AI来解决X问题到我们AI能做什么?在当前时代,讲把重点从解决问题转移到定义问题。不再仅仅问我们能不能训练一个模型来解决X问题,而是问我们应该训练人工智能做什么,以及如何衡量真正的进展?因此,需要及时转变思维方式和技能,或许需要更接近产品经理的思维模式。

  • 人工智能
    • 机器学习
      • 有监督学习:朴素贝叶斯、决策树、支持向量机、逻辑回归、线性回归、K近邻、神经网络
      • 无监督学习:K-means、Dbscan、主成分分析(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)
      • 强化学习(Reinforcement Learning),REINFORCE、DQN、TD-learning、Actor-Critic、PPO、TRPO等
      • 深度学习(Deep Learning),Transformer 架构(2017年后主流),大语言模型(LLM,如 GPT、Llama、Claude、Gemini 等)。
  • 激活算法:Sigmoid、Logistic、ReLu、BPTT、神经网络、卷积神经网络、循环神经网络(RNN)

LLM 的所有突破(ChatGPT 级别的涌现能力、长上下文、工具调用等)都建立在深度学习几十年的积累上,尤其是 2017 年 Transformer 论文《Attention Is All You Need》之后,才真正开启了 LLM 时代。

LLM本质是根据用户提供的内容(提示词),预测后面可能出现的词。如何让LLM回答的更符合预期,则需要不断调整提示词,这就是提示词工程

所谓的推理是基于模仿人类知识与语言规律去预测结果。此时LLM只能基于内生知识,进行文字类问答。他让我们能够通过自然语言了解各种我们原先需要自主检索的知识,相当于我们可以随时和一个知识面极广的人交流任何问题。交互主要通过问答形式,根据我们的问题(Prompt)进行回答,问题问的好不好决定了回答的质量。

对于专业领域知识,可以通过接入外部知识库,让LLM可以实时查询相关知识,这就是RAG(Retrieval-Augmented Generation,检索增强生成)

LLM无法做一些知识问答以外的事情,只会聊天回答问题升级到可以思考、规划、调用工具、反复试错,最终能完成一个复杂任务,也就是智能体(AI Agent)。比如Microsoft Office 365 Copilot、Microsoft Security Copilot、GitHub Copilot、Adobe Copilot等,让 AI 从问答工具成为了办公、代码、设计等工作场景中的“副驾驶”,也就是一个个智能体。

  • 规划:通过将一个大问题/任务拆分成多个小问题/任务,再去回答/解决多个问题/任务,并去判断回答的效果,再进行调整。也就是ReAct、Plan-and-Execute、Tree of Thoughts
  • 记忆:让LLM储存每次对话记录,能够知道每次对话的上下文,变的更聪明。
  • 工具调用:通过将传统软件中的各种工具集成进LLM,通过描述工具的功能,当提示词中涉及相关功能,则调用执行该工具获取结果并返回。LangChain可以实现工具调用。

而各种工具如何能在不同的Agent中使用,就诞生了MCP,它统一了工具的协议,降低开发、接入、分享各种工具的成本。

当需要将Agent专业知识、思考方式、最佳实践打包成可服用的模块,让Agent瞬间变成领域专家,就是智能体技能(Agent Skill)

单个Agent处理多种任务时,由于上下文过长、幻觉过大以及并行速度慢等原因,更适合将全能Agent拆分为让每个Agent专注自己最擅长的事情,也就是多智能体(Multi Agent)。

而多Agent如何互相之间配合,就需要有一套协议,也就是A2A

AI商业应用

字节跳动:基模生态+场景应用。聊天助手(豆包/CiCi),智能体开发平台(扣子/Coze),AI剧情互动/陪伴(猫箱/AnyDoor),AI创意(即梦/Dreamina),AI音乐生成(海绵音乐),AI教育(豆包爱学/Gauth),消费硬件(智能耳机),代码编程(Trae)。

腾讯:多模态模型+克制场景应用。(聊天助手)腾讯元宝,知识管理助手(ima Copilot),AI编程(Codebuddy),搜索(微信AI搜索),生活管家(微信Agent)。混元大模型:Large、Vision、3D、Image3。

阿里巴巴:全模型+超级入口。千问(超级App,购物/支付/搜索等),企业AI(钉钉AI),AI浏览器(夸克),消费硬件(钉钉AI硬件),Agentic Coder(Qoder)。Qwen:VL/Audio、Coder、Image、Omni。

OpenAI:模型引领。Deep Research(模型即产品),Codex(云端编程),Study(引导式交互),Pulse(主动推送研究),Instant Checkout(商品发现与支付全流程),Sora2(音画生成)。

Anthropic:重点构建Agent和Coding能力,场景渗透编程和金融高数据密度与高价值领域。Claude Code、MCP、Claude Finance、Agent Skills、Co-Work。

Google Gemini:多模态领跑,多场景覆盖。NotebookLM(研究工作台)、Project Mariner(多任务浏览器Agent)、A2A(Agent通信任务协作)、Genie 3(可交互世界模型)、AP2(支付)。Gemini、Veo、Nano Banana Pro。

Meta:压住开源+高薪挖人+软硬件入口。Rayban Meta眼睛(智能眼镜开创)、Meta AI App(独立应用)、Meta Ray-Ban Display(首款内置显示)、Business AI Agent(全流程咨询购买支付自动化)。LLaMa、SeamlessM4T、SAM3。

  • 客服销售:SIERRA、11X
  • 代码编程:Cursor、Lovable、Replit、Devin、Claude Code、MGX
  • HR&招聘:Mercor、Eightfold.ai
  • 法律:Harvey、Everlaw
  • 营销:Creati.ai、Head、nexad
  • 财务会计:FloQast、Rows、Numeric
  • 医疗:ABRIDGE、Hippoctic AI
  • 企业数据:Glean
  • 通用效率:manus、Genspark、OpenAI Agent
  • 知识管理:NotebookLM、Deep Research、flowith
  • 自动化:Pokee AI、n8n
  • 浏览器:Dia、Fellou
  • 个人Agent:Macaron
  • 旅游出行:iMean.AI、steller、mindtrip
  • 穿搭时尚:Doji、GENSMO
  • 生成式电商:Arcade、造好物
  • 情感陪伴:Character.ai、星野/Talkie、自然选择
  • 漫画&动漫:PixAI
  • 图片视频:Lovart、Midjourney、PixVerse、Higgsfield、KlingAI
  • 视频剪辑:Opus Clip、invideo
  • 音乐:SUNO、vdio、ACE Studio
  • 教育:Gauth、Speak
  • 游戏交互:Google Genie、Decart AI、inworld
  • 3D创作:Tripo、Rodin
  • LLM:智谱、Moonshot
  • 具身智能/新交互:宇树、星海图、Hillbot、首形智能、星尘、钛虎、灵心巧手、大晓机器人
  • Agent应用:MetaGPT、Macaron、Imean
  • 新消费硬件:未来智能、Looki、Havivi
  • 训推芯片:墨芯、清微智能、紫荆芯界、超维无际、
  • 多模态/新内容:爱诗、生数、Formless、井英、LibLib
  • 个人效率工具:秘塔

AI实现内容创作的平权。AI替代摄像头,带来新的内容形式供给爆发,比如动画、动漫、海外短剧等产能受限领域。典型代表,LibLib、OiiOii、Reel.AI、元驿娱乐。

AI带来更高维的新互动内容。AI带来现有内容平台难以体检的新内容从而迁移用户,比如实时互动、个性化内容(剧情/人物等)、多模态内容等。比如Formless、Reel.AI、OiiOii、Sora。

AI带来新的交互和分发。交互带来更高的商业化效率和更多的用户数据,生成即分发、新内容垂类对应的新分发机制。比如Formless、Sand.AI、沐言智语。

提示词工程(Prompt Engineering)

提示词本质是一个清晰的思维框架,具备几个基本要求,才能实现高效指令。

  • 指令(Instruction):交代给模型的任务。比如“总结”、“翻译”、“优化”、“生成”等。
  • 上下文(Context):为模型提供执行任务的必要背景信息。包括背景、约束等。
    • 模型生成看似合理但与事实不符的信息(胡说八道)。提供事实依据,采用RAG架构,从可靠的外部知识源检索信息并提供给模型。对于需要高可靠性的场景,实施验证链(CoVe)或自我精炼(Self-Refine)等验证循环。
  • 输入数据(Input Data):模型需要处理的具体数据。比如一段文本、代码、图片等。
  • 输出指示器/格式规范(Output Indicator/Format Specification):定义期望的输出格式。比如JSON、Markdown等。

高效提示词的基本要求

  • 清晰且具体(Clarity & Specificity):提示词工程的第一原则。模糊指令只会导致模糊输出,要尽可能减少模糊不准确/不精确的描述/用词,对期望获得的结果进行更加详细的描述。
    • 比如:使用“100字内”替代“短一点”。
  • 任务拆分:将一个复杂的任务分解成多个更小、更专注的顺序提示词。避免在一个提示中执行多个不相关的复杂任务,会导致输出质量下降或遗漏任务。
  • 结构化格式(Structured Formatting):使用分隔符(如“”,##)、Markdown、XML等来区分指令、上下文和输入数据。可以减少歧义,使模型更加准确地解析请求。
  • 正面框架(Positive Forming):指导模型做什么通常比告诉它不做什么更有效。正面指令能更可靠地引导模型的行为,避免其陷入不期望的输出模模式。
  • 分配角色(Assigning a Personal / Role-Playing):告诉模型扮演一个特定的专家角色(如“你是一位资深的网络安全工程师”),可以有效地引导其回应风格、语气和知识深度,使其输出更符合特定场景的需求。

提示词需要不断迭代

  • 草稿,基于需要达成的目标,按照前序要求编写提示词。
  • 测试,构建一个真实的测试集,针对测试集的每一个样本进行测试。
  • 评估,检查模型的输出结果,使用定性指标(可读性/相关性/正确性)和定量指标(准召/完成率等)进行评估。
  • 精炼,根据评估情况,定位提示词中的不足,并进行优化(复杂任务拆分更小步骤、增加更具体约束、替换或优化案例、调整角色定义等)。

复杂提示词模版结构

<Identity>
# 定义角色、个性、目标。
你是一位资深的网络安全工程师,擅长渗透测试、漏洞挖掘、代码审计,熟练掌握各种常见安全漏洞利用方式、原理以及修复等。
</Identity>

<Instructions>
# 提供清晰分步的指令和必须遵守的规则。
1. step1
2. step2
3. step3
</Instructions>

<Examples>
# 提供少量高质量输入-输出示例。
输入:例子
输出:例子
---
输入:例子
输出:例子
</Examples>

<Context>
用户问题:xxx
相关文档:xxx
</Context>

参考

無止界