無止界

人工智能基础认知

人工智能(AI)
└─ 机器学习(Machine Learning):
  └─ 深度学习(Deep Learning) ← 这里是核心技术
    └─ Transformer 架构(2017年后主流)
      └─ 大语言模型(LLM,如 GPT、Llama、Claude、Gemini 等)
  • 有监督学习:朴素贝叶斯、决策树、支持向量机、逻辑回归、线性回归、K近邻、神经网络
  • 无监督学习:K-means、Dbscan、主成分分析(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)
  • 激活算法:Sigmoid、Logistic、ReLu、BPTT、神经网络、卷积神经网络、循环神经网络(RNN)

LLM 的所有突破(ChatGPT 级别的涌现能力、长上下文、工具调用等)都建立在深度学习几十年的积累上,尤其是 2017 年 Transformer 论文《Attention Is All You Need》之后,才真正开启了 LLM 时代。

LLM本质是根据用户提供的内容(提示词),预测后面可能出现的词。如何让LLM回答的更符合预期,则需要不断调整提示词,这就是提示词工程

所谓的推理是基于模仿人类知识与语言规律去预测结果。此时LLM只能基于内生知识,进行文字类问答。他让我们能够通过自然语言了解各种我们原先需要自主检索的知识,相当于我们可以随时和一个知识面极广的人交流任何问题。交互主要通过问答形式,根据我们的问题(Prompt)进行回答,问题问的好不好决定了回答的质量。

对于专业领域知识,可以通过接入外部知识库,让LLM可以实时查询相关知识,这就是RAG(Retrieval-Augmented Generation,检索增强生成)

LLM无法做一些知识问答以外的事情,只会聊天回答问题升级到可以思考、规划、调用工具、反复试错,最终能完成一个复杂任务,也就是智能体(AI Agent)。比如Microsoft Office 365 Copilot、Microsoft Security Copilot、GitHub Copilot、Adobe Copilot等,让 AI 从问答工具成为了办公、代码、设计等工作场景中的“副驾驶”,也就是一个个智能体。

  • 规划:通过将一个大问题/任务拆分成多个小问题/任务,再去回答/解决多个问题/任务,并去判断回答的效果,再进行调整。也就是ReAct、Plan-and-Execute、Tree of Thoughts
  • 记忆:让LLM储存每次对话记录,能够知道每次对话的上下文,变的更聪明。
  • 工具调用:通过将传统软件中的各种工具集成进LLM,通过描述工具的功能,当提示词中涉及相关功能,则调用执行该工具获取结果并返回。LangChain可以实现工具调用。

而各种工具如何能在不同的Agent中使用,就诞生了MCP,它统一了工具的协议,降低开发、接入、分享各种工具的成本。

当需要将Agent专业知识、思考方式、最佳实践打包成可服用的模块,让Agent瞬间变成领域专家,就是智能体技能(Agent Skill)

单个Agent处理多种任务时,由于上下文过长、幻觉过大以及并行速度慢等原因,更适合将全能Agent拆分为让每个Agent专注自己最擅长的事情,也就是多智能体(Multi Agent)。

而多Agent如何互相之间配合,就需要有一套协议,也就是A2A

無止界