人工智能知识体系全解

本文系统梳理人工智能领域的核心知识体系,从大模型发展历程到前沿的 Agent、MCP、Skills 等概念,帮助你建立完整的 AI 知识图谱。


人工智能发展简史

早期探索(1950s-2000s)

时期 里程碑事件 意义
1950 图灵提出”图灵测试” AI 思想的起源
1956 达特茅斯会议 “人工智能”术语诞生
1966 ELIZA 聊天程序 早期自然语言处理
1997 深蓝击败卡斯帕罗夫 符号主义 AI 的巅峰
2011 Watson 赢得 Jeopardy! 知识推理的突破

深度学习崛起(2012-2017)

1
2
3
4
5
6
2012  AlexNet 在 ImageNet 夺冠        →  深度学习时代开启
2013 Word2Vec 发布 → 词向量表示学习
2014 GAN、Seq2Seq 提出 → 生成模型新方向
2015 ResNet、FastText → 深度网络突破
2016 AlphaGo 击败李世石 → 强化学习里程碑
2017 Transformer 架构提出 → 大模型的基础

大模型时代(2018-至今)

年份 模型 参数规模 重大意义
2018 BERT、GPT-1 1-3亿 预训练+微调范式
2019 GPT-2 15亿 零样本学习能力
2020 GPT-3 1750亿 涌现能力显现
2022 ChatGPT - RLHF 对齐,引爆应用
2023 GPT-4、Claude - 多模态、长上下文
2024 Claude 3、Gemini - 多模态成熟
2025 DeepSeek、Qwen - 开源生态繁荣

大模型(LLM)详解

什么是大模型?

大模型(Large Language Model,LLM) 是基于 Transformer 架构、具有海量参数、经过大规模数据训练的深度学习模型。

核心特征:

特征 说明
参数规模 数十亿到万亿级别
训练数据 TB 到 PB 级别文本
计算资源 数千张 GPU/TPU
涌现能力 规模达到临界点后出现新能力
通用性 一个模型处理多种任务

Transformer 架构

Transformer 是大模型的核心架构,由 Google 于 2017 年提出:

1
2
3
4
5
6
7
┌─────────────────────────────────────────────────┐
│ │
│ 输入嵌入 → 多头自注意力 → 前馈网络 → 层归一化 → 输出 │
│ ↑_____________| │
│ 残差连接 │
│ │
└─────────────────────────────────────────────────┘

核心组件:

组件 功能
Self-Attention 计算序列内部的相关性
Multi-Head Attention 多角度捕捉信息
Position Encoding 保留位置信息
Feed-Forward Network 非线性变换

大模型训练流程

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
┌─────────────────────────────────────────────────────────────┐
│ 阶段1:预训练(Pre-training) │
│ ├── 目标:学习语言模式和世界知识 │
│ ├── 数据:海量无标注文本(网页、书籍、代码) │
│ ├── 方法:自监督学习(预测下一个token) │
│ └── 产出:基座模型(Base Model) │
├─────────────────────────────────────────────────────────────┤
│ 阶段2:有监督微调(SFT) │
│ ├── 目标:学习指令遵循能力 │
│ ├── 数据:高质量指令-回答对 │
│ ├── 方法:监督学习 │
│ └── 产出:SFT 模型 │
├─────────────────────────────────────────────────────────────┤
│ 阶段3:对齐训练(RLHF/DPO) │
│ ├── 目标:对齐人类偏好 │
│ ├── 数据:人类偏好标注 │
│ ├── 方法:强化学习/直接偏好优化 │
│ └── 产出:对话模型(Chat Model) │
└─────────────────────────────────────────────────────────────┘

主流大模型对比

模型 厂商 特点 上下文长度
GPT-4 OpenAI 综合能力最强 128K
Claude 3 Anthropic 长上下文、安全 200K
Gemini Google 多模态原生 1M
文心一言 百度 中文优化 -
通义千问 阿里 开源生态好 128K
DeepSeek 深度求索 高性价比、开源 128K
GLM-4 智谱AI 国产开源代表 128K

大模型的前身与技术演进

技术演进路线图

1
2
3
4
5
6
7
统计语言模型(N-gram) → 神经网络语言模型(NNLM) → 词向量(Word2Vec)

循环神经网络(RNN) → 长短期记忆网络(LSTM) → Seq2Seq

注意力机制(Attention) → Transformer → BERT/GPT

大模型(LLM) → 多模态大模型 → Agent智能体

统计语言模型(N-gram)

最早的语言建模方法,基于统计概率:

1
P(w1,w2,...,wn) ≈ Π P(wi|wi-1,wi-2,...,wi-n+1)

局限性:无法捕捉长距离依赖、维度灾难

词向量时代(Word2Vec、GloVe)

Word2Vec(2013) 两种训练方式:

方式 原理
CBOW 上下文预测中心词
Skip-gram 中心词预测上下文

经典示例:

1
vec("king") - vec("man") + vec("woman") ≈ vec("queen")

RNN/LSTM 时代

RNN 存在梯度消失/爆炸问题,LSTM 引入门控机制:

门控 功能
遗忘门 决定丢弃哪些信息
输入门 决定存储哪些新信息
输出门 决定输出哪些信息

Seq2Seq 与 Attention

Seq2Seq(2014):编码器-解码器架构

Attention 机制(2015):解决固定长度向量瓶颈

Transformer 革命(2017)

论文:《Attention Is All You Need》

核心创新

  • 完全基于注意力机制,抛弃循环
  • 并行计算,训练效率大幅提升
  • 多头注意力,多角度捕捉信息

BERT vs GPT

维度 BERT GPT
架构 Encoder-only Decoder-only
方向 双向 单向
任务 理解类 生成类
预训练 MLM 自回归
代表应用 分类、NER 对话、写作

提示词工程(Prompt Engineering)

什么是提示词工程?

提示词工程 是设计和优化输入提示词,以引导大模型产生期望输出的技术和方法。

设计原则

原则 说明 示例
明确性 指令清晰,避免歧义 “请用3句话总结”
具体性 提供具体示例和约束 “字数控制在500字以内”
结构化 使用分隔符、编号 “请按以下格式输出…”
角色设定 赋予模型特定角色 “你是一位资深技术专家”
上下文 提供必要的背景信息 “假设用户是初学者…”
格式指定 明确输出格式要求 “请以JSON格式输出”

提示词示例对比

差的提示词:

1
写一篇文章

好的提示词:

1
2
3
4
5
6
7
8
你是一位资深技术博主,擅长将复杂技术概念用通俗易懂的方式讲解。

请写一篇关于"Transformer架构"的技术博客文章,要求:
1. 目标读者:有基础编程经验的开发者
2. 篇幅:1500-2000字
3. 结构:包含原理讲解、代码示例、应用场景
4. 风格:通俗易懂,配合类比
5. 格式:Markdown格式,代码块使用语法高亮

核心技术

Few-shot Learning(少样本学习)

1
2
3
4
5
6
7
任务:情感分析

示例:
文本:"这部电影太精彩了!" → 标签:正面
文本:"浪费时间,不推荐" → 标签:负面

文本:"服务态度很差,再也不会来了" → 标签:?

Chain-of-Thought(思维链)

1
2
3
4
5
6
7
问题:小明有5个苹果,给了小红2个,又买了3个,请问小明现在有几个苹果?

请一步步思考:
1. 小明原来有几个苹果?→ 5个
2. 给了小红2个后,还剩几个?→ 5-2=3个
3. 又买了3个,现在有几个?→ 3+3=6个
答案:6个

其他技术

技术 说明
Self-Consistency 多次采样,选择最一致的答案
Tree-of-Thought 探索多个推理路径,搜索最优解
ReAct 推理与行动交替进行

系统提示词

用于设定模型的基本行为:

1
2
3
4
5
你是一个专业的AI助手,具有以下特点:
- 回答准确、专业
- 态度友好、耐心
- 遇到不确定的问题会诚实说明
- 按照用户要求的格式输出

RAG(检索增强生成)

什么是 RAG?

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合信息检索与文本生成的技术架构。

1
2
3
4
5
6
7
8
┌─────────────────────────────────────────────────────────┐
│ │
│ 用户问题 ──→ 检索器 ──→ 相关文档 ──→ 大模型 ──→ 回答 │
│ │ ↑ │
│ ↓ │ │
│ 知识库/向量数据库 ←─────────────┘ │
│ │
└─────────────────────────────────────────────────────────┘

为什么需要 RAG?

大模型局限 RAG 优势
知识截止:训练数据有时间截止点 实时知识:可检索最新信息
幻觉问题:可能编造不存在的信息 减少幻觉:基于真实文档生成
领域缺失:缺乏特定领域知识 领域适配:接入专业知识库
私有数据:无法访问企业内部数据 数据安全:私有知识库部署

RAG 架构流程

1
2
3
4
5
6
7
8
【索引阶段】
文档 → 分块 → Embedding → 向量数据库

【检索阶段】
问题 → Embedding → 相似度搜索 → Top-K 文档

【生成阶段】
问题 + 检索文档 → Prompt → LLM → 回答

Embedding(向量化)

Embedding 是将文本转换为向量表示的过程:

1
2
3
"人工智能" → [0.12, -0.34, 0.56, ..., 0.78]  (1536维)
"AI技术" → [0.11, -0.32, 0.58, ..., 0.76] (语义相近)
"苹果手机" → [0.89, 0.12, -0.45, ..., 0.23] (语义较远)

主流 Embedding 模型:

模型 维度 特点
text-embedding-ada-002 1536 OpenAI,通用性强
text-embedding-3-small 1536 OpenAI 新版,性价比高
BGE-large-zh 1024 中文开源,效果优秀
M3E 768 多语言,开源

向量数据库

数据库 特点 适用场景
Pinecone 全托管,易用 生产环境
Milvus 开源,高性能 企业级应用
Qdrant Rust 实现,快 高性能需求
Chroma 轻量级,易上手 开发测试
FAISS Meta 开源,快 本地部署

RAG 进阶技术

技术 说明
Hybrid Search 关键词检索(BM25)+ 向量检索
Rerank 检索结果重排序,提高精度
Query Rewriting 查询改写/扩展
Multi-turn RAG 多轮对话检索

Function Calling(函数调用)

什么是 Function Calling?

Function Calling 是大模型调用外部函数/工具的能力,是实现 Agent 自主执行任务的基础。

1
用户请求 ──→ LLM分析 ──→ 决定调用函数 ──→ 执行函数 ──→ 返回结果 ──→ 生成回答

工作原理

1
2
3
4
5
1. 函数定义:告知模型可用的函数及其参数
2. 模型决策:模型判断是否需要调用函数
3. 参数生成:模型生成函数调用参数
4. 函数执行:外部系统执行函数
5. 结果处理:将结果返回给模型

函数定义示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
{
"name": "get_weather",
"description": "获取指定城市的天气信息",
"parameters": {
"type": "object",
"properties": {
"city": {
"type": "string",
"description": "城市名称"
},
"unit": {
"type": "string",
"enum": ["celsius", "fahrenheit"],
"description": "温度单位"
}
},
"required": ["city"]
}
}

调用流程示例

1
2
3
4
5
6
用户:北京今天天气怎么样?

模型决策:需要调用 get_weather 函数
函数调用:get_weather(city="北京", unit="celsius")
执行结果:{"temp": 25, "condition": "晴", "humidity": 45}
模型回答:北京今天天气晴朗,气温25℃,湿度45%,适合出行。

微调(Fine-tuning)

什么是微调?

Fine-tuning(微调) 是在预训练模型基础上,使用特定领域或任务的数据继续训练。

1
预训练模型(通用) + 领域数据 → 微调模型(专业)

为什么需要微调?

场景 说明
领域适配 让模型理解专业术语和知识
风格定制 调整输出风格和格式
任务优化 提升特定任务的准确率
成本降低 比从头训练便宜得多

微调方法对比

方法 原理 优点 缺点
Full Fine-tuning 更新所有参数 效果最好 成本高
LoRA 低秩分解矩阵 参数少、快 效果略差
QLoRA LoRA + 4-bit量化 单卡可行 精度有损

LoRA 原理:

1
2
3
4
5
6
原权重矩阵 W → W + ΔW = W + BA

优点:
- 参数量减少 99%
- 训练速度快
- 可合并回原模型

RLHF 与 DPO

方法 流程 特点
RLHF SFT → RM → PPO 效果好,流程复杂
DPO 直接偏好优化 无需RM,简化流程

模型推理参数

Token 与 Tokenizer

Token 是模型处理文本的最小单位:

1
2
"人工智能很强大" → ["人工", "智能", "很", "强大"] (4 tokens)
"Hello World" → ["Hello", " World"] (2 tokens)

Context Window(上下文窗口)

模型 上下文长度
GPT-3.5 4K / 16K
GPT-4 128K
Claude 3 200K
Gemini 1.5 1M

Temperature(温度)

控制输出随机性:

效果 适用场景
0 输出最确定 事实性任务
0.3 较确定 问答、分析
0.7 平衡 一般对话
1.0 默认值 -
1.5+ 更随机 创意写作

其他参数

参数 说明
Top-P 核采样,从概率累计达到P的候选词中采样
Top-K 只从概率最高的K个候选词中采样
Max Tokens 限制生成的最大Token数量
Frequency Penalty 惩罚重复出现的词
Presence Penalty 惩罚已出现过的词

模型架构进阶

MoE(混合专家模型)

MoE(Mixture of Experts) 是稀疏激活架构:

1
输入 → 路由门控 → 选择Top-K专家 → 专家计算 → 加权融合 → 输出

代表模型:Mixtral 8x7B、DeepSeek-V2/V3

优势:参数量大但激活参数少,推理成本低

多模态架构

模型 支持模态
GPT-4V 文本 + 图像
Claude 3 文本 + 图像
Gemini 文本 + 图像 + 音频 + 视频
LLaVA 文本 + 图像(开源)

长上下文技术

技术 说明
窗口注意力 只关注局部窗口
稀疏注意力 选择性计算注意力
Ring Attention 分布式计算长序列
RoPE 扩展 位置编码外推

幻觉问题与安全

Hallucination(幻觉)

幻觉 是模型生成看似合理但实际上不正确或不存在的信息。

类型 说明
事实幻觉 编造不存在的事实
来源幻觉 引用不存在的来源
推理幻觉 逻辑推理错误

减少幻觉的方法:

方法 说明
RAG 基于真实文档生成
引用验证 要求提供来源
多次采样 检查一致性
自我反思 让模型检查输出

对齐与安全

对齐目标:

目标 说明
有用性 帮助用户完成任务
诚实性 不欺骗、不编造
无害性 不产生有害内容

Agent(智能体)

什么是 Agent?

Agent(智能体) 是具有自主决策能力、能够感知环境、规划行动并执行任务的智能系统。

1
2
3
4
5
6
7
8
9
10
11
12
13
┌───────────────────────────────────────────────────────────┐
│ Agent │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 感知 │ ───→ │ 规划 │ ───→ │ 执行 │ │
│ │Perceive │ │ Plan │ │ Execute │ │
│ └─────────┘ └─────────┘ └─────────┘ │
│ ↑ ↑ ↓ │
│ │ │ │ │
│ ┌────┴─────┐ ┌─────┴────┐ ┌──────┴─────┐ │
│ │ 记忆 │ ←──│ 工具 │ ←──│ 环境 │ │
│ │ Memory │ │ Tools │ │ Environment│ │
│ └──────────┘ └─────────┘ └───────────┘ │
└───────────────────────────────────────────────────────────┘

Agent 核心组件

组件 说明
感知 接收用户输入、环境状态、工具返回
规划 任务分解、目标设定、行动序列规划
记忆 短期记忆(上下文)、长期记忆(向量库)
执行 调用工具完成任务
工具 搜索、代码执行、文件操作、API调用

ReAct 模式

1
2
3
4
5
6
循环执行:
Thought: 思考下一步行动
Action: 选择并执行工具
Observation: 观察执行结果
...重复直到任务完成
Final Answer: 输出最终结果

示例:

1
2
3
4
5
6
7
用户:北京今天天气怎么样?

Thought: 用户想知道北京今天的天气,我需要查询天气信息
Action: weather_search("北京")
Observation: 北京今天晴,气温18-28℃,微风
Thought: 我已经获取到天气信息,可以回答用户了
Final Answer: 北京今天天气晴朗,气温18-28℃,微风,适合出行。

主流 Agent 框架

框架 特点 适用场景
LangChain 生态丰富,组件完善 通用 Agent 开发
AutoGPT 自主性强,目标驱动 自动化任务
CrewAI 多 Agent 协作 复杂任务分工
OpenClaw 个人助理 Agent 日常任务自动化

MCP(Model Context Protocol)

什么是 MCP?

MCP(Model Context Protocol) 是 Anthropic 提出的开放协议,用于标准化 AI 应用与外部数据源、工具之间的连接。

1
2
3
4
5
6
┌───────────────────┐          MCP          ┌───────────────────┐
│ │ ←───────────────────→ │ │
│ AI 应用 │ │ MCP Server │
│ (Client) │ │ (工具/数据源) │
│ │ │ │
└───────────────────┘ └───────────────────┘

MCP 解决的问题

之前 现在
每个 AI 应用需要单独集成每个工具 通过 MCP 协议统一连接
重复开发、标准不一 一次开发,多处使用
维护困难 标准化接口,易于扩展

MCP 架构

1
2
3
4
5
6
7
8
MCP Host(宿主)
├── MCP Client(客户端)
│ ├── 连接管理
│ └── 协议处理
└── MCP Server(服务端)
├── Resources(资源)
├── Prompts(提示词模板)
└── Tools(工具)

通信方式:

方式 说明 适用场景
Stdio 标准输入输出 本地进程通信
HTTP/SSE HTTP + Server-Sent Events 远程通信

MCP Server 提供的能力

Resources(资源)

1
2
3
4
5
{
"uri": "file:///path/to/document.pdf",
"name": "项目文档",
"mimeType": "application/pdf"
}

Prompts(提示词模板)

1
2
3
4
5
{
"name": "analyze-code",
"description": "代码分析模板",
"arguments": [{"name": "language", "required": true}]
}

Tools(工具)

1
2
3
4
5
6
7
8
{
"name": "search_web",
"description": "搜索互联网",
"inputSchema": {
"type": "object",
"properties": {"query": {"type": "string"}}
}
}

MCP 生态

官方 Servers:

Server 功能
filesystem 文件系统访问
postgres PostgreSQL 数据库
slack Slack 集成
github GitHub 操作

社区 Servers:

Server 功能
playwright 浏览器自动化
google-drive Google Drive
puppeteer 网页抓取

Skills(技能)

什么是 Skills?

Skills(技能) 是封装了特定领域知识、工作流程或工具集成的模块化能力包。

1
Skill = 领域知识 + 工作流程 + 工具集成 + 提示词模板

Skills 的作用

1
2
3
4
5
6
7
8
9
10
┌─────────────────────────────────────────────────────────┐
│ AI Agent │
│ │
│ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │
│ │ Skill │ │ Skill │ │ Skill │ │ Skill │ │
│ │ 1 │ │ 2 │ │ 3 │ │ 4 │ │
│ └────────┘ └────────┘ └────────┘ └────────┘ │
│ │
│ 每个 Skill 提供特定领域的专业能力 │
└─────────────────────────────────────────────────────────┘

优势:

特点 说明
模块化 能力独立封装
可复用 一次开发,多处使用
可组合 多个 Skill 协作
易维护 单独更新,不影响其他

Skill 目录结构

1
2
3
4
5
6
7
8
9
10
skill-name/
├── SKILL.md # 技能说明文档
├── prompts/ # 提示词模板
│ └── template.md
├── scripts/ # 执行脚本
│ └── execute.py
├── tools/ # 工具定义
│ └── tools.json
└── examples/ # 使用示例
└── example.md

Skills 与 MCP 的关系

1
2
3
4
5
6
7
8
Skills(技能)
├── 封装领域知识
├── 定义工作流程
└── 调用 MCP Server

MCP(协议)
├── 标准化接口
└── 工具/数据连接

Skills 是更高层次的抽象,MCP 是底层协议支持


知识图谱总结

AI 知识体系全景图

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
人工智能

├── 基础技术
│ ├── 机器学习
│ ├── 深度学习
│ └── 神经网络

├── 语言模型演进
│ ├── 统计模型(N-gram)
│ ├── 词向量(Word2Vec)
│ ├── 序列模型(RNN/LSTM)
│ ├── 注意力机制(Attention)
│ ├── Transformer
│ └── 大模型(LLM)

├── 大模型应用
│ ├── 提示词工程
│ ├── RAG(检索增强)
│ ├── 微调(Fine-tuning)
│ └── Agent(智能体)

├── Agent 生态
│ ├── 框架(LangChain、AutoGPT)
│ ├── MCP 协议
│ └── Skills 技能

└── 前沿方向
├── 多模态
├── 具身智能
└── AGI 探索

核心概念关系

1
2
3
4
5
6
7
8
9
10
11
12
LLM(大模型)

Prompt Engineering(提示词工程)

Agent(智能体)
├── Memory(记忆)
├── Planning(规划)
├── Tools(工具)
│ ↓
│ MCP(协议)

└── Skills(技能)

学习路径建议

阶段 学习内容
入门 理解大模型基本概念 → 学习提示词工程 → 使用 ChatGPT/Claude
进阶 学习 Transformer 原理 → 了解 RAG 架构 → 开发简单 Agent
高级 深入模型架构 → 掌握 MCP 协议 → 开发 Skills → 构建复杂 Agent 系统

实践建议

技术选型

场景 推荐方案
简单对话 直接使用 ChatGPT/Claude
知识问答 RAG + 向量数据库
自动化任务 Agent + MCP
专业领域 Skills + 定制化
企业应用 私有化部署 + Agent

开发工具栈

层级 工具
模型层 OpenAI API、Claude API、本地部署
框架层 LangChain、LlamaIndex
协议层 MCP
工具层 各种 MCP Server
应用层 Agent、Skills

总结

人工智能正在从”单一模型”向”智能体生态”演进:

概念 定位
LLM 基础能力
Prompt 交互方式
RAG 知识增强
Agent 自主执行
MCP 连接协议
Skills 能力扩展

理解这些概念的关系,是构建 AI 应用的关键。


延伸阅读