Agentic AI Engineering

智能体 AI 工程：从“提示词”到“可交付系统”

学习构建能调用工具、连接数据、执行流程、可评测可上线的 AI Agent。30 秒看懂方向，10 分钟开始动手。

开始学习（10 分钟上手）查看学习路线（6-12 周）

Tool Calling / Function Calling MCP 协议接入 Evals-ready（SWE-bench / GAIA / WebArena）

Core Capabilities

你将掌握的 6 项核心能力

工具调用（Tool Calling）

让模型在需要时调用 API / DB / 文件 / 命令，而不是编造答案。

例：自动生成 SQL 并执行，回写结果。

上下文工程（Context Engineering）

把对话上下文升级为可控知识和状态，支持短期与长期记忆。

例：RAG 检索 + 会话记忆 + 任务状态缓存。

规划-执行架构（Plan → Act）

复杂任务拆解为可恢复步骤，支持失败重试与回滚。

例：先列计划，再逐步调用工具执行。

多智能体协作（Multi-agent）

实现角色分工、仲裁与汇总，降低单点智能体失误。

例：Planner / Coder / Reviewer 三代理闭环。

工程化评测（Evals）

把“看起来很聪明”变为可量化、可回归的指标体系。

例：用 SWE-bench Verified 评估真实修复能力。

安全与权限（Safety by Design）

默认最小权限 + 白名单 + 审计 + 隔离执行，防止越权行为。

例：对工具层输入输出做治理与审计追踪。

Learning Path

学习路线（6-12 周）

Stage 0（1-2 天）
基础能力

LLM API 调用、结构化输出、错误处理、成本意识。
Stage 1（1-2 周）
单智能体 + 工具

Tool/Function Calling、工具签名设计、协议边界。
Stage 2（1-2 周）
上下文与记忆

RAG、会话状态、任务状态、缓存策略。
Stage 3（1-2 周）
规划执行与恢复

ReAct / Plan-Execute、幂等、回滚、日志。
Stage 4（1-2 周）
多智能体编排

角色协作、消息协议、仲裁与汇总。
Stage 5（持续）
评测、上线、观测

SWE-bench / GAIA / WebArena + Trace + 回归测试。

Hands-on Projects

项目实战（以交付驱动学习）

CLI 工具型 Agent

读取配置，自动调用工具链，生成可回放报告。

日志可追溯

知识库助理（RAG + 工具）

企业文档问答 + 可追溯引用 + 工具执行结果校验。

企业内训可用

代码协作 Agent

自动开 PR、跑测试、生成变更摘要，对齐 SWE-bench 思路。

研发提效

Web 操作 Agent（沙盒）

在可复现实验环境中训练导航与表单任务执行能力。

可评测可复现

Tooling & Protocols

工具与协议生态

OpenAI Responses / Agents / Tools

官方能力入口，覆盖模型调用、工具接入与 agent 工作流。

MCP（Model Context Protocol）

统一连接外部工具与数据源，降低系统接入成本。

LangChain Tools/Agents

成熟的工具抽象与 agent loop 工程实现。

AutoGen / Agent Framework

多智能体协作与编排，适合复杂任务拆解。

AI Agents for Beginners

系统化入门课程，适合作为预习与补齐路径。

Evaluation & Safety

评测与安全（必须单列）

评测：先定义成功，再优化能力

SWE-bench Verified：真实软件问题修复能力
GAIA：综合助理任务能力（推理 + 工具 + 浏览）
WebArena：可复现实验环境中的网页操作评测

安全：会行动的系统必须可控

最小权限与工具白名单
提示注入防护与输入输出治理
审计日志、隔离执行与异常追踪

FAQ

常见问题

我只会写业务代码，能学吗？

可以。先从 Tool Calling + 单 Agent 开始，再补上下文工程与评测。

需要先学强化学习吗？

不需要。大多数工程场景先掌握工具、工作流、评测与安全即可。

Agent 和 RAG 是什么关系？

RAG 是信息供给层，Agent 是行动闭环层，二者通常组合使用。

如何减少幻觉？

工具校验 + 可追溯引用 + 结构化输出 + 评测回归。

什么时候需要多智能体？

任务链长、需要角色分工、且存在审阅仲裁环节时最合适。

上线后应该看哪些观测指标？

Trace、工具调用日志、Token/Cost、失败类型聚类与回归结果。

从今天开始，把 Agent 做成“可交付工程”

先做一个最小可用 Agent，再通过评测、安全和观测把它变成能上线的系统。

开始学习（10 分钟上手）下载项目模板订阅更新

OpenAI Agents 指南 Tools / Function Calling MCP 协议 Microsoft AutoGen