📋 和 AI 亲密关系调查 — 匿名问卷,提交即生成个人分析报告

Agentic AI Engineering

智能体 AI 工程:从“提示词”到“可交付系统”

学习构建能调用工具、连接数据、执行流程、可评测可上线的 AI Agent。30 秒看懂方向,10 分钟开始动手。

Tool Calling / Function Calling MCP 协议接入 Evals-ready(SWE-bench / GAIA / WebArena)

Core Capabilities

你将掌握的 6 项核心能力

工具调用(Tool Calling)

让模型在需要时调用 API / DB / 文件 / 命令,而不是编造答案。

例:自动生成 SQL 并执行,回写结果。

上下文工程(Context Engineering)

把对话上下文升级为可控知识和状态,支持短期与长期记忆。

例:RAG 检索 + 会话记忆 + 任务状态缓存。

规划-执行架构(Plan → Act)

复杂任务拆解为可恢复步骤,支持失败重试与回滚。

例:先列计划,再逐步调用工具执行。

多智能体协作(Multi-agent)

实现角色分工、仲裁与汇总,降低单点智能体失误。

例:Planner / Coder / Reviewer 三代理闭环。

工程化评测(Evals)

把“看起来很聪明”变为可量化、可回归的指标体系。

例:用 SWE-bench Verified 评估真实修复能力。

安全与权限(Safety by Design)

默认最小权限 + 白名单 + 审计 + 隔离执行,防止越权行为。

例:对工具层输入输出做治理与审计追踪。

Learning Path

学习路线(6-12 周)

  1. Stage 0(1-2 天)

    基础能力

    LLM API 调用、结构化输出、错误处理、成本意识。

  2. Stage 1(1-2 周)

    单智能体 + 工具

    Tool/Function Calling、工具签名设计、协议边界。

  3. Stage 2(1-2 周)

    上下文与记忆

    RAG、会话状态、任务状态、缓存策略。

  4. Stage 3(1-2 周)

    规划执行与恢复

    ReAct / Plan-Execute、幂等、回滚、日志。

  5. Stage 4(1-2 周)

    多智能体编排

    角色协作、消息协议、仲裁与汇总。

  6. Stage 5(持续)

    评测、上线、观测

    SWE-bench / GAIA / WebArena + Trace + 回归测试。

Hands-on Projects

项目实战(以交付驱动学习)

CLI 工具型 Agent

读取配置,自动调用工具链,生成可回放报告。

日志可追溯

知识库助理(RAG + 工具)

企业文档问答 + 可追溯引用 + 工具执行结果校验。

企业内训可用

代码协作 Agent

自动开 PR、跑测试、生成变更摘要,对齐 SWE-bench 思路。

研发提效

Web 操作 Agent(沙盒)

在可复现实验环境中训练导航与表单任务执行能力。

可评测可复现

Tooling & Protocols

工具与协议生态

OpenAI Responses / Agents / Tools

官方能力入口,覆盖模型调用、工具接入与 agent 工作流。

MCP(Model Context Protocol)

统一连接外部工具与数据源,降低系统接入成本。

LangChain Tools/Agents

成熟的工具抽象与 agent loop 工程实现。

AutoGen / Agent Framework

多智能体协作与编排,适合复杂任务拆解。

AI Agents for Beginners

系统化入门课程,适合作为预习与补齐路径。

Evaluation & Safety

评测与安全(必须单列)

评测:先定义成功,再优化能力

  • SWE-bench Verified:真实软件问题修复能力
  • GAIA:综合助理任务能力(推理 + 工具 + 浏览)
  • WebArena:可复现实验环境中的网页操作评测

安全:会行动的系统必须可控

  • 最小权限与工具白名单
  • 提示注入防护与输入输出治理
  • 审计日志、隔离执行与异常追踪

FAQ

常见问题

我只会写业务代码,能学吗?

可以。先从 Tool Calling + 单 Agent 开始,再补上下文工程与评测。

需要先学强化学习吗?

不需要。大多数工程场景先掌握工具、工作流、评测与安全即可。

Agent 和 RAG 是什么关系?

RAG 是信息供给层,Agent 是行动闭环层,二者通常组合使用。

如何减少幻觉?

工具校验 + 可追溯引用 + 结构化输出 + 评测回归。

什么时候需要多智能体?

任务链长、需要角色分工、且存在审阅仲裁环节时最合适。

上线后应该看哪些观测指标?

Trace、工具调用日志、Token/Cost、失败类型聚类与回归结果。

从今天开始,把 Agent 做成“可交付工程”

先做一个最小可用 Agent,再通过评测、安全和观测把它变成能上线的系统。