AI agent介绍
Q1:ai agent主要涉及的技术是什么
AI Agent不是单一技术,而是一个集成了多种先进技术的综合系统。它就像一辆汽车,由引擎、底盘、记忆系统和控制系统等多个部分组成
一个现代AI Agent主要涉及以下四大技术支柱:
-
核心大脑: 大语言模型 (LLM)
-
技术: 这是Agent的推理和语言能力中心
vLLM就是一个例子,其他还包括OpenAI的GPT系列、Anthropic的Claude等
-
作用:
负责理解用户意图、进行常识推理、生成自然语言回复、以及决定下一步该做什么(例如,是回答问题,还是使用工具)
-
相关技能:
Prompt Engineering,这是与“大脑”沟通、指导其行为的核心艺术
-
-
记忆系统: RAG与向量数据库
-
技术:
这是 “没有长对话记忆” 问题的关键
它由以下部分组成:
-
词嵌入
将文本对话转换成“意义向量”的核心技术
-
向量数据库/索引
如ChromaDB, FAISS, Pinecone等,用于高效存储和检索这些 “意义向量”
-
检索增强生成 (RAG)
这是一个架构,它让Agent在回答问题前,能先从向量数据库中检索相关的历史记忆或知识,从而给出更具上下文和深度的回答
-
-
作用
赋予Agent跨越多次对话的长期记忆,并使其能够利用私有知识库(如公司文档、个人笔记)
-
-
行动能力: 工具使用与函数调用
- 技术 这是让Agent从一个 “聊天机器人” 升级为 “行动者” 的核心。它指的是让LLM能够调用外部API或代码函数
- 作用
扩展Agent的能力边界。Agent不再局限于其内部知识,而是可以:
- 获取实时信息: 调用天气API、股票查询API
- 与外部系统交互: 查询数据库、在日历上创建会议、发送邮件
- 执行计算: 调用计算器或代码解释器
-
框架与集成: Agent框架与应用栈
- 技术
- Agent框架 (LangChain, LlamaIndex) 它们是“粘合剂”,将大脑、记忆和工具这三个部分无缝地整合在一起,并管理复杂的交互逻辑(如思考-行动循环)
- 应用栈 (FastAPI, Vue) 这是Agent与用户交互的“外壳”,为Agent提供API接口或用户界面。
- 技术
Q2:‘Agent’ 的意思
Agent(智能体) 的意思是:
一个能够感知其环境、进行自主思考和规划,并采取行动以实现特定目标的智能系统
把它和简单的 “模型” 做个对比:
- 模型 (Model) 像vLLM,它是一个 “大脑” ,被动地等待输入,然后根据输入生成输出。它本身没有目标,也不会主动做任何事。它是一个强大的响应机器
- 智能体 (Agent) 是一个完整的执行者 它使用模型作为其大脑,但它还拥有记忆、工具和明确的目标。它会主动地思考:“为了完成用户的请求,我应该先查一下我的记忆,然后决定是直接回答,还是需要调用某个工具?”
简单来说,模型 “只会说”,而Agent是 “会做”的
Q3:‘Agent’ 的特点
基于上述定义,一个真正的AI Agent具备以下几个显著特点:
- 自主性 Agent可以在没有人类步步指导的情况下,独立地做出决策 例如,它能自主判断用户的模糊请求“帮我安排下周三的会议”需要执行“查询我的日历”、“查找空闲时间”、“发送会议邀请”等一系列动作
- 状态与记忆 这是它与无状态机器的根本区别 Agent会记录和利用历史交互信息,使得对话连贯且个性化。它知道 “我们上次聊到哪里了”
- 目标导向 Agent的行为不是随机的,而是为了完成一个或多个预设或即时的目标。所有的思考和行动都服务于最终的目标
- 反应性与交互性 Agent能够感知环境的变化(例如用户的新输入或工具的返回结果),并基于这些新信息调整其后续的行为。它工作在一个 “感知-思考-行动” 的循环中
- 可扩展性 通过为其增加新的工具,可以不断扩展Agent的能力范围,而无需重新训练其核心的LLM大脑
Q4:Agent的作用,能解决什么问题
Agent的作用是将AI从一个 “信息查询工具” 转变为一个 “自动化任务执行伙伴”,从而解决传统软件和简单聊天机器人无法解决的复杂问题
Agent能解决以下几个核心问题:
-
解决了“上下文断裂”和“失忆”问题
- 问题 传统的问答系统,每次对话都是一次”冷启动”,无法理解”那后来呢?“或 “你上次说的那个方法具体怎么做?”
- Agent的解决方案: 通过其记忆系统 (RAG),Agent可以检索历史对话,理解用户指代的上下文,实现真正自然、连贯的长期对话
-
解决了“知识局限”和“信息过时”问题
- 问题 LLM的知识有截止日期,且不知道你的个人信息或公司的私有数据
- Agent的解决方案 通过RAG连接外部知识库,或通过工具调用实时API,Agent可以随时获取最新的公开信息或访问授权的私有数据,从而提供准确、个性化的答案
-
解决了“知行分离”的问题
- 问题 聊天机器人只能 “说”,不能”做”。它能告诉你如何订机票,但不能帮你真的去订
- Agent的解决方案 通过工具使用,Agent可以将语言指令转化为实际的软件操作,完成订票、设置提醒、管理文件等任务,实现端到端的自动化
-
解决了“僵化流程自动化 (RPA)”的局限性
- 问题 传统的自动化脚本(RPA)只能处理固定、结构化的流程,一旦遇到预料之外的情况就会失败
- Agent的解决方案 Agent利用LLM的推理能力,能够理解非结构化的需求,并动态规划执行步骤。它能更灵活、更鲁棒地处理复杂的自动化任务,就像一个真正的人类助理
AI assistants are AI agents designed as applications or products to collaborate directly with users and perform tasks by understanding and responding to natural human language and inputs. They can reason and take action on the users’ behalf with their supervision.
AI assistants are often embedded in the product being used. A key characteristic is the interaction between the assistant and user through the different steps of the task. The assistant responds to requests or prompts from the user, and can recommend actions but decision-making is done by the user.
| AI agent | AI assistant | Bot | |
|---|---|---|---|
| 用途 | 自主、主动地执行任务 | 协助用户执行任务 | 自动执行简单任务或对话 |
| 功能 | 可以执行复杂的多步骤操作;学习和适应;可以独立做出决策 | 响应请求或提示;提供信息并完成简单任务;可以推荐操作,但决策由用户做出 | 遵循预定义的规则;有限的学习能力;基本互动 |
| 交互 | 主动;以目标为导向 | 被动;响应用户请求 | 被动;响应触发器或命令 |