AI智能体 | 实战匠坊

AIAgent认知再升级:包含AIAgent能力组成、能力基石、Agents开发全流程、智能体的可控性、重构建立竞争壁垒、AI Agent 与 AI Workflow、大模型出现之前的Agent、基于大模型AIAgent不同自动化程度所需要的能力、从应用到智能体服务的升维、产业生态完善、产业重构

查看基础认知：https://t.zsxq.com/BodiO

第一部分：智能体项目

第二部分：复现智能体

250530-阿里开源了自主搜索AI Agent——WebAgent【调试中】：

第三部分：Agent框架

1、AutoGPT

基于OpenAI LLM的自定义AI代理工具包，功能强大，GitHub上受欢迎。https://github.com/Significant-Gravitas/AutoGPT

2、ChatDev

可重塑软件开发的智能体协作框架

虚拟软件公司框架，多智能体协作完成软件开发任务。

https://github.com/OpenBMB/ChatDev

https://diyai.cn/noteImgs/1743346213.png

是什么

核心特性围绕多角色协作、流程分解与优化机制展开，尤其在解决代码生成中的“幻觉”问题和提升开发效率方面具有创新性
将开发流程划分为设计、编码、测试、文档化四个阶段

项目地址：https://github.com/OpenBMB/ChatDev.git

使用方法

shell

# 克隆代码仓库
git clone https://github.com/OpenBMB/ChatDev.git

# 配置Python环境
conda create -n ChatDev_conda_env python=3.9 -y
conda activate ChatDev_conda_env

# 安装依赖项
cd ChatDev
pip install -r requirements.txt

# 设置大模型密钥
export OPENAI_API_KEY="your_api_key"

# 运行
python run.py --task "设计一个2048游戏" --name "2048Game" --org "diyai.cn"

进阶使用

自定义角色与流程：修改配置文件CompanyConfig，调整智能体职责或开发流程。

可视化工具：通过日志回放功能分析开发过程

ChatDev不仅解决了传统LLM在软件开发中的随机性和代码幻觉问题，还为自动化开发提供了高效、低成本的解决方案。

其局限性主要在于复杂任务（如大规模系统开发）仍需人工调试，但对中小型项目已展现出显著优势

3、LangChain

强大的工作流自动化框架，支持复杂任务的模块化构建和多LLM集成。

https://github.com/langchain-ai/langchain

LangGraph

基于图的工作流框架，适合复杂任务的有状态管理和顺序执行。

https://github.com/langchain-ai/langgraph

4、AutoGen

微软开源框架，支持多智能体协同工作，简化智能体通信。

https://github.com/microsoft/autogen

5、MetaGPT

模仿软件公司结构，智能体分配角色协作完成编码任务。

https://github.com/geekan/MetaGPT

6、BabyAGI

任务驱动型智能体，代码简洁，可扩展性强，支持多种平台和插件。

https://github.com/yoheinakajima/babyagi

7、SuperAGI

灵活的开源AI智能体框架，支持多模型、GUI、矢量数据库集成和性能洞察。

https://github.com/TransformerOptimus/SuperAGI

8、ShortGPT

专注于视频内容创作，可生成脚本、画外音、音乐、标题等。

https://github.com/RayVentura/ShortGPT

9、Camel

多智能体框架，基于角色扮演设计，动态分配任务，促进智能体协作。

https://github.com/camel-ai/camel

10、LoopGPT

AutoGPT迭代版本，支持GPT-3.5，改进集成和自定义功能，成本低。

https://github.com/farizrahman4u/loopgpt

11、JARVIS

使用ChatGPT作为决策引擎，结合HuggingFace模型，灵活处理多种任务。

https://github.com/microsoft/JARVIS

12、OpenAGI

开源AGI研究平台，结合专家模型和任务反馈强化学习，动态选择工具。

https://github.com/agiresearch/OpenAGI

13、CrewAI

角色驱动的协作框架，支持快速原型开发，适合轻量级团队协作任务。

基于LangChain设计，可直接使用LangChain提供的丰富工具和资源

https://github.com/crewAIInc/crewAI

14、Microsoft Semantic Kernel

企业级框架，集成知识图谱和多模态记忆，适合跨系统决策。

https://github.com/microsoft/semantic-kernel

15、OpenAI Swarm

基于蜂群理念的框架，支持高度灵活的交互模式，适合快速验证项目。

https://github.com/openai/swarm

16、Magentic-One

预装多种专用Agent，开箱即用性强，适合标准化任务

https://github.com/jackmpcollins/magentic

17、Archon

开源框架，支持智能体自主构建、多智能体协作和领域知识集成。

https://github.com/coleam00/Archon

18、OmAgent

创新性框架，支持多模态输入输出，适合复杂任务处理和多模态应用。

https://github.com/om-ai-lab/OmAgent# Agent框架集锦

19、AutoGLM 沉思

具体使用方法详见

20、字节-Agent TARS

Agent TARS是由字节跳动开源的一个智能代理框架，旨在通过视觉解释网页，无缝集成命令行和文件系统，从而彻底改变GUI交互

官网: https://agent-tars.com/

Agent TARS基于视觉-语言模型（Vision-Language Model），使得用户可以通过简单的语言指令来控制和管理计算机任务‌12。

UI-TARS-desktop

21、低代码框架-Coze

22、低代码框架-Dify

23、低代码框架-LangFlow

使用方法详见

第四部分： MCP与A2A

A2A协议和MCP协议都是为了促进人工智能（AI）系统之间的互操作性和协作而设计的开放协议，但它们关注的方面有所不同。

MCP更多关注于单个AI模型如何更好地与外部世界交互，比如数据库或API调用；

A2A则侧重于不同Agent间的协调与合作，使得复杂的任务可以通过多个代理的合作来完成

SuperAgent

8个智能体完成儿童剧本制作

通过一个“多智能体协同作战”的架构，在中国品牌出海的多个关键场景中实现了落地，解决了全球化营销的复杂性问题

SuperAgent的技术架构

是一个集规划、协同、执行、进化于一体，并建立在统一数据底座之上的智能体协作系统

1、接入了多个外部工具和API，形成了强大的工具生态。各Agent可以根据任务需要，灵活调用这些工具来执行具体操作

2、一个总控的策略大脑在接收到复杂目标后，会进行智能规划，将任务拆解，然后调度、协同多个专业Agent并行工作，并在执行中根据反馈进行闭环迭代

3、它通过全域数据中枢整合来自广告平台、社交媒体、电商网站等跨渠道数据，解决数据割裂问题，为所有上层应用提供统一的认知基础

4、具备持续进化能力。它通过内置的效果评测体系，对每一次任务执行的结果进行评估和反馈，从而不断优化自身的策略规划和协作能力，实现“越用越聪明”

SuperAgent与传统Agent的核心区别，可以从架构模式和能力标准两个维度来理解，实现了一种“从单体智能到群体智能”、“从线性逻辑到五维进化”的质变。

一个真正的SuperAgent，必须具备 “S.U.P.E.R”五维进化能力，这也是我们衡量其是否“超级”的核心标尺：Symbiotic 生态力、Universal 覆盖力、Production 创造力、Evolution 生命力、Reasoning 决策力。

生态力 (Symbiotic)：与媒体、平台、伙伴共建生态。

覆盖力 (Universal)：覆盖全球市场与全链路场景。

创造力 (Production)：驱动营销创意生成与优化。

生命力 (Evolution)：具备闭环迭代、自我优化的能力。

决策力 (Reasoning)：基于数据和认知进行智能规划与决策。