MagicAgent – 荣耀联合复旦推出的智能体基础模型
MagicAgent是什么
MagicAgent是荣耀联合复旦大学推出的智能体基础模型,以32B密集架构和30B-A3B MoE架构实现百亿参数内最强性能。模型通过轻量级合成数据框架覆盖任务分解、工具规划、多约束调度等五大场景,采用”SFT+多目标强化学习”两阶段训练解决多任务冲突,创新提出χPO算法平衡探索与利用。模型在Worfbench、BFCL-v3等基准超越GPT-5.2、Kimi-K2等千亿级模型,是业界首个支持全场景泛化规划的智能体模型,已部署于荣耀Magic系列手机。

MagicAgent的主要功能
-
层次化任务分解:模型能将复杂用户指令拆解为可执行的子任务序列,支持多步骤依赖和并行执行。
-
工具增强规划:动态调用外部API和工具,通过推理-行动循环完成需要实时信息或外部能力的任务。
-
多约束调度:处理带有时空、资源等多重限制的计划制定,如行程规划和会议安排。
-
程序逻辑编排:模型能理解和执行具有条件分支、循环结构的工作流,维护任务间的复杂依赖关系。
-
长程工具执行:在数十轮交互中保持状态追踪,稳定完成需要多工具链式调用的长期任务。
MagicAgent的技术原理
- 合成数据生成:MagicAgent构建工具依赖图和参数共享图,定义原子计划作为最小语义单元,通过串接、聚合、分组等操作合成复杂轨迹,替代高成本的沙盒模拟,确保数据逻辑严谨且覆盖多样场景。
- 两阶段训练范式:第一阶段采用基于新颖性采样的监督微调,平衡多任务数据分布;第二阶段引入统一多目标奖励函数,将格式正确性与任务语义准确性结合,通过离线GRPO和在线χPO强化学习逐步提升泛化能力。
- χPO算法:算法针对稀疏奖励环境设计三层机制——token级熵正则化促进词汇多样性探索,思考-动作分离熵平滑允许推理阶段高不确定性而约束决策阶段,信息瓶颈则压缩冗余推理保留决策关键信息,实现探索与利用的动态平衡。
- MoE负载均衡:采用全局批次统计替代微批次约束,支持专家在任务维度自然分化;配合z-loss抑制路由logits极端值,解决多任务训练中的专家崩溃和参数闲置问题,保持推理效率与模型容量的解耦。
MagicAgent的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2602.19000
MagicAgent的应用场景
-
智能设备控制:用户用自然语言指令操控手机完成复杂操作,如”在美团订西湖边酒店并查找附近高分餐厅”,模型自动分解任务和调用相应App接口执行。
-
企业流程自动化:在客服场景中处理跨系统业务,如根据用户提供的订单号和退款原因,自动查询库存状态、验证支付信息、发起退款流程并同步通知用户。
-
个性化旅行规划:结合用户时间窗口、预算限制和偏好标签,自动生成满足”直飞航班、特定城市停留天数、连续行程”等多约束条件的完整行程方案。
-
多智能体任务编排:可作为中枢节点解析高层意图,将”筹备产品发布会”拆解为场地、物料、嘉宾等并行子任务,分发给专业智能体执行并整合结果。
-
长程交互决策:模型能在数十轮对话中持续追踪状态,处理如”先查航班,再订酒店,最后租车”的链式依赖任务,根据中间结果动态调整后续计划。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号