AI框架
Wan-Streamer – 阿里开源的实时全双工多模态基础模型
Wan-Streamer 是阿里达摩院开源的端到端实时全双工多模态基础模型,通过统一因果 Transformer 架构将文本、音频、视频的输入输出 token 整合为同一条因果序列,实现亚秒级实时双向视频交互,模型响应延迟仅 200ms。
Ornith-1.0 – DeepReinforce 开源的 Agentic 编程系列模型
Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列,模型基于 Gemma 4 与 Qwen 3.5 预训练基座,采用自改进训练框架,在代码生成与软件工程基准上达到同级别开源模型的 SOTA 水平。
JoyAI-VL-Interaction – 京东开源的实时视频视觉语言交互模型
JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型,是全球首个全栈开源的 interaction 模型系统。
Baichuan-M4 – 百川智能联合清华推出的医疗增强模型
Baichuan-M4是百川智能联合清华大学推出的新一代医疗增强大模型,在 HealthBench 综合、Hard、Professional 三个权威榜单同时位列世界第一,幻觉率低至 3.3% 为全行业最低。Baichuan-M4 突破通用大模型被动应答的局限。
豆包音频生成模型1.0 – 火山引擎推出的端到端音频创作模型
豆包音频生成模型1.0是火山引擎推出的端到端音频创作模型,支持文本或音频作为参考输入生成目标音频。模型单条Prompt可编排多角色对白、情绪语气、背景音乐与环境氛围,直接产出具备叙事张力的完整音频作品,无需后期多轨混音。
Unlimited-OCR – 百度开源的端到端长文档 OCR 模型
Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数,实现单次前向转录数十页文档。
Seedance 2.5 – 字节跳动推出的最新视频生成模型
Seedance 2.5 是字节跳动旗下豆包视频生成模型的最新旗舰版本,预计 7 月初全面上线。作为 Seedance 2.0 的重大升级,模型实现了三大全球突破,单段原生视频直出长达 30 秒、支持 50 个全模态参考素材联合输入、以及更可控的局部视频编辑能力。
Spatial-TTT – 清华联合混元开源的流式视觉空间智能框架
Spatial-TTT 是清华大学、腾讯混元与南洋理工大学联合推出的流式视觉空间智能框架。框架仅 2B 参数,通过 Test-Time Training(TTT)技术,在观看视频流的过程中持续更新内部空间记忆,实现对长达 120 分钟视频的空间推理。
AudioX-Turbo – Noiz AI 联合清华推出的音频生成框架
AudioX-Turbo 是 Noiz AI 联合香港科技大学、清华大学推出的统一高效音频生成框架,支持文本、视频、音频任意组合输入生成高质量音效与音乐。
Sakana Fugu – Sakana AI 推出的多智能体编排系统
Sakana Fugu是Sakana AI推出的多智能体编排系统,用单一API动态调度顶尖模型。系统分配思考者、执行者与验证者角色,自动完成选择、委派与合成,无需预设工作流。
Agently Mail – 腾讯QQ邮箱推出的AI Agent专属邮箱服务
Agently Mail 是腾讯QQ邮箱团推出的AI Agent专属邮箱服务,与个人邮箱完全隔离,原生适配Agent框架。Agent可通过微信扫码授权获得独立邮箱地址,安全地收发邮件、管理附件、搜索邮件,支持两阶段确认机制防止误操作。
Image-to-LoRA-V2 – 魔搭社区开源的免训练风格迁移工具
Image-to-LoRA-V2(i2L-V2)是魔搭社区开源的免训练风格迁移工具。上传1-8张风格图,一次推理预测文生图模型的LoRA权重。
Qwen-Robot Suite – 阿里通义推出的物理世界基础模型套件
Qwen-Robot Suite 是阿里通义推出的迈向物理世界智能的基础模型套件,包含 Qwen-RobotNav(导航)、Qwen-RobotManip(操作)与 Qwen-RobotWorld(世界模型)三大基础模型。
OpenSquilla – 开源的微内核 AI Agent 框架,可降低Token成本
OpenSquilla是开源、可自托管的Token高效型微内核AI Agent运行时,主打"同样的预算,更高的智能密度"。采用极简微内核架构(核心仅约100行代码),通过本地ML模型路由、自适应推理深度、四层认知记忆系统和按需技能加载,可将Token成本降低60-80%。
HiDream-O1-Image-1.5 – 智象未来推出的商用图像生成模型
HiDream-O1-Image-1.5 是智象未来推出的商用图像生成大模型,基于原生全模态 UiT 架构。在 Artificial Analysis 文生图榜单中用 ELO 1265 位列全球第三、中国第一,超越 Google Nano Banana 2 与字节 Seedream 4.0。
MusaCoder – 摩尔线程开源的专用代码模型
MusaCoder是摩尔线程开源的面向GPU底层算子生成的专用代码大模型,支持从PyTorch算子自动生成高性能CUDA/MUSA Kernel。
Gemma 4 12B – 谷歌开源的多模态大模型
Gemma 4 12B是谷歌开源的多模态大模型,采用业界首个无编码器统一架构,视觉和音频数据直接输入LLM主干,彻底砍掉独立编码器。
Toonflow – 开源的一站式 AI 短剧创作工具
Toonflow 是开源的一站式 AI 短剧创作工具,将小说、剧本通过多 Agent 协作自动转化为结构化剧本、智能分镜、角色视觉和动画视频,实现小说→剧本→分镜→视频,全流程 AI 自动化生产。
Odysseus – 开源的本地自托管 AI 工作空间
Odysseus 是开源自托管的 AI 工作空间,提供类似 ChatGPT / Claude 的聊天界面,工具完全本地化运行,数据不出本机、隐私零泄露。
MAI-Voice-2 – 微软推出的新一代文本转语音模型
MAI-Voice-2 是微软推出的新一代文本转语音(TTS)模型,是微软迄今最具表现力和自然感的语音合成模型。相比前代在保真度、语言覆盖、说话人一致性和情感范围上全面提升,支持 15+ 种语言,具备细粒度情感控制、零样本语音克隆和代码切换能力。
粤公网安备 123456789号