AI框架
Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将操作、导航、轨迹预测三大任务统一到同一模型;借助本体感知提示条件化,仅需修改文本描述即可适配 11 种机器人平台。
Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列
Fara1.5是微软研究院 AI Frontiers 实验室最新推出的浏览器端AI智能体(CUA)模型系列,包含 4B、9B、27B 三个参数版本。模型基于 Qwen3.5 微调,采用纯像素级截图输入,通过观察—思考—行动循环输出鼠标与键盘操作,在 Online-Mind2Web 基准上 27B 版本任务成功率达 72%,超越 OpenAI Operator 与 Gemini 2.5 Comput
CodeGraph – 开源代码知识图谱工具,加速代码理解和分析
CodeGraph 是面向 AI 编码代理的预索引代码知识图谱工具,通过 MCP 协议与 Claude Code、Cursor、Codex CLI、OpenCode 及 Hermes Agent 深度集成。利用 tree-sitter 解析代码库,将符号关系、调用图和代码结构存储在本地 SQLite 数据库中,让 AI 代理能通过图谱查询直接定位代码,替代传统的 grep/glob/Read 文件
Xiaomi OneVL – 小米具身智能团队开源的自动驾驶大模型
Xiaomi OneVL是小米具身智能团队推出的开源自动驾驶大模型,在业内首次将VLA视觉-语言-动作、世界模型与潜空间推理三大技术路线统一于单一框架。
WinClaw龙虾深度体验 – 附永久免费 Token 领取攻略
AI 时代大家最缺的资源不外乎就是 Token 了,特别是玩龙虾的,烧起 Token 来就像流水一样,根本就停不下来。
StepAudio 2.5 Realtime – 阶跃星辰推出的实时语音大模型
StepAudio 2.5 Realtime 是阶跃星辰推出的端到端实时语音大模型,主打真人级语音对话体验。模型支持内容层面的深度交互,在声音表现力上完全贴近真人,具备顶级副语言能力、千万人设自定义和对话双商领跑三大核心突破。
Realtime TTS-2 – Inworld AI 推出的实时语音合成模型
Realtime TTS-2 是 Inworld AI 推出的新一代实时语音合成模型,专为对话式 AI 场景打造。模型能将文本转为自然语音,更能"听懂"对话上下文的音频情绪、语调和节奏,实现多轮感知式语音合成。
Grok Voice Think Fast 1.0 – xAI 推出的语音智能体模型
Grok Voice Think Fast 1.0是xAI推出的旗舰级语音智能体模型,专攻复杂多步骤真实场景。模型在τ-voice Bench排名第一,支持25种语言与全双工对话,具备低延迟响应、实时后台推理及多工具编排能力,可精准处理地址电话等结构化数据录入。
DeepSeek-TUI – 开源终端编程智能体,适配DeepSeek V4
DeepSeek-TUI 是完全运行在终端中的编程智能体,由 Hayden Brown 基于 Rust 构建,专为 DeepSeek V4 系列模型(deepseek-v4-pro / deepseek-v4-flash)原生设计。
GPT-5.5 Instant – OpenAI 推出的 ChatGPT 新一代默认模型
GPT-5.5 Instant是OpenAI发布的ChatGPT新一代默认模型,取代GPT-5.3 Instant,免费向所有用户开放。模型融合5.5的基础智力与极速响应,高风险领域幻觉减少52.5%,回答更简洁(字数减30%)、语气更自然。
Vibe-Trading – HKUDS 开源的 AI 多智能体金融工作空间
Vibe-Trading 是香港大学数据科学实验室(HKUDS)开源的AI驱动多智能体金融工作空间,将自然语言指令转化为可执行的交易策略、研究洞察和组合分析。项目覆盖A股、港股/美股、加密货币、期货、外汇等全球市场,内置6大数据源与自动降级机制,多数基础数据无需API Key即可使用。
Qwen-Scope – 阿里通义开源的大模型可解释性工具套件
Qwen-Scope 是阿里通义千问团队开源的大模型可解释性工具套件,基于稀疏自编码器(SAE)技术,在 Qwen3/Qwen3.5 系列模型隐藏层提取可解释特征。
Nemotron 3 Nano Omni – 英伟达推出的多模态推理模型
Nemotron 3 Nano Omni 是 NVIDIA Nemotron 3 模型系列,是专为 Agent 系统设计的开源高效多模态推理模型。模型采用 30B-A3B 混合 MoE 架构,将视觉、音频、文本感知统一至单一模型,替代传统的碎片化多模型堆栈,在文档智能、视频理解、音频理解等基准测试中达到领先水平。
EAPO – 阿里通义推出的全新强化学习框架
EAPO是阿里通义实验室推出的长文本推理强化学习框架,通过引入"证据奖励"机制,将监督信号从最终答案下沉到证据提取过程。
GoSkill – 开源的长任务推进工具,内置重试循环与状态追踪
GoSkill 是面向长任务与复杂任务的推进工具。工具通过装饰器或类方式封装任务,将"一次性 Skill 调用"升级为"围绕目标持续推进,直到满足成功标准或超时"的执行模式。
Claude Design系统提示词 – Anthropic 推出的完整核心提示词
Claude Design系统提示词是Anthropic为Claude在Design模式下设定的核心指令文件,由安全研究员Pliny泄露至GitHub。
MiMo-V2.5 – 小米推出的全模态 Agent 大模型系列
MiMo-V2.5 是小米大模型团队推出的新一代全模态 Agent 大模型系列,包含 V2.5、V2.5-Pro、V2.5-TTS 及 V2.5-ASR 四个版本。
buffett-skills – 开源Claude Code Skill合集,复现巴菲特决策
buffett-skills 是开源 Claude Code Skill 合集,基于巴菲特完整投资框架构建。buffett-skills 将巴菲特股东信语料库中 49 个核心概念提炼为 8 个参考文件,通过渐进式加载与三条执行路径(快速筛选、深度分析、专题问答)。
OpenGame – 港中文开源的端到端网页游戏智能体框架
OpenGame 是香港中文大学 MMLab 开源的首个端到端网页游戏智能体框架,通过自然语言提示自动生成可玩的网页游戏。
ClawLess – 南方科技大学等推出的AI Agent安全框架
ClawLess 是南方科技大学与香港科技大学联合推出的 AI Agent 安全框架。框架基于"最坏情况"威胁模型,通过形式化验证的安全策略与 BPF 系统调用拦截技术,为 OpenClaw、Claude Code 等自主智能体提供数学级安全保障。
粤公网安备 123456789号