AI框架
Devstral 2 – Mistral AI开源的新一代编程模型系列
Devstral 2 是 Mistral AI 推出的新一代开源编程模型系列,包含 123B 参数的 Devstral 2 和 24B 参数的 Devstral Small 2。Devstral 2 拥有 256K 上下文窗口,SWE-bench 验证准确率高达 72.2%,性能卓越且成本高效,支持跨文件探索、架构级推理和自动修正等功能,适合企业级开发。
GLM-ASR – 智谱开源的语音识别系列模型
GLM-ASR是智谱AI推出的系列语音识别模型,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语种、多口音,字符错误率仅为0.0717。
Alpamayo-R1 – 英伟达推出带推理的视觉-语言-动作模型
Alpamayo-R1(AR1)是英伟达推出的视觉-语言-动作(VLA)模型,通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括:构建因果链(CoC)数据集,通过“人机协同+自动标注”生成高质量的推理轨迹
GELab-Zero – 阶跃星辰开源的 GUI Agent 模型
GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型,专注于移动设备的自动化交互和任务执行。具备本地可部署能力,支持在消费级硬件上运行 4B 模型,确保低延迟和隐私保护。GELab-Zero 提供一键多终端部署,自动处理环境依赖和设备管理,支持分布式任务编排和多模态 Agent 模式,能灵活处理复杂任务。
HunyuanOCR – 腾讯混元推出的端到端OCR视觉语言模型
HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构,仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构,单指令单推理即可输出最优结果,相比传统级联方案更便捷高效。
Fara-7B – 微软开源的小型计算机Agentic模型
Fara-7B 是微软开源的专注于计算机使用的代理型小语言模型(SLM)。模型通过视觉感知网页,操作鼠标、键盘等界面元素来帮助用户完成任务,如填写表单、搜索信息或预订行程。
Teammates – 育碧推出的可交互生成式AI游戏项目
Teammates是育碧基于生成式AI技术推出的AI队友项目,能为玩家提供更具沉浸感和真实感的游戏体验。玩家能通过语音实时指挥AI队友,如“帕布罗,掩护我”或“索菲亚,攻击敌人”,AI队友根据指令和战场环境做出相应行动,如射击、掩护、跟随等。
GPT-5.1-Codex-Max – OpenAI推出的智能编程模型
GPT-5.1-Codex-Max 是 OpenAI 推出的智能编程模型,专为复杂、长周期的开发任务设计。模型基于更新的推理架构,通过“压缩”技术跨越多个上下文窗口,能处理数百万 tokens 的大规模任务,如项目级重构和深度调试。
OpenNof1 – 开源的AI自主交易系统,实时交易监控
OpenNof1 是 AI 自主交易系统,支持为用户提供自动化交易决策和风险管理。OpenNof1支持多种 AI 提供商(如 OpenAI、DeepSeek 等),能通过实时市场数据处理和极简主义界面,帮助用户在币安合约等平台上进行交易。
KaLM-Embedding – 腾讯推出的文本嵌入模型系列
KaLM-Embedding 是腾讯团队推出的一系列高性能文本嵌入模型,通过先进的训练技术和高质量数据提升文本嵌入的性能。最新版本 KaLM-Embedding-V2 在架构和训练方法上进行了多项创新,例如移除因果注意力掩码以实现双向表示学习
NocoBase – 开源AI无代码开发平台,通过配置完成应用开发
NocoBase 是开源、数据优先的AI无代码或低代码平台。以微内核+插件化为核心,所有功能(权限、工作流、API、主题等)均可按需插拔,支持 Node.js 与主流数据库。开发者先建模,系统自动生成表结构与接口;再配合可视化页面设计器,拖拽区块即可搭出复杂后台。
OmniVinci – NVIDIA推出的全模态大语言模型
OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Grouping机制解决时序同步问题,采用Constrained Rotary Time Embedding优化时间感知能力。
UNO-Bench – 美团LongCat推出的全模态大模型评测基准
UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足,通过高质量、多样化的数据构建,精准衡量模型的单模态与全模态能力。
Kosmos – FutureHouse 推出的AI科学家系统
Kosmos 是新一代 AI 科学家,由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型,能高效整合海量信息,单次运行可解析 1500 篇论文、执行 42000 行代码,处理规模远超同类系统。
SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型
SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态(omni-modal)嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题,通过支持任意模态输入(包括文本、视觉和音频),生成统一且信息丰富的表示,支持多模态检索和分类任务。
BettaFish – 开源的多Agent舆情分析系统,自动采集、分析
BettaFish(微舆) 是开源的多智能体舆情分析系统,能帮助用户快速了解公众对事件、品牌或产品的看法。系统通过自然语言驱动,用户只需像聊天一样提出需求,系统能自动完成全网舆情的采集、分析和预测。
LTX-2 – Lightricks推出的电影级AI视频生成模型
LTX-2 是 Lightricks 开发的先进 AI 视频生成模型,专为高质量视频创作设计。能以原生 4K 分辨率和 50fps 的帧率生成电影级视频,支持多模态输入,包括文字、图片和草图,同时提供精细控制功能,可调节镜头角度、物体动作、时间节奏等。
Sonic-3 – Cartesia推出的实时语音对话模型
Sonic-3是Cartesia最新发布的语音AI引擎,是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”(SSM)架构,非传统的Transformer模型,能更有效地模拟人类思维,记住对话主题和情绪,无需每次都从头分析上下文。
Glyph – 智谱联合清华开源的视觉文本压缩框架
Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架,能通过视觉 - 文本压缩解决大语言模型(LLM)上下文过长的问题。框架将长文本渲染为图像,用视觉语言模型(VLM)处理图像,实现 3 - 4 倍的上下文压缩。
Nof1.ai交易提示词 – 为AI交易系统设计的模板
Nof1.ai交易提示词是为AI交易系统设计的详细输入模板,提供全面的市场数据、技术指标和账户信息。提示词包括多个币种的当前价格、EMA、MACD、RSI等指标,及账户的持仓详情和性能指标。
粤公网安备 123456789号