AI项目
LightOnOCR-2-1B – LightOnAI推出的OCR模型
LightOnOCR-2-1B 是 LightOnAI 推出的高效 OCR 模型,参数量仅 1B,在复杂文档处理中表现卓越,擅长学术论文、数学公式和复杂表格的识别。
VibeVoice-ASR – 微软开源的长音频语音识别模型
VibeVoice-ASR 是微软开源的先进语音识别模型,专为处理长达60分钟的长音频设计。模型能一次性处理整段音频,保持全局上下文,避免传统模型分段处理导致的上下文丢失。
Model1 – DeepSeek代码库更新的新模型版本
Model1 是 DeepSeek 在 FlashMLA 代码库中更新曝光的神秘模型,可能为下一代旗舰模型 DeepSeek-V4 的内部代号或首个工程版本。
Chroma 1.0 – FlashLabs开源的实时端到端语音对话模型
Chroma 1.0 是FlashLabs首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。模型通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略,实现亚秒级延迟输出。
EmbodiChain – 跨维智能开源的具身智能学习平台
EmbodiChain 是跨维智能开源的具身智能学习平台,通过生成式仿真数据推动具身智能的发展。自动创建符合物理规律的 3D 场景和任务,结合在线数据流和自我修复机制,高效生成高质量训练数据。核心模块包括生成式仿真、数据扩增、Sim2Real 转移等,支持从仿真到真实世界的无缝迁移。
json-render – Vercel开源的AI生成UI渲染可控方案
json-render是 Vercel 开源的项目,解决 AI 生成 UI 的不可控问题。json-render通过定义一个 Catalog,约束 AI 只能生成符合特定 Schema 的 JSON 数据,用前端组件库将 JSON 渲染为 UI。核心机制包括 Catalog 定义、流式渲染和反向生成源码,支持实时反馈和高效开发。
x-Algorithm – 马斯克开源的x平台推荐算法
x-Algorithm是马斯克开源的x平台推荐算法,为“为你”信息流提供个性化内容的核心系统。结合用户关注账号的帖子(In-Network)和通过机器学习检索的全球内容(Out-of-Network),利用基于Grok的Transformer模型进行综合排序。
塔塔疗愈所 – Soul推出的AI情绪服务应用
塔塔疗愈所是Soul推出的AI情绪服务小程序。应用通过塔罗占卜和趣味心理测试等功能,帮助用户更好地理解和管理自己的情绪。提供互动分享,让用户分享自己的情绪。适合想要提升自我认知和情绪健康的人群,是个人成长和心理健康教育工具。
PersonaPlex – 英伟达推出的全双工语音对语音AI模型
NVIDIA PersonaPlex 是英伟达推出的全双工对话AI模型,具备同时听和说的能力,能处理自然对话中的打断、停顿和回应。用户可通过语音和文本提示自定义角色和声音,让 AI 扮演从智慧助手到客服人员的多种角色。
GLM-4.7-Flash – 智谱开源的混合思考模型
GLM-4.7-Flash 是智谱开源、免费的混合思考模型,具有300亿参数和30亿激活参数。模型在性能与效率上达到平衡,尤其在编程、中文写作、翻译等多场景表现出色,综合性能超越同类开源模型。
VerseCrafter – 复旦联合腾讯开源的动态真实视频世界模型
VerseCrafter 是复旦大学与腾讯 PCG ARC Lab 等机构推出的动态真实视频世界模型,具备 4D 几何控制能力。模型基于大规模真实世界数据集 VerseControl4D 训练,能处理复杂动态场景,保持强时空一致性。
AudioPod AI – AI音频处理工具,提供创作和编辑综合服务
AudioPod AI 是综合性的 AI 音频处理工具,专注于提升音频创作和编辑的效率与质量。具备强大的语音克隆功能,仅需5秒音频样本即可生成自然语音,支持多种语言和多说话者场景,广泛应用于播客、视频配音等领域。
NovaSR – 开源音频超分模型,能将低音质转换为高音质音频
NovaSR 是开源的音频超分辨率模型,仅有 52KB 能将 16kHz 的低采样率音频(如电话音质)提升到 48kHz 的高采样率音频(如录音室级音质)。模型通过神经网络预测并生成高频信息,实现音质的显著改善。
Playwriter – 开源AI浏览器自动化工具,人机协作无缝切换
Playwriter 是开源的 Chrome 插件,基于微软 Playwright 打造,专为 AI 操作浏览器设计。工具通过插件形式无缝接入 Chrome,将 AI 的能力直接嵌入用户的浏览器环境中,让 AI 能像人类一样直接操作网页。
FrogBoss – 微软开源的系列编程模型
FrogBoss 是微软研究院推出的系列编程模型。模型通过创新的复杂漏洞生成方法(BugPilot)进行训练,该方法通过让语言模型代理(LLM)在代码库中添加新功能来无意中引入漏洞,生成更具挑战性和多样性的训练数据。
Prompt Manager – 开源AI提示词管理工具,智能分类
Prompt Manager (PromptX)是高效管理 AI 提示词的工具,专为提升 AI 工作效率设计。工具支持个人提示词的创建、编辑、分类和版本管理。通过智能分类和全局搜索功能,用户能快速找到所需提示词。
OpenWork – 开源AI桌面工作流平台,Claude Cowork平替
OpenWork 是开源的桌面应用程序,为知识工作者提供类似 “Claude Cowork” 风格的工作流程。OpenWork 基于 OpenCode构建,提供简洁的引导式操作界面。
星火教师助手 – 科大讯飞推出的AI备课工具
星火教师助手是科大讯飞基于星火认知大模型推出的AI备课工具,能简化教师的备课流程,提升教学效率,为教师提供个性化的教学资源和设计支持。工
TranslateGemma – 谷歌开源的系列翻译模型
TranslateGemma 是谷歌推出的基于 Gemma 3 的新一代开源系列翻译模型。模型通过监督微调和强化学习相结合的方式,支持 55 种语言的高质量翻译,显著提升翻译准确性和效率。
FLUX.2 [klein] – Black Forest Labs开源的图像生成模型
FLUX.2 [klein] 是 Black Forest Labs 开源的高效图像生成与编辑模型。模型具备亚秒级推理速度,能在 0.5 秒内完成高质量图像生成和编辑,支持文生图、图生图及多参考生成。
粤公网安备 123456789号