Workflow
机器之心
icon
搜索文档
庞若鸣交班陈智峰,苹果发布2025基础模型技术报告
机器之心· 2025-07-18 16:18
Apple Intelligence 技术报告核心内容 - 公司发布2025年Apple Intelligence基础语言模型技术报告,详细介绍新一代模型的技术细节[2][4] - 报告由前苹果AI负责人庞若鸣通过推文介绍,发布后其将工作交接给新任负责人陈智峰和Mengyu Li[3][24][26] - 技术进展遵循"负责任的人工智能"理念,通过内容过滤和私有云计算保障用户隐私[23] 模型架构创新 - 推出两种多语言多模态基础语言模型:3B参数设备端模型和云端PT-MoE模型[6] - PT Transformer架构创新性地采用轨道并行设计,将模型划分为多个小型Transformer模块,同步开销降低87.5%(当D=4时)[8][12] - 云端PT-MoE架构结合轨道并行和专家混合层,实现高效扩展和低延迟[8] - 设备端模型通过KV缓存共享和2位量化感知训练优化苹果自有芯片性能[6] 视觉理解能力 - 引入视觉编码器实现图像理解能力,包含视觉主干和视觉语言适应模块[9] - 服务器模型采用10亿参数ViT-g视觉主干,设备端采用3亿参数ViTDet-L主干[10] - 设备端视觉主干创新性引入注册窗口机制,有效整合局部细节与全局上下文[10] 模型训练与性能 - 模型通过负责任的网络爬取、授权语料库和高质量合成数据集进行训练[7] - 支持多种新增语言,具备图像理解和工具调用能力[7] - 端云协同设计:设备端优化低延迟推理,云端专注复杂任务高精度处理[11] 开发者工具 - 推出Swift核心基础模型框架,集成引导生成、约束式工具调用和LoRA适配器微调功能[21] - 开发者可通过30亿参数设备端模型快速构建生成式AI功能,适用于多种文本任务[22] - 框架针对实用功能优化,不建议用于通用知识问答场景[22] 团队变动 - AI团队负责人变更为陈智峰和Mengyu Li,管理架构将更加分散[24][26] - 新任负责人陈智峰具有谷歌TensorFlow、Gemini等重要项目经验[27]
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心· 2025-07-18 16:18
核心观点 - PresentAgent是一个能将长篇文档转化为带解说的多模态演示视频的智能体,突破了现有静态幻灯片或文本摘要的局限,生成高度同步的视觉内容和语音解说,模拟人类风格演示[1][9] - 系统通过模块化流程实现文档到视频的转化,包括文档分段、幻灯片生成、语音解说合成及音视同步对齐[3][17] - 提出首个文档到演示视频生成任务,并构建包含30对文档-视频样本的高质量评测数据集Doc2Present Benchmark[12][21] - 开发统一评估框架PresentEval,通过视觉语言模型从内容忠实度、视觉清晰度和观众理解度三个维度评分[6][14] - 实验显示PresentAgent在多项指标上接近人类水平,部分模型如Claude-3.7-sonnet测验准确率达0.64,GPT-4o-Mini视频内容评分达4.8[22][25][26] 技术架构 - **文档处理阶段**:对输入文档进行语义分段和提纲生成,支持论文、网页、PDF等多种格式[17][19] - **幻灯片生成**:检索最佳模板,利用视觉语言模型生成布局感知的幻灯片,包含结构化内容如技术解释、系统架构等[17][29] - **语音合成**:通过大型语言模型生成上下文解说文稿,经TTS转换为音频,并与视觉内容精确同步[3][23] - **评估模块**:采用分段策略,结合客观测验(Qwen-VL-2.5-3B)和主观评分(Qwen-Omni-7B)[24] 实验结果 - **测验准确率**:Claude-3.7-sonnet以0.64超过人类基准(0.56),其他模型如Qwen-VL-Max和Gemini-2.5-pro均为0.52[22][25] - **视频质量**:人类参考视频平均分4.47,GPT-4o-Mini达4.67,Gemini-2.5-flash视觉单项满分5.0但理解性仅3.8[22][26][27] - **音频质量**:人类基准4.80,Claude-3.7-sonnet和Qwen-VL-Max分别达4.53和4.60[22][26] 应用场景 - 支持商业报告、产品手册、政策简报、教程类文档等多领域长文本的自动化视频转化[12][13] - 案例显示技术博客可被转化为包含并行化工作流、代理系统架构等专业主题的解说视频[29] 资源信息 - 论文及代码已公开,标题为《PresentAgent: Multimodal Agent for Presentation Video Generation》[8]
ICCV2025 | One image is all you need,多模态指令数据合成,你只管给图,剩下的交给Oasis
机器之心· 2025-07-18 11:14
多模态指令数据合成方法Oasis - 核心观点:提出一种新型多模态指令数据合成方法Oasis,仅需用户提供图片即可自动完成指令合成、质量控制和回复生成,显著降低人工成本并提升数据多样性[1][6][21] - 方法优势:打破依赖预设文本提示词的传统模式,利用图像输入诱导MLLM自主生成多样化指令,完全无需人工前置文本提示[6][14][15] - 质量控制:设计四维度筛选标准(可解性/清晰度/幻觉程度/无意义性),高质量指令接受率为50.9%[19][49][50] 技术流程 - 三步法:构造钩子提示词诱导自回归采样→LLM分类保留指令型数据→质量控制与回复生成[11][16][18] - 分类机制:采样结果分为指令型(保留)和描述型(舍弃),通过率为49.9%[15][16][46] - 垂域合成:基于OCR相关图片合成70k垂域数据,在OCR任务benchmark上提升显著[43] 数据特性 - 规模与扩展性:基于Cambrian-10M图片合成500k训练数据(Oasis-500k),数据量可线性增长[21] - 语言多样性:覆盖英文(78.52%)、中文(18.66%)及多种小语种[27] - 任务多样性:指令平均长度76.8(LLaVA-NeXT为55.03),动词-名词组合覆盖更广[24][28][33] 性能验证 - 基准测试:在14个benchmark上平均提升Vicuna1.5/Qwen2.5/Llama3模型性能3.1%/1.8%/3.2%[36][38] - 增量实验:500k Oasis数据使LLaVA-100k模型性能提升5.2%,300k→500k阶段增益达4.0%[40][41] - 消融结果:指令质量控制使模型整体性能提升1%,DocVQA/InfoVQA任务提升超7%[45][50] 开源生态 - 代码库MM-INF:集成Oasis及常用多模态数据合成方法,支持模块化数据合成流程[2][52] - 资源开放:提供论文、代码及数据集链接,涵盖Qwen2-VL等模型实现细节[4][12][52]
明天,围观学习ACL2025论文分享会,最后报名了
机器之心· 2025-07-18 11:14
AI领域发展动态 - 2025年AI领域持续高速发展,科技公司和机构发布大量研究成果,技术更新节奏极快,每隔几周甚至几天就有突破性进展出现[1][3][4] - DeepSeek和视频生成模型Veo 3等代表性技术推动行业进步,从业者需频繁跟踪arXiv、GitHub等平台以保持技术前沿性[2][5] ACL 2025会议概况 - ACL 2025总投稿数突破8000篇创历史新高,会议将于7月27日-8月1日在维也纳举行[6] - 国内配套活动7月19日在北京举办,包含Keynote演讲、论文分享、圆桌对话等环节,设置企业展位交流[6][7][14] 学术研究热点 - 上午Keynote聚焦ACL趋势与NLP研究热潮,车万翔教授将分析2025年研究重点与演化方向[18][20][21] - 下午Keynote由刘鹏飞教授主讲大模型强化学习与复杂推理,探讨认知工程范式转变及测试时扩展技术[22][24] - 论文分享涵盖大语言模型自校正、分布式长上下文推理加速、token回收等前沿课题[11][12][14] 行业专家阵容 - 圆桌讨论主题为"上下文工程价值",嘉宾来自阿里巴巴、腾讯、上海交大,涵盖大模型强化学习、游戏AI等方向[16][31][33][35] - 腾讯AI Lab专家研究员王琰曾获ACL 2021杰出论文奖,开发过Temp-Lora、Block-Attention等业界知名技术[35] 活动合作生态 - 活动由机器之心联合黄大年茶思屋科技网站举办,后者是聚焦前沿科技交流的开放平台[39][41] - 设置论文Poster展示环节,并通过双平台直播扩大影响力[37][41]
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
刚刚,OpenAI通用智能体ChatGPT Agent正式登场
机器之心· 2025-07-18 08:38
核心观点 - OpenAI发布全新ChatGPT Agent,具备通用智能体能力,可主动利用多种工具完成复杂任务,如自动浏览日历、生成PPT、运行代码等[4][6][9] - ChatGPT Agent在HLE基准测试中得分41.6%,是o3和o4-mini模型的两倍[6] - 该产品标志着AI从问答工具升级为能执行现实任务的智能体,CEO称其为"感受AGI"的关键时刻[9][10] 产品功能 - 支持连接Gmail、GitHub等应用API获取信息,使用虚拟计算机环境处理工作流[6][27][28] - 整合Operator网页交互、deep research信息综合及ChatGPT推理三大能力[19][24][25] - 提供可视化浏览器、文本浏览器、终端命令行及API调用等全套工具[26][28] - 用户可实时干预任务流程,Agent会主动请求权限确认[20][30][31] 性能表现 - 在Humanity's Last Exam评估中Pass@1分数达41.6,并行策略下提升至44.4[34][35] - FrontierMath数学测试准确率27.4%,显著超越此前模型[37] - SpreadsheetBench电子表格编辑得分45.5%,远超Excel Copilot的20%[42] - BrowseComp网络信息检索测试创68.9% SOTA记录,较deep research提升17.4个百分点[47] 商业化进展 - 已向Pro/Plus/Team订阅用户开放,Pro用户月均400次提示额度[7][8] - 企业版和教育版计划夏季推出,免费版上线时间未定[8] - 实际案例显示可20分钟内完成财务规划等专业任务,效率媲美人工服务[58][59] 技术架构 - 采用动态规划策略自主选择工具组合,支持八线程并行执行[28][35] - 通过虚拟计算机保留任务上下文,实现跨工具协同工作[28] - 迭代式工作流设计允许用户随时修正指令且不丢失进度[30][31]
Le Chat全方面对标ChatGPT,欧洲AI新贵穷追不舍
机器之心· 2025-07-18 08:38
Mistral AI的战略定位与产品布局 - 公司由谷歌和Meta前研究人员创立,定位为欧洲AI领域的新兴竞争者,近期密集发布多款开源模型展现技术野心[1][3] - 产品矩阵覆盖OCR、多模态、推理大模型和语音识别四大领域,包含号称"全球最佳"的开源语音模型Voxtral和首个推理大模型Magistral[2][27] - 应用层重点对标OpenAI,通过Le Chat智能助手的功能迭代实现研究助手、语音交互、图像编辑等场景全覆盖[3][4][9] Le Chat的核心功能升级 - **研究模式**:采用工具增强型深度研究Agent,可自动分解复杂问题、收集资料并生成带参考文献的结构化报告[6][7][8] - **语音模式**:集成Voxtral模型实现自然语音输入,支持散步时头脑风暴、会议转录等场景,延迟表现优于行业标准[13][14] - **图像编辑**:与Black Forest Labs合作实现选择性物体移除/场景替换功能,用户实测显示比OpenAI更能保持原图无关区域细节[16][17][20] - **多语言支持**:基于Magistral推理模型实现原生多语言处理能力,功能覆盖商业策略、学术研究等专业场景[9][30] Voxtral语音模型的技术突破 - 性能表现全面超越Whisper large-v3和GPT-4o mini Transcribe,在英语短形式和Mozilla Common Voice测试中达到SOTA水平[29] - 提供3B/24B两种参数量版本,支持32k token超长上下文理解,可直接处理30分钟音频并生成40分钟内容摘要[30] - 实现语音到系统指令的无缝转换,内置自动语言识别功能,在8种主流语言转录准确率领先行业[30] 市场反馈与品牌特色 - 用户认可图像编辑功能的选择性处理能力,认为其细节保留度显著优于OpenAI同类产品[17][18] - 品牌设计融入猫元素(Le Chat法语意为"猫"),官网采用像素猫图标强化记忆点[25] - 行业观察者关注其快速迭代能力,认为展现出欧洲在大模型领域的技术追赶势头[24]
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
机器之心· 2025-07-17 17:31
文章核心观点 - 提出AI驱动的视觉生成模型评估新范式Evaluation Agent,可替代人工专家进行定制化、高效、可解释的模型评估[3][4][41] - 该框架通过自然语言交互实现动态评估规划,显著提升评测效率(耗时仅为传统方法10%)[13][25][28] - 支持开放式用户查询,能针对"风格迁移""摄影参数理解"等复杂需求生成专业分析报告[9][31][32] 技术框架设计 核心优势 - **可定制性**:根据用户自然语言描述自动规划评估方案(如古风视频测试)[11][12][21] - **高效率**:多轮交互式评估使样本量减少90%(如SD3.0评测仅需25样本 vs 传统12000样本)[13][25][28] - **可解释性**:输出自然语言报告,包含模型局限性与改进建议[14][41] - **可扩展性**:开放架构支持图像/视频生成任务及新评估工具集成[15][39] 工作流程 1. **提案阶段**:Plan Agent解析用户需求生成评估路径[20][21][26] 2. **执行阶段**:PromptGen Agent生成专属测试提示,视觉模型产出样本[22][27] 3. **动态交互**:多轮反馈优化评估方案(平均3-4轮/任务)[23] 性能验证 效率对比 - **视频模型评估**: - VideoCrafter-2评估耗时24分钟(传统4261分钟)[25] - 样本量减少98%(23样本 vs 4355样本)[25] - **图像模型评估**: - SDXL评估耗时8分钟(传统1543分钟)[28] - 样本量减少99%(26样本 vs 12000样本)[28] 开放式评估能力 - 构建开放式用户评估问题数据集,覆盖风格迁移/摄影概念等复杂维度[33][34] - 可处理"保持原风格生成艺术变体"等抽象查询,生成分步骤验证方案[32][38] 未来发展方向 - 扩展至3D生成/AIGC视频编辑等复杂任务[39] - 增强多模态评估能力(文本/音频/视频跨模态)[39] - 引入强化学习优化评估精准度[39] - 开发基于评估结果的生成模型个性化推荐系统[43]
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
机器之心· 2025-07-17 17:31
实时强化学习技术突破 - 核心观点:Mila实验室提出实时强化学习框架,解决传统强化学习在延迟敏感场景中的动作延迟和缺失问题,使大模型能在高频任务中实现即时响应[9][36] - 技术背景:现有强化学习基于"回合制"交互假设(环境/智能体轮流暂停),难以应对持续变化的实时环境[3][4] 现有技术瓶颈 - 无动作遗憾:因推理时间长导致智能体无法在每一步都采取动作,形成次优策略[7] - 延迟遗憾:动作基于过去状态计算,在随机环境中产生延迟影响[8] 解决方案1:交错异步推理框架 - 通过异步多过程推理实现:允许智能体利用全部算力进行并行计算,自适应调整时序偏移[11][14] - 技术效果:计算资源充足时,可完全消除无动作遗憾(1亿参数模型在《宝可梦:蓝》中成功捕捉)[15][17] - 性能表现:在俄罗斯方块等实时游戏中,模型规模增大时性能下降速度减缓(但延迟遗憾未完全解决)[19] 解决方案2:神经网络架构创新 - 并行计算机制:一次性计算所有网络层,将推理吞吐量从每Nδ秒提升至每δ秒[25][30] - 时序跳跃连接:最新观测仅需δ延迟即可到达输出层,总延迟从Nδ降至δ[26][31] - 组合效果:并行计算减少无动作遗憾,跳跃连接解决延迟遗憾,两者结合可恢复马尔可夫特性[27][33] 技术应用前景 - 互补性:交错推理确保大模型持续输出动作,时序跳跃连接降低内部延迟[35] - 行业价值:为机器人、自动驾驶、金融交易等延迟敏感领域提供高响应解决方案[36] - 突破意义:首次实现大模型在高频决策中不牺牲表达能力,推动强化学习在现实场景落地[37] 技术验证案例 - 游戏场景:1亿参数模型在《宝可梦:蓝》中实现快速适应和动作执行[17] - 性能基准:俄罗斯方块测试显示模型规模与性能下降呈非线性关系[19] - 延迟优化:通过时序跳跃连接将N层网络延迟从Nδ压缩至δ[31]
马斯克Grok的AI男友还在取名,开源版AI女友已经火了,还是3D的
机器之心· 2025-07-17 17:31
Grok新功能与用户反馈 - Grok推出新功能「智能伴侣」,提供动漫形象Ani、卡通小熊猫Rudy和待上线角色Chad [2] - 由于女性形象Ani引起热烈反响,马斯克在线征集男性Grok伴侣命名,网友提议Draven等名字 [2][7] - 马斯克设想的男性Grok伴侣气质类似《暮光之城》爱德华和《五十度灰》克里斯蒂安 [3] 用户创作与开源项目 - 网友Jackywine受Grok的Ani启发,开发开源3D动画版数字伴侣「Bella」,保留形象但去掉大语言模型功能 [9] - 「Bella」项目使用豆包、即梦、Trae等工具,已开源并详细介绍工作流程 [9][10] - 「Bella」定位为数字伴侣种子,目标是成为持久的个性化存在,陪伴用户并共同进化 [12][13] 「Bella」技术架构与愿景 - 采用「AI原生」演进路径,AI作为心智构建蓝图而非工具,核心原则是「AI即架构师」 [16] - 第一阶段建立多模态数据处理管线,采用「感知器-总线-处理器」模式实现解耦和扩展性 [17][18][19][20] - 第二阶段构建「状态-情境-人格」引擎,实现动态人格模型和生成式行为,支持模块化升级 [21][22][23][24][25][26][27][28][29][30] - 第三阶段引入预测服务和反馈循环,实现主动陪伴和持续进化,形成「成长」闭环 [31][32][33][34][35][36]