机器之心

搜索文档
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
机器之心· 2025-07-11 16:27
AI视觉生成技术 - 当前AI视觉生成领域主流是基于Transformer架构的扩散模型,如Stable Diffusion和Sora,这些模型虽然生成效果好但计算开销大、推理速度慢[4] - 北大、北邮和华为的研究团队提出了一种纯卷积的扩散模型DiC,采用3x3卷积而非Transformer架构,在性能和推理速度上都有显著提升[1][5] - DiC模型证明了经过精心设计,简单的卷积网络依然能在生成任务中达到顶尖水平,挑战了生成模型必须依赖自注意力的固有观念[24] 技术架构创新 - DiC采用U-Net Hourglass架构而非Transformer的直筒形堆叠架构,通过下采样和上采样弥补了3x3卷积感受野受限的问题[13] - 模型减少了U-Net的跳连频率,降低了计算冗余,同时采用分阶段嵌入、条件门控机制等优化手段提升生成质量[14] - 将常用的SiLU激活函数替换为GELU,带来了一定的效果提升[15] 性能表现 - 在ImageNet 256×256测试中,DiC-XL的FID分数从DiT-XL/2的20降低到13,IS分数也大幅提升[17] - DiC-XL的推理吞吐量达到313.7,是DiT-XL/2(66.8)的近5倍,展现了显著的效率优势[17][18] - 在512x512分辨率下,DiC-XL用比DiT-XL/2更少的计算量,实现了更好的生成效果和更快的速度[22] 训练效率 - 不使用cfg时,DiC的收敛速度是DiT的十倍;使用cfg时FID可以达到2.25[18] - DiC-H模型在400K训练步数时FID为11.36,600K时降至9.73,800K时进一步降至8.96,展现了良好的训练扩展性[19] - 在相同设定下,DiC-H仅需256×2M的训练就能达到2.25的FID,优于DiT-XL/2需要256×7M训练才能达到的2.27[20]
实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
机器之心· 2025-07-11 16:27
核心观点 - 生数科技旗下AI视频模型Vidu Q1推出参考生功能,极大简化传统内容生产流程,实现「一个人就是一个剧组」的效果[2][3] - Vidu Q1参考生功能支持零分镜生成,只需上传人物、道具、场景等参考图即可直接融合为视频素材,操作仅需三步[5][17] - 该功能支持1080P视频直出,清晰度高,适用于多种场景如科幻叙事、童话动漫、人物特写等[17] - 当前版本最多支持7个主体输入,可同时处理多张图片并生成复杂互动场景[22][23] - 价格亲民,制作一条5秒1080p视频仅需20积分,标准版套餐48元/月含800积分[31] 功能特点 - **操作简便**:仅需上传照片、写提示词、成片三个步骤即可生成视频[3][5] - **多元素融合**:支持将人物、道具、场景等参考图直接融合为视频,无需分镜设计[5][23] - **高清晰度**:支持1080P视频直出,画质清晰,细节表现力强[17] - **多主体支持**:最多可同时处理7张图片,生成复杂互动场景[22][23] 应用案例 - **历史人物互动**:诸葛亮、丘吉尔、拿破仑在会议室、长城、铁王座等场景中自然互动,视频转场流畅[3][23][29] - **创意场景**:喵星人自拍时狮子靠近、蝙蝠侠与霸王龙对打等脑洞大开的视频生成[11] - **风格融合**:简笔画角色融入宫崎骏动画场景,风格适配度高[14][16] - **道具调整**:自动调整红缨枪大小以适配角色身材,优化画面和谐度[21] 用户反馈 - 社交平台涌现大量创意作品,如硅谷车库中跳舞的雕像、森林自拍的喵星人等[6][7][8][11] - 艺术家和程序员利用该功能实现跨IP角色同框,如1989版蝙蝠侠与1993版霸王龙对打[11] 实测表现 - **宫崎骏风格测试**:简笔画角色成功融入《龙猫》场景,风格一致且生动[14][16] - **多主体挑战**:7张图片输入下生成历史人物长城合照,互动自然但存在轻微图层融合瑕疵[23][26][30] - **道具与场景适配**:红缨枪大小自动调整,铁王座场景中人物互动自然但有遮挡问题[21][28] 价格与性价比 - 5秒1080p视频成本约20积分,标准版套餐48元/月含800积分,单价低廉[31]
马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
机器之心· 2025-07-11 16:27
Grok 4性能表现 - Grok 4在物理模拟测试中成功生成受地球引力和摩擦力影响的六边形弹球模拟代码,展示了对因果规律和时空关系的理解[5][7] - 在越狱攻击测试中,Grok 4成功抵御了提示词注入、身份探测、角色扮演注入和白色隐藏注入等多种攻击方式[12][13] - 在法律逻辑推理测试中,Grok 4能够详细解释公司债务违约后的法律和财务后果,表现优于竞品[15] - 在翻译和指令清晰度测试中,Grok 4完胜竞品o3[16] - 在8项综合测试中,Grok 4全部获胜,而竞品o3仅赢得2项[17] 应用场景展示 - 用户通过两个提示词即可用Grok 4创建完整的Flappy Bird游戏,并优化图形效果[21][22] - Grok 4在4小时内完成FPS射击游戏开发,展示出较强的游戏开发能力[24] - 仅用4个提示词即可创建交互式欧拉恒等式可视化工具,展示教育应用潜力[28][31] - 成功生成黑洞的交互式3D模拟,视觉效果惊艳[32] 性能局限性 - 在绘制印度地图轮廓任务中出现明显错误,准确性不足[36] - 处理数学问题时存在推理过程缺失问题,仅输出最终结果[42] - API接口目前不返回思考过程,影响用户体验[41] 行业反响 - 马斯克在发布会上宣称Grok 4所有学科达到博士后水平,可能实现科学新发现[2] - 尽管测试表现优异,马斯克仍表示产品"有改进空间"[44] - 网友调侃Grok 4性能提升依赖算力资源、华人工程师和加班文化[45]
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
机器之心· 2025-07-11 10:43
大语言模型编程能力评估现状 - 当前市场普遍高估大语言模型(LLMs)的编程能力,如AlphaCode宣称达到人类竞技编程水平,GPT-4o被报道能通过谷歌高级面试,但实际评测显示存在显著"宣传与现实的认知鸿沟" [2][3] - 传统评估体系(HumanEval/MBPP)通过率普遍超过90%,已无法区分先进模型的细微差异,且存在数据泄漏风险(如Codeforces题目可能被预训练数据包含) [4] - 现有Elo评分体系存在周期长、选手水平波动大等问题,效率指标(运行时间/内存)也仅提供粗略评估 [4] OIBench评估基准创新 - 该数据集包含212道高难度信息学奥赛级别原创题目,经严格检索确保未在公开平台出现,抗数据污染能力显著 [8][10] - 题目收录标准严苛:要求GPT-4o等标杆模型中最多仅1个能解出,测试用例数量对标真实竞赛环境 [10][11] - 采用中英文双语支持,每题配备C++标准解答和覆盖边界情况的测试用例,评测维度包括代码理解/生成/推理效率 [10][17] 主流模型评测结果 - 18个主流模型zero-shot评测显示:最高分o4-mini-high仅36.35分,远低于人类竞赛水平;GPT-4o通过率仅2.6%,Claude3.5 Sonnet在动态规划题错误率达80% [5][12] - 推理模型表现突出:o4-mini-high平均得分21.4%,显著高于普通模型(3.6%);闭源模型平均14.5分优于开源模型(6.3分) [19] - 伪代码提示使所有模型表现提升,强推理模型提升最显著;DeepSeek-V3-0324因采用链式推理蒸馏方案表现亮眼 [18][19] 人机对比研究 - 邀请985高校ACM选手参与对比测试,o4-mini-high排名超过42%人类选手,但多数模型仅能超越不到20%人类 [30][31] - 模型表现分三类:低谷型(无长链推理能力)、双峰型(特定题型优势)、橄榄型(仅o4-mini-high具备全面推理特征) [31] 未来评测范式演进 - Code Agent评测需转向人机协作评估,现有SWE-bench等自动化评测忽视交互流程质量 [33] - 计划举办人机协作编程竞赛,从意图理解/交互轮次/决策效率等维度建立首个人机协作榜单 [38][39]
是的,LeCun要向28岁的Alexandr Wang汇报!这是Meta新AI团队的一些独家内部消息
机器之心· 2025-07-11 10:43
Meta AI部门重组与人才战略 - Meta近期展开大规模AI人才招募行动,以高达1亿至2亿美元天价挖角竞争对手(如苹果AI团队负责人庞若鸣)[3][4] - 新成立由Scale AI前CEO Alexandr Wang领导的「超级智能实验室」(MSL),整合原GenAI团队并赋予高管自主招募权[5][22] - 挖人行动重点针对OpenAI等竞争对手,力度空前导致对方CEO公开回应[3] FAIR与GenAI/MSL的架构差异 - FAIR(基础AI研究院)保持独立研究性质,600人团队专注长期开源研究,与GenAI/MSL的GPU资源、数据/代码完全隔离[8][12][14] - FAIR仅拥有GenAI部门5%的GPU资源且使用不同云服务商,Llama1团队因商业化成功被剥离至GenAI[14][15] - 图灵奖得主Yann LeCun向Alexandr Wang汇报属架构调整,FAIR自2022年起已多次变更上级部门(如Reality Labs、CPO)[10][11] 内部动荡与文化挑战 - GenAI和FAIR部门将面临裁员,MSL高薪招聘加剧内部资源竞争[21][22] - 员工抱怨公司文化侵蚀:2000人Llama团队目标模糊,GenAI同时承担多项冲突任务导致资源分散[25] - 技术声誉受Llama4「刷榜」争议影响,外部引入人才留存率低,内部流传文章批评组织失调[25] 研究方向与未来展望 - MSL研究方向未完全明确,但将整合原GenAI团队(负责Llama模型、Meta AI助手等产品级LLM)[16][21] - 扎克伯格改革力度激进,成效需待下一代大模型发布验证[23] - 生成式AI浪潮下FAIR学者(如田渊栋)转投GenAI部门,基础研究与应用开发界限模糊化[18]
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
机器之心· 2025-07-10 18:49
核心观点 - 苹果基础模型团队负责人庞若鸣即将加入Meta,Meta开出2亿美金天价邀请其加入[2] - 庞若鸣在离职前完成苹果基础模型AXLearn的研究,该系统具有高度模块化和异构硬件支持特性[4][6] - AXLearn在代码复杂度、训练性能和推理性能上均显著优于主流系统[7][24][33] 技术架构 - AXLearn由组合器和执行框架构成,支持JAX程序生成与分布式硬件调度[16][17][19] - 系统通过严格封装实现模块化,集成RoPE和MoE功能仅需10行代码,其他系统需数百行[14][24] - 支持GPU/TPU/Trainium等异构硬件,自动优化分片策略和XLA编译选项[12][18][27] 性能表现 - 代码复杂度恒定为O(1),其他系统达O(NM)线性增长,RoPE集成代码量对比:AXLearn(0行) vs Megatron-LM(400行)[24] - 训练性能:Llama2-7B在TPU-v5p-512上MFU达66.2%,超MaxText(61.6%);70B模型在TPU-v5p-1024上吞吐量360K tokens/s[29] - 推理性能:AXLearn在70B模型上TTFT延迟仅150.5ms,较vLLM(80213.6ms)提速500倍;吞吐量超vLLM 1.6倍[33][34] 应用规模 - 支持超10,000个并行实验,部署于数十种硬件集群,训练模型参数规模达万亿级[35][36] - 已应用于智能助手、多模态生成等十亿级用户产品[37]
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 18:49
技术突破 - DreamPRM由加州大学圣地亚哥分校团队开发,在MathVista数学推理测评中排名第一,核心成员包括Qi Cao和Pengtao Xie等[1] - 采用双层优化框架动态调整数据域权重,抑制低质量数据影响,强化高信息密度数据域贡献,实现数据质量与覆盖率平衡[2] - 解决了多模态场景下分布偏移远超纯文本的问题,通过可学习参数优化数据域权重分布[4] 方法创新 - 构建可微分双层优化问题,下层在15个训练域上进行PRM参数训练,上层使用覆盖30学科183子领域的元数据集评估泛化能力[12][13] - 形成自适应正反馈循环:高质量推理数据域权重提升(如M3CoT达1.49),简单样本域权重下降(如AI2D小于0.8)[14][20] - 蒙特卡洛监督信号计算中间推理步骤质量概率估计,使用域加权MSE损失更新模型参数[13] 性能表现 - 在MathVista测试中DreamPRM+o4-mini(8 CoTs)准确率达85.2%,显著超越人类基准60.3%和其他模型[6][16] - 五项基准测试全面领先:MathVista(57.4)、WeMath(68.9)、MathVision(22.1)、MMVET(61.4)、MMSTAR(62.3)[16] - 使80亿参数InternVL模型超越GPT-4v和Gemini-1.5等大型闭源模型,小模型实现大模型性能[16] 应用优势 - 通用框架可与任何多模态大语言模型集成,在o4-mini模型上准确率从80.6%提升至85.2%[6][17] - 候选推理链数量增加带来持续性能提升,从k=1到k=8准确率增长3.6个百分点[17][19] - 细粒度过程监督机制超越自洽性校验等传统方法,验证逐步评分的关键作用[16] 研究成果 - 论文标题为《DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning》,已在arXiv发布[7] - 代码开源在GitHub平台,项目地址为github.com/coder-qicao/DreamPRM[7] - 方法平均提升基础模型性能4%,在高难度数学推理任务表现尤为突出[22]
我们用飞书开了个选题会,一下进入现代化办公,编辑部直呼:真香
机器之心· 2025-07-10 18:49
飞书未来无限大会核心发布 - 飞书发布业界首个AI应用成熟度模型 将AI应用分为四个等级 M3和M4分别对应成熟应用和完全成熟应用[7][9] - 飞书知识问答达到M3标准 可处理940万篇文档级别的企业知识库检索[9][10] - 飞书会议达到M4标准 具备声纹识别和实时会议纪要生成能力[23][25] - 多维表格升级为全球首个支持千万级数据量的同类产品 计算速度达毫秒级[40] - 飞书开发套件包含国内首款企业AI系统搭建工具"飞书妙搭"和飞书Aily agent开发平台[45] 飞书知识问答功能 - 支持从2417个知识点中深度检索 按时间倒序整理关键信息[14] - 具备联网搜索和文件上传功能 可整合内外部信息源[18] - 所有答案标注来源并支持图文展示 防止AI幻觉[15] - 采用加密技术保障数据隐私 仅用户可见[22] 飞书会议创新 - 智能纪要能精准提取待办事项和责任人 准确率经实测可靠[25][26] - 声纹识别技术解决线上会议说话人识别难题[24] - 会议速递功能生成个性化周报 包含高频讨论事项和待办汇总[35] - 飞书妙记支持视频自动转写和翻译 半小时视频可快速处理[36][37] 多维表格升级 - 单表容量提升至1000万行 百万级数据计算保持流畅[40] - 新增"应用模式" 通过拖拽即可构建销售/人力等业务系统[42] - 透视表支持跨表分析上亿行数据 集成切片器等可视化工具[42] - 月活用户近千万 将登陆钉钉和企业微信打破生态壁垒[44] AI工具集成 - AI字段捷径将AI能力嵌入每个单元格 支持公式式调用[46] - AI节点捷径实现语音转结构化数据 自动录入系统[46] - AI Agent节点可配置大模型和工具 完成复杂任务[46] - AI侧边栏预览版支持知识问答/数据检索等丰富能力[46]
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
机器之心· 2025-07-10 16:35
行业动态 - xAI发布Grok 4大模型,引发AI社区高度关注 [1] - 谷歌同期更新Gemma系列模型,包括MedGemma和T5Gemma [2][3][5] MedGemma模型 - 包含4B和27B两种参数规模的多模态模型,专注于医疗AI应用 [3] - 能够根据医疗图像和文本描述辅助诊断并提供建议 [4] T5Gemma模型架构 - 采用编码器-解码器架构,包含32个不同变体 [8][9] - 基于Gemma 2框架,参数规模包括2B和9B [8] - 支持不同大小的编码器与解码器组合,如9B编码器配2B解码器 [18] 技术特点 - 使用"适应"技术将预训练的仅解码器模型转换为编码器-解码器架构 [15] - 支持PrefixLM和UL2两种训练目标 [8] - 在GSM8K数学推理任务上延迟显著降低 [22][23] 性能表现 - T5Gemma 9B-9B在GSM8K得分比Gemma 2 9B高出9分 [28] - 在DROP阅读理解任务上得分高出4分 [28] - 平均性能优于仅解码器架构 [30] - 指令微调后MMLU得分提高12分,GSM8K从58%提升至70.7% [31] 应用优势 - 在摘要、翻译、问答等任务中表现优异 [7] - 可根据任务需求灵活配置编码器-解码器规模 [19] - 在质量-效率边界上占据主导地位 [21][29]
7月19日,相聚北京!一起聊聊ACL 2025爆点研究
机器之心· 2025-07-10 16:35
AI领域发展动态 - 2025年AI领域持续高速发展,技术更新节奏极快,每隔几周甚至几天就有新突破[1][3][4] - 行业呈现"跟不上就会掉队"的竞争态势,从业者需频繁跟踪arXiv、GitHub等平台的前沿研究[5] - ACL 2025总投稿数达8000多篇创历史新高,反映NLP领域研究热度持续攀升[6] ACL 2025会议亮点 - 会议设置Keynote、论文分享、圆桌对话、Poster交流及企业展位等丰富环节[6] - 上午Keynote由哈工大车万翔教授主讲ACL 2025趋势及展望,分析NLP研究重点与演化方向[9][15][17] - 下午Keynote由上海交大刘鹏飞副教授探讨大模型强化学习与复杂推理的突破与应用[11][19] - 圆桌对话聚焦"上下文工程"的价值探讨,吸引行业高度关注[11] 重要研究成果 - 清华大学邱寒团队研究LLMs内在自我修正机制的潜在问题[9] - 北京大学团队探索语言模型对齐抵抗现象的数据证据[9] - 南京大学程紫峰提出无需训练的Token Prepending方法提升句子嵌入质量[12] - 哈工大团队开发Token Recycling技术加速大模型推理[12] - 清华团队研发APB技术通过跨GPU传递压缩上下文块加速长上下文推理[12] 行业活动与合作 - 机器之心联合举办多场顶级学术会议活动,包括ICLR、CVPR、NeurIPS等[25] - 活动提供企业展台等合作形式,助力合作伙伴吸纳人才和品牌建设[26] - 会议通过机器之心视频号和黄大年茶思屋科技网站进行双平台直播[21][23]