机器之心

搜索文档
智元启动「买买买」,路径未明,资本抢跑,主流技术范式下谁在领跑具身智能赛道?
机器之心· 2025-07-12 09:33
行业动态 - 智元机器人以21亿元现金收购上纬新材 成为A股首个具身智能概念上市公司 引发行业震动[1] - 产业尚未大规模商业落地 资本已进入重资产整合阶段 引发技术是否支撑资本高预期的争议[1] 技术路径分化 - 行业主流技术路径分为端到端大模型体系和双系统架构[4] - 端到端大模型派将视觉、语言、动作模块统一 强调跨任务迁移能力 代表公司星动纪元的ERA-42模型[5] - 双系统架构派将任务理解与动作执行解耦 上层用VLM语义建模 下层用VLA执行控制 代表公司Figure AI的Helix系统和中科星图的EFM-1架构[6] - 云深处等公司从硬件入手 采用轮足混合驱动方案提升地形适应性[7] - 技术路径分化影响数据采集策略、本体协同方式 进而导致市场落地和商业模式差异[8] 行业竞争格局 - 头部公司围绕数据体系和本体方案做出差异化布局[9] - 技术路线成为企业战略的具象表达 不同公司在模型架构、数据采集、硬件设计等方面形成竞争壁垒[9]
ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
机器之心· 2025-07-11 17:22
数据短缺问题 - 公共数据产生速度预计到2028年将赶不上大模型训练的消耗速度而被耗尽[1] - 医疗、工业制造等特殊领域可用数据原本就少,数据短缺问题更严重[1] 现有解决方案的局限性 - 垂直领域中小企业倾向于使用现成大模型API,但无法直接合成垂域数据[4][5] - 大模型生成的数据与垂域实际数据存在巨大差距,无法满足垂域特性需求[7][8] - 垂域数据因隐私、知识产权等原因不能上传,增加了prompt工程难度[9] PCEvolve框架核心创新 - 只需少量标注样本即可在保护隐私同时进化出整个数据集[2] - 采用类似达尔文进化论的迭代进化框架:生成候选数据→选择淘汰→下一轮进化[11] - 设计基于指数机制的新型隐私保护方法,适配垂域少样本场景[11] 技术实现细节 - 利用开源Encoder基座模型将数据映射到特征空间计算距离[16] - 通过寻找聚类中心代表标签所有私有数据来降低计算成本[16] - 提出相似度度量h(d_s^c,D_p)来优化合成数据与垂域数据的绝对距离[18] 实验验证结果 - 在COVIDx数据集上精度达64.04%,相比初始49.34%提升显著[23] - 在Came17数据集上精度达69.10%,相比初始50.47%提升显著[23] - 在KVASIR-f和MVAD-l数据集上也分别达到50.95%和59.26%的精度[23]
ICML 2025,相约加拿大温哥华!机器之心免费请你吃饭
机器之心· 2025-07-11 17:22
会议活动 - 2025年ICML会议将于7月13日至7月19日在加拿大温哥华会议中心举行 [1] - 7月15日将举办「云帆・ICML 2025 AI Talent Meetup」线下交流活动 [1] - 活动由机器之心与上海人工智能实验室、东方菁汇、全球高校人工智能学术联盟共同组织 [1] 活动详情 - 活动时间:加拿大时间7月15日16:00-20:30 [3] - 活动地点:加拿大温哥华会议中心周边 [3] - 活动规模:200人 [3] - 活动内容包括特邀学术报告、顶尖人才SHOW、互动体验、机构宣讲、企业岗位poster展示、晚宴交流等环节 [3] - 报名截止时间:北京时间7月13日晚17:00 [3] 主办方背景 - 机器之心曾成功举办云帆・ICLR 2025 AI Talent Meetup、CVPR 2025论文分享会、NeurIPS 2024论文分享会、ACL 2024 AI Talent晚宴等活动 [6] - 活动旨在为企业和人才搭建沟通桥梁,助力合作伙伴吸纳人才并提升品牌影响力 [6]
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
机器之心· 2025-07-11 16:27
AI视觉生成技术 - 当前AI视觉生成领域主流是基于Transformer架构的扩散模型,如Stable Diffusion和Sora,这些模型虽然生成效果好但计算开销大、推理速度慢[4] - 北大、北邮和华为的研究团队提出了一种纯卷积的扩散模型DiC,采用3x3卷积而非Transformer架构,在性能和推理速度上都有显著提升[1][5] - DiC模型证明了经过精心设计,简单的卷积网络依然能在生成任务中达到顶尖水平,挑战了生成模型必须依赖自注意力的固有观念[24] 技术架构创新 - DiC采用U-Net Hourglass架构而非Transformer的直筒形堆叠架构,通过下采样和上采样弥补了3x3卷积感受野受限的问题[13] - 模型减少了U-Net的跳连频率,降低了计算冗余,同时采用分阶段嵌入、条件门控机制等优化手段提升生成质量[14] - 将常用的SiLU激活函数替换为GELU,带来了一定的效果提升[15] 性能表现 - 在ImageNet 256×256测试中,DiC-XL的FID分数从DiT-XL/2的20降低到13,IS分数也大幅提升[17] - DiC-XL的推理吞吐量达到313.7,是DiT-XL/2(66.8)的近5倍,展现了显著的效率优势[17][18] - 在512x512分辨率下,DiC-XL用比DiT-XL/2更少的计算量,实现了更好的生成效果和更快的速度[22] 训练效率 - 不使用cfg时,DiC的收敛速度是DiT的十倍;使用cfg时FID可以达到2.25[18] - DiC-H模型在400K训练步数时FID为11.36,600K时降至9.73,800K时进一步降至8.96,展现了良好的训练扩展性[19] - 在相同设定下,DiC-H仅需256×2M的训练就能达到2.25的FID,优于DiT-XL/2需要256×7M训练才能达到的2.27[20]
微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究
机器之心· 2025-07-11 16:27
微软BioEmu生成式深度学习模型研究 - 微软研究院AI for Science团队在《Science》发表论文,提出名为BioEmu的生成式深度学习模型,能高效模拟蛋白质构象变化 [1][6] - 该研究为理解蛋白质功能机制和加速药物发现开辟新路径 [6] 技术突破与创新 - BioEmu结合AlphaFold静态结构、200毫秒分子动力学模拟数据和50万条蛋白稳定性实验数据训练而成 [8] - 模型可在单张GPU上每小时生成上千个独立蛋白质结构 [8] - 基于扩散模型架构,结合AlphaFold的evoformer编码器和二阶积分采样技术 [12] - 能模拟蛋白质功能过程中的关键结构变化,如隐性口袋、局部解折叠和结构域重排 [12] - 自由能预测误差达1 kcal/mol,与实验数据高度一致 [14] - 对突变体稳定性变化预测表现出色,平均绝对误差低于1 kcal/mol,Spearman相关系数超0.6 [16] 应用与资源开放 - 研究团队在GitHub和HuggingFace开源模型参数和代码 [19] - 发布超过100毫秒的MD模拟数据,涵盖数千个蛋白系统和数万个突变体 [19] - 模型已部署在Azure AI Foundry和ColabFold等平台 [19] 未来发展前景 - 当前主要建模对象为单体蛋白质,未来计划扩展到蛋白质复合物、蛋白-配体相互作用等更复杂生物体系 [21] - 有望成为连接结构与功能、理论与实验的桥梁,应用于蛋白质科学、药物设计和合成生物学等领域 [21]
实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
机器之心· 2025-07-11 16:27
核心观点 - 生数科技旗下AI视频模型Vidu Q1推出参考生功能,极大简化传统内容生产流程,实现「一个人就是一个剧组」的效果[2][3] - Vidu Q1参考生功能支持零分镜生成,只需上传人物、道具、场景等参考图即可直接融合为视频素材,操作仅需三步[5][17] - 该功能支持1080P视频直出,清晰度高,适用于多种场景如科幻叙事、童话动漫、人物特写等[17] - 当前版本最多支持7个主体输入,可同时处理多张图片并生成复杂互动场景[22][23] - 价格亲民,制作一条5秒1080p视频仅需20积分,标准版套餐48元/月含800积分[31] 功能特点 - **操作简便**:仅需上传照片、写提示词、成片三个步骤即可生成视频[3][5] - **多元素融合**:支持将人物、道具、场景等参考图直接融合为视频,无需分镜设计[5][23] - **高清晰度**:支持1080P视频直出,画质清晰,细节表现力强[17] - **多主体支持**:最多可同时处理7张图片,生成复杂互动场景[22][23] 应用案例 - **历史人物互动**:诸葛亮、丘吉尔、拿破仑在会议室、长城、铁王座等场景中自然互动,视频转场流畅[3][23][29] - **创意场景**:喵星人自拍时狮子靠近、蝙蝠侠与霸王龙对打等脑洞大开的视频生成[11] - **风格融合**:简笔画角色融入宫崎骏动画场景,风格适配度高[14][16] - **道具调整**:自动调整红缨枪大小以适配角色身材,优化画面和谐度[21] 用户反馈 - 社交平台涌现大量创意作品,如硅谷车库中跳舞的雕像、森林自拍的喵星人等[6][7][8][11] - 艺术家和程序员利用该功能实现跨IP角色同框,如1989版蝙蝠侠与1993版霸王龙对打[11] 实测表现 - **宫崎骏风格测试**:简笔画角色成功融入《龙猫》场景,风格一致且生动[14][16] - **多主体挑战**:7张图片输入下生成历史人物长城合照,互动自然但存在轻微图层融合瑕疵[23][26][30] - **道具与场景适配**:红缨枪大小自动调整,铁王座场景中人物互动自然但有遮挡问题[21][28] 价格与性价比 - 5秒1080p视频成本约20积分,标准版套餐48元/月含800积分,单价低廉[31]
马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
机器之心· 2025-07-11 16:27
Grok 4性能表现 - Grok 4在物理模拟测试中成功生成受地球引力和摩擦力影响的六边形弹球模拟代码,展示了对因果规律和时空关系的理解[5][7] - 在越狱攻击测试中,Grok 4成功抵御了提示词注入、身份探测、角色扮演注入和白色隐藏注入等多种攻击方式[12][13] - 在法律逻辑推理测试中,Grok 4能够详细解释公司债务违约后的法律和财务后果,表现优于竞品[15] - 在翻译和指令清晰度测试中,Grok 4完胜竞品o3[16] - 在8项综合测试中,Grok 4全部获胜,而竞品o3仅赢得2项[17] 应用场景展示 - 用户通过两个提示词即可用Grok 4创建完整的Flappy Bird游戏,并优化图形效果[21][22] - Grok 4在4小时内完成FPS射击游戏开发,展示出较强的游戏开发能力[24] - 仅用4个提示词即可创建交互式欧拉恒等式可视化工具,展示教育应用潜力[28][31] - 成功生成黑洞的交互式3D模拟,视觉效果惊艳[32] 性能局限性 - 在绘制印度地图轮廓任务中出现明显错误,准确性不足[36] - 处理数学问题时存在推理过程缺失问题,仅输出最终结果[42] - API接口目前不返回思考过程,影响用户体验[41] 行业反响 - 马斯克在发布会上宣称Grok 4所有学科达到博士后水平,可能实现科学新发现[2] - 尽管测试表现优异,马斯克仍表示产品"有改进空间"[44] - 网友调侃Grok 4性能提升依赖算力资源、华人工程师和加班文化[45]
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
机器之心· 2025-07-11 10:43
大语言模型编程能力评估现状 - 当前市场普遍高估大语言模型(LLMs)的编程能力,如AlphaCode宣称达到人类竞技编程水平,GPT-4o被报道能通过谷歌高级面试,但实际评测显示存在显著"宣传与现实的认知鸿沟" [2][3] - 传统评估体系(HumanEval/MBPP)通过率普遍超过90%,已无法区分先进模型的细微差异,且存在数据泄漏风险(如Codeforces题目可能被预训练数据包含) [4] - 现有Elo评分体系存在周期长、选手水平波动大等问题,效率指标(运行时间/内存)也仅提供粗略评估 [4] OIBench评估基准创新 - 该数据集包含212道高难度信息学奥赛级别原创题目,经严格检索确保未在公开平台出现,抗数据污染能力显著 [8][10] - 题目收录标准严苛:要求GPT-4o等标杆模型中最多仅1个能解出,测试用例数量对标真实竞赛环境 [10][11] - 采用中英文双语支持,每题配备C++标准解答和覆盖边界情况的测试用例,评测维度包括代码理解/生成/推理效率 [10][17] 主流模型评测结果 - 18个主流模型zero-shot评测显示:最高分o4-mini-high仅36.35分,远低于人类竞赛水平;GPT-4o通过率仅2.6%,Claude3.5 Sonnet在动态规划题错误率达80% [5][12] - 推理模型表现突出:o4-mini-high平均得分21.4%,显著高于普通模型(3.6%);闭源模型平均14.5分优于开源模型(6.3分) [19] - 伪代码提示使所有模型表现提升,强推理模型提升最显著;DeepSeek-V3-0324因采用链式推理蒸馏方案表现亮眼 [18][19] 人机对比研究 - 邀请985高校ACM选手参与对比测试,o4-mini-high排名超过42%人类选手,但多数模型仅能超越不到20%人类 [30][31] - 模型表现分三类:低谷型(无长链推理能力)、双峰型(特定题型优势)、橄榄型(仅o4-mini-high具备全面推理特征) [31] 未来评测范式演进 - Code Agent评测需转向人机协作评估,现有SWE-bench等自动化评测忽视交互流程质量 [33] - 计划举办人机协作编程竞赛,从意图理解/交互轮次/决策效率等维度建立首个人机协作榜单 [38][39]
是的,LeCun要向28岁的Alexandr Wang汇报!这是Meta新AI团队的一些独家内部消息
机器之心· 2025-07-11 10:43
Meta AI部门重组与人才战略 - Meta近期展开大规模AI人才招募行动,以高达1亿至2亿美元天价挖角竞争对手(如苹果AI团队负责人庞若鸣)[3][4] - 新成立由Scale AI前CEO Alexandr Wang领导的「超级智能实验室」(MSL),整合原GenAI团队并赋予高管自主招募权[5][22] - 挖人行动重点针对OpenAI等竞争对手,力度空前导致对方CEO公开回应[3] FAIR与GenAI/MSL的架构差异 - FAIR(基础AI研究院)保持独立研究性质,600人团队专注长期开源研究,与GenAI/MSL的GPU资源、数据/代码完全隔离[8][12][14] - FAIR仅拥有GenAI部门5%的GPU资源且使用不同云服务商,Llama1团队因商业化成功被剥离至GenAI[14][15] - 图灵奖得主Yann LeCun向Alexandr Wang汇报属架构调整,FAIR自2022年起已多次变更上级部门(如Reality Labs、CPO)[10][11] 内部动荡与文化挑战 - GenAI和FAIR部门将面临裁员,MSL高薪招聘加剧内部资源竞争[21][22] - 员工抱怨公司文化侵蚀:2000人Llama团队目标模糊,GenAI同时承担多项冲突任务导致资源分散[25] - 技术声誉受Llama4「刷榜」争议影响,外部引入人才留存率低,内部流传文章批评组织失调[25] 研究方向与未来展望 - MSL研究方向未完全明确,但将整合原GenAI团队(负责Llama模型、Meta AI助手等产品级LLM)[16][21] - 扎克伯格改革力度激进,成效需待下一代大模型发布验证[23] - 生成式AI浪潮下FAIR学者(如田渊栋)转投GenAI部门,基础研究与应用开发界限模糊化[18]
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
机器之心· 2025-07-10 18:49
核心观点 - 苹果基础模型团队负责人庞若鸣即将加入Meta,Meta开出2亿美金天价邀请其加入[2] - 庞若鸣在离职前完成苹果基础模型AXLearn的研究,该系统具有高度模块化和异构硬件支持特性[4][6] - AXLearn在代码复杂度、训练性能和推理性能上均显著优于主流系统[7][24][33] 技术架构 - AXLearn由组合器和执行框架构成,支持JAX程序生成与分布式硬件调度[16][17][19] - 系统通过严格封装实现模块化,集成RoPE和MoE功能仅需10行代码,其他系统需数百行[14][24] - 支持GPU/TPU/Trainium等异构硬件,自动优化分片策略和XLA编译选项[12][18][27] 性能表现 - 代码复杂度恒定为O(1),其他系统达O(NM)线性增长,RoPE集成代码量对比:AXLearn(0行) vs Megatron-LM(400行)[24] - 训练性能:Llama2-7B在TPU-v5p-512上MFU达66.2%,超MaxText(61.6%);70B模型在TPU-v5p-1024上吞吐量360K tokens/s[29] - 推理性能:AXLearn在70B模型上TTFT延迟仅150.5ms,较vLLM(80213.6ms)提速500倍;吞吐量超vLLM 1.6倍[33][34] 应用规模 - 支持超10,000个并行实验,部署于数十种硬件集群,训练模型参数规模达万亿级[35][36] - 已应用于智能助手、多模态生成等十亿级用户产品[37]