机器之心

搜索文档
刚刚,OpenAI想收购的Windsurf,被谷歌DeepMind抢走了核心团队
机器之心· 2025-07-12 10:11
谷歌DeepMind收购Windsurf事件 - 谷歌DeepMind宣布成功收购AI编程初创公司Windsurf的核心团队,包括CEO Varun Mohan和联合创始人Douglas Chen等研发人员[1][2][3] - 被收购团队将专注于DeepMind的Gemini项目,特别是编程智能体和工具使用方向[3] - 谷歌发言人表示Gemini是目前最好的模型之一,公司持续投资开发其高级功能[4] - 交易金额未披露,但此前OpenAI曾计划以30亿美元收购Windsurf[4] OpenAI收购失败原因 - OpenAI与Windsurf在5月达成的30亿美元收购协议排他性期限已到期,Windsurf可自由选择其他方案[5] - 这是OpenAI近期在收购AI编程公司上的第二次失败,此前收购Cursor的谈判也因对方拒绝而破裂[7][8] - 事件对OpenAI形成打击,被网友盘点为近期系列挫折之一[9] Windsurf公司背景与现状 - 公司由MIT校友2021年创立,原名Codeium,2024年4月更名为Windsurf[6] - 交易后Windsurf将继续独立运营,谷歌仅获得部分技术的非独家许可[16] - 未加入谷歌的员工面临高管和技术核心流失,业务主管Jeff Wang出任临时CEO,销售副总裁Graham Moreno担任新总裁[17][19] - 临时CEO声明称大部分团队将继续开发产品服务客户[20] 行业影响与反应 - 交易突然性引发AI行业震动,有观点认为Windsurf工程师可能都未预料到[10] - 部分开发者对失去核心团队的Windsurf未来发展表示担忧[21] - 事件反映出AI行业激烈的人才争夺战现状[21]
深夜开源首个万亿模型K2,压力给到OpenAI,Kimi时刻要来了?
机器之心· 2025-07-12 10:11
模型发布与市场反应 - 月之暗面正式发布Kimi K2大模型并开源两款商用模型Kimi-K2-Base与Kimi-K2-Instruct[4] - 模型API定价16元人民币/百万token输出[2] - 发布20分钟内Hugging Face下载量接近12K[5] - 网友测试显示其代码能力优于Grok 4且可能成为Claude 4 Sonnet的开源平替[17][20] 技术性能与基准表现 - 在LiveCode Bench等多项基准测试中超越DeepSeek-V3-0324等开源模型成为新SOTA[9] - 部分性能指标赶超GPT-4.1和Claude 4 Opus等闭源模型[9] - 采用混合专家架构(MoE)总参数量1万亿激活参数32亿支持128k上下文长度[21] - 支持工具调用(ToolCalls)JSON模式及互联网搜索功能但不支持视觉[21] 训练技术创新 - 引入MuonClip优化器解决万亿参数训练稳定性问题采用qk-clip技术控制Attention logits爆炸[24][26] - 完成15.5T tokens预训练未出现训练尖峰[28] - 通过减少Attention Heads数量提升长上下文效率增加MoE稀疏性提高token利用率[25] 工具调用与数据合成 - 开发ACEBench启发的pipeline合成数百领域数千种工具生成多轮交互数据[33][34] - 利用LLM作为评判员筛选高质量训练数据减少低质量数据影响[35] - 结合可验证任务奖励与自我评价机制扩展强化学习应用场景[36][37] 行业竞争趋势 - 与Grok 4类似采用大规模工具调用策略[42] - 国内大模型竞争转向算法创新而非单纯堆参数算力以应对算力资源紧缺[43] - HuggingFace联合创始人评价K2开源模型正挑战闭源模型领先地位[21]
ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成
机器之心· 2025-07-12 10:11
推理代码、权重、渲染的 GSO 及其配套的 Prompt 已全部开源。 背景与动机 根据人工指令生成多视图图像对于 3D 内容创作至关重要。主要挑战在于如何在多视图之间保持一致性,以及如何在不同条件下有效地合成形状和纹理。此前的工 作主要使用 Diffusion 模型中自带的多视角一致性先验,促进多视角一致图像生成。但是 Diffusion 模型存在一些先天劣势: 论文地址: https://arxiv.org/pdf/2506.18527 代码地址: https://github.com/MILab-PKU/MVAR/ 绝大多数 Diffusion 模型同时多个视角; 单一 Diffusion 模型难以接受多模态控制条件; 本文第一作者包括北京大学博士生胡珈魁与清华大学硕士生杨羽霄;通讯作者为北京大学助理教授卢闫晔与(前)百度视觉技术部刘家伦。 本文介绍并开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程中,模型能够从所有先前的视图中提取有效的引导信息,从而 增强多视图的一致性。 MVAR 拉近了纯自回归方法与最先进的基于扩散的多视图图像生成方法的生成图像质量,并成为能够处理 ...
智元启动「买买买」,路径未明,资本抢跑,主流技术范式下谁在领跑具身智能赛道?
机器之心· 2025-07-12 09:33
行业动态 - 智元机器人以21亿元现金收购上纬新材 成为A股首个具身智能概念上市公司 引发行业震动[1] - 产业尚未大规模商业落地 资本已进入重资产整合阶段 引发技术是否支撑资本高预期的争议[1] 技术路径分化 - 行业主流技术路径分为端到端大模型体系和双系统架构[4] - 端到端大模型派将视觉、语言、动作模块统一 强调跨任务迁移能力 代表公司星动纪元的ERA-42模型[5] - 双系统架构派将任务理解与动作执行解耦 上层用VLM语义建模 下层用VLA执行控制 代表公司Figure AI的Helix系统和中科星图的EFM-1架构[6] - 云深处等公司从硬件入手 采用轮足混合驱动方案提升地形适应性[7] - 技术路径分化影响数据采集策略、本体协同方式 进而导致市场落地和商业模式差异[8] 行业竞争格局 - 头部公司围绕数据体系和本体方案做出差异化布局[9] - 技术路线成为企业战略的具象表达 不同公司在模型架构、数据采集、硬件设计等方面形成竞争壁垒[9]
ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
机器之心· 2025-07-11 17:22
数据短缺问题 - 公共数据产生速度预计到2028年将赶不上大模型训练的消耗速度而被耗尽[1] - 医疗、工业制造等特殊领域可用数据原本就少,数据短缺问题更严重[1] 现有解决方案的局限性 - 垂直领域中小企业倾向于使用现成大模型API,但无法直接合成垂域数据[4][5] - 大模型生成的数据与垂域实际数据存在巨大差距,无法满足垂域特性需求[7][8] - 垂域数据因隐私、知识产权等原因不能上传,增加了prompt工程难度[9] PCEvolve框架核心创新 - 只需少量标注样本即可在保护隐私同时进化出整个数据集[2] - 采用类似达尔文进化论的迭代进化框架:生成候选数据→选择淘汰→下一轮进化[11] - 设计基于指数机制的新型隐私保护方法,适配垂域少样本场景[11] 技术实现细节 - 利用开源Encoder基座模型将数据映射到特征空间计算距离[16] - 通过寻找聚类中心代表标签所有私有数据来降低计算成本[16] - 提出相似度度量h(d_s^c,D_p)来优化合成数据与垂域数据的绝对距离[18] 实验验证结果 - 在COVIDx数据集上精度达64.04%,相比初始49.34%提升显著[23] - 在Came17数据集上精度达69.10%,相比初始50.47%提升显著[23] - 在KVASIR-f和MVAD-l数据集上也分别达到50.95%和59.26%的精度[23]
ICML 2025,相约加拿大温哥华!机器之心免费请你吃饭
机器之心· 2025-07-11 17:22
会议活动 - 2025年ICML会议将于7月13日至7月19日在加拿大温哥华会议中心举行 [1] - 7月15日将举办「云帆・ICML 2025 AI Talent Meetup」线下交流活动 [1] - 活动由机器之心与上海人工智能实验室、东方菁汇、全球高校人工智能学术联盟共同组织 [1] 活动详情 - 活动时间:加拿大时间7月15日16:00-20:30 [3] - 活动地点:加拿大温哥华会议中心周边 [3] - 活动规模:200人 [3] - 活动内容包括特邀学术报告、顶尖人才SHOW、互动体验、机构宣讲、企业岗位poster展示、晚宴交流等环节 [3] - 报名截止时间:北京时间7月13日晚17:00 [3] 主办方背景 - 机器之心曾成功举办云帆・ICLR 2025 AI Talent Meetup、CVPR 2025论文分享会、NeurIPS 2024论文分享会、ACL 2024 AI Talent晚宴等活动 [6] - 活动旨在为企业和人才搭建沟通桥梁,助力合作伙伴吸纳人才并提升品牌影响力 [6]
微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究
机器之心· 2025-07-11 16:27
微软BioEmu生成式深度学习模型研究 - 微软研究院AI for Science团队在《Science》发表论文,提出名为BioEmu的生成式深度学习模型,能高效模拟蛋白质构象变化 [1][6] - 该研究为理解蛋白质功能机制和加速药物发现开辟新路径 [6] 技术突破与创新 - BioEmu结合AlphaFold静态结构、200毫秒分子动力学模拟数据和50万条蛋白稳定性实验数据训练而成 [8] - 模型可在单张GPU上每小时生成上千个独立蛋白质结构 [8] - 基于扩散模型架构,结合AlphaFold的evoformer编码器和二阶积分采样技术 [12] - 能模拟蛋白质功能过程中的关键结构变化,如隐性口袋、局部解折叠和结构域重排 [12] - 自由能预测误差达1 kcal/mol,与实验数据高度一致 [14] - 对突变体稳定性变化预测表现出色,平均绝对误差低于1 kcal/mol,Spearman相关系数超0.6 [16] 应用与资源开放 - 研究团队在GitHub和HuggingFace开源模型参数和代码 [19] - 发布超过100毫秒的MD模拟数据,涵盖数千个蛋白系统和数万个突变体 [19] - 模型已部署在Azure AI Foundry和ColabFold等平台 [19] 未来发展前景 - 当前主要建模对象为单体蛋白质,未来计划扩展到蛋白质复合物、蛋白-配体相互作用等更复杂生物体系 [21] - 有望成为连接结构与功能、理论与实验的桥梁,应用于蛋白质科学、药物设计和合成生物学等领域 [21]
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
机器之心· 2025-07-11 16:27
AI视觉生成技术 - 当前AI视觉生成领域主流是基于Transformer架构的扩散模型,如Stable Diffusion和Sora,这些模型虽然生成效果好但计算开销大、推理速度慢[4] - 北大、北邮和华为的研究团队提出了一种纯卷积的扩散模型DiC,采用3x3卷积而非Transformer架构,在性能和推理速度上都有显著提升[1][5] - DiC模型证明了经过精心设计,简单的卷积网络依然能在生成任务中达到顶尖水平,挑战了生成模型必须依赖自注意力的固有观念[24] 技术架构创新 - DiC采用U-Net Hourglass架构而非Transformer的直筒形堆叠架构,通过下采样和上采样弥补了3x3卷积感受野受限的问题[13] - 模型减少了U-Net的跳连频率,降低了计算冗余,同时采用分阶段嵌入、条件门控机制等优化手段提升生成质量[14] - 将常用的SiLU激活函数替换为GELU,带来了一定的效果提升[15] 性能表现 - 在ImageNet 256×256测试中,DiC-XL的FID分数从DiT-XL/2的20降低到13,IS分数也大幅提升[17] - DiC-XL的推理吞吐量达到313.7,是DiT-XL/2(66.8)的近5倍,展现了显著的效率优势[17][18] - 在512x512分辨率下,DiC-XL用比DiT-XL/2更少的计算量,实现了更好的生成效果和更快的速度[22] 训练效率 - 不使用cfg时,DiC的收敛速度是DiT的十倍;使用cfg时FID可以达到2.25[18] - DiC-H模型在400K训练步数时FID为11.36,600K时降至9.73,800K时进一步降至8.96,展现了良好的训练扩展性[19] - 在相同设定下,DiC-H仅需256×2M的训练就能达到2.25的FID,优于DiT-XL/2需要256×7M训练才能达到的2.27[20]
实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
机器之心· 2025-07-11 16:27
核心观点 - 生数科技旗下AI视频模型Vidu Q1推出参考生功能,极大简化传统内容生产流程,实现「一个人就是一个剧组」的效果[2][3] - Vidu Q1参考生功能支持零分镜生成,只需上传人物、道具、场景等参考图即可直接融合为视频素材,操作仅需三步[5][17] - 该功能支持1080P视频直出,清晰度高,适用于多种场景如科幻叙事、童话动漫、人物特写等[17] - 当前版本最多支持7个主体输入,可同时处理多张图片并生成复杂互动场景[22][23] - 价格亲民,制作一条5秒1080p视频仅需20积分,标准版套餐48元/月含800积分[31] 功能特点 - **操作简便**:仅需上传照片、写提示词、成片三个步骤即可生成视频[3][5] - **多元素融合**:支持将人物、道具、场景等参考图直接融合为视频,无需分镜设计[5][23] - **高清晰度**:支持1080P视频直出,画质清晰,细节表现力强[17] - **多主体支持**:最多可同时处理7张图片,生成复杂互动场景[22][23] 应用案例 - **历史人物互动**:诸葛亮、丘吉尔、拿破仑在会议室、长城、铁王座等场景中自然互动,视频转场流畅[3][23][29] - **创意场景**:喵星人自拍时狮子靠近、蝙蝠侠与霸王龙对打等脑洞大开的视频生成[11] - **风格融合**:简笔画角色融入宫崎骏动画场景,风格适配度高[14][16] - **道具调整**:自动调整红缨枪大小以适配角色身材,优化画面和谐度[21] 用户反馈 - 社交平台涌现大量创意作品,如硅谷车库中跳舞的雕像、森林自拍的喵星人等[6][7][8][11] - 艺术家和程序员利用该功能实现跨IP角色同框,如1989版蝙蝠侠与1993版霸王龙对打[11] 实测表现 - **宫崎骏风格测试**:简笔画角色成功融入《龙猫》场景,风格一致且生动[14][16] - **多主体挑战**:7张图片输入下生成历史人物长城合照,互动自然但存在轻微图层融合瑕疵[23][26][30] - **道具与场景适配**:红缨枪大小自动调整,铁王座场景中人物互动自然但有遮挡问题[21][28] 价格与性价比 - 5秒1080p视频成本约20积分,标准版套餐48元/月含800积分,单价低廉[31]
马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
机器之心· 2025-07-11 16:27
Grok 4性能表现 - Grok 4在物理模拟测试中成功生成受地球引力和摩擦力影响的六边形弹球模拟代码,展示了对因果规律和时空关系的理解[5][7] - 在越狱攻击测试中,Grok 4成功抵御了提示词注入、身份探测、角色扮演注入和白色隐藏注入等多种攻击方式[12][13] - 在法律逻辑推理测试中,Grok 4能够详细解释公司债务违约后的法律和财务后果,表现优于竞品[15] - 在翻译和指令清晰度测试中,Grok 4完胜竞品o3[16] - 在8项综合测试中,Grok 4全部获胜,而竞品o3仅赢得2项[17] 应用场景展示 - 用户通过两个提示词即可用Grok 4创建完整的Flappy Bird游戏,并优化图形效果[21][22] - Grok 4在4小时内完成FPS射击游戏开发,展示出较强的游戏开发能力[24] - 仅用4个提示词即可创建交互式欧拉恒等式可视化工具,展示教育应用潜力[28][31] - 成功生成黑洞的交互式3D模拟,视觉效果惊艳[32] 性能局限性 - 在绘制印度地图轮廓任务中出现明显错误,准确性不足[36] - 处理数学问题时存在推理过程缺失问题,仅输出最终结果[42] - API接口目前不返回思考过程,影响用户体验[41] 行业反响 - 马斯克在发布会上宣称Grok 4所有学科达到博士后水平,可能实现科学新发现[2] - 尽管测试表现优异,马斯克仍表示产品"有改进空间"[44] - 网友调侃Grok 4性能提升依赖算力资源、华人工程师和加班文化[45]