Workflow
Artificial Intelligence
icon
搜索文档
XAIR大会发布多项“AI+制造”成果
中国化工报· 2025-12-17 10:52
同时,为进一步整合产业创新资源,广东联通携手广东省人工智能产业协会、粤港澳大湾区国家技术创 新中心、华为、中兴等20家等单位,共同发起成立"广东省人工智能+制造产业联盟",聚力攻克共性技 术难题、促进资源协同与成果转化,支撑广东制造业向新质生产力跃升。广东联通还与华为、TCL、美 的、广药、博敏电子、广东九联共六家生态伙伴签署了"格物工业互联网平台&万悟工业智能体矩阵"共 创协议,加速技术成果向产业实践的转化。 图为发布仪式现场。 (视觉中国供图) 中化新网讯 12月12日~14日,2025粤港澳大湾区人工智能与机器人产业大会暨广东省人工智能与机器人 技能大赛(以下简称XAIR大会)在广州越秀国际会议中心举办。会上发布了一系列人工智能(AI)与 制造业深度融合的最新成果。 大会展示了"国家人工智能中试基地"的建设成果。该基地是全国唯一聚焦移动终端方向、唯一由深圳与 东莞双城共建的国家级中试平台,由中国联通承建。基地围绕"终端创新"与"制造提效",构建算力、数 据、模型、应用、安全五大能力底座,建设国产芯片、开源鸿蒙、应用开发、智能体及中试验证五大中 心,致力于打通从技术研发到产业落地的关键路径。 论坛上,广东 ...
OpenAI据悉洽谈从亚马逊融资100亿美元
新浪财经· 2025-12-17 10:51
责任编辑:于健 SF069 The Information援引知情人士报道称,OpenAI正在与亚马逊公司洽谈,引入至少100亿美元的投资,并 使用亚马逊的自研人工智能(AI)芯片。 The Information援引知情人士报道称,OpenAI正在与亚马逊公司洽谈,引入至少100亿美元的投资,并 使用亚马逊的自研人工智能(AI)芯片。 报道称,如果交易达成,亚马逊的Trainium芯片将获得新客户。这款芯片与英伟达公司的AI加速器相竞 争。 报道称,如果交易达成,亚马逊的Trainium芯片将获得新客户。这款芯片与英伟达公司的AI加速器相竞 争。 责任编辑:于健 SF069 ...
Codex负责人打脸Cursor CEO“规范驱动开发论”,18天造Sora爆款,靠智能体24小时不停跑,曝OpenAI狂飙内幕
36氪· 2025-12-17 10:45
自 8 月 GPT-5 发布以来,Codex展现出惊人的爆发力,用户增长 20 倍,每周处理数万亿 tokens,成为 了 Open AI 最受欢迎的编程智能体。 "Codex 能快速实现 20倍的增长,不只是因为模型变强了,还因为我们理解了,真正的智能体不是一个 模型,而是模型、API 和框架共同努力的结果。"在最新播客中,OpenAI 的编程智能体 Codex 产品负 责人 Alexander Embiricos 揭露背后的秘密。 比如,Codex 在长时任务能力上的突破。为了让它能够连续工作十几个小时甚至数天,团队设计了名 为"压缩"的机制——模型负责提炼关键信息,API 承接任务链路,框架负责稳定运行。三层像齿轮般咬 合,使 Codex 能够完成传统大模型难以支撑的长时编程任务。 正是这样的底层逻辑,让 Codex 在业务实战中有惊人表现。 Andrej Karpathy 曾公开分享,他被一个 bug 困住数小时,最终交给 Codex 处理,一小时内就完成了修 复。 Sora 团队更是依靠 Codex,在短短 28 天时间,从 0 到 1 完成 Android 应用的上线,直接冲到 App Store ...
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 10:45
"通往超级智能的那条路——无非是不断训练大语言模型、喂更多合成数据、雇上几千人做后训练、再在强化学习上搞点新花样——在我看来完全是胡 扯,这条路根本行不通。" 近日,在一档名为《The Information Bottleneck》的访谈栏目中,主持人 Ravid Shwartz-Ziv 和 Allen Roush 与图灵奖得主、前 Meta 首席 AI 科学家 Yann LeCun 展开了一场近两小时的高质量对话,在访谈中,LeCun 解释了为什么会在 65 岁这个别人已经退休的年纪他还在创业,此外,他也对当前硅谷主流 的人工智能发展路径给出了罕见而尖锐的评价。 结束在 Meta 长达 12 年的职业生涯后,LeCun 正将个人学术声誉与职业"遗产"押注在一套截然不同的 AI 愿景之上。他直言,业界对大语言模型规模化的 执念,正在把人工智能引向一条看似高速、实则封闭的死胡同。 在 LeCun 看来,真正制约 AI 进步的关键,并不是如何更快地逼近"人类级智能",而是如何跨越一个常被低估却极其困难的门槛——让机器具备"狗的智 能水平"。这一判断挑战了当前以语言能力和知识覆盖面为中心的评估体系。在他看来,现实世 ...
OpenAI in talks to raise at least $10 billion from Amazon and use its AI chips, the Information reports
Reuters· 2025-12-17 10:34
融资与战略合作 - 人工智能公司OpenAI正在洽谈从亚马逊筹集100亿美元或更多资金 [1] - 此次融资谈判涉及OpenAI使用亚马逊的人工智能芯片 [1] 行业动态 - 此次融资与合作的报道由The Information在周二发布 [1] - 报道的信息来源是熟悉此事的相关人士 [1]
蚂蚁阿福爆火背后:大厂AI,正霸榜2025
36氪· 2025-12-17 10:24
中国的AI叙事逻辑,在悄然变化。 2025年以来,曾经以"AI六小虎"为代表,凭借创新概念搅动赛道的初创公司,当下面临着更深度的竞争压力。而反观传统互联网大厂,其在AI赛道的动作 越发密集和大力度。 最明显的体现,便是大厂布局的不断深入。除了竞相推出全新的基础模型和应用以外,大厂还公开表态要加大对AI的资金和技术投入,诸如阿里、字节 等已经有了突出进展的选手,不但已经具备了全栈的AI能力,也已经过渡到用"杀手级"应用在核心场景做卡位。 比如,12月15日,蚂蚁集团宣布全面升级旗下AI健康应用"蚂蚁阿福",新版App凭借健康陪伴等亮点,发布后迅速攀升至苹果应用商店免费榜第三位,引 发了行业广泛关注。这也是近期阿里系继开售夸克AI眼镜、上线"千问"及"灵光"应用、成立千问C端事业群等动作之后的又一大动作。 产品层面,年初DeepSeek等产品的爆火,以前所未有的力度完成了一轮AI市场教育,大众对AI产品的认知真正从一种新奇技术转变为得心应手的日常工 具。而阿里、字节、腾讯等大厂又凭借巨额营销投入和天然的生态入口等优势,牢牢把控住大量用户的"屏幕"。 以a16z今年发布的全球top 100消费级Gen AI应用榜单 ...
Nature重磅发文:深度学习x符号学习,是AGI唯一路径
36氪· 2025-12-17 10:12
忆往昔,符号AI曾以规则逻辑统领江湖;今朝卷土重来,它携手神经网络,直指AGI! 但AI领域的权威们已经开始泼下一盆冷水: 真正的突破,恐怕要靠老牌选手「符号派AI」与神经网络联手登场。 这几年,大模型多次让人惊艳:聊天像真人、写作像专家、画画像大师,仿佛「万能AI」真的要来了。 只靠「神经网络」,远远不够通往人类级智能。 美国人工智能促进协会(AAAI)向会员发出提问: 绝大多数研究者给出的答案是——不行。 符号AI:起死回生 在历史上,符号派AI曾是主角——它相信,世界可以被规则、逻辑和清晰的概念关系穷尽刻画: 像数学那样精确,像流程图那样可追溯,像生物分类法那样层次分明。 后来,神经网络崛起,用「从数据中学习」的范式席卷整个领域。 大模型与ChatGPT成为这个时代的技术图腾,而符号系统被边缘化,几乎只剩下教科书上的一段历史。 然而,自2021年前后开始,「神经–符号融合」急速升温,被视为打破单一神经网络话语权的一次反扑: 未来,计算机能否达到、甚至超越人类智力? 如果可以,单靠当下火爆的神经网络行不行? 它试图把统计学习与显式推理拼接在一起,不仅为了追逐通用智能这一远目标,更为了在军事、医疗等高风险场 ...
VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建
机器之心· 2025-12-17 10:05
研究背景与问题 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体(如行人、车辆)的动态4D场景时,性能显著下降,动态物体的运动会干扰背景几何建模并导致严重的相机位姿漂移 [6] - 现有解决方案面临两类主要挑战:一是依赖繁重的测试时优化或需要在大规模4D数据集上进行微调,计算或训练成本高;二是通常需要引入光流、深度估计或语义分割等额外模块,增加了系统复杂性 [9] 核心洞察与原理 - 研究团队通过可视化分析VGGT的注意力机制,发现其不同网络层对动态区域表现出截然不同的响应模式:浅层网络倾向于捕捉语义上显著的动态物体,而深层网络则逐渐抑制几何不一致的区域 [8][9] - 这一发现表明,VGGT虽然是基于静态假设训练的,但其内部实际上已经隐式编码了丰富的动态线索 [12] - 然而,直接利用标准的注意力图效果不理想,因为它混合了纹理、语义和运动信息,导致信噪比低 [12] 方法论:VGGT4D框架 - VGGT4D是一种无需训练的框架,其核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制,深入特征流形内部,利用Gram矩阵和梯度流实现高精度的动静分离 [14] - 为解决标准注意力图中Query和Key向量来自异构投影头导致的特征分布间隙问题,VGGT4D引入了自相似性Gram矩阵来替代,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号 [16][17] - 为解决注意力图分辨率不足导致的边界模糊问题,VGGT4D引入了投影梯度感知精修,利用几何投影残差关于3D坐标的梯度所包含的强边界信息,对动态掩膜进行亚像素级锐化 [19] - 在推理阶段,VGGT4D采用了分布内早期掩膜策略,仅在浅层抑制动态Token的Key向量,既切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性 [21] 实验验证:动态物体分割 - 在动态物体分割任务上,VGGT4D在DAVIS-2016和DAVIS-2017数据集上均达到了最优性能,即使没有经过任何4D特定的训练,仅基于预训练的VGGT模型即可取得优异结果 [24] - 具体数据:在DAVIS-2016数据集上,VGGT4D的JM指标为62.12,JR指标为76.80,FM指标为56.04,FR指标为67.49;在DAVIS-2017数据集上,JM为56.45,JR为65.62,FM为51.09,FR为56.85 [25] - 定性分析显示,VGGT4D生成的掩码比基线方法(如Easi3R、DAS3R、MonST3R)更加准确,边界更加清晰,验证了从VGGT的Gram相似度统计信息中可提取丰富运动线索的假设 [25] 实验验证:相机位姿估计 - 原始VGGT本身已是一个强大的基线,其相机位姿估计性能优于MonST3R、DAS3R等许多专门的4D重建方法,表明其预训练隐式地使其对动态物体具有一定的鲁棒性 [27] - VGGT4D在所有数据集上均持续改进了VGGT基线,例如在VKITTI数据集上,VGGT4D的ATE(绝对轨迹误差)为0.164,而MonST3R高达2.272 [27][28] - 在极具挑战性的长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得了最佳结果,同时保持了高度效率,而许多其他4D方法由于内存不足无法在500帧序列上运行 [28] - 具体数据:在Point Odyssey上,VGGT4D的ATE为0.019,RTE为0.009,RRE为0.290,均优于VGGT基线的0.022、0.015和0.344 [29] 实验验证:4D点云重建 - 在DyCheck数据集上的评估显示,VGGT4D在所有重建指标(准确度、完整度和距离)上均取得了最佳性能 [30] - 与VGGT基线相比,VGGT4D将中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123,证明了该方法能实质性提升几何重建质量 [30][31] - 具体数据:VGGT4D的位姿估计ATE为0.010,准确度均值为0.022、中位数为0.004,完整度均值为0.051、中位数为0.012,距离均值为0.123、中位数为0.050 [31] 研究意义与结论 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型的能力扩展至4D动态场景 [33] - 该工作证明了通过合理挖掘模型内部的Gram相似度统计特性,可以有效解耦动态与静态信息,这不仅为低成本的4D重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力 [33]
谷歌、马斯克紧逼下,OpenAI火线升级ChatGPT图像功能:生成速度提升4倍 编辑精度显著优化
智通财经· 2025-12-17 09:56
此次图像功能升级,旨在同时满足个人创作与专业生产需求。升级后的系统支持对上传图像进行多维度 编辑:例如将照片级写实风格转换为水彩画质感,或为画面中的人物添加新配饰,且所有编辑操作均能 保留原始图像的细节完整性。OpenAI特别强调,新模型在多次编辑过程中可稳定保持光线效果、人物 外观及场景构图的一致性——这一痛点曾导致前代图像模型在多轮编辑中频繁出现细节失真问题。 此外,新模型在文本生成能力上实现突破,支持创建包含更多小型文字的图像内容,例如根据用户提示 生成详细信息图表或多段落文本;同时在单张图像中生成多个清晰的小尺寸人脸图像方面,表现也更为 出色。 财经频道更多独家策划、专家专栏,免费查阅>> 责任编辑:栎树 智通财经获悉,在与谷歌(GOOGL.US)等公司的激烈竞争中,AI巨头OpenAI持续强化其旗舰聊天机器人 产品。该公司于周二宣布,将为ChatGPT的图像生成功能推出重大更新,不仅能提升图像生成的精准度 与编辑灵活性,生成速度更较前代模型最高提升4倍,同时还将在移动端应用及网页端增设独立图像生 成入口,无需通过聊天交互即可直接使用。 作为OpenAI打造"全能应用"战略的重要一环,ChatGPT正 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线
量子位· 2025-12-17 09:04
Jay 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI的红色预警,还在发力。 憋了大半年的图像生成模型—— GPT-Image-1.5 ,终于发布。 据官方表示,本次更新主要有四个亮点: 拯救这个被烤焦的饼。 感觉……这是要全面对标Nano Banana了啊。 目前的玩法也很类似。比如,将汽车颜色改为橙色。 更严谨的指令遵循; 精确编辑; 细节保留; 速度比以前快4倍。 根据奶昔架、芝士汉堡等元素,做一个复古风格的餐馆广告。 指令遵守和精确编辑方面,的确比之前强了不少。 而且今天就能用上了,GPT-Image-1.5将在ChatGPT中面向所有用户推出,并在API中作为GPT Image 1.5推出。 拍摄一张20世纪70年代伦敦切尔西的场景照片,画面要逼真,所有景物清晰对焦,人群密集,还有一辆公交车,车身贴着「ImageGen 1.5」的广告,广告上印有OpenAI标志和「创造你的想象」的副标题。整体风格像业余摄影作品,iPhone快照画质…… OpenAI最强图像生成模型 被谷歌一轮正面「拷打」之后,OpenAI藏了大半年的GPT-Image-1.5,终于憋不住了。 这个旗舰级图像生成模型, ...