量子位
搜索文档
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-05 13:43
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行 的企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现 并致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 2025 人工智能年度潜力创业公司 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 聚焦于中国人 ...
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-04 12:13
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行 的企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现 并致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人 ...
AI花17小时写了篇30页学术论文!自主选题,包含实验,还符合APA格式规范
量子位· 2025-10-04 12:13
AI自主科研系统核心能力 - Virtuous Machines AI系统在认知心理学领域自主完成从选题到成稿的全流程科研工作,耗时17小时,成本114美元,产出30页学术论文[1][3][5] - 系统通过在线平台Prolific招募288名人类被试,获得277份有效数据,并连续编写8小时Python代码进行重复测量方差分析[11][12] - 论文撰写引用40余篇PubMed和Semantic Scholar真实文献,严格遵循APA格式规范,涵盖方法、结果、讨论等完整学术论文结构[12] 技术架构与工作机制 - 采用多智能体协作架构,Master模块作为核心控制器,协同文献检索、数据分析、实验设计等专用AI助手模块[14][15][16] - 底层认知机制包含六层能力:知识检索、抽象提炼、元认知反思、任务分解、自主迭代和多智能体协作,形成"洋葱圈"式结构[18][20][21] - 集成d-RAG实时记忆库,实现新老知识动态交互整合,支持持续学习与知识更新[22] 性能表现与效率对比 - 科研效率相比人类团队提升10倍以上,具备处理真实实验噪音数据的能力[24] - 数据分析严谨性突出,能够识别统计显著性陷阱,在p<0.05情况下仍会评估效应量实际意义[24] - 系统具备自主迭代能力,可反复修改论文草稿、调试代码直至满意,无需人工干预[20] 当前局限性 - 存在理论理解偏差,如将已有研究结论误述为首次发现[25] - 出现技术细节错误,包括漏标图表Y轴单位、混淆专业术语概念等[25]
陶哲轩用GPT-5解决数学难题:仅29行Python代码
量子位· 2025-10-04 12:13
AI在数学研究中的应用突破 - 陶哲轩使用GPT-5成功解决了一个数学难题,该问题涉及验证最小公倍数序列是否构成高度丰数序列的子集[1][7][10] - AI通过自然语言对话在几轮沟通内生成关键参数,并将大问题拆解为小问题逐个攻破,最终生成仅29行的Python代码进行独立验证[14][20][22][23] - 使用AI后任务完成时间从人工所需的数小时大幅缩短,且AI在严肃数学课题中未出现幻觉问题[1][25] AI辅助研究的工作模式转变 - 研究策略发生转变,陶哲轩表示若没有AI协助,其不会采用当前已取得成功的关键策略,而可能转向理论渐近分析[2][3] - 工作模式从完全人工编码调试转变为人类指导AI进行启发式计算和参数搜索,显著提升研究效率[1][20][21] - 陶哲轩今年已多次成功应用AI工具,包括使用GPT-5进行半自动化文献检索、GitHub Copilot证明函数极限问题等[27][28][30] AI技术发展态势与行业认知 - OpenAI CEO对GPT-5的定位为迭代改进而非范式转变,强调关注安全和渐进式进步[33][35] - 行业专家认为这标志人类与机器共同探索新时代的开始,社区对此展开热烈讨论[4][5] - 技术应用案例显示AI已具备处理专业领域复杂问题的能力,且在特定任务中表现出可靠性和准确性[25][29]
OpenAI强硬回击马斯克窃密诉讼!xAI被指恶意人肉离职员工
量子位· 2025-10-04 12:13
诉讼核心争议 - OpenAI递交答辩状和驳回动议申请,全面否认xAI的指控,并斥责马斯克滥用诉权进行滋扰[2] - OpenAI立场强硬,表示将保护员工,不会被“霸凌行径”吓倒[3] - xAI指控OpenAI面临Grok竞争压力,通过系统性挖角进行窃密[5],而OpenAI反驳称无意窃密,指控目的是恐吓员工[7] xAI的具体指控 - 指控OpenAI违反联邦商业秘密保护法、蓄意干扰经济预期关系及违反加州不正当竞争法三项罪名[11] - 指控早期工程师Xuechen Li在面试时展示机密文档,并在收到OpenAI招聘官Tifa Chen的云盘链接后,将整个xAI代码库上传至私人设备[12][13] - 指控核心工程师Jimmy Fraiture使用AirDrop等技术手段将源码同步至个人设备并蓄意掩盖痕迹[14][15] - 指控一名前高级财务主管未签署离职保密协议跳槽至OpenAI,并掌握数据中心部署战略等核心商业机密[19][20] OpenAI的逐点反驳 - 针对Xuechen Li,否认其最终入职,称提供的链接仅为入职文档包且无上传权限,否认面试演示存在[27][29] - 针对Jimmy Fraiture,承认其入职但表示未要求或接收任何xAI机密,其删除文件行为属个人行为且公司不知情[31][32] - 针对财务主管,透露其因拒绝xAI“不当财务操作”主动辞职,数周后才联系OpenAI,非挖角行为[32][33] - 强调所有招聘合法合规,明确告知新员工不得携带前东家机密,未获取或使用任何xAI信息[34][35][36] 诉讼程序与公司影响 - OpenAI估值达到5000亿美元,回应态度强硬[10] - OpenAI提出动议要求驳回诉讼或删除与“窃密”无关的离职员工信息段落,认为xAI公开姓名是恶意“人肉”以恐吓员工[36][37] - 关于动议的听证会定于今年11月18日举行,此为程序性听证而非案件实质审理[38]
Nano Banana新增2大功能,还开放API了,一张图不到3毛钱
量子位· 2025-10-03 12:19
Nano Banana API开放与定价 - Nano Banana正式开放API 开发者可通过Gemini API将模型集成到自家产品中[1][9] - 企业可批量调用API实现大规模内容生产 同时保留Google AI Studio的简易使用途径[10][11] - API定价为每100万图像输出token收费30美元 单张1024x1024图片约消耗1290个token 成本约0.039美元[15][16] - 图像生成价格是Gemini 2.5 Flash文本模式的12倍 显示视觉生成的高成本特性[17] 新功能升级:画幅比与输出模式 - 新增画幅比自定义功能 支持16:9、9:16、4:3、3:2等十多种比例 突破原有1:1限制[3][4] - 横屏16:9适合电影级大片 竖屏9:16适配手机全屏显示 4:3营造怀旧感 3:2接近人眼视觉比例[18][21][23][27] - 推出纯图像输出模式 仅返回图像不附带文本 节省token并避免上下文干扰[7] - 新功能针对内容创作者优化 强化模型作为实用工具的定位[8] 应用场景与市场表现 - Google AI Studio支持Prompt直接生成应用 例如通过指令创建带滤镜的图像编辑应用[13][14] - 画幅比功能实测显示16:9增强沉浸感 9:16提升手机端注意力捕获能力 4:3适合梦核风格创作[19][21][25] - Gemini在苹果App Store保持最受欢迎AI应用地位 未被短视频版GPT撼动[31][32] 技术集成与开发支持 - API开放后模型可通过代码直接嵌入产品 同时提供开发者手册指导接入方法[9][11] - AI Studio的Build板块允许用户基于Nano Banana手动构建定制化应用[1][13]
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
量子位· 2025-10-03 12:19
多模态大模型LIRA的技术突破 - 华中科技大学与金山办公团队联合提出多模态大模型LIRA,该模型在图像分割与视觉理解两项任务上均取得SOTA性能 [3][6] - LIRA的核心创新在于引入了两个新模块:语义增强特征提取器(SEFE)与交错局部视觉耦合(ILVC) [3] - 与InternVL2相比,LIRA在保持理解性能的同时,额外支持图像分割任务;与OMG-LLaVA相比,LIRA在图像分割任务上平均提升8.5%,在MMBench上提升33.2% [7] 现有技术痛点与LIRA的解决方案 - 现有模型如OMG-LLaVA和LISA存在分割结果不够精确、理解过程出现幻觉两大痛点,源于物体属性理解不足与细粒度感知能力局限 [1][2] - 语义增强特征提取器(SEFE)通过融合高层语义特征与细粒度像素特征,增强模型的属性理解能力,从而提升分割精度 [4][24][25] - 交错局部视觉耦合(ILVC)通过显式绑定局部图像区域与对应文本描述,为模型提供细粒度监督,从而有效减少理解幻觉 [5][24][26] 技术细节与工作原理 - SEFE模块融合了预训练多模态大模型的语义编码器和分割模型的像素编码器,通过多头交叉注意力机制融合特征后送入大语言模型 [28][29] - ILVC模块的工作流程为:使用token生成分割掩码,基于掩码裁剪图像区域并调整大小,输入SEFE提取局部特征,再将特征输入大语言模型生成区域描述,以此建立局部图像与文本的显式联系 [33][34] - 研究团队将根据用户查询和图像信息理解物体属性以实现准确分割的过程,定义为“推理分割”(Inferring Segmentation) [21][22] 实验性能与数据验证 - 在多个基准测试中,LIRA-8B模型在理解任务上表现优异,例如在VizWiz得分71.5、VQAv2得分80.4、MMB-en得分81.1、MMB-cn得分80.5 [36] - 在分割任务上,LIRA-8B模型在RefCOCO的TestA集得分83.4,在RefCOCO+的TestA集得分81.1,在RefCOCOg的Test集得分78.2 [36] - 消融实验证明SEFE模块有效:在InternLM2-1.8B骨干网络上,增加SEFE使VizWiz得分从62.7提升至67.0,VQAv2得分从71.1提升至76.1 [37] - ILVC模块能有效降低幻觉率:在ChairS数据集上,使用ILVC后,1.8B和7B规模模型的幻觉率分别降低了3.0%和4.8% [38] - 联合训练验证:LIRA-2B同时用理解数据和分割数据进行联合训练,性能仅较单独用理解数据训练略微下降0.2%,显著优于OMG-LLaVA在五个理解数据集上近15%的性能下降 [40][41] 行业意义与未来展望 - 该研究将多模态大模型的能力从视觉理解拓展至像素级分割,实现了理解与分割任务性能的协同提升 [9][43] - 研究团队探讨了token在分割任务中的作用,发现其logits能够准确反映被分割物体的属性,推测其可能蕴含更丰富的物体语义信息 [20][42] - 该工作为在细粒度多模态大模型中缓解幻觉提供了新视角,并为后续相关探索提供了启示 [43] - 该项目论文已被ICCV 2025录用 [8]
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-03 12:19
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行 的企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现 并致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度潜力创业公司 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 聚焦于中国人 ...
LeCun不想再忍了!亲口承认要辞职
量子位· 2025-10-03 12:19
文章核心观点 - Meta AI部门近期进行频繁组织调整,引发内部动荡,核心矛盾在于公司战略向产品化倾斜,与基础研究团队FAIR所秉持的开放、学术自由文化产生冲突 [1][3][7] - 图灵奖得主、FAIR联合创始人Yann LeCun因不满公司AI战略摇摆、个人职权被削弱以及研究自主性受限,考虑辞去首席科学家职务 [2][11][12] - 内部不满情绪蔓延,FAIR团队士气受挫,多名顶级研究人员离职,新老员工因薪酬、资源分配不均等问题导致团队稳定性下降 [27][29][31] Meta AI部门组织架构调整 - 公司在6个月内对AI部门进行4次重组,最新架构包括TBD实验室、产品与应用研究、基础设施和基础人工智能研究(FAIR)四个主要部门 [15][16] - 组织调整频繁导致研究人员工作职责、汇报关系不断变化,不利于研究持续推进 [15][17] - TBD实验室由Alexandr Wang负责,专注于高风险高回报创新技术及大语言模型开发;FAIR由Robert Fergus领导,专注于长期基础科学研究 [16] 对Yann LeCun及FAIR团队的影响 - LeCun在内部AI领导核心地位被降级,公司于7月任命OpenAI前研究员赵晟佳为超级智能实验室首席科学家,削弱其影响力 [18][19][20] - 自8月底起,FAIR对外发表论文需先经TBD实验室审核,若论文价值大则优先内部产品落地,限制学术自由 [5][6][21][22] - FAIR过去12年定位为开放、协作的基础科学探索实验室,新政策与其初心相悖 [23][24] 内部团队矛盾与人员流失 - FAIR团队普遍对论文审核规定感到失望,认为限制自由,公司还敦促团队对产品做出贡献 [27][28] - 新入职研究人员薪酬包达数千万至上亿人民币级别,在TBD实验室享有更高资源和自主权,加剧内部张力 [30] - 多名顶级研究人员离职,包括Avi Verma、Ethan Knight、Rishabh Agarwal等 [31][32] - TBD实验室要求研究人员每周5天到岗,其他AI团队仅需3天,工作环境紧张,内部描述为“抢地盘、抢项目、窃取成果”的“转移性癌症” [34][35] 产品化战略与市场表现 - Meta AI应用原由首席产品官Chris Cox团队负责,现归超级智能实验室管理,计划添加AI生成短视频推送功能 [39][40] - 新功能“Vibes”与Sora 2同期上线,但市场表现不佳,Meta AI在iOS免费应用排行榜位列第97名,Sora 2排名第3 [41][42][43] - Reality Labs员工对AI部门新增功能表示不满,内部论坛有负面评价 [38][41]
斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文
量子位· 2025-10-02 13:30
文章核心观点 - 提出名为DexUMI的数据采集与策略学习框架,通过硬件与软件双重适配,利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手 [2] - 该框架旨在解决人手与灵巧手之间的具身差异,相比传统遥操作方法,数据采集效率提升3.2倍,在复杂任务中平均成功率高达86% [7][32] - 框架验证了其在精密操作、多接触交互及长时序任务中的能力,为大规模灵巧手现实数据高效采集建立了新范式 [35][36][37] DexUMI框架的技术原理 - **硬件适配**:针对每款灵巧手设计专用可穿戴外骨骼装置,通过硬件优化调整参数(如连杆长度),精准匹配灵巧手指运动轨迹 [18] - 外骨骼装置采用编码器捕捉关节运动,配备150°广视场角相机记录视觉数据,并利用iPhone ARKit技术追踪手腕位姿 [19] - **软件适配**:采用数据处理流水线,首先从示教视频中分割移除人手及外骨骼,随后利用目标灵巧手及环境背景进行视频修复,确保训练与部署阶段视觉输入一致 [22] - 软件处理包含四个具体步骤:人手与外骨骼分割、环境背景修复、生成对应灵巧手视频、机器人示教视频合成 [25][26][27] DexUMI的性能验证与结果 - 在两款灵巧手硬件平台(全驱和欠驱)上验证了框架的有效性 [7] - 在四项现实任务中进行评估,包括立方体任务、蛋盒开启、茶艺操作和厨房任务,每项任务进行20次评估回合 [29][33] - 实验结果显示,软件适配对于弥合视觉差距至关重要,例如在学习蛋盒开启动作时,若无软件适配则无法精准交互 [31] - 在包含需多指协同的长时序复杂任务中,DexUMI实现了86%的平均任务成功率 [32] 涉及的灵巧手硬件 - **星动纪元XHAND 1**:采用全驱动设计,具备12个主动自由度,大拇指三个自由度,食指三个自由度,其余三指各两个自由度 [33] - **Inspire Hand**:采用欠驱动设计,12自由度(6主动自由度),拇指2主动2被动自由度,其余四指各1主动1被动自由度 [33] - 星动XHAND 1在测试中表现卓越,单独完成了包含四个连续步骤的厨房长序列任务 [37] - 星动XHAND 1的性能得益于其关节全直驱方案以及指尖270度覆盖的高精度触觉传感器 [37][39] 行业影响与前景 - DexUMI框架被视为对去年发布的UMI(针对夹爪类机器人)的升级,从夹爪扩展到更复杂、更高自由度的灵巧手,可能引发新一轮灵巧手数据采集革命 [5] - 该研究在CoRL 2025中被提名为最佳论文,显示了其学术与行业影响力 [5] - 框架为建立数据采集共享社区奠定基础,众多数据采集者、研究机构及企业可共同贡献和使用高质量数据集,降低数据采集成本,避免资源浪费 [39][41] - 这种数据共享模式将提高数据采集效率,加速真实数据在Scaling law中的比例,从而推动灵巧操作在实际应用场景的落地和整体市场规模的扩大 [41]