人工

搜索文档
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
量子位· 2025-07-20 10:49
移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励(SFT或RL),难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败,显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架,整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程:格式微调(SFT)、动作级训练(GRPO)、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集,覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证(边界框匹配)和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性,格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动,增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%,较最佳基线(AgentCPM-8B的30%)提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版,动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果,最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性,泛化能力优于基准模型[29][32]
AI打假AI,拿下SOTA丨厦大&腾讯优图
量子位· 2025-07-20 10:49
AI生成图像检测技术 - 核心观点:厦门大学与腾讯优图实验室联合提出AIGI-Holmes方法,通过"大模型+视觉专家"协同架构解决AI生成图像检测的可解释性与泛化能力问题 [2][5] - 技术亮点:采用双视觉编码器架构(LLaVA+NPR视觉专家)同时处理高级语义和低级视觉特征 [6] - 训练流程:包含视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三阶段 [7] - 推理优化:协同解码策略融合视觉专家与大语言模型预测结果,权重分配为1:1:0.2 [8][25] 性能表现 - 基准测试:在POGAN、StyleGAN2等17种生成模型检测中平均准确率达93.16%,显著优于CNNSpot(70.78%)等传统方法 [11] - 跨数据集验证:在COCO、Flickr等数据集上检测准确率保持100%,对SDXL、DALL·E-3等新模型检测准确率超99% [29][30] - 鲁棒性测试:JPEG压缩(98.7%)、高斯模糊(97.9%)等干扰下性能下降幅度小于5%,显著优于AIDE(90.7%)等竞品 [35] 关键技术实现 - 数据构建:Holmes-Set数据集含45K图像+20K标注,覆盖13类生成缺陷(人脸异常/物理法则错误等) [15][19] - 自动标注:采用Qwen2VL-72B等4种大模型进行多专家评审,设计通用正向/负向/特定缺陷三类prompt [18][19] - 偏好修正:通过人工标注修正SFT输出,使用Deepseek生成修改前后解释对用于DPO训练 [21] 解释能力评估 - 客观指标:BLEU-1(0.622)、ROUGE-L(0.375)等自然语言指标超越GPT-40(0.433) [32] - 主观评分:人类ELO评分达11.42,优于Pixtral-124B(10.472)等基线模型 [32] - 抗干扰性:JPEG压缩下解释指标(BLEU-1等)波动小于5%,保持语义一致性 [34] 行业应用前景 - 技术局限:存在幻觉问题(错误解释正常特征)及细粒度缺陷检测挑战 [36][37] - 迭代方向:将针对多模态大模型幻觉问题、解释客观评估指标开展优化 [39] - 开源资源:代码与论文已在GitHub和arXiv平台公开 [39]
深度|OpenAI 多智能体负责人:许多人正在构建的产品并未真正遵循Scaling Law,最终都会被所取代
Z Potentials· 2025-07-20 10:48
多智能体与游戏AI研究 - OpenAI开发的Cicero系统在《Diplomacy》游戏中达到人类玩家前10%水平,并通过AI反哺训练使开发者Noam Brown成为2025年世界冠军[3][4] - Cicero采用27亿参数的小型语言模型,开发过程中发现更大模型能显著提升性能[8] - 多智能体研究不仅关注博弈策略,更探索如何扩展模型推理时间至数小时甚至数天以解决复杂问题[55] AI推理范式演进 - 测试时计算成为下一代AI核心能力,模型思考时间从15分钟向更长周期扩展带来数量级性能提升[32][34] - 系统一(直觉)与系统二(推理)能力需协同发展,模型规模扩大后推理性能呈现涌现特性[15][16] - OpenAI通过o系列模型验证推理范式,o3已具备网页浏览和深度研究能力,性能持续迭代[11][26] 数据效率与算法改进 - 当前AI数据效率显著低于人类,算法改进是提高数据利用率的关键方向[38][39] - 强化学习微调(RFT)可针对性优化模型,收集的数据对未来模型迭代仍具价值[30] - 预训练模型需结合中训练和后训练才能实用化,纯预训练模型表现欠佳[88][90] 行业竞争与技术路线 - 自对弈在两人零和游戏(如围棋)中有效,但在多人非零和场景面临目标函数设计挑战[66][69] - 模型路由等辅助结构可能被扩展范式取代,开发者需警惕技术快速迭代带来的架构淘汰风险[26][28] - OpenAI采用集中资源进行大规模实验的策略,区别于传统实验室的小型分散研究模式[40][41] 应用场景与商业化 - Codex编程助手可独立完成代码提交,未来将覆盖从问题提出到PR审核的全流程[43][51] - 虚拟助手成为继软件开发后的重点应用领域,AI对齐需求使其可能超越人类表现[52] - 生成式媒体(Sora)与推理模型形成技术矩阵,推动商业订阅增长[71] 前沿研究方向 - 显式建模其他智能体的必要性存疑,大规模模型可能自发形成心理理论能力[64] - 万智牌等超复杂不完美信息游戏暴露现有AI方法的局限性,状态空间爆炸问题待解[99][100] - 生物模拟器开发被视为突破药物研发瓶颈的关键路径,需跨学科协作[86]
广发证券胡金泉谈科创板改革:为企业提供广阔空间,为投资者开拓新机遇
第一财经· 2025-07-20 10:06
科创板政策改革 - 科创板推出6项改革举措,包括扩大第五套标准适用范围、试点引入资深专业机构投资者制度、试点IPO预先审阅机制等 [1] - 设置科创成长层重点服务技术突破大、商业前景广但未盈利的科技企业,实施分层管理增强制度包容性 [1][5] - 政策明确支持在审未盈利科技企业向老股东增资扩股,贴近实体经济需求 [1][3] 行业布局与项目储备 - 广发证券围绕国家战略布局AI+、绿色能源、生命科学等核心赛道,形成发行/申报/辅导/储备的科创板项目梯队 [2] - 在审项目包括环动科技(机器人减速器龙头)、健信超导(全球最大超导磁体供应商),辅导未盈利企业粤芯半导体、锐石创芯 [2] - 后续重点培育AI+、机器人、航空航天、化工新材料、生命科学等领域项目储备 [2] 战略性产业投融资机会 - 人工智能、商业航天、低空经济领域适用第五套标准,资本逻辑转向长期技术价值评估 [2] - 三大领域投资需关注政策适配性、技术-商业平衡、产业链卡位能力 [2] - 政策支持与技术突破协同催生差异化投融资机遇,推动资本与技术创新良性循环 [2] 投行业务执行策略 - 建设专业机构投资者生态圈,通过产业论坛、闭门会议等活动评估企业科创属性 [3] - 为早期科技企业提供规范培训、股权激励设计、上下游资源引荐等综合服务 [3] - 通过并购重组丰富退出路径,引导市场理性看待未盈利企业长期价值 [3] 未盈利企业上市风控 - 项目选择聚焦硬科技领域,注重行业前景分析和国家战略匹配度 [5] - 强化研发费用真实性核查,评估团队背景、专利质量及商业化落地可能性 [6] - 加强行业理解、资产定价等核心能力建设,防范"伪科技"企业风险 [6] IPO预先审阅机制 - 借鉴境外"秘密递交"制度,减少企业上市阶段信息曝光时间,保护技术安全 [7] - 正式申报时同步披露预先审阅问询回复及文件差异说明,保障投资者知情权 [7] - 机制平衡信息披露与投资者研判需求,增强科技企业IPO意愿 [7]
上半年北京工业和信息软件业对全市经济增长贡献率超六成 新质生产力培育驶入“快车道”
北京晚报· 2025-07-20 09:56
北京产业经济发展概况 - 上半年北京工业和信息软件业合计实现增加值突破9000亿元,占全市GDP比重达36.2%,创历史新高,对经济增长贡献率达61.6% [1] - 规模以上工业实现产值1.35万亿元,增加值同比增长7%,连续16个月高于全国工业平均增长水平 [4] 人工智能与数字经济 - 通明湖信息城打造全国规模最大的人工智能新质社区集群,在京人工智能企业突破2400家 [2] - 累计备案上线大模型132款,数量全国首位,新增智算供给1.1万PFlops [7] - 1-5月信息软件业实现营收近1.4万亿元,同比增长13.8%,利润总额增长28.8%,规模增速居各行业首位 [5] 新能源汽车与高端制造 - 上半年生产新能源汽车26.2万辆,同比增长1.5倍,带动汽车制造业增加值增长16.7% [3] - 规模以上高技术制造业和战略性新兴产业增加值分别增长9.9%和16.8% [3] - 新增149家先进级智能工厂,绿色工厂累计达212家,绿色企业比例27.2% [3] 医药健康产业 - 7个三类创新医疗器械和9个AI三类医疗器械获批上市,数量全国首位 [3] - 12家企业进入中国医药工业主营业务收入百强 [3] - 美敦力、阿斯利康、辉瑞等跨国药企相继落户 [3] 技术创新与政策支持 - 建成全国首个通用具身智能平台"慧思开物"和自主指令集高性能处理器芯片 [2] - 出台数据要素综合试验区政策,公共数据开放平台开放数据13亿条 [7] - 高精尖产业资金累计支持企业500家,金额近20亿元 [7]
“AI登月时刻”,OpenAI模型摘取奥数金牌
虎嗅· 2025-07-20 09:41
OpenAI在数学竞赛中的突破 - OpenAI的通用推理模型在2025年国际奥林匹克数学竞赛(IMO)中达到金牌水平,在禁用工具和互联网的条件下,以自然语言撰写证明,完整解出6题中的5题,最终得分35/42分[1] - 该模型是通用推理模型而非专门解数学题的系统,不依赖标准答案或实时打分的奖励信号,而是通过通用推理和新技术在长时间复杂过程中完成正确推理[1] - 模型由三位前IMO奖牌得主独立批改并取得一致意见后定分,证明其严谨性[1] OpenAI的技术领先地位 - OpenAI目前拥有最强的编程及数学模型,在AtCoder世界巡回赛2025决赛中仅次于人类编程奇才Psyho,测试表现优于o3 pro模型[2] - 该成就使OpenAI再次碾压DeepMind、Anthropic、Grok等竞争对手,并拉开与中国开源模型的差距[3] - OpenAI内部正在测试全新推理模型,奥数金牌成绩仅为小试牛刀,正式发布预计在GPT-5之后[4] 技术方法与意义 - 模型突破传统强化学习范式,不依赖狭窄的任务特化技巧,而是通过通用强化学习与"测试时计算"扩展的新技术实现[7] - 模型未针对IMO做专项训练,仅持续训练通用模型,所有证明均为自然语言撰写,未使用定制化评测框架[7] - 该模型在推理时间跨度和创造性思考上取得重大进展,从GSM8K(0.1分钟)到IMO(100分钟)逐步突破[5] 未来展望 - 从起步到奥数金牌水平仅用15个月,预计明年可用于数学定理生成和全新数学研究方法[11] - 市场预测人工智能在2030年前解决千禧年大奖难题的概率骤升至81%[12] - OpenAI科学家认为AI正接近在科学发现中发挥实质性作用的阶段,从略低于顶尖人类水平到略高于顶尖人类水平的差距巨大[28] GPT-5相关信息 - GPT-5即将发布,将采用实验性模型并融入未来模型采用的新研究技术[13] - GPT-5不会具备IMO金牌水平能力,但可能采用统一模型架构,用户可调整推理强度或智能等级[14][15] - GPT-5可能采用端到端强化学习(RL)进行训练,直接从原始输入学习最优策略,无需拆分子任务或设计中间模块[20] 行业影响 - OpenAI在经历Meta挖角后仍保持顶尖研究人才密度,此次突破向Meta展示其向超级人工智能跨越的决心[21] - 该成就由小团队完成,使用最近开发的新技术,对许多OpenAI研究人员也是惊喜,展示了前沿能力所在[29][30] - 不同于以往狭窄领域的AI系统,该模型具备更广泛的推理能力,远超竞赛题范围[10][24]
浙江5部门通告追溯娃哈哈20年资金流向?官方辟谣;农夫山泉、祖名股份:与余杭异味自来水无关联;演唱会出轨门CEO宣布辞职丨邦早报
创业邦· 2025-07-20 09:15
完整早报音频,请点击标题下方小耳机收听 【浙江 5 部门通告追溯娃哈哈 20 年资金流向?假消息】 近日,有关宗庆后子女财产继承纠纷以及娃哈哈方面的相 关新闻不断发酵,一度成为社会热点。 7 月 18 日,突然多家自媒体发布信息称"浙江省纪委国资公安等 5 部门通 告追溯娃哈哈 20 年资金流向",一时间该消息不断在网络蔓延。杭州市有关部门表示,上述消息为假消息。(经济 参考报) 图:网络流传图片 【农夫山泉、祖名股份:与余杭异味自来水无关联】 7 月 19 日,在良渚自来水事件发酵后,网上流传出一张生产 用水受到影响的企业名单,包括农夫山泉和祖名股份等。网传表格称,农夫山泉的良渚生产基地位于良渚街道,涉 及品牌为茶π和东方树叶,用水量等级极高,水源风险为中等;祖名股份位于仁和街道,用水量为高等,水源风险也 为高等。 7 月 19 日,有知情人士表示,农夫山泉没有良渚生产基地,其生产经营与此次良渚自来水事件没有关 联。随后,农夫山泉官博在相关报道评论区中表示:"我们没有余杭生产基地,也从来没有使用自来水生产水和饮 料。"祖名股份工作人员表示,他们的生产企业在杭州市滨江区,和事发地离得比较远。当天早些时候,祖名 ...
MiniMax完成近3亿美元B+轮融资;华电新能登陆上交所,最新市值为2724.43亿人民币丨全球投融资周报
创业邦· 2025-07-20 09:15
一级市场投融资概览 - 本周国内一级市场披露融资事件113个,较上周减少36个,其中44个事件披露融资金额,总融资规模70.16亿元人民币,平均融资金额1.59亿元人民币 [5] - 从融资事件数量看,智能制造(26个)、人工智能(21个)、企业服务(12个)领域最活跃 [7] - 从融资规模看,智能制造行业以23.28亿元人民币居首,人工智能行业以23.16亿元人民币紧随其后 [7] 行业分布 - 智能制造领域最大单笔融资为小鹏汇天获2.5亿美元B轮融资,该公司为亚洲最大飞行汽车公司,专注低空载人飞行器研发 [7] - 人工智能领域最大单笔融资为MiniMax获近3亿美元B轮融资,该公司专注多模态通用大模型研发 [7][8] 地区分布 - 融资事件集中在江苏(26起)、北京(21起)、广东(16起) [11] - 广东已披露融资规模最高(21.02亿元人民币),上海次之(22.27亿元人民币) [14] 阶段分布 - 早期阶段(种子轮至A轮)融资事件占比最高(89个),成长期(B轮至C轮)21个,后期(D轮及之后)3个 [14] 大额融资事件 - 国内大额融资包括:华翊量子(数亿人民币Pre-A2轮)、AEE(数亿人民币B轮)、小码王(数亿人民币D轮) [19] - 海外新增独角兽Lovable(瑞典AI编程技术公司)估值达20亿美元,近期完成2亿美元A轮融资 [21] 活跃机构与IPO - 奇绩创坛(4起)、联想创投(3起)、顺禧基金(3起)为本周最活跃投资机构 [23] - 本周国内IPO公司华电新能登陆上交所,市值达2724.43亿元人民币,曾获农银国际、中国人寿等机构投资 [25] 并购事件 - 本周国内完成并购事件16个,最大交易为兖州煤业以140.66亿元人民币收购山东能源西北矿业51%股份 [27]
广西人工智能相关专利申请量累计超2200件
广西日报· 2025-07-20 09:13
在关键领域创新方面,深入实施"尖锋"行动,组织开展"人工智能+"产业创新科技重大专项。"中国 —东盟法律大模型"和"曲尺通信运维大模型"正式通过国家互联网信息办公室备案,填补了广西大模型 备案的空白。截至今年5月,广西人工智能相关专利申请量累计达2248件。 在行业应用方面,全面深化"人工智能+"融合应用,已形成覆盖农业、制造、医疗、交通、文旅、 汽车、教育等领域多元化落地生态。在产业发展方面,全区人工智能规上企业267家,2024年广西存续 人工智能相关企业2708家,较2023年增长32.55%,其中南宁人工智能相关企业占全区比重超五成。 在面向东盟开放合作方面,加快共建中国—东盟人工智能创新合作中心,已签约40个重点项目,覆 盖大模型及"人工智能+"重点领域,投资额近80亿元。首批6个东盟国家的16家企业完成入驻签约。 7月17日,由自治区信息中心编撰的《广西人工智能产业发展白皮书(2025年)》正式发布。《白 皮书》显示,广西结合自身资源禀赋优势,推动人工智能产业发展取得显著成效。 在优化发展环境方面,2024年以来,广西共印发实施促进人工智能发展的政策文件17份,成立广西 人工智能发展工作专班,首创 ...
AI赋能千行百业超级联赛在南宁启动陈刚出席并讲话 韦韬介绍联赛有关情况
广西日报· 2025-07-20 09:12
AI赋能千行百业超级联赛启动 - 以"AI广西 AI中国 AI东盟"为主题的AI赋能千行百业超级联赛在南宁正式启动 [3] - 自治区党委书记陈刚强调广西要抓住人工智能发展机遇 发挥面向东盟的窗口作用 [4] - 联赛旨在普及AI意识 搭建创新交流平台 拓展应用场景 推动产业转型升级 [5] 联赛组织架构与参与方 - 中央网信办 科技部 新华社等中央部门领导出席启动仪式 [5] - 东盟国家驻华使节代表 知名企业 高校 科研院所等各界代表参与活动 [5] - 香港科技大学 南洋理工大学 科大讯飞等机构专家担任评委并发表主题演讲 [7] 联赛赛制与内容 - 大赛分为"场景突围"应用创新赛 "揭榜挂帅"产业命题赛 "AI大家创"全民挑战赛三类 [6] - 首期发布汽车 文旅 跨境电商 医疗健康等9个重点领域赛事 [6] - 后续将推出多领域赛事 聚焦AI与重点产业深度融合 促进创新成果转化 [6] 联赛目标与愿景 - 推动"北上广研发+广西集成+东盟应用"的发展路径 [4] - 培育面向东盟市场的人工智能新兴企业 打造技术应用新生态 [6] - 鼓励中国与东盟企业联合参赛 实现互利共赢共同发展 [5]