Workflow
AI Agent
icon
搜索文档
腾讯研究院AI速递 20250527
腾讯研究院· 2025-05-26 23:53
海光信息与中科曙光并购 - 海光信息通过换股方式吸收合并中科曙光,两家企业总市值合计超4000亿元 [1] - 海光为国产CPU及GPU龙头,中科曙光为服务器及算力基础设施龙头,两家有频繁关联交易 [1] - 此次重组旨在抢抓信息技术产业发展机遇,实现产业链互补,形成多元算力业务整合 [1] Lilian Weng新公司Thinking Machines - OpenAI前安全副总裁Lilian Weng分享其新公司产品——用于AI训练的手动调参仪表盘 [1] - Thinking Machines由多位OpenAI核心员工组建,未发表论文但估值已达90亿美元 [1] - OpenAI计划在2026年前推出能让ChatGPT"无处不在"的硬件设备 [1] Google基于Gemma模型的变体 - Google发布三款基于Gemma的模型变体:MedGemma、SignGemma和DolphinGemma,分别面向医疗、手语和动物语言领域 [2] - MedGemma包含4B多模态模型和27B文本模型,能处理医学图像分类、报告生成和临床文本推理,可在单GPU上运行 [2] - SignGemma用于手语翻译,DolphinGemma是400M参数模型,用于预测和生成海豚语言信号 [2] AI教育工具VideoTutor - VideoTutor面向K12教育,输入问题或主题后可自动生成类似可汗学院风格的短视频课程 [3][4] - 该工具提供结构化脚本、动态视觉效果和专业旁白,支持100多种AI语音和40多种语言,生成时间仅需1-3分钟 [3][4] - 技术结合大语言模型、AI动画引擎和高级文本转语音技术,覆盖数学、科学、语言等学科,支持个性化定制 [4] 企业微信智能机器人升级 - 企业微信"智能机器人"基于企业内部资料结合DeepSeek与混元等大模型深度思考回答员工问题 [5] - 新功能支持添加在线文档、微盘文件夹等到知识集,知识维护更灵活,并可通过API接口与业务系统打通 [5] - 支持单聊和群聊对话,企业管理员可在一分钟内配置专属智能机器人,适用于企业百事通、AI导师等多种场景 [5] 人形机器人格斗比赛 - 杭州举行全球首个人形机器人格斗比赛,机器人们展示打拳、闪避、肉搏等动作,采用三回合赛制 [6] - 最终小黑(AI策算师)击败小绿获得冠军,机器人们展示了直拳、勾拳、扫腿等十种动作组合 [6] - 格斗涉及机体设计、动作控制等多方面挑战,背后采集了职业搏击选手的数据,但仍由人类操控 [6] iOS 19设计更新 - 苹果将在WWDC 2025发布iOS 19等系统的重大设计更新,代号"Solarium",是自iOS 7以来最大规模的视觉更新 [7] - 新设计语言借鉴visionOS元素,使用更多透明度效果、新图标和修订导航方式,实现跨设备和操作系统的视觉统一性 [7] - 更新将涵盖iOS、macOS、watchOS和tvOS等系统,可能特征包括Frosted Glass元素、更圆润的"squircle"图标和浮动UI元素 [7] Anthropic对AI自动化的预测 - Anthropic核心技术成员Douglas预测,到2027-2028年,AI模型将有能力自动化几乎所有白领工作 [9] - Claude 4在软件工程领域表现突出,能处理极其模糊的需求,自主完成任务,AI工具已将资深工程师效率提升1.5-5倍 [9] - 未来趋势指向AI Agent普及,到2025年底,通用型AI Agent能处理各种浏览器内事务将变得明显 [9] 红杉中国推出Agent基准测试xbench - 红杉中国推出双轨评估体系"xbench",追踪AI模型的理论能力上限与Agent在真实场景的落地价值 [10] - xbench分为AGI Tracking与Profession Aligned两条路径,前者测试模型关键能力边界,后者关注垂直领域实际价值 [10] - 评估设计能跟踪Agent能力的技术-市场契合点(TMF),预测AI接管现有业务流程的时间点,分析成本效益与专业能力提升速度 [10]
AI观察|AI发展时间表引发热议,Agent进入爆发“窗口期”
环球网· 2025-05-26 17:34
AI发展时间表 - OpenAI CEO山姆·奥特曼预测2025年AI将成为人类超级助手 2026年AI将拥有独立科研能力 2027年AI机器人将成为物理世界价值创造者 [1] AI Agent发展现状 - 2025年AI Agent发展已印证奥特曼预测 包括Manus AlphaEvolve等产品涌现 OpenAI以65亿美元收购硬件设计公司io [3] - AI Agent定义为具有自主决策能力的智能实体 ChatGPT-4通过插件调用功能展现早期形态 DeepMind推出可自我进化的编码智能体AlphaEvolve [3] 技术突破与产业应用 - AlphaEvolve在计算机算法领域取得突破 为谷歌数据中心设计新调度算法 多回收07%计算资源 优化TPU芯片设计流程 [4] - 国内Manus实现自主规划任务并实时调整 通过视频展示多智能体处理复杂任务能力 [4] - 浪潮海岳商业AI覆盖100+场景智能体 整合120万家企业实践 在某建筑央企项目中提升施工方案编制效率95%以上 [5] 行业观点与趋势 - 真格基金戴雨森指出AI三大关键能力:推理能力 编程能力 工具使用能力 [6] - AI Agent依托大模型能力 正推动AI从助手向价值共创者转变 或将重塑科研与产业逻辑 [6]
2025,AI Agent赛道还有哪些机会?
虎嗅· 2025-05-26 16:16
AI Agent行业动态 - OpenAI以30亿美元收购编程工具Windsurf [1] - 编程工具Cursor母公司Anysphere获9亿美元融资 估值达90亿美元 [1] - 中国通用AI Agent项目Manus获Benchmark领投7500万美元融资 [1] - OpenAI推出具备浏览器能力的Operator和复杂任务处理产品Deep Research [1] 技术演进 - 2025年AI Agent技术实现跃迁 结合强化学习与推理模型能力 [8] - RFT(强化学习微调)技术推动Agent具备自主学习能力 [8] - 大语言模型达到"AlphaGo时刻" 能自主探索解题路径 [15] - 环境理解成为关键 Devin构建包含四个子界面的综合开发环境 [21] 产品分析 - Cursor从编程工具向通用平台转型 积极接入MCP接口 [31][55] - Windsurf内置context engine 环境理解能力突出 [19] - Devin创新性加入笔记系统 支持长期开发过程管理 [21] - Manus依赖Claude Sonnet 3.7模型 面临API稳定性挑战 [33] 创业机会 - 通用Agent领域被大厂占据 创业者机会集中在垂直场景 [23] - 服务型Agent面临被整合风险 如Operator覆盖上百个场景 [22] - 个人化Agent可能成为新方向 类似自媒体网红模式 [24] - 评估机制(Evaluation)成为构建竞争力Agent的关键 [40][43] 技术路线 - RFT相比SFT性能提升25% 但成本高出数倍 [47] - Manus采用SFT技术调优外围执行模块而非核心模型 [48] - MCP协议发展缓慢 行业采纳面临商业化障碍 [72] - 代码层成为数字世界操作的关键中间层 [28] 垂直领域案例 - Vantel为保险经纪人节省80%重复工作时间 [58] - Sweet Spot服务中小企业申请政府资助 用户体验优异 [59] - Gamma革新PPT制作流程 模块化设计获长期用户认可 [61][62] - Replit和Fellou在人机交互设计上表现突出 [49][52] 行业趋势 - 产品开发节奏加快 执行优先于计划 [65] - 环境侧建设滞后 MCP生态渗透需以年计 [68] - 编程Agent可能发展为通用型平台 [31][56] - 用户需求理解仍是待解难题 [69]
当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
第一财经· 2025-05-26 13:30
基准测试现状与挑战 - 大模型厂商通过基准测试跑分对比新产品 但基准测试难以真实反映AI客观能力 [2] - 静态评估集存在题目泄露问题 模型反复测试可刷高分数 [3] - 主流模型刷爆题目的速度加快 基准测试有效时间急剧缩短 [3] xbench基准测试工具 - 红杉中国推出xbench基准测试工具 采用双轨评估体系和长青评估机制 [3] - 双轨评估体系测评多维度数据集 追踪模型理论能力上限与Agent实际落地价值 [3] - 长青评估机制为动态持续更新方法 解决静态评估集刷榜问题 [3] - xbench最初为红杉内部AGI进程评估工具 2022年ChatGPT推出后开始使用 [3] 垂直领域Agent评测 - 相关机构提出垂直领域Agent评测方法论 构建招聘与营销领域评测框架 [3] - Agent深度搜索能力(自主规划/信息收集/推理分析等)是通向AGI的核心能力 [3] - xbench-DeepSearch评测集关注多模态模型商用视频生成等三个方向 [5] AI Agent发展现状 - AI在长文本/多模态/工具使用/推理方面突破 催化Agent爆炸式增长 [4] - Agent可交付完整任务 相比聊天机器人能提供生产力或商业价值 [4] - 高质量评估集推动Agent在工具使用/编码/客户服务等领域发展 [4] - Agent迭代迅速且外部环境动态变化 测试工具需追踪能力持续增长 [4]
Agent竞速之年,企业级SaaS软件商业模式求变
21世纪经济报道· 2025-05-26 11:49
行业趋势 - 2025年成为Agent加速落地之年,国内外厂商均在推进垂域模型和Agent能力落地 [1] - 企业级SaaS市场因数字化基础良好,成为Agent应用重点场景 [1] - AI Agent预计为企业服务SaaS打开万亿美元蓝海市场,商业模式向多元化付费转变 [1][8] - 企业管理软件技术沿革经历五次演变,当前进入AI驱动的EMAI阶段,交互方式转向自然语言及多模态 [2] 公司动态 - 金蝶发布五大智能体产品及苍穹Agent平台2.0,涵盖财报分析、企业问数、招聘等场景 [3] - Agent 2.0阶段注重与企业业务场景结合,提供模板降低搭建门槛,强化数据安全隔离 [4] - 公司商业模式从SaaS按功能收费转向RaaS(按成果收费),如差旅智能体按行程数量计价 [5] - 研发组织从模块化转向闭环团队,围绕智能体交付结果重构流程 [6] 技术挑战与竞争焦点 - 大模型应用面临不确定性输出与企业需求确定性之间的矛盾,需结合场景数据优化 [7] - 未来竞争聚焦数据、场景、算力与算法,需产业链协同 [7] - 企业管理AI将形成"人机共生"生态,通用SaaS或成基础设施,垂类SaaS借AI扩展市场 [8] 产品进展 - 五大智能体实现开箱即用,可连接内外SaaS产品,去年产品为"AI增强",今年转向结果交付 [3] - 计划围绕报价、合同管理、供应链等构建更多智能体 [3] - Agent 1.0构建通用能力,2.0通过模板简化任务流复杂度 [4]
两大算力龙头宣布重磅吸收合并交易,软件ETF(159852)震荡上涨,机构:AI Agent及算力依旧是最明确的投资方向
21世纪经济报道· 2025-05-26 10:21
市场表现 - A股三大指数集体低开 沪指反弹飘红 中证软件服务指数涨幅0 04% [1] - 软件ETF(159852)震荡上涨0 52% 盘中交投活跃 成分股中科软涨超4% 中国软件 石基信息 中科创达 太极股份等多股跟涨 [1] - 软件ETF(159852)紧密跟踪中证软件服务指数 为全市场相关挂钩产品中规模最大 覆盖30只软件开发 软件服务领域上市公司证券 [1] 行业并购动态 - 海光信息拟通过换股方式吸收合并中科曙光 并募集配套资金 两家公司股票5月26日起停牌不超过10个交易日 [2] - 该交易为《上市公司重大资产重组管理办法》修订后首单上市公司吸收合并案例 [2] - 中科曙光在高端计算 存储 云计算等领域技术积累深厚 海光信息专注于国产架构CPU DCU等核心芯片设计开发 [2] 机构观点 - 人工智能仍是关键技术变化 下半年关注基础设施建设进度和应用落地变现 [2] - 科技产业链国产创新进程值得持续关注 汽车和工业等终端需求或边际改善 [2] - AI Agent及算力为最明确投资方向 看好MaaS带来的软件公司价值重估机会 [3] - 算力产业链中科技自主内循环和上游芯片国产创新加速 建议关注果链公司估值修复及新品预热行情 [3]
深度|拿下3亿美元融资后,AI金融独角兽Airwallex全球首发支付AI代理金融
Z Potentials· 2025-05-26 10:10
融资与估值 - 全球金融科技独角兽Airwallex空中云汇完成3亿美元F轮融资,投后估值达62亿美元 [1] - 投资人包括Square Peg、DST Global、Lone Pine Capital等老股东,Visa Ventures以战略投资者身份入场 [1] - 成立10年间累计融资超12亿美元,融资次数达11轮,背后集结腾讯、阿里、红杉、高瓴等顶级投资方 [1] AI代理金融战略 - Airwallex内部将预算投入AI领域,打造"AI代理金融"新业务类别,直接为客户CFO完成财务工作流程 [3] - AI Agent将深度融入决策流程,具备理解、分析、解决全盘问题的能力,优化资金管理及应付账款等任务 [4] - 全球AI产业融资金额超4000亿元,同比增长77%,AI Agent相关初创企业融资占比显著 [3] 全球化布局与业绩增长 - 2025年3月年化收入达7.2亿美元,同比增长90% [5] - 持有全球60余张金融牌照,覆盖主要经济体及新兴市场,进入37个国家和地区 [6] - 业务版图呈现全球化+区域化深耕策略,覆盖中国大陆、中国香港、欧洲、北美、东南亚等 [6] 行业定位与颠覆传统银行 - 瞄准中小企业跨境金融空白,潜在市场规模达5700亿美元 [11] - 通过数字化平台与自动化流程降低服务成本,提供国际支付、外汇管理等一站式解决方案 [11] - 传统银行基础设施难以匹配现代企业需求,Airwallex填补中小企业服务缺口 [10] 未来规划 - 设定2026年为IPO准备关键节点,但不为上市而上市 [11] - 从"跨境支付机构"向"银行服务"角色转型,战略升级意图明显 [11]
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 23:57
英伟达Blackwell GPU - 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50% [1] - 推出新款阉割版Blackwell GPU售价6500-8000美元远低于H20的1-1.2万美元 [1] - 新芯片采用GDDR7内存技术内存带宽约1.7TB/秒以符合出口管制限制要求 [1] Claude 4技术进展 - Claude 4采用可验证奖励强化学习(RLVR)范式在编程和数学等有清晰反馈信号的领域取得突破 [2] - 预计明年将出现能独立完成实际工作的软件工程Agent [2] - 预测到2026年底AI将具备足够的"自我意识"能执行复杂任务并判断自身能力边界 [2] Google Veo3视频生成模型 - Veo3视频生成模型实现流畅真实的动画效果和同步音效解决物理逻辑问题 [3] - 能精确呈现复杂场景细节包括流体动态、质感表现和人物动作支持多种镜头风格和特效 [3] - 已达近电影级画质支持非语言音效和多语言旁白 [3] OpenAI o3模型漏洞发现能力 - o3模型在Linux内核SMB实现中发现远程0-day漏洞CVE-2025-37899表现优于Claude Sonnet 3.7 [4] - 在3.3k行代码测试中100次运行8次成功识别已知漏洞误报率约1:4.5 [4][5] - 独立发现新UAF漏洞且洞察力超越人类专家能指出修复方案不足 [5] 字节BAGEL多模态模型 - BAGEL具备GPT-4o级图像生成能力整合图像理解、生成、编辑和3D生成于单一7B参数模型 [6] - 采用MoT架构包含两个专家模型和独立视觉编码器展现出能力涌现过程 [6] - 在多项基准测试中超越多数开源和闭源模型支持带图推理、复杂图像编辑和视角合成 [6] 腾讯"野朋友计划" - 推出AI物种识别与智能体问答交互功能可识别用户拍摄的生物并提供专业知识 [7] - 通过自然语言对话解答生物习性、迁徙规律等深度信息将专业术语转化为生活化表达 [7] - 用户上传的图片和互动内容将用于模型训练同时为科研提供数据 [7] OpenAI首款AI硬件 - 开发脖挂式设备形似iPod Shuffle无屏幕但配备摄像头和麦克风 [8] - 旨在突破屏幕界限提供更自然交互可连接手机和PC预计2027年量产 [8] - 市场上已有类似AI穿戴设备但网友对隐私安全和实用性存疑 [8] AI科学家团队新药发现 - AI科学家团队在2.5个月内发现治疗干性老年性黄斑变性的新药Ripasudil [10] - Robin多智能体系统自动化了科学发现全过程结合多个智能体完成研究流程 [10] - AI发现了人类未曾想到的治疗路径完全主导研究框架 [10] Anthropic产品开发逻辑 - 最好的AI产品往往"自下而上"生长而非计划出来从底层实验中发现潜力 [11] - 未来核心问题将从"是否AI生成"转向内容溯源、可信度与可验证性 [11] - Anthropic内部70%代码由Claude生成组织面临"非工程环节"效率瓶颈 [11] Character.AI发展观点 - 最佳AI应用尚未被发明现阶段AI领域状态类似炼金术 [12] - 通用性与易用性应并行发展Character.AI选择构建既可用又极度通用的产品 [12] - 大语言模型的价值在于利用有限训练转化为广泛应用关键挑战是计算能力 [12]
让无人机自主思考!道通智能空地一体智慧方案亮相无人机大会
南方都市报· 2025-05-25 15:52
南都讯 5月23日,以"步入低空经济新时代"为主题的2025第九届世界无人机大会在深圳开幕。同期举行 的国际低空经济与无人系统博览会及第十届深圳国际无人机展览会吸引了国内外825家企业,携5000多 款无人机系统装备产品进行现场展示。作为中国无人机产业全球化的标杆企业之一,深圳市道通智能航 空技术股份有限公司(以下简称"道通智能")携旗下行业级多旋翼、倾转旋翼旗舰无人机、生态产品、 低空经济数字化行业解决方案、无人车、行业多模态大模型和Autel Athena OS重磅亮相,成为全场焦 点。 无人机产品矩阵亮相,技术驱动满足多元需求 在120平米的展区内,道通智能通过设立多旋翼及倾转旋翼无人机展示区、空地一体沉浸式交互体验 区、行业解决方案展示区、无人车及Autel Athena OS展示区,展示产品核心技术及其在智慧安防、智慧 能源、智慧交通等空地一体解决方案,吸引来自全球的专业观众、行业领袖关注。 EVO Max系列作为道通智能的旗舰级多旋翼无人机,具备Autel Autonomy自主飞行、A-Mesh组网、720 度全向避障、强抗干扰能力等核心技术,有效解决作业过程中飞行环境复杂、信号干扰或屏蔽、作业效 ...
速递|OpenAI升级其Operator的底层模型,推理模型o3全面接棒GPT-4o
Z Potentials· 2025-05-25 12:37
OpenAI AI代理Operator模型升级 - OpenAI正在将Operator代理的AI模型从定制版GPT-4o升级为基于o3的新模型 o3是OpenAI最新o系列"推理"模型之一 升级后API版本仍保持基于4o不变 [1][2] - o3模型在数学和推理任务上表现显著优于GPT-4o 针对计算机使用场景进行了额外安全数据微调 包含专门教授模型决策边界的数据集 [2][3] - o3 Operator在安全评估中表现优异 相比GPT-4o更少拒绝执行"非法"活动或搜索敏感数据 对提示注入等攻击抵抗力更强 采用与4o相同的多层安全防护机制 [3] 行业竞争格局 - 各大AI公司竞相开发高度复杂的智能体工具 这些智能体可基本无需监督完成各种任务 [2] - 谷歌通过Gemini API提供"计算机使用"智能体和面向消费者的Mariner服务 Anthropic的模型也具备执行计算机任务的能力 [2] 技术细节 - o3 Operator继承了o3的编程能力 但不具备直接访问编程环境或终端的原生权限 [3] - 模型升级涉及云端托管的虚拟机使用特定软件 代理可自主浏览网页满足用户需求 [1]