Workflow
BAGEL
icon
搜索文档
腾讯,大动作!
中国基金报· 2025-06-27 23:11
腾讯混元开源混合推理MoE模型 - 腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数13B,是业界首个13B级别开源混合推理模型 [2][4] - 模型在多个权威测试集表现优异,在Agent工具调用和长文理解方面有突出表现,数学测试AIME2024得分87.3,BBH推理测试89.1分,ComplexFuncBench测试61.2分 [4][5] - 模型支持快思考和慢思考两种模式,仅需1张中低端GPU卡即可部署,整体吞吐量是前沿开源模型的2倍以上 [6] - 该模型已在腾讯400+业务中使用,日均请求超1.3亿次 [6] 行业开源趋势 - 2024年以来全球科技巨头已密集发布超10款开源大模型,包括OpenAI、谷歌、Meta、阿里、DeepSeek等公司 [8] - 国内字节跳动、昆仑万维、百度、阿里等公司今年均推出开源模型,头部互联网公司大模型开源加速 [8] - 开源模型通过提供模型权重和训练代码,帮助企业降低开发成本,全球超50%企业已在采用开源AI技术 [9] - 阿里巴巴开源WebAgent AI Agent,具备端到端自主信息检索与多步推理能力 [8] - 字节跳动开源多模态基础模型BAGEL,拥有70亿活跃参数,在标准多模态理解基准测试中优于现有顶级开源模型 [9] 技术发展前景 - 腾讯混元计划推出多尺寸混合推理模型,从0.5B到32B的Dense模型及多个MoE模型,适配不同需求 [9] - 混元图像、视频、3D等多模态基础模型及配套插件模型将持续开源 [9] - 开源模型的灵活性、透明度和成本优势为人工智能产业发展带来新机遇 [2]
腾讯,大动作!
中国基金报· 2025-06-27 23:00
腾讯混元开源混合推理模型 - 腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数13B,效果比肩同等架构领先开源模型且推理速度更快[3][4] - 该模型为业界首个13B级别开源MoE混合推理模型,在Agent工具调用和长文理解表现突出,支持快/慢思考双模式[4][5] - 模型对开发者友好,仅需1张中低端GPU卡即可部署,吞吐量达前沿开源模型的2倍以上[5] - 已融入主流推理框架生态,支持多种量化格式,日均请求超1.3亿次,400+业务调用[5] - 此次开源是继混元Large后的重要升级,参数更小但性能大幅提升,未来将推出0.5B-32B多尺寸模型[6][10] 行业开源趋势 - 2024年大模型开源成行业"必选项",全球科技巨头3月以来密集发布超10款开源模型[8] - 国内字节跳动、阿里、百度等企业加速开源,如阿里推出自主搜索AI Agent WebAgent,字节开源多模态模型BAGEL(70亿活跃参数)[9] - 开源模型通过提供预训练代码降低企业开发成本,超50%全球企业已采用开源AI技术[9][10] - 开源模型性能持续突破,Hugging Face榜单频繁刷新,企业转向"轻量化集成"开发模式[8][10] 技术细节与生态 - Hunyuan-A13B集合腾讯预训练/后训练创新技术,支持Github/Huggingface下载及腾讯云API接入[4][5] - 模型在权威测试集表现优异,多模态基础模型及插件模型将陆续开源[4][10] - 行业开源案例包括WebAgent的端到端检索能力、BAGEL的多模态理解性能(优于Qwen2.5-VL等)[9]
人工智能周报(25年第23周):OpenAI 公布 GPT-5 路线图,腾讯升级企业大模型知识库-20250613
国信证券· 2025-06-13 17:11
报告行业投资评级 - 优于大市 [1][4] 报告的核心观点 - 互联网一季报业绩整体稳健,电商行业竞争激烈,各平台向商家让利或在外卖即时零售领域加大投入寻找新增量;AI 方面巨头业务场景持续受益,但短期 ai agent 等方面仍需打磨;当前恒生科技指数处于震荡期,推荐业绩稳健、估值较低的防守型标的腾讯音乐、网易 [2][32] 相关目录总结 AI 相关网站流量数据 - 展示了 2025 年 5 月 28 日至 6 月 3 日期间部分 AI 相关网站周平均访问量、访问量环比增长和平均访问停留时间等数据,如 ChatGPT 周平均访问量 1248.00M,环比增长 -0.24% [10] 公司动态 - OpenAI 公开 GPT - 5 路线图,预计 7 月发布,还更新 ChatGPT 商业计划,新增功能并引入灵活定价机制面向商业客户开放 [17] - 谷歌测试新 AI 搜索展示方式,将 AI 生成摘要折叠,平衡生成式搜索与网页导流利益关系 [19] - Meta 开放 Llama 3 商业化接入,与 AWS 深度集成抢占企业市场 [20] - 英伟达举办 GTC 大会,重申 AI 基建主导地位,强调边缘侧推理作用,携手企业展示应用场景并加快本土化节奏 [21] - 亚马逊广告业务加码生成式 AI,推出 AI Studio 广告内容自动生成平台,试点核心市场 [22] - 腾讯云升级企业大模型知识库为智能体开发平台,接入相关模型和联网搜索,还计划推出和开源部分模型 [23] - 字节跳动旗下 Seed 团队开源统一多模态理解和生成模型 BAGEL,在多模态领域表现出色 [25] 底层技术 - 微软 Azure Foundry 新增“安全性”维度对约 1900 款模型进行内容风险量化评估,安全评分融入工具链 [26] - 谷歌更新 Gemini 2.5 Pro 预览版模型,评分上升,优化风格与结构,放宽请求限制 [27] - 智源研究院发布“悟界”系列大模型,体现 AI 发展新趋势 [28] - 阿里巴巴开源全新向量模型系列 Qwen3 - Embedding,性能较上一版本提升 40% [29] 行业政策 - 工信部研究推动人工智能产业发展和赋能新型工业化思路举措,推动大模型落地,统筹推进标准工作等 [30] - 工信部审议《工业和信息化部信息化和工业化融合 2025 年工作要点》,要求实施“人工智能 + 制造”行动 [31] - 成都市就促进人工智能产业高质量发展政策措施征求意见,涵盖多方面举措 [31] 重点事件预告 - 6 月 9 日 - 13 日举办 Apple WWDC 2025 开发者大会 [34] - 6 月 9 日 - 11 日举办 AIM - 2025 国际人工智能与机器学习大会 [34] - 6 月 11 日 - 12 日举办火山引擎原动力大会 [34] - 6 月 14 日 - 15 日举办第四届智能决策论坛 [34] 投资建议 - 推荐业绩稳健、估值较低的防守型标的腾讯音乐、网易 [2][32] 重点公司盈利预测及投资评级 | 公司代码 | 公司名称 | 投资评级 | 昨收盘(港元/美元) | 总市值(百万港元/美元) | EPS(2025E) | EPS(2026E) | PE(2025E) | PE(2026E) | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 0700.HK | 腾讯控股 | 优于大市 | 505.0 | 4,640,972 | 23.29 | 26.33 | 17.4 | 15.7 | | 9999.HK | 网易 - S | 优于大市 | 197.3 | 625,038 | 10.76 | 11.54 | 15.5 | 14.7 | | 3690.HK | 美团 - W | 优于大市 | 136.6 | 834,603 | 6.04 | 7.96 | 17.9 | 13.9 | | 9888.HK | 百度集团 - SW | 优于大市 | 82.1 | 225,789 | 7.83 | 8.42 | 8.8 | 8.0 | | 1024.HK | 快手 - W | 优于大市 | 51.2 | 219,726 | 4.06 | 4.96 | 10.2 | 8.7 | | 9988.HK | 阿里巴巴 - SW | 优于大市 | 113.9 | 2,174,122 | 6.89 | 7.64 | 12.5 | 11.4 | [3]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测框架设计 - 基于三大知识范畴:事实性知识(颜色、数量等)、概念性知识(物理化学常识)、程序性知识(多步推理) [8] - 细分为7大推理维度和22种编辑任务覆盖全谱系难度 [6] - 样本总量1267对图像-指令由专家手工打磨数据来源多样化 [12] 评估指标与方法 - 首创四维度自动化评估:视觉一致性、视觉质量、指令跟随、知识合理性 [10][11][13] - 深度知识任务附带手工知识提示以验证模型理解能力 [11] - 评测10款模型包含3款闭源(GPT-Image-1等)和7款开源(OmniGen等) [14] 评测结果 - 闭源旗舰GPT-Image-1表现领先开源黑马BAGEL-Think在知识合理性上有提升但仍有差距 [17] - 多数模型在事实性知识(如数量变化)基础任务上表现欠佳 [17] - 所有模型在程序性推理、自然科学及多步骤合成任务上普遍失分 [17] 行业意义 - 推动图像编辑模型从像素搬运向具备认知能力的视觉智者进化 [16] - 未来目标是在模型中植入物理化学常识与因果推理实现真正的理解 [16]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测体系设计 - 基于三大知识范畴构建评测框架:事实性知识(颜色/数量/空间/时间)、概念性知识(物理/化学/生物常识)、程序性知识(多步操作与规则推理) [8] - 细分为7大推理维度和22种典型编辑任务覆盖全谱系难度包括物体计数变化、化学反应预测、多元素合成等 [6] - 样本总量1,267对图像-指令由专家团队手工打磨数据来源包含真实照片、开源基准、模型生成、3D渲染等多样分布 [12] 评估方法创新 - 首创四维度自动化评估指标:视觉一致性(非目标区域保持)、视觉质量(自然度)、指令跟随(完整性)、知识合理性(常识符合度) [10][11][13] - 深度知识任务附带手工知识提示辅助判断模型理解程度 [11] 模型评测结果 - 评估10款模型包含3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen/Emu2/BAGEL/Step1X-Edit等) [14] - 闭源旗舰GPT-Image-1表现领先开源模型BAGEL-Think通过引入推理过程提升知识合理性但仍落后闭源模型 [18] - 所有模型在程序性推理、自然科学及多步骤合成任务上表现不佳显示深层推理能力不足 [18] 行业影响 - 推动图像编辑模型从像素搬运向具备人类认知能力的视觉智者演进 [16] - 未来目标是在AI编辑中植入物理/化学/社会常识与因果推理实现真正的理解与预测 [16]
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 23:57
英伟达Blackwell GPU - 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50% [1] - 推出新款阉割版Blackwell GPU售价6500-8000美元远低于H20的1-1.2万美元 [1] - 新芯片采用GDDR7内存技术内存带宽约1.7TB/秒以符合出口管制限制要求 [1] Claude 4技术进展 - Claude 4采用可验证奖励强化学习(RLVR)范式在编程和数学等有清晰反馈信号的领域取得突破 [2] - 预计明年将出现能独立完成实际工作的软件工程Agent [2] - 预测到2026年底AI将具备足够的"自我意识"能执行复杂任务并判断自身能力边界 [2] Google Veo3视频生成模型 - Veo3视频生成模型实现流畅真实的动画效果和同步音效解决物理逻辑问题 [3] - 能精确呈现复杂场景细节包括流体动态、质感表现和人物动作支持多种镜头风格和特效 [3] - 已达近电影级画质支持非语言音效和多语言旁白 [3] OpenAI o3模型漏洞发现能力 - o3模型在Linux内核SMB实现中发现远程0-day漏洞CVE-2025-37899表现优于Claude Sonnet 3.7 [4] - 在3.3k行代码测试中100次运行8次成功识别已知漏洞误报率约1:4.5 [4][5] - 独立发现新UAF漏洞且洞察力超越人类专家能指出修复方案不足 [5] 字节BAGEL多模态模型 - BAGEL具备GPT-4o级图像生成能力整合图像理解、生成、编辑和3D生成于单一7B参数模型 [6] - 采用MoT架构包含两个专家模型和独立视觉编码器展现出能力涌现过程 [6] - 在多项基准测试中超越多数开源和闭源模型支持带图推理、复杂图像编辑和视角合成 [6] 腾讯"野朋友计划" - 推出AI物种识别与智能体问答交互功能可识别用户拍摄的生物并提供专业知识 [7] - 通过自然语言对话解答生物习性、迁徙规律等深度信息将专业术语转化为生活化表达 [7] - 用户上传的图片和互动内容将用于模型训练同时为科研提供数据 [7] OpenAI首款AI硬件 - 开发脖挂式设备形似iPod Shuffle无屏幕但配备摄像头和麦克风 [8] - 旨在突破屏幕界限提供更自然交互可连接手机和PC预计2027年量产 [8] - 市场上已有类似AI穿戴设备但网友对隐私安全和实用性存疑 [8] AI科学家团队新药发现 - AI科学家团队在2.5个月内发现治疗干性老年性黄斑变性的新药Ripasudil [10] - Robin多智能体系统自动化了科学发现全过程结合多个智能体完成研究流程 [10] - AI发现了人类未曾想到的治疗路径完全主导研究框架 [10] Anthropic产品开发逻辑 - 最好的AI产品往往"自下而上"生长而非计划出来从底层实验中发现潜力 [11] - 未来核心问题将从"是否AI生成"转向内容溯源、可信度与可验证性 [11] - Anthropic内部70%代码由Claude生成组织面临"非工程环节"效率瓶颈 [11] Character.AI发展观点 - 最佳AI应用尚未被发明现阶段AI领域状态类似炼金术 [12] - 通用性与易用性应并行发展Character.AI选择构建既可用又极度通用的产品 [12] - 大语言模型的价值在于利用有限训练转化为广泛应用关键挑战是计算能力 [12]