Workflow
Qwen2.5
icon
搜索文档
普元信息:截至目前公司产品已接入Qwen2.5、Qwen3.0、QwQ-32B等开源模型
格隆汇· 2025-11-26 17:41
产品生态合作 - 公司相关产品与阿里云专有云产品通过产品生态集成认证 [1] 技术能力整合 - 截至目前公司产品已接入Qwen2 5、Qwen3 0、QwQ-32B等开源模型 [1]
普元信息:公司产品已接入Qwen2.5、Qwen3.0、QwQ-32B等开源模型
每日经济新闻· 2025-11-26 17:41
业务合作认证 - 公司与阿里云专有云产品通过产品生态集成认证 [2] - 公司产品已接入Qwen2.5、Qwen3.0、QwQ-32B等开源模型 [2]
淘宝终于对搜索动刀了
虎嗅APP· 2025-11-12 07:53
淘天AI战略的核心观点 - 淘天集团在2024年底启动全面的AI战略转型,旨在通过升级搜索引擎、开发AI工具和推出AI导购产品来提升电商生态效率 [7][16] - 该战略被视为一场“给航行中的巨型轮船更换新引擎”的复杂工程,需在维持业务基本盘稳定的同时进行技术革新 [14] - 截至2025年11月,AI驱动的搜索推荐系统已取得初步成效,广告投放ROI提升12%,复杂语义搜索相关性提高20%,推荐信息流点击量增长超10% [29][30] 战略启动与组织架构调整 - 2024年11月底,阿里任命原国际AI业务负责人张凯夫主导淘天AI进化,并整合阿里妈妈广告算法与淘天搜索推荐算法团队,成立“搜推智能产品事业部” [7] - 2024年双十一结束后第10天,阿里巴巴CEO吴泳铭宣布成立电商事业群,由具有成功AI化经验的蒋凡出任CEO,进一步加速AI落地 [13] AI战略的三大核心任务 - 优先升级“搜推广”系统以提高流量匹配效率,此为三项任务中难度最高的一项 [16] - 为商家和运营团队提供一系列AI工具以实现降本增效,例如AIGC内容生成工具在2024年四季度密集上线 [16] - 针对消费者在不同场景推出新的AI导购产品,如拍立淘的“AI找低价”功能 [16] 技术基础架构的重构 - 淘天搜索引擎升级面临的核心挑战是已有22年历史的商品库系统,其信息标签不足以支撑AI大模型的理解与分析 [19] - 搜推团队利用AI Agent替代传统人力方式重构商品库,在不到6个月内完成了对数十亿商品信息的标准化处理 [20][21] - 采用务实的技术路线,仅对AI效率显著优于传统方案的环节进行AI化改造,而非全盘推翻 [21] 产品上线与组织管理创新 - 新AI功能采用分流测试模式,从2%用户开始,依据数据表现逐步扩大至5%、8%等更大范围 [23] - 设立灵活的项目小组制,小组负责人直接向张凯夫汇报,并被赋予较大创新空间,考核侧重用户指标而非短期GMV [23][24] - 公司强调AI工具的实用性,对“玩花活儿”类创新持谨慎态度,不过度追求学术论文或奖项 [25] 人才战略与文化变革 - 2025年淘天针对AI关键技术岗位进行疫情后最大规模扩招,重点吸纳00后青年人才 [26] - 建立系统性人才培养机制,避免人才在AI Coding时代沦为“螺丝钉”,并鼓励所有层级员工提出创新项目 [27] - 公司内部形成“鼓励创造”的氛围,高层直接带领由年轻员工组成的创新小组 [24][27] 当前成效与未来挑战 - AI工具已在实际业务中显现价值,例如某宠物食品品牌通过使用AI优化关键词和生成视频内容,获得订单同比35%以上增长 [4] - 传统行业商家(如家具、五金)对AI工具接受度较低,教育市场和使用培养仍需时间 [31] - 多模态能力与搜索推荐的深度结合尚有巨大探索空间,AI进化被定位为未来三至五年的持久战 [31][33]
清华唐杰新作:大模型能打掼蛋吗?
量子位· 2025-09-10 18:01
研究核心发现 - 大语言模型能够通过专门训练掌握8种不同类型的棋牌游戏 包括斗地主 掼蛋 立直麻将 Uno 金拉米 Leduc扑克 限注德州扑克和无限注德州扑克 [2][8] - 经过混合训练的微调模型在复杂棋牌游戏中表现显著优于基础模型和API模型 其中GLM4-9B-Chat-mix在6款游戏中获得最高分 [40][42] - 游戏规则相似性会影响模型表现 规则相近的游戏之间存在正向促进作用 而规则差异大的游戏可能出现性能冲突 [45][46][52] 模型性能对比 - 在5种API模型中 GPT-4o综合表现最佳 在大多数游戏中取得最高分 其中在Leduc扑克获得0.84分 在限注德州扑克获得0.60分 [37][39] - GLM-4-plus在斗地主中获得0.345分 表现优于GPT-4o的0.180分 但GPT-4o在无限注德州扑克获得2.73分 显著优于GLM-4-plus的3.21分 [39] - 微调模型中 GLM4-9B-Chat-mix在斗地主获得0.882分 掼蛋0.698分 Uno 0.252分 均位列第一 [42] - Llama3.1-8B-Instruct-mix在无限注德州扑克获得6.02分 立直麻将1.38分 表现突出 [43] 训练方法设计 - 研究采用教师模型生成高质量轨迹数据进行训练 针对不同游戏复杂度设计差异化数据采集方案 [14][20] - 斗地主 掼蛋和立直麻将各收集100万个训练实例 其余5款游戏各采样40万个实例 [20] - 训练数据量对性能提升至关重要 随着数据量增加 模型在斗地主和掼蛋中的表现逐渐接近教师模型 [24] - 混合训练数据集包含310万条数据 各游戏数据量分别为70万 95万 65万 20万 5万 25万 20万和10万 [35] 模型能力分析 - 模型在斗地主中表现出角色差异 GLM在地主角色表现优于Qwen和Llama 但在农民角色表现较差 [29][30] - 数据过滤时只保留获胜方数据 导致农民角色数据质量较低 影响模型表现 [31][32] - 即使没有教师模型 大模型在立直麻将中仍达到与顶尖麻将AI相当的表现 [25] - 模型规模影响性能 研究对参数规模从0.5B到14B的Qwen2.5进行微调以评估规模效应 [22] 通用能力影响 - 在所有游戏上微调的混合模型出现通用能力显著下降 包括知识问答 数学和编程能力 [54] - 通过加入通用数据对游戏模型进行微调 模型的通用能力得到一定程度恢复 [56] - 研究表明只要加入一定量的通用数据 模型打牌能力与通用能力可实现平衡 [6]
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 09:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
吴伟:中国科技崛起吹响AI平权的号角
环球网资讯· 2025-09-02 06:53
中国AI行业全球影响力提升 - 多位中国企业家与学者入选2025年度全球AI影响力榜单 包括华为创始人任正非、DeepSeek CEO梁文锋、宇树科技CEO王兴兴等[1] - 中国上榜者数量显著增加且背景多元 涵盖领导者、创新者、塑造者和思想者等类别[1] - 中国AI产业快速发展并不断靠近国际舞台中心 反映全球技术格局"去地理化"扩散趋势[1] 开源技术推动行业变革 - DeepSeek开源技术路径增强AI行业开放性与参与性 为建立包容性全球技术格局贡献中国经验[1] - 开源生态帮助企业以极低成本开发衍生模型 阿里通义实验室开源超过200款模型且衍生模型数量突破10万个[1][4] - 中国开源模型Qwen2、Qwen2.5入选斯坦福报告2024年最具代表性AI模型[4] 东南亚AI市场快速发展 - 东南亚数字经济规模预计2030年达2万亿美元 其中AI市场规模有望突破5800亿美元[2] - 新加坡推出国家AI战略2.0并与OpenAI合作设立亚太中心 马来西亚发布AI治理指南并吸引字节跳动等投资[2] - 印度尼西亚制定人工智能国家战略蓝图 预计2030年AI为印尼经济贡献3660亿美元[2] 人才格局变化 - 美国顶级AI研究机构中中国人才占比38% 高于美国本土的37%[3] - 美国STEM领域对中国学者签证收紧加速海外人才回流 中国本土直培与人才回流战略显现成效[3] - 中国现存AI相关企业超442万家 2025年新增50.5万余家[3] 技术竞争力提升 - 中美大模型综合性能差距从2023年17.5%骤降至2025年0.3%[4] - 中国在开源生态建设和垂直领域应用形成独特优势 实现跨越式发展[4] - 政策支持从要素驱动向系统赋能转变 推动基础研究与应用转化双轮驱动[3] 创新生态建设 - 中国AI产业以顶层政策为锚点 坚持自主创新和长期主义发展范式[3] - 发展模式以共建共享为核心 兼顾效率与包容 为全球科技领域提供中国案例[4] - 通过系统性技术突破打破外部垄断 从根本上瓦解技术霸权架构[2]
阿里巴巴开源三款大模型性能比肩国际顶尖
搜狐财经· 2025-08-21 08:10
技术突破 - 阿里巴巴开源三款自主研发大模型Qwen2 5 Qwen2-VL及Qwen-Audio 性能全面对标国际顶尖模型 [2] - Qwen2 5在MMLU基准测试中以87 3%准确率刷新开源模型纪录 接近GPT-4的88 1% [4] - Qwen2-VL采用动态分辨率适配技术 处理高分辨率影像时效率提升40% 在VQAv2数据集上以78 6%准确率领先开源模型 [4] - Qwen-Audio通过音频-文本联合编码器设计 噪声环境下识别准确率达92% 较上一代开源模型提高15个百分点 [4] 开源生态 - 公司全量开源模型权重与训练代码 配套发布技术白皮书 与闭源商业模式形成对比 [5] - GitHub上Qwen系列模型48小时内Star数突破2万 收到120个国家开发者提交的3000份优化建议 [5] - 开源策略带动阿里云ModelScope平台API调用量月环比增长300% 云服务收入显著提升 [5] - 欧洲AI实验室基于Qwen视觉模块开发农业病虫害检测系统 研发周期缩短60% [5] 行业影响 - 中国AI技术从跟随创新转向引领突破 首次形成对西方技术的对等竞争态势 [6] - 开源生态加速AI技术普惠化 非洲开发者可构建本地语言翻译系统 东南亚企业可定制智能客服 [6] - 开源实践推动全球AI产业格局重塑 实现技术平权 [6]
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
机器之心· 2025-08-09 14:02
研究背景与动机 - 大语言模型在单轮推理任务中表现亮眼,但在开放式多轮交互场景中仍存在长程规划与工具交互能力不足的问题 [8] - 现有强化学习方法在平衡模型推理与多轮工具交互方面存在局限性,常因奖励稀疏和工具过用导致价值低估 [8] - 研究发现模型在工具调用后的初始生成阶段熵值显著升高,这一高熵现象未被现有方法充分利用 [14][16] ARPO方法创新 - 提出熵驱动的自适应rollout机制,在高熵工具调用步骤加大探索力度,增强推理路径多样性 [20][24] - 引入优势归因估计,优化策略更新方式,更好理解工具交互中各步骤的价值差异 [28][29] - 算法在保持计算复杂度可控的同时,实现不确定性感知的高效探索 [27] 实验设计与结果 - 在13个高难基准测试中,ARPO仅使用一半工具调用预算即显著优于主流RL方法 [3][21] - 在Qwen2.5-7B模型上,ARPO相比GRPO方法工具调用效率提升明显,同时准确率更高 [37][39] - 多任务测试显示ARPO在计算推理(AIME24 71.4%)、知识推理(HotpotQA 67.4%)和深度搜索(GAIA 61.2%)任务中均保持稳定优势 [35][41] 技术实现细节 - 采用分层奖励设计,综合考虑答案正确性、工具调用格式及多工具协作,最高可获得0.1额外奖励 [32] - 软优势估计方法在训练中表现更稳定,被设为默认优势估计方式 [31] - 工具生态覆盖搜索引擎、网页浏览智能体和代码解释器三类代表性工具 [22] 应用前景与展望 - 未来可扩展至多模态Agentic RL,探索图像、视频等多模态场景下的工具调用优化 [42] - 通过引入代码调试器、数据分析工具等扩展工具生态,提升复杂任务表现 [42] - 算法展示出良好的大规模部署潜力,可进一步优化实时动态环境中的适配性 [42]