Workflow
思维链
icon
搜索文档
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 10:36
机器之心报道 编辑:杜伟、泽南 大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成 的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。 因此,奖励模型对大模型能力来说举足轻重:它既需要能够准确进行评判,又需要足够通用化,覆盖多个知识领域,还需要具备灵活的判断能力,可以处理 多种输入,并具备足够的可扩展性。 7 月 4 日,国内 AI 科技公司昆仑万维发布了新一代奖励模型 Skywork-Reward-V2 系列,把这项技术的上限再次提升了一截。 Skywork-Reward-V2 系列共包含 8 个基于不同基座模型和不同大小的奖励模型,参数规模从 6 亿到 80 亿不等,它在七大主流奖励模型评测榜单上全部 获得了第一。 Skywork-Reward-V2 系列模型在主流基准上的成绩。 与此同时,该系列模型展现出了广泛的适用性,它在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风 ...
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
量子位· 2025-06-19 14:25
核心观点 - AI大牛田渊栋团队提出连续思维链(CoCONUT)方法,通过连续隐向量实现并行搜索,显著提升模型在复杂任务(如有向图可达性问题)中的推理效率[1][2][7] - 连续思维链类比量子叠加态,可同时编码多路径信息,相比离散思维链(需O(n²)步解码)仅需D步(D为图直径),理论效率提升显著[7][8] - 实验显示2层连续CoT模型在ProsQA数据集上准确率接近100%,远超12层离散CoT模型(83%)和无CoT基线(75%)[27][28] 技术实现 注意力选择器机制 - 设计类似导航仪的注意力选择器,根据特定标记(如边结束token)动态聚焦源/目标节点,确保信息精准提取[11][12][13] - 无明确标记时自动回溯初始条件,防止模型迷失[14] 双层Transformer架构 - **第一层**:5个注意力头整理边信息,标注起点/终点并保留初始节点嵌入[19][20][21] - **第二层**:并行探索路径,通过叠加态(节点集合Vc)扩展新节点(Vc+1),实现广度优先搜索[22][23][24] - MLP层过滤噪声节点并平衡权重,优化路径探索[29] 性能验证 - 在ProsQA子集(需3-4推理步长)测试中,连续CoT模型准确率接近100%,离散CoT模型为83%[26][27][28] - 注意力模式分析证实叠加态搜索行为存在,支持理论假设[30] 研究者背景 - 田渊栋任职Meta GenAI,业余创作科幻小说《破晓之钟》,探讨AI模仿数据与人类智慧的本质差异[31][32][39] - 新作延续世界观,涉及群体意识与星际殖民议题,计划用AI辅助写作[44][45]
AI投资主线获机构力挺,具身智能被列为下半年价值风口
华夏时报· 2025-05-31 10:48
全球AI发展趋势 - 海外AI应用热度持续提升,OpenAI、World Labs、DeepMind等领先企业密集推出创新产品,在虚拟世界构建、图像生成等领域展现显著潜力 [2] - 国内AI技术落地进程加快,在教育、办公、医疗等关键场景渗透能力增强,为产业升级提供动力 [2] - 机构观点明确指向AI将继续主导科技投资方向,2025年下半年AI仍是科技投资的核心主线 [2][3] 中国AI市场动态 - 中国企业在应用场景与生态构建方面具有优势,AI技术深度融入游戏、广告、智能汽车等传统行业,催生新的价值增长极 [2] - 高盛亚太区首席股票策略分析师慕天辉尤其看好与人工智能相关的软件和应用板块,并将其视为增持中国资产的重要考量因素 [2] - 过去半年,以DeepSeek为代表的国内AI进展持续获得市场关注,市场重心由硬件向软件与应用转移 [3] AI技术落地与行业影响 - AI正经历从单点技术突破向广泛生产力落地的关键过渡,在广告精准投放、游戏内容生成、企业管理软件智能化升级及智能汽车交互体验等方面改变行业格局 [3] - 中信证券建议投资者持续关注AI生态扩张与大规模应用落地为细分赛道带来的投资机会 [4] - 多模态大模型的快速发展及"AI+"在应用端的深化落地,推动全球训练数据需求持续增长 [5] 数据产业转型与全球化布局 - 数据产业正经历从劳动密集型向"技术密集型+知识密集型"转型,推理模型对高质量思维链数据(CoT)需求明显增长 [5] - 海天瑞声营收增长核心驱动来自多模态AI技术迭代带来的跨模态数据需求及垂直领域专业化数据服务市场增长 [5] - 全球化布局成为头部数据企业普遍战略,海天瑞声深耕美国、日韩市场,并计划扩充北美销售团队规模,完善全球化服务体系 [6] AI训练数据市场趋势 - AI训练数据需求加速向自动驾驶、生成式AI、元宇宙、量子计算等前沿方向拓展 [7] - 多模态数据融合与自动化标注技术突破将引发行业效率大优化,垂直行业深度应用与技术驱动的消费级创新构成市场演进两大核心方向 [7] - AI训练数据市场定制化服务将沿垂直化、精细化、智能化三大路径演化,技术驱动的效率壁垒与合规管理能力成为企业核心竞争力关键护城河 [7]
昆仑万维2024年财报:AI业务高歌猛进,净利润巨亏15.95亿
搜狐财经· 2025-04-28 15:38
2025年4月28日,昆仑万维发布2024年年报,公司实现营业总收入56.62亿元,同比增长15.20%,但归属 于母公司股东的净利润却大幅亏损15.95亿元,同比下降226.74%。尽管公司在AI领域的技术创新和海外 市场拓展方面取得了显著进展,但高额的研发投入和金融资产价格波动导致的投资损失,使得公司短期 内利润承压。 2024年,昆仑万维继续坚定践行"All in AGI与AIGC"发展战略,全年研发费用达到15.4亿元,同比增长 59.5%。公司在AI大模型、AI搜索、AI短剧、AI音乐、AI游戏和AI社交等领域取得了多项技术突破。 在AI大模型方面,公司发布了"天工2.0"、"天工3.0"和"天工4.0"系列模型,其中"天工4.0"包含实时语音 交互系统和慢思考推理能力,树立了新的技术标杆。此外,公司还开源了Skywork-MoE稀疏大模型、 Skyworko1Open模型、SkyworkR1V多模态思维链推理模型等,推动AI技术的普惠化应用。 在AI音乐领域,公司推出的MurekaO1模型及MurekaV6模型,性能全面超越Suno,登顶SOTA,成为全 球首个音乐推理大模型。AI音乐商用创作平台 ...
一文看懂多模态思维链
量子位· 2025-03-25 08:59
多模态思维链(MCoT)系统综述 核心观点 - MCoT通过整合图像、视频、音频、3D模型等多模态数据,实现接近人类思维的跨模态推理能力,显著提升AI在复杂场景的应用潜力 [2][3][4] - 技术突破体现在六大方法论支柱:推理构建、结构化推理、信息增强、目标粒度、多模态思维、测试时扩展 [7][8][9][12][14][15][16] - 已在医疗诊断、自动驾驶、创意生成等领域实现商业化应用,但面临计算效率、错误传导、伦理风险等挑战 [17][18][20][22][24][25] 技术方法论 推理构建 - 基于提示:通过多模态指令模板实现零样本/少样本推理链生成 [8] - 基于规划:动态构建树状推理路径(如时序分析/因果推断分支)并筛选最优解 [8] - 基于学习:通过标注推理依据数据微调模型,增强内在逻辑能力 [8] 结构化推理 - 异步模态处理:分离感知模块(目标检测)与推理模块(逻辑生成)提升效率 [10] - 固定流程阶段化:采用预定义规则(如"辩论-反思-总结"模式)分阶段决策 [10] - 自主流程阶段化:动态生成子任务序列(如先定位物体再分析属性) [10] 信息增强 - 集成3D建模软件等专业工具提升特定模态任务精度 [12] - 通过检索增强生成(RAG)技术动态引入领域知识库 [12] - 分析上下文实体关系强化逻辑一致性 [12] 目标粒度 - 粗粒度:宏观场景理解(如危险物品识别) [15] - 中观:物体级语义对齐(如特定目标定位) [15] - 细粒度:像素级分析(如病灶边界分割) [15] 应用场景 - 医疗:结合CT影像与病史生成诊断报告并标注病灶 [3][25] - 自动驾驶:从路况识别到驾驶决策全链条推理 [25] - 创意生成:草图到3D模型的端到端转化 [25] - 教育:通过表情/语调分析实现情绪识别辅助教学 [25] 未来挑战 - 计算资源:慢思考策略需高算力支持,需算法优化与硬件协同 [18][19] - 错误传导:早期目标误判可能导致推理链崩溃,需实时检测与回溯修正 [20][21] - 伦理风险:多模态伪造内容需验证框架与鉴别技术 [22][23] - 场景扩展:当前局限于可验证领域,需开发开放任务推理模型 [24][25]
草稿链代替思维链,推理token砍掉80%,显著降低算力成本和延迟
量子位· 2025-03-10 11:29
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 推理token减少80%-90%,准确率变化不大,某些任务还能增加。 Zoom团队提出思维链替代品"草稿链",显著降低延迟和算力成本。 原理很简单,要求模型为每个推理步骤生成简洁、信息密集的token。 这一思路受到人类解题过程启发,人类通常不会详细阐述每一个细节,只是简单几下关键的中间结果,作为草稿来辅助思考。 此外,草稿链方法简单且易于实现,不需要修改模型、微调或强化学习,只需更新提示词中的示例即可,相关代码和数据已在GitHub上开 源。 研究团队认为,与另一种降低延迟和计算成本的方法"在连续潜空间推理"相比,草稿链保留了可解释性,且可以应用于闭源的黑盒模型。 第三方分析测算,对于每个月处理100万个推理请求的企业, 可以将成本从思维链的3800美元降低到760美元,每月节省超过3000美元。 实验遵循原始思维链论文,评估3类任务:算术推理、常识推理和符号推理。 算数推理任务选择GSM8k数据集,从准确率看,标准提示下GPT-4o和Claude 3.5 Sonnet的准确率分别仅53.3%和64.6%,思维链使两者均 超95%,草稿链也达到91%左右 ...