大语言模型
搜索文档
大模型“记性差一点”反而更聪明,金鱼损失随机剔除token,让AI不再死记硬背
36氪· 2025-09-04 07:54
研究背景与问题 - 大语言模型在训练时若不加以约束,容易原封不动地复刻训练数据,存在记忆化问题 [1] 核心方法与原理 - 研究团队提出名为“金鱼损失”的新方法,其核心理念是在模型训练过程中随机剔除一部分训练文本中的tokens,使其不参与损失计算 [3] - 该方法在损失函数计算时随机屏蔽部分token,使模型在推理时只能“猜测”而非复现完整序列 [2][3] - 为确保被剔除token的一致性,研究采用了基于哈希的掩码策略,特别是局部化哈希掩码,使得相同的前h个token出现时掩盖模式相同 [3][7] - 与Dropout等正则化方法不同,金鱼损失通过哈希掩码确保每次遇到同一段落时掩盖位置都相同,从根本上阻止模型拼凑并复现完整训练文本 [5] 实验设计与结果 - 研究设计了极端场景和标准场景来验证金鱼损失防止记忆化的效果 [8] - 在极端场景下,使用LLaMA-2-7B在《哈利·波特》第一章或100篇维基百科文档上进一步训练100个epoch,标准训练导致模型逐字记忆了100篇文章中的84篇,而金鱼损失没有记忆任何文章 [8][10] - 在标准训练场景下,金鱼损失也明显减少了模型逐字复现训练语料库中目标序列的情况 [10] - 评估指标显示,使用金鱼损失后,模型在下游任务中的性能几乎不受影响,与标准损失模型和对照模型之间的总体性能没有系统性差异 [4][12] 潜在影响与考量 - 金鱼损失的核心在于忽略部分token的梯度计算,模型需要通过更多数据来补偿这些空缺,这可能导致计算效率的下降 [13]
百度视觉技术部多模态感知与理解招聘(社招/校招/实习)
自动驾驶之心· 2025-09-04 07:33
百度视频理解算法岗位招聘 - 招聘类型包括校招、社招和实习(可转正) 工作地点为北京或深圳 [2] - 负责文心一言在视频理解方向的SOTA算法研发 聚焦视频问答、视频描述/摘要生成、时序行为定位、视频主题检测等核心任务 [2] - 要求计算机/人工智能相关领域硕士或博士学历 在顶级会议(CVPR/ICCV等)发表论文者优先 [4][5] 团队优势与福利 - 团队处于快速扩张期 校招、社招、实习岗位Headcount充足 [6] - 提供大牛导师一对一指导 深度参与文心大模型项目 [6] - 福利包含免费水果、健身房及有竞争力的薪资 [6] AutoRobo求职社区资源 - 社区专注自动驾驶/机器人/具身智能/大模型领域 已有近1000名成员 涵盖智元机器人、地平线、理想汽车等企业员工及2024/2025届校招者 [9] - 每日更新算法/开发/产品岗位招聘信息 包含校招、社招、实习等类型 [10] - 提供行业研报如《世界机器人报告》《中国人形机器人发展蓝皮书》等 覆盖技术路线与市场前景分析 [19] 专业面试资源库 - 汇总自动驾驶领域专项问题集 包括毫米波视觉融合、BEV感知、多传感器标定等10个核心模块的"一百问"专题 [14] - 包含具身智能方向Nerf应用、轨迹预测、Occupancy感知等6个技术方向的面试题库 [15][18] - 整理多家企业面经 如滴滴算法工程师、英伟达春招、小米汽车算法岗等7类实战案例 [21] 职业发展支持服务 - 提供谈薪技巧指导 包含HR面常见问题汇总与薪资谈判关键回答 [23][25] - 分享转行自动驾驶行业经验 面试官建议及算法岗基础技能树构建方法 [25] - 提供专业书籍资源与简历优化服务 支持C++、产品经理等岗位面试准备 [24]
苹果将发布自主AI网页搜索工具 已与谷歌达成模型协议
凤凰网· 2025-09-04 06:52
公司战略与产品规划 - 苹果计划在2025年春季推出基于AI的网页搜索工具"世界知识答案"系统 旨在与OpenAI及Perplexity AI竞争 [1] - 新系统将整合至Siri语音助手 并可能最终应用于Safari浏览器及iPhone主屏幕聚焦搜索功能 [1] - 该技术被内部称为"答案引擎" 依赖大语言模型技术 目标是通过操作系统实现全网信息查询 [1] 技术合作与功能特性 - 新版Siri部分底层技术可能来自谷歌 两家公司已达成正式协议 苹果将评估测试谷歌开发的AI模型 [2] - 新搜索体验将包含结合文本、照片、视频及本地兴趣点的多功能界面 [2] - 系统配备AI驱动的摘要功能 旨在使搜索结果比现有Siri更快捷、易懂且准确 [2]
Midoo.AI 发布:AI Agent 能否破解教育行业千亿美金的「无解方程」?
Founder Park· 2025-09-03 16:24
行业背景与痛点 - 传统AI语言学习产品存在内容僵化、反馈机械和场景缺失等问题 导致用户难以提升真实交流能力[2] - 教育行业核心困境在于学习效果难以标准化和交付 市场高度碎片化且缺乏规模效应[4] - 在线教育依赖人力密集型模式 通过助教团队提供个性化服务导致高昂成本[5] - 人力依赖引发三重经济惩罚:高信任与销售成本、高个性化服务成本和高组织协同成本[6] 市场机遇与技术突破 - 全球语言学习市场规模2023年达615亿美元 预计2032年突破2000亿美元 年复合增长率15-20%[9] - 大语言模型在沟通情商和应用层面表现完美 与语言学习需求高度匹配[10] - AI Agent对话成本比真人教师降低90%以上 同时覆盖80%口语对话需求[11] - 技术推动学习范式从"做题思维"转向"沟通思维" 通过模拟对话实现语言内化[12] 公司解决方案与优势 - Midoo.AI采用动态生成学习资源 根据用户兴趣和场景定制无限个性化内容[14] - 构建MultiAgent+Workflow系统 通过剧情主线、可互动物品和NPC角色创造沉浸式场景[17] - 提供学习建议、定制内容和情感支持 使Agent成为用户的学习伙伴[19] - 创始团队具备教育从业、Agent产品和大厂工程复合背景 已获种子轮投资[19] 战略定位与愿景 - 优先聚焦日韩和北美市场 逐步扩展全球服务[20] - 以近乎零边际成本替代传统数万人力实现的个性化服务[20] - 瞄准巨头因成本无法满足、小公司因技术门槛做不到的深度体验需求[20] - 愿景成为"每个人口袋里的AI语言导师" 使命是"释放语言 连接无限"[21][22]
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
量子位· 2025-09-03 13:49
文章核心观点 - 研究团队提出了一种名为“金鱼损失”的新训练方法,旨在通过随机剔除部分训练文本中的token并阻止其参与损失计算,来防止大语言模型逐字死记硬背训练数据,同时保持其学习语言规律和下游任务的能力 [1][3][4][6] 方法原理与机制 - 金鱼损失的核心是在模型训练过程中,随机屏蔽一部分训练文本中的token,使其不参与损失计算 [6] - 在推理阶段,模型遇到被屏蔽的位置时只能进行“猜测”,而非复现完整训练序列 [7] - 为确保被剔除token的一致性,研究采用了基于哈希的掩码策略,使得相同的前h个token出现时,掩盖模式相同且可重复 [8][14][19] - 具体而言,在计算损失时,会以一定概率将某些位置的真实下一个token从训练目标中“抹掉” [17][18] - 研究人员采用了简单的静态掩码,例如剔除每个序列中的第4个token [19] 与传统正则化方法的区别 - 与Dropout等通过添加噪声防止过拟合的正则化方法不同,金鱼损失通过哈希掩码确保每次遇到同一段落时掩盖位置都相同,从根本上阻止模型通过累计学习拼凑出完整段落 [11][12][13][14] 实验设计与结果 - 研究设计了极端场景和标准场景来验证金鱼损失防止记忆化的效果 [20] - 使用RougeL得分和精确匹配率作为评估模型记忆化程度的指标 [21][22] - 在极端场景下,实验让LLaMA-2-7B在《哈利·波特》第一章或100篇维基百科文档上进一步训练100个epoch [24] - 极端场景结果显示,标准训练导致模型逐字记忆了100篇文章中的84篇,而使用金鱼损失的模型没有记忆任何文章 [22] - 在标准训练场景下,金鱼损失也明显减少了模型逐字复现训练语料库中目标序列的情况 [24] - 性能测试表明,金鱼损失模型、标准损失模型和对照模型之间的总体下游任务性能没有系统性差异 [26] 潜在影响与考量 - 金鱼损失的核心在于忽略部分token的梯度计算,模型需要通过更多数据来补偿这些空缺,这可能带来计算效率的下降 [28]
【9月9日直播】大模型复杂推理技术:如何重塑AI推理逻辑
机器人大讲堂· 2025-09-03 12:19
大模型“慢思考”技术趋势 - 人工智能大语言模型正从“快思考”模式转向注重推理深度与逻辑连贯性的“慢思考”范式[2] - 以DeepSeek-R1为代表的新型大模型通过强化学习机制强化长思维链推理能力,在复杂任务处理上展现出更强的理解力和决策能力[2] - “慢思考”技术在数学、编程等高阶任务中表现优异,并以开源架构和成本优势推动技术普及,成为推动大模型迈向更高智能水平的关键路径[2] 技术研讨会核心内容 - 研讨会主题为“AI慢思考:大模型复杂推理技术”,由中国人民大学赵鑫教授分享DeepSeek-R1等模型在“慢思考”技术方面的最新研究进展[2] - 赵鑫教授将聚焦大模型慢思考的基础技术与实现方法,系统性讲解以强化学习为主线的关键技术路径,并探讨技术挑战、科学价值及未来发展趋势[9] - 施普林格·自然计算机科学图书编辑总监常兰兰博士将介绍该机构计算机科学和2025年全新人工智能图书资源,分享学术图书出版价值[11] 专家背景与研究成果 - 赵鑫教授为中国人民大学高瓴人工智能学院教授,已发表论文200余篇,谷歌学术引用3万余次,曾主导研发玉兰系列大语言模型[8] - 赵鑫教授曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖,并组织编写《大语言模型》中文书[8] - 赵鑫教授与文继荣教授领衔主编的新书构建了系统化的大模型技术框架与路线图,内容凝练经典论文、开源代码与前沿论文精华[19] 行业资源与生态 - 施普林格·自然推出人工智能电子图书合集,涵盖从基础知识到前沿研究的广泛学科主题,包括专著、会议论文集、教科书和手册等资源类型[21] - 该电子图书合集收录预测人类行为的机器学习算法到影响医疗保健行业的神经网络等丰富内容,为科研与学习提供一站式资源[21] - 机器人大讲堂社群汇集工业机器人、服务与特种机器人、医疗机器人、人形机器人、具身智能及核心零部件等领域的众多企业,共享前沿科技及产业动态[26][27][28][29][30][32]
潍坊推动政务服务从网上办迈向智能办 “数字政务服务官”上岗
大众日报· 2025-09-03 10:42
政务服务智能化升级 - 潍坊市推出智能客服系统 通过深度应用DeepSeek大语言模型实现多轮提问优化 使语义理解和解答更加精准化人性化 已解答企业群众在线咨询6000余次且准确率达90%以上 [1] - 建成涵盖21万余条通俗易懂语料集知识库 完成1974个政务服务事项问答知识库的口语化语义改造 融合标准化事项信息与政策法规形成完整政务服务语料库 [1] 智能预审系统效能提升 - 智审员"Ai小潍"汇集126项审批政策法规和8000余个历史案例 开发智能预审规则库可快速解析申报材料 上线一个月辅助办理285件业务并发现材料错误400余处 预审效率提升30% [2] - 通过电子比对技术实现申请材料自动审核 业务办理时间缩短一半以上 人工智能审核准确率显著高于人工 [2] 智能导办系统优化申报流程 - 开发情形预判决策树将12个审批事项拆解为1000余个决策节点 形成30个标准化导引场景 系统自动生成最优审批路线并对信息缺失情况提示修正 [2] - 材料首次审核通过率提升60%以上 企业人员可直接在线完成申报 无需前往大厅领取或查询材料清单 [2] 技术创新与系统整合 - 应用自然语言大模型技术深化DeepSeek+政务服务融合创新 构建智能客服智能预审智能导办三位一体的政务服务智能体 [3] - 推动政务服务从网上办向智能办全面迭代升级 成为审批大厅最全面的数字政务服务官 [3]
研报掘金丨太平洋:维持长盈精密“买入”评级,人形机器人进度加快
格隆汇APP· 2025-09-02 17:41
业绩表现 - 2025年上半年归母净利润3.06亿元 同比减少29.37% [1] - 业绩符合预期 消费电子和新能源领域稳健增长 [1] 人形机器人业务 - 2025年上半年海外人形机器人零件收入超过3500万元 较2024年全年的1011万元大幅增长 [1] - 取得多个国产人形机器人品牌量产订单 [1] - 人形机器人产能建设加快 [1] - 公司在该领域提前布局 [1] 行业前景 - 新能源行业在能源转型与绿色发展背景下将持续高速增长与创新变革 [1] - 具身智能人形机器人受生成式AI和大语言模型催化 已进入商业化应用阶段 [1] - 人形机器人有望成为继计算机、智能手机、新能源汽车之后的颠覆性产品 将深刻变革人类生产生活方式 [1]
Nicholas Chui:押注中国的“动物精神”正在回归
日经中文网· 2025-09-02 11:15
资金流向与市场表现 - 全球股票基金对中国股票的配置比例呈现上升趋势 [1] - 香港股市触及约3年零10个月高点 上海股市达到近10年高点 [1] - 欧美投资者对中国市场的关注度重新提升 [1] 政策与投资逻辑转变 - 投资者认识到中国政府政策转向经济扶持 成为资金回流起点 [1] - 长期增长预期驱动"动物精神"回归 非短期资金行为 [1][2] - 2025年DeepSeek技术突破将推动中国建立独立大语言模型与云生态系统 [1] 消费行业表现与驱动力 - 旅游和教育类消费概念股表现坚挺 受政策支持推动 [3] - 国民购买力持续提升 存款向消费转化存在充分空间 [3] - 小米通过扩展纯电动汽车与智能家电产品线确立品牌力 抗经济波动能力增强 [3] 地缘政治风险应对 - 美国关税政策未引发客户恐慌性抛售 因针对范围具全球性特征 [6] - 中美对立风险仍存在但未显著影响资金配置决策 [4][6]
大模型开始打王者荣耀了
量子位· 2025-09-02 09:40
腾讯TiG框架技术突破 - 提出Think-In-Games框架 将大语言模型直接应用于《王者荣耀》训练 实现实时游戏盘面理解与人类级别操作[1] - 仅14B参数的Qwen-3-14B模型通过TiG框架达到90.91%动作精准度 超越671B参数的Deepseek-R1模型[2] - 将强化学习决策重新定义为语言建模任务 通过语言指导策略生成与环境反馈迭代优化[3] 技术实现原理 - 大语言模型在游戏中直接行动并解释原因 弥合传统LLM只知原理与RL只知行动的鸿沟[4][5] - 主要学习人类玩家宏观层面推理能力 包括长期目标制定 团队协同策略 地图施压控制等[6] - 将决策转化为文本 通过JSON读取游戏状态 从固定菜单选择宏操作并解释原因[7] 训练方法与数据构建 - 采用多阶段训练结合监督微调与强化学习 使用GRPO算法最大化生成内容优势[12][9] - 从真实对局采样构建数据集 通过重新标注算法确保每个状态带有宏观动作标签[9] - 基于二元规则奖励机制 预测操作与人类玩法匹配时奖励为1 否则为0[11] 模型性能表现 - Qwen-2.5-32B应用GRPO后准确率从66.67%提升至86.84%[14][15] - Qwen2.5-14B经SFT+GRPO训练后准确率从53.25%提升至83.12%[14][15] - 最佳表现组合为Qwen-3-14B+SFT+GRPO(2000步) 达到90.91%准确率[2][15] 应用场景特征 - 模型扮演战略决策角色而非操作执行 类似金牌教练而非职业选手[6][7] - 具体案例显示模型能全面评估游戏状态 分析优先目标 制定策略并输出指令[8][9] - 在数据量和计算需求显著降低情况下取得与传统RL方法竞争性性能[17]