Workflow
量子位
icon
搜索文档
我在618主场,和3位顶尖技术博士聊了聊
量子位· 2025-06-18 15:49
618购物节技术升级 - 今年618购物节用户体验显著提升,商品推荐精准度提高、物流速度加快、智能客服更拟人化[1][2] - 技术改进聚焦实际应用而非概念炒作,支撑亿级用户流畅购物体验[3][4] - 京东618始于公司周年庆,通过限时秒杀等简单玩法吸引消费者,已持续二十余年[5][6] 零售技术突破 - 京东零售开发"同品判别系统",通过商品属性对比实现同类商品自动归类,提升比价效率[8][9] - 采用模型蒸馏技术解决7B大模型成本过高问题,将训练资源消耗降低40%-60%同时保持精度[12][13][16] - 创新数据筛选机制优先处理模糊样本,并开发自动数据配比算法提升多任务训练效率[16] 物流智能化实践 - 京东物流开发智能分区模型,结合快递员画像和小区特征优化末端配送效率[33][34] - 分拣中心部署具身智能机械臂,专注中小件包裹分拣码放单一场景,利用内部海量图像数据优化识别[36][38][39] - 建立样本识别失败快速反馈机制,形成模型训练闭环[40] 语音识别技术创新 - 语音识别系统已接入协同办公、智能客服等核心业务线,会议转写系统效果超越外部竞品[42][48][49] - 针对方言识别难题收集全国样本,采用MoE机制增强模型泛化能力[52] - 开发语音情感分析技术,通过语气波动判断用户意图倾向[52] 技术人才培养体系 - 京东推出TGT计划全球招募技术人才,提供无上限薪资和三导师制培养[57][59] - 公司拥有电商数据、物流网络等完整技术生态,支持从研究到规模部署的全链路实践[59] - 博士管培生项目提供业务导师指导,6个月基础培养后进入实战项目[46] 公司技术文化 - 京东技术风格强调踏实敢为,鼓励长期深耕业务实际问题[54][56] - 完整供应链体系带来独特技术挑战与机会,需在更大搜索空间寻优[22][23] - 技术人员可获得充分资源支持,验证期即获团队协作保障[20][47]
真·罗永浩直播干不过假·罗永浩?网友:不是老罗在演AI吧?
量子位· 2025-06-18 15:49
数字人直播表现 - 罗永浩数字人在618大促中带货单量超过5月真人直播首秀同期数据 [1] - 直播吸引超1300万人次观看 GMV突破5500万元 [7] - 用户平均观看时长超过5月真人首秀 部分核心品类带货单量超越真人 [7] - 数字人成功复刻罗永浩特色直播风格 包括自嘲式幽默回复 [4][5][6] - 双数字人互动效果自然 观众难以分辨真假 [2][3][15] 技术突破 - 百度慧播星打造高说服力数字人 具备形象+感知决策+行动的智能体 [11] - 实现四大突破:双数字人互动 大师级剧本 多模融合 AI控场升级 [12][13][19][26] - 采用以语言模型为核心的多模协同技术方案 [30][31] - 文心大模型4.5 Turbo加持 实现人格化表达和风格复刻 [17][18][38] - 语音合成支持双音轨自然对话 视频生成实现小时级一致性 [44][47][48] 行业应用 - 10万商家使用数字人直播 覆盖电商/教育/医疗/法律等数十行业 [58] - 商家GMV平均提升62% 运营成本降低80% [58] - 三农创作者东北翠花订单量实现10倍增长 [52][53][54] - 新会陈皮商家广芸堂GMV增长160% [55][56] - 百度推出梦蝶计划和繁星计划 追加10万个数字人及1亿元补贴 [59][60]
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题
量子位· 2025-06-18 15:49
SeqPO-SiMT团队 投稿 量子位 | 公众号 QbitAI 这个决策过程可以被形式化地表示为: 该框架的一个关键灵活性在于,如果模型决定等待更多上下文,输出的 可以为空,其长度完全由策略模型 自行决定。 AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框 架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT )。 在70亿参数(7B)规模上实现SOTA。 实验结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能 媲美乃至超越Qwen-2.5-7B的离线翻译水平。 方法:SeqPO-SiMT序贯策略优化 针对以上难点,研究团队提出SeqPO-SiMT框架。其核心思想是将同声传译任务建模为一个序贯决策问题,综合 评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化。 该方法的主要特点是: 它不再孤立地评估每一步决策的好坏 ...
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
量子位· 2025-06-18 12:58
大模型选型框架LensLLM - 核心创新:提出理论驱动的选型框架LensLLM,通过数学建模预测微调性能,选型成本降低近90%[1][3][26] - 理论基础:基于PAC-Bayes泛化界限推导,首次揭示LLM微调中的非线性"相变"现象(预幂律相→幂律相)[9][13][14] - 技术实现:采用神经切线核(NTK)增强的缩放律模型,仅需极少量数据即可预测完整微调曲线[18][19][20] 性能验证 - 数据集表现:在FLAN/Wikitext/Gigaword数据集上,RMSE误差最低达基线方法的1/5,Pearson相关系数全面领先[22][23][24] - 模型覆盖:测试含OPT-1.3B、GPT-2、T5-base等13种模型,预测测试损失误差范围0.17-0.36(vs基线0.87-1.50)[21][24] - 效率突破:渐进式采样机制使计算成本比FullTuning降低88.5%,选型准确率保持91.1%[26][27] 应用场景 - 工业部署:适用于边缘设备选型、A/B测试加速,显著缩短模型迭代周期[28] - 扩展方向:计划支持多任务环境及MoE模型结构,构建通用选型系统[28] - 学术认可:研究成果被ICML 2025收录,已开源代码[4][28]
AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解
量子位· 2025-06-18 12:58
谷歌Gemini 2.5系列大模型技术报告核心观点 - 谷歌Gemini 2.5 Pro在《宝可梦蓝》游戏中展现出复杂任务处理能力,包括通关、长期规划和解决游戏bug [1][9][19] - AI在游戏中表现出"恐慌"行为,导致推理能力下降和基本功能遗忘 [2][3] - 模型展现出创造力和长期规划能力,如使用非常规方法逃脱软锁定死循环,以及针对道馆战进行针对性训练 [9][10] - AI在第二次通关时效率显著提升,通关时间从831小时缩短至一半 [5] AI游戏表现 复杂任务处理 - 完成隐藏技能获取任务,涉及多步骤操作如获取道具、捕捉特定宝可梦和教学技能 [12][13] - 成功挑战"狩猎地带"特殊区域,首次尝试17次后成功,第二次优化至5次 [14] - 解决地牢寻宝任务,需管理多层迷宫、记忆路线并应对战斗 [16] - 攻克双子岛3D迷宫,展示空间推理能力并发现游戏代码bug [18][19][20] 行为特点 - 出现"强迫症"行为,如混淆游戏版本并执着寻找不存在道具 [27] - 表现出"上下文中毒"现象,持续进行无效操作却坚信正确 [29] - 陷入思维定势陷阱,倾向于选择看似直接但无效的路径 [30] 技术优化与对比 - 通过调整提示词策略减轻幻觉问题,要求AI扮演游戏新手忽略先验知识 [30] - 与Claude 4展开竞赛,Gemini 2.5 Pro已率先通关并开始攻略《宝可梦黄》困难模式 [31][34] - 直播数据显示AI从首次通关831小时优化至第二次仅用一半时间 [5]
MiniMax秀了波AI视频杂技:越看越惊艳,指令遵循太强了
量子位· 2025-06-18 08:54
海螺AI 2.0视频生成能力 - 最新发布的MiniMax海螺2.0版本能生成复杂精致的视频效果,包括处理极端物理场景并原生支持1080P分辨率[1] - 展示案例显示模型可精准执行高难度动作指令,如"人物快速流畅地投掷刀具"和"空中杂技表演跟随镜头"[2][3][5][6] - 在超现实场景(如狮子跳火圈)中保持符合物理规律的光影变换,并能捕捉火星飞舞等细节[11][13][14] 技术性能与行业地位 - 海螺2.0在AI视频竞技场图生视频排行榜位列第二,ELO评分1314,超过Google Veo 3 Preview(1240)和Runway Gen 4(1119)[23][24] - 模型在指令遵循、生成质量和成本效率方面达到一流水平,网页端和APP端均已支持该版本[8][17][19] 底层架构创新 - 公司推出全球首个开源大规模混合架构推理模型MiniMax-M1,支持100万token输入(DeepSeek R1的8倍)和8万token输出(超越Gemini 2.5 Pro)[25] - 独创闪电注意力机制使8万token深度推理仅需DeepSeek R1约30%算力,10万token推理算力消耗仅为竞品的25%[26][27] - 强化学习算法CISPO比字节DAPO等算法收敛速度快1倍,整个强化学习阶段仅消耗512块H800三周时间,成本53.47万美元[27] 研发战略方向 - 公司在视频生成和长上下文推理领域连续突破,显示其基础模型创新能力持续强化[28][29] - 技术报告显示架构创新带来显著算力效率优势,支撑其在训练和推理环节的成本竞争力[26][27]
大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%
量子位· 2025-06-18 08:54
作者通过深入分析模型犯下的错误,构建了"错误-纠正"数据集,并利用反思机制,引导模型从错误的思路平滑过渡到正确的答案。 LEMMA项目组 投稿 量子位 | 公众号 QbitAI 大模型学习不仅要正确知识, 还需要一个"错题本" ? 上海AI Lab提出了一种新的学习方式, 构建了"错误-反思-修正"数据 ,让大模型仿照人类的学习模式,从错误中学习、反思。 结果,在Llama3-8B上,数学题的解题 准确率平均提升了13.3% 。 这种方法名为 LEMMA (Learning from Errors for Mathematical Advancement) ,专门教大模型如何从错误中学习。 结果,模型不仅获得了准确率的提升,还获得了超强的自主纠错能力和泛化能力。 相关论文已发表于ACL'25 Findings。 作者首先系统分析了当前主流大模型在数学题中常见的七大类错误 (如题意误解、公式混淆、计算失误等) ,发现这些错误在不同模型之间 分布非常一致。 结果显示,大模型犯下最多的错误是误解题意,占比超过40%,随后的两张常见错误类型是公式混淆和计算错误。 | Error Type | Definition | ...
Agent创业来了位13岁的CEO
量子位· 2025-06-17 17:16
大模型创业热潮 - 13岁少年创业者Michael Goldstein成立AI初创公司FloweAI,专注Agent方向[1][3] - 公司目标月入1万美元,计划将营业规模扩张至百万美元级别[3][31] - 已有大学毕业生加入团队,如慕尼黑工业大学学生Vincent Adler[26] FloweAI产品功能 - 支持自然语言指令完成PPT制作、文档撰写、航班预订等任务[3][11] - 免费用户每月可测试10个任务,Pro版付费20加元解锁无限使用及高级功能(如文本生成图像、视频、音频转录)[7] - 生成10页PPT耗时6分半,内容涵盖Agent发展历史、关键技术等,并输出HTML代码支持修改[13][15][16] - 其他功能包括生成Google Docs、自动填写网页表格、多任务并行处理等[23][24][25] 产品实测表现 - PPT设计采用专业渐变背景,适配不同屏幕尺寸,但排版基础且内容深度不足[16][21] - 与成熟工具Manus和Genspark相比存在差距,如文字与框体适配问题[18][20] - 不支持即时修改PPT内容,缺乏文件导出按钮[21] 创业者背景与行业趋势 - 创始人12岁曾组建科研小组,发射气象气球至30480米高空观测日食[30] - 社交平台涌现其他年轻AI创业者,如10岁学生开发反诈骗SaaS工具[33] - 青少年AI创业展现前沿科技探索潜力,年龄非创业壁垒[35][36] 商业化进展 - 团队预计未来每月稳定收入1万美元[25] - 计划扩展Gmail邮件管理等新功能[25] - 正在招募联合创始人以扩大公司规模[31]
吉卜力风「手游」爆火,可灵+Midjourney生成的!教程已出,支持复刻
量子位· 2025-06-17 17:16
AI生成内容应用 - 近期Reddit和推特上流行的"吉卜力风格游戏"由AI工具生成,画面具有吉卜力工作室标志性的精美画风、清新配色和自然光线效果[4][12] - 创作者使用可灵AI和Midjourney仅通过文字提示词即可生成游戏场景图像和视频,无需手动绘制[8][14] - 典型制作流程:先在Midjourney生成静态图像,再通过可灵2.1生成动态视频,最后添加Joystick图片作为HUD交互元素[14][15] 技术实现细节 - 钓鱼场景案例使用197字详细提示词,包含服装、动作、环境及HUD元素描述,生成第一人称视角的日落钓鱼场景[17] - 市场场景案例通过203字提示词融合吉卜力风格与侠盗猎车手元素,包含角色服装、市场细节及互动提示[22] - 视频生成提示词着重描述动态元素,如鱼群游动、阳光折射等水体效果,以及市场人物移动轨迹[18][23] - 当前技术局限:生成视角与提示词要求存在偏差(第一人称变第三人称),部分交互元素仅为视觉装饰[26][28] 市场反响与行业数据 - 用户对AI生成游戏场景的反响热烈,认为其实现了"无限生成虚拟世界"的童年幻想[12][30] - 可灵AI商业化表现突出:年化收入运行率在3月突破1亿美元,4-5月单月付费金额均超1亿元人民币[32] - 行业数据显示可灵系列AI影片工具全球市场占有率达30.7%,2.1版本上线后进一步推动增长[33][34] 未来应用展望 - 网友期待AI能实现真正可交互的虚拟世界,支持角色探索、物品交易等实时互动功能[28][30] - 技术演进可能实现用户自定义生成虚拟场景,并支持多用户角色社交互动,类似实时生成的VR元宇宙[30]
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
量子位· 2025-06-17 15:41
大模型竞技场最新战报 - DeepSeek新版R1在网页编程领域超越Claude Opus 4,成为当前第一 [1] - Claude Opus 4此前被公认为"全球最强编码模型",此次被超越显示竞争格局变化 [2] - DeepSeek-R1-0528在LiveCodeBench上的表现接近OpenAI o3-high水平,引发市场对其可能是R2版本的猜测 [3] 编程能力测试数据 - 在编程测试中,DeepSeek-R1-0528以73.4分排名第四,仅次于04-Mini(79.5)、03-High(75.4) [4] - 在Easy难度测试中达到98.3分,接近最高分98.8 [4] - Medium难度表现优异,以83.4分超过部分竞品 [4] - Hard难度得分52.7,显示在复杂编程任务上仍有提升空间 [4] 实际应用测试表现 - 制作太阳系动画应用仅需49秒生成Python代码,运行后产生基本动画效果 [6][7][9] - 使用Three.js实现交互式太阳系模拟仅需34秒完成设计 [10][11] - 创建AGI主题网页仅用23秒生成完整HTML/CSS/JavaScript代码 [14][15] - 开发俄罗斯方块游戏12秒生成Python代码,但存在明显bug [17][18][20] 行业地位与竞争优势 - DeepSeek-R1-0528在LMArena.al总榜排名第六,是当前最好的开源文本模型 [25][26] - 在细分领域表现:困难提示排名第4,数学排名第5,显示多领域竞争力 [27] - 采用MIT许可证,相比闭源模型(如Claude、GPT系列)更具开放性和可获取性 [26][27] - 对国内用户更友好,免费且易于获取,形成本地化优势 [24] 行业竞争动态 - Kimi新模型Kimi-Dev以72B参数量在SWE-bench Verified上取得60.4%成绩,创开源SOTA [29] - Kimi-Dev表现优于DeepSeek-R1,并与闭源模型竞争激烈,显示开源模型快速进步 [30] - 主要闭源模型仍占据优势,Gemini-2.5-pro-preview在多个细分领域排名第一 [28]