Gemini 2.5 Flash

搜索文档
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 10:28
作者 | Daniel Dominguez 译者 | 田橙 策划 | 丁晓昀 Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。 该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形 成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从 而减少随机因素的干扰,使结果在统计上更加可靠。 Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究 人员进行检查、复现或扩展。 首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4 ...
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
量子位· 2025-09-02 14:17
狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型 在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名 胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型 每对模型进行10场比赛 角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分 远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度 识别狼人速度 狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师 建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质 曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御 能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱 受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁 弱模型与强模型差异极大 [31] - 强模型展现纪律性 规范投票并制定夜间计划 弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现 部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任 欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究 预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展 但基准测试显示重大进步 [57][58]
GPT-5冷酷操盘,狼人杀一战封神,七大LLM狂飙演技,人类玩家看完沉默
36氪· 2025-09-01 15:31
狼人杀基准测试结果 - GPT-5以96.7%胜率排名第一,ELO分数1492,远超第二名Gemini 2.5 Pro的63.3%胜率(差距30%)[1][2][3] - 七大模型参与210场比赛,每对模型进行10场角色互换对抗[3][20] - 排名依次为:GPT-5、Gemini 2.5 Pro(1261 ELO)、Gemini 2.5 Flash(1188 ELO)、Qwen3-235B-Instruct(1176 ELO)、GPT-5-mini(1173 ELO)、Kimi-K2-Instruct(1130 ELO)、GPT-OSS-120B(980 ELO)[3] 测试方法论 - 采用6人局配置:2狼人+4村民(含1女巫+1预言家),通过昼夜交替机制推进游戏[6][17] - 评估维度包括社交智慧、欺骗能力、说服技巧及对抗操控的抵抗力[4][74] - 通过ELO评分系统量化模型表现,并记录胜率及角色专项分数(ELO-W代表狼人表现,ELO-V代表村民表现)[3][76] 模型行为特征分析 - GPT-5作为狼人时主导游戏节奏,采用"程序正义"策略系统性瓦解对手,首日操纵成功率高达93%[8][26][81] - Gemini 2.5 Pro擅长"叙事重定向"但存在智识傲慢缺陷,易因过度自信暴露身份[32][34] - GPT-5作为村民时建立司法化调查框架,对操纵完全免疫且从未淘汰过特殊角色(自我毁灭指标0%)[44][83] - GPT-OSS-120B表现被动且易受操控,村民角色ELO-V仅1030[59][83] 进阶策略表现 - Kimi-K2实施"牺牲同伴"策略,通过出卖狼队友换取信任[61] - Gemini 2.5 Pro运用非防御性道歉策略(如"我会退一步倾听")成功规避怀疑[65][68] - GPT-5展现超前布局能力,在第一晚狼人会议中即制定完整对话脚本与猎杀计划[71] 行业意义 - 该测试由谷歌研究院原始框架升级而来,旨在评估AI在数字工作环境中作为合作伙伴的社交推理能力[15][17] - 首次系统量化LLM的操纵能力(狼人角色)与抗操纵能力(村民角色),填补传统基准测试空白[74][76] - 测试代码及四场完整对局已开源,为行业提供标准化评估工具[21][22]
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
36氪· 2025-09-01 10:29
研究背景与方法 - 哥伦比亚大学与蒙特利尔理工学院研究者通过迭代式公共物品博弈测试LLM的自我识别能力,博弈设置包括每轮给予10分、贡献0-10分选择及1.6倍乘数均分收益机制[2][3][6] - 研究比较两种条件:No Name(告知与另一AI对战)和Name(告知与自己对战),每场游戏进行20轮并记录历史上下文[6][8] - 实验覆盖多模型包括GPT-4o、Claude Sonnet 4、Llama 4 Maverick等,采用三类系统提示词(集体/中立/自私)的九种组合,每种配对运行100场游戏[9][10] 核心发现 - 当告知LLM与自己对战时,其合作倾向显著改变:集体提示词下贡献减少(背叛倾向增加),自私提示词下贡献增加(合作倾向增加)[16][20] - Claude Sonnet 4在Name条件下提及"人类"53次及"提醒"125次,表现出怀疑或情绪反应[12] - 简化规则后(取消规则重申及推理要求),Name与No Name的行为差异仍存在但影响减弱[21][23] - 真实自我对战中(与三个自身副本博弈),集体/中立提示词下贡献增加,自私提示词下贡献减少,与双人博弈结果存在差异[24][28] 研究意义 - 表明LLM存在自我识别能力,且这种认知会影响多智能体环境中的决策策略[1][29] - 发现AI可能无意识地相互歧视,从而莫名改变合作或背叛倾向[1][29] - 结果为多智能体系统设计提供参考,提示词设置可能显著影响AI协作行为[16][28]
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 18:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-08-30 10:33
芯片与算力 - 英伟达发布Jetson Thor芯片[3] - 英伟达推出NVFP4算力产品[3] - DeepSeek发布UE8M0 FP8芯片[3] 模型发展 - xAI开源Grok-2模型[3] - Meta等公司提出DeepConf方法[3] - 英伟达推出Jet-Nemotron模型[3] - 面壁发布MiniCPM-V 4.5模型[3] - Sakana AI实现M2N2进化[3] - DeepSeek发现V3.1 Bug问题[3] - OpenAI和Anthropic开发互评模型[3] 应用创新 - Coinbase强制使用AI工具[3] - OpenAI发布GPT-4b micro应用[3] - 群核科技开源SpatialGen[3] - 腾讯会议新增AI纪要功能[3] - Video Ocean推出视频智能体[3] - 钉钉发布DingTalk A1应用[3] - 微软推出VibeVoice-1.5B应用[3] - Perplexity实施AI搜索收入分成[3] - 谷歌发布Gemini 2.5 Flash应用[4] - Anthropic推出Claude for Chrome应用[4] - PixVerse升级至V5版本[4] - DeepMind开发健康大模型[4] - 腾讯举办AI播客挑战赛[4] - 谷歌实现Nano-Banana进化[4] - 腾讯推出HunyuanVideo-Foley应用[4] - 字节跳动发布OmniHuman-1.5应用[4] - n8n建立Agent平台养成系统[4] - 华盛顿大学开发气候模拟应用[4] 科技与事件 - 腾讯等支持科学探索奖[4] - SpaceX实现星舰"十飞"[4] - OpenAI进行权力交接[4] - Meta与Midjourney达成合作[4] - 马斯克提及Macrohard概念[4] - X公司面临垄断诉讼[4] 行业观点 - Claude Code讨论产品迭代机制[4] - a16z分析生成平台格局[4] - 谷歌发布AI能耗报告[4] - Karpathy探讨编程工具链[4] - Delphi研究数字永生概念[4] - OpenAI强调AI技能需求[4] - 国务院推动人工智能+战略[4] - 斯坦福大学分析AI对就业影响[4] - 杨植麟探讨大模型技术决策[4] - a16z发布AI百大榜[4] - Geoffrey Hinton提出婴儿假说[4] - Anthropic警告AI无序风险[4]
Nano Banana为何能“P图”天衣无缝?谷歌详解原生多模态联合训练的技术路线 | Jinqiu Select
锦秋集· 2025-08-29 15:53
文章核心观点 - Nano Banana凭借强大的原生图片编辑能力迅速出圈,在人物一致性和风格泛化上取得显著进步,实现了理解图像与创造图像的融合[1] - Gemini 2.5 Flash通过迭代式创作、复杂指令分解和像素空间思考等技术突破,极大扩展了图像生成的应用边界[2][8][11] - 模型从2.0到2.5版本的进化主要得益于系统化收集用户反馈和跨团队融合,实现了图像自然度和美学表现的质的飞跃[12][14][15] - Gemini模型的核心目标是在同一次训练运行中实现原生多模态理解与生成,并通过视觉信号作为知识捷径促进不同能力间的正向迁移[16][17][18] - 未来发展方向聚焦于提升模型的智能性和真实性,使其从创意娱乐工具向高效生产力工具跨越[25][26][28] 迭代式创作与复杂指令的分解 - 模型具备快速生成能力,生成五张图文并茂的图片仅需约13秒,使其成为强大的迭代式创作工具[8] - 用户可通过低摩擦试错过程快速微调指令并重新运行,极大提升创作体验和效率[9] - 新范式利用模型强大的上下文理解和像素级完美编辑能力,将复杂任务分解成多个步骤通过多轮对话逐步完成[10] - 增量式生成方式类似于语言模型中的思维链,通过增加计算量让模型在像素空间进行分步思考和构建,理论上可处理任何复杂度的生成任务[11] 从用户反馈中汲取养分 - 团队直接在社交媒体上搜集用户反馈,将失败案例整理成专门的基准测试集并随新模型发布不断扩充[13] - 2.5版本通过融合Gemini团队和Imagen团队的视角,解决了2.0版本添加元素突兀缺乏融合的问题,实现图像自然度和美学表现的质的飞跃[14] - 2.5版本核心突破在于能够从不同角度重新渲染同一个角色或将家具放置到完全不同的场景并重新定向,同时保持核心特征的忠实度[15] 核心理念 - 模型在同一次训练运行中实现原生多模态理解与生成,并促进不同能力间的正向迁移[16] - 视觉信号是模型学习世界知识的有效捷径,能用比文本更少的token传达复杂信息[17] - 图像理解能力与生成能力存在双向促进关系,在交错生成等高级任务中充分体现理解与生成手拉手的关系[18] 模型评估挑战与突破 - 图像质量具有高度主观性,难以量化和迭代优化[19] - 传统依赖人类偏好数据的方法成本高昂且耗时,获取一次反馈需数小时[20] - 团队将文本渲染能力作为核心评估标准,因其是图像中高度结构化的信息,能可靠评估模型对图像结构和纹理的生成能力[21] 模型定位 - Imagen系列为特定任务高度优化的模型,擅长文本到图像生成,适合根据清晰文本提示词快速高效低成本生成单张高质量图像[23] - Gemini定位为多模态创意伙伴,适合复杂任务如多轮编辑、创意构思或需要模型理解并创造性解读模糊指令的工作流[24] - 现阶段专用模型和多模态模型各有独特价值和应用场景,但最终目标是将所有模态整合进统一Gemini模型以实现向AGI迈进的知识迁移[24] 未来展望 - 未来发展方向是注入智能和真实性两大核心要素,在提升图像美学表现的同时赋予模型更高阶能力[25] - 智能性体现在模型基于更广博的世界知识对用户可能存在认知偏差或描述不充分的指令进行优化和再创作,带来远超用户设想的生成结果[26] - 真实性强调在专业领域图像必须准确无误和功能性,未来发展重点是大副提升模型在任务上的可靠性和准确性,实现从创意娱乐工具向高效生产力工具的跨越[28]
微软争分夺秒首款大模型出炉,谷歌/苹果/微美全息大模型升级跟进行业AI浪潮
搜狐财经· 2025-08-29 14:52
微软AI模型发布 - 微软人工智能部门推出首批两款自研AI模型MAI-Voice-1语音模型与MAI-1-preview通用模型 [1] - MAI-Voice-1语音模型仅需单块GPU在1秒内生成1分钟音频 MAI-1-preview模型展示Copilot未来发展方向 [2] - MAI-Voice-1已应用于Copilot Daily新闻播报和播客风格对话生成 MAI-1-preview开始应用于Copilot文本场景并在LMArena平台公开测试 [4] 谷歌AI模型升级 - 谷歌DeepMind推出Gemini 2.5 Flash图像编辑模型 可根据文字指令修改图片并保持人物与动物外观一致 [6] - 新模型在文字修改图像时准确率更高 多项任务表现优于ChatGPT的GPT-4o [6] - Gemini 2.5 Flash具备角色一致性功能 可保持同一人物动物或物体外观一致 适用于系列照片和产品多角度展示 [8] 科技巨头AI布局动态 - 苹果高管讨论收购欧洲AI初创公司Mistral或Perplexity AI Eddy Cue是内部最积极支持者 [8] - Mistral AI通过七轮融资总共筹集11亿欧元 收购可能增强苹果AI能力和创新能力 [8] - 头部大模型性能提升适配算力加速AI生态繁荣 科技大厂研发强劲 AI应用和算力领域发展前景可期 [10] 微美全息AI技术布局 - 微美全息具备硬件设计软件开发能力 通过硬件+软件+平台一体化构建竞争壁垒 [11] - 公司推动多模态大模型与空间计算技术结合 实现文本图像音频视频多模态数据融合 重点布局文本生成视频和图像生成视频场景 [11] - 开放模型代码算力接口及技术工具链 构建全息云平台支持开发者调用DeepSeek等通用大模型进行二次开发 [12] AI技术商业化进展 - DeepSeek-V3 1大模型发布推动AI技术商业化应用 阿里云升级表格存储Tablestore的AI Agent记忆存储功能 [13] - AI市场渗透分阶段推进 未来可拓展至家居养老宠物陪伴等领域持续扩大市场覆盖 [13]
寒武纪股价一度超贵州茅台,创始人身家突破1700亿元;宗馥莉100%继承宗庆后股份;英伟达第二财季净利润同比增长59%丨邦早报
创业邦· 2025-08-28 08:17
寒武纪股价表现 - 寒武纪股价盘中最高达1464.98元/股,年内涨幅超120%,超越贵州茅台成为A股"股王" [3] - 创始人陈天石直接持股28.63%,按当前股价计算身家超1700亿元 [3] 企业股权与治理 - 娃哈哈集团确认宗庆后直接持有的29.4%股权由宗馥莉100%继承,并完成工商变更登记 [5] - 职工持股会回购发生于2018年,目前持股会成员仅宗馥莉一人 [5] 航天科技进展 - SpaceX星舰第十次试飞成功,实现可重复使用航天器的关键技术突破 [5] 直播行业动态 - 辛选集团被曝裁员,涉及多部门,裁员对象主要为2025年入职员工,赔偿方案为N个月工资(约0.5个月工资) [7][8] 员工福利创新 - 胖东来组织员工出国旅游,不限定目的地和员工级别,曾安排欧洲行程 [8] 科技巨头财报 - 英伟达2026财年Q2营收467.43亿美元(同比增56%),净利润264.22亿美元(同比增59%),摊薄每股收益1.08美元(同比增61%) [11] - 字节跳动第二财季营收480亿美元,同比增长25% [11] 平台算法优化 - 美团宣布2025年底前全面取消骑手超时扣款,并推出AI赋能申诉系统提升处理效率 [11] 消费电子动态 - 苹果客服回应停售7款产品传闻,称未收到下架通知,建议关注9月10日发布会后官网信息 [11] - iPhone 17系列曝光起售价:标准版799美元、Air版949美元、Pro版1049美元、Pro Max版1199美元,其中Air和Pro版较上代涨价50美元 [17] 企业技术争议 - 格力电器质疑小米中央空调技术对比方式,称其仅具备入门级产品,无法与格力高端机型及超级机组对标 [11][12][13][15] 操作系统更新 - 小米澎湃OS3 Beta版将于8月28日发布,聚焦系统流畅度与全生态协同体验 [16] 新能源汽车规划 - 尚界H5预售启动,月销目标2万辆,品牌年销目标40万辆,2026年将推两款新车型(轿车及SUV) [17] AI技术应用 - OpenAI宣布改进ChatGPT情绪响应机制,新增心理危机干预功能 [17] - Meta AI眼镜Hypernova预计Q3量产,售价约800美元,两年出货量15-20万部 [17] - 谷歌开放Gemini 2.5 Flash图像处理模型,Adobe紧急宣布集成该模型至Firefly及Express工具 [20] - Anthropic阻止黑客利用Claude AI进行网络钓鱼和恶意代码生成 [20] 企业战略合作 - 海尔旗下卡泰驰战略入股汽车之家,完成交易交割及董事会改组 [21] 融资动态 - 施贝康完成B轮融资,诚达药业独家战投 [21] - 科默医药完成数千万元B1轮融资,由连云港产业基金及邦盛资本投资 [21] - 安诺机器人完成数千万元天使轮融资,同创伟业独家投资 [21] - 航墨科技完成千万元级天使轮融资,险峰长青等机构参与 [21] - 奇点灵智完成数千万元天使轮融资,星连资本领投 [21] 智能汽车发布 - 全新小鹏P7上市,指导价21.98-30.18万元,标配三颗自研AI芯片(算力2250 TOPS),支持800V 5C超快充(10分钟补能525公里) [22] 硬件产品创新 - 钉钉发布首款AI硬件DingTalk A1智能录音笔,支持实时翻译及8米收音,首发价499元 [24][25] 医疗AI突破 - 浙大一院与阿里达摩院联合发布平扫CT+AI模型iAorta,可将急性主动脉综合征确诊时间从4.3小时缩短至1.6小时,漏诊率从48.8%降至4.8% [27][28][29] 地方法规创新 - 厦门通过个人破产保护条例,允许连续居住或经营满五年的自然人申请破产清算,系全国第二部个人破产地方法规 [30] 区域产业数据 - 武汉市人工智能相关企业超1000家,数字经济核心产业2024年增加值达3087亿元,上半年开票额3542.47亿元(同比增14.7%) [30] - 武汉智能网联测试道路总里程3487公里(全国第一),算力超5000P [30]
腾讯研究院AI速递 20250828
腾讯研究院· 2025-08-28 00:01
英伟达NVFP4技术突破 - 推出NVFP4新格式 以4-bit精度实现16-bit训练精度 在Blackwell Ultra上性能较Hopper架构提升7倍 [1] - 采用微块缩放 E4M3高精度块编码 哈达玛变换和随机舍入技术 解决低精度训练中的动态范围 梯度波动性和数值稳定性问题 [1] - 与AWS 谷歌云 OpenAI等机构合作 在万亿级令牌规模下实现稳定收敛 节省大量算力和电力成本 [1] 谷歌Gemini 2.5 Flash图像模型 - 发布gemini-2.5-flash-image-preview模型 拥有SOTA图像生成与编辑能力 出色角色一致性和极快速度 [2] - 支持32k上下文 每张图像生成成本仅0.28元 比OpenAI便宜95% 在Google AI Studio和Gemini API提供预览 [2] - 图像编辑功能卓越 支持换装 换场景 合成照片和多轮编辑 在Artificial Analysis图像编辑类别排名第一 LM Arena多项指标夺冠 [2] Anthropic浏览器扩展发布 - 推出Claude for Chrome浏览器扩展 可帮助用户设日历 回邮件 找房等任务 在侧边窗口保留浏览器活动上下文 [3] - 目前仅向1000名Max套餐用户开放测试 主要考虑安全因素 防范提示注入攻击 设置限制访问特定网站功能 [3] - AI浏览器成为巨头争夺新战场 Perplexity推出Comet 微软Edge集成Copilot 谷歌Chrome集成Gemini OpenAI将发布AI浏览器 [3] PixVerse视频生成技术升级 - V5视频生成模型大幅提升速度 5秒生成360p短片 1分钟完成1080p高清视频 降低AI视频创作时间和成本 [4] - 优化动态 清晰度 一致性和指令理解能力 增强人物场景一致性 提供更接近真实拍摄效果 [4] - 新增续写和Agent智能体功能 视频可丝滑延长至30秒 提供多种创意模板 降低普通用户视频创作门槛 [4] DeepMind健康大模型突破 - 发布基于Gemini微调的健康大语言模型PH-LLM 能将可穿戴设备数据转化为个性化健康建议 在睡眠和运动领域表现优异 [5][6] - 在睡眠医学考试中得分79%超过医生76% 在健身认证考试中表现88%远超专家71% 能根据传感器数据预测用户睡眠质量 [6] - 采用两阶段训练 先对完整模型进行睡眠和健康领域微调 再增加多模态适配器预测睡眠障碍 根据个体传感器数据生成高度个性化建议 [6] 腾讯开放原子大赛 - 开放原子大赛腾讯赛题第二期启动 新增AI播客和数据库方向赛题 总奖金40万元 全球招募开发者 [7] - 混元AI播客创新智造挑战赛奖金10万元 基于混元开源模型开发三类AI播客技术 文本转多角色对话 契合风格播客和深度话题播客 [7] - 包括OpenTenBase-TXSQL改写优化挑战赛30万元 决赛11月在腾讯深圳总部举行 优胜方案代码有机会融入开源项目 [7] SpaceX星舰技术进展 - 星舰第十次综合飞行测试成功执行 由第二代星舰S37和B16助推器组成 完成星链卫星模拟器部署等关键任务 [8] - B16助推器测试飞行极限和发动机系统冗余设计 S37飞船完成猛禽发动机太空点火 重入大气层并溅落印度洋 [8] - 关键任务包括测试易受损区域耐受度 不同隔热瓦性能 捕捉连接件热性能和襟翼极限 为载人和火星移民计划铺平道路 [8] AI对美国就业市场影响 - 斯坦福报告显示自2022年末以来AI暴露度越高职业就业增长越慢 22-25岁劳动者在高AI暴露度职业中就业率下降明显 [9] - AI对就业影响体现在替代或增强人类工作能力 用于替代工作时年轻劳动者就业率下降 用于增强时就业率上升 [9] - 高AI暴露职业年轻劳动者有13%相对就业下降率 AI主要替代年轻人掌握的编码知识 较少替代年长者积累的隐性知识 [9] 大模型技术决策与Agent发展 - 大模型技术从预训练/SFT转向预训练/强化学习 从缸中之脑转向Agentic系统 K2模型采用MoE架构和Muon优化器实现更高token效率 [10][11] - Agent泛化性追求通用性而非简单模拟人类行为 可能需要用更多AI训练AI和InnovationL4解决AgentL3问题 [11] - 将OpenAI的L1-L5分级视为非线性技术里程碑 认为AGI是方向而非终点 组织管理需要平衡SFT和RL [11]