Skywork Video v1.0
搜索文档
腾讯研究院AI速递 20260113
腾讯研究院· 2026-01-13 00:37
谷歌推出通用商业协议UCP - 谷歌联合Shopify、沃尔玛等超过20家零售巨头推出通用商业协议,为AI智能体购物建立统一开放标准,覆盖从商品发现到售后的全流程 [1] - 该协议已在谷歌搜索AI模式和Gemini应用中实现“智能体结账”功能,支持Google Pay并即将接入PayPal,零售商在交易中保持主体身份 [1] - 谷歌将UCP完全开源,兼容智能体支付协议、A2A协议和MCP等多种协议,旨在降低生态参与门槛,让中小商家也能享受AI购物红利 [1] Midjourney更新Niji v7动漫模型 - Midjourney联合Spellbrush推出Niji v7动漫专属模型,修正了v6版本偏写实的倾向,回归纯动漫感,在眼神细节、动态肢体和材质质感上全面提升 [2] - 新增sref风格参考功能,支持上传3张参考图以保持统一画风,模型理解能力大幅提升,能准确识别“四只手每只拿冰淇淋”等复杂提示词 [2] - 实测显示,v7版本在光影细节、复杂姿势稳定性和纯动漫线条质感上全面超越v6,特别适合分镜生成和系列化创作 [2] BabyVision评测揭示VLM视觉短板 - UniPat AI联合红杉中国xbench等机构发布BabyVision评测基准,将视觉能力拆分为精细辨别、视觉追踪、空间感知、视觉模式识别四大类共22个子任务 [3] - 评测结果显示,Gemini-3-Pro-Preview是唯一超过3岁儿童基线的模型,但距离6岁儿童水平仍差20个百分点,在“连线找垃圾桶”等简单任务上模型集体表现不佳 [3] - 研究揭示视觉语言模型的最大短板是无法将视觉信息完整语言化,这些“unspeakable”视觉题在压缩成token时细节丢失,导致模型难以完成追线、数积木等任务 [3] 昆仑万维推出Skywork Video v1.0 - 昆仑万维在天工超级智能体上推出Skywork Video v1.0,采用“项目制”整合创作流程,所有素材自动归集并可一键添加至多轨道编辑器 [4] - 提供文本生成、图片动效、首尾帧补全、多图风格参考生成及数字人视频生成五种启动方式,内置多轨道编辑器支持分割、替换等精细操作 [4] - Skywork产品矩阵已完成从文档、表格、演示文稿到视频生成的全模态覆盖,构建了一个覆盖多场景、支持多模态的智能办公平台 [4] 逐际动力发布具身Agentic OS - 逐际动力发布全球首个具身Agentic OS——COSA系统,采用三层架构实现大小脑一体化融合 [5][6] - COSA赋予机器人理解模糊指令、跨时间语义记忆和“想到就能做到”三大核心能力,其机器人Oli实现了“移动-操作-移动”一镜到底的操作 [6] - 与Figure AI的Helix端到端VLA模型不同,COSA从架构底层构建面向物理世界的操作系统,在移动操作融合能力上展现出明显优势 [6] 千寻智能开源VLA模型Spirit v1.5 - 千寻智能开源视觉语言动作基础模型Spirit v1.5,在RoboChallenge的Table30榜单上位列第一,超越了Pi0.5,并获得英伟达Jim Fan的点赞 [7] - Spirit v1.5的核心突破在于采用“开放式、目标驱动”的数据采集策略,摒弃“干净数据”转向内化物理常识,其多样化数据使微调收敛速度提升了40% [7] - 非结构化的采集方式使人均有效采集时长增加了200%,对算法专家的依赖降低了60%,公司开源了模型权重和推理代码供社区复现探索 [7] Anthropic联创对AI开发效率的观察 - Anthropic联合创始人Jack Clark透露内部调查存在矛盾数据:60%的Claude使用者自报生产力提升了50%,但METR研究显示,熟悉代码库的开发者使用AI工具后,PR合并速度反而下降了20% [8] - Clark指出代码生产存在“木桶原理”,即写代码速度可能快10倍但审查速度只提升2倍,因此整体效率不会爆炸式增长,并强调截至2026年1月地球上还不存在真正递归自我改进的AI [8] - 他强调如果Scaling Law真的撞墙将是最令人震惊的事,当前巨额的基础设施投资表明大多数人押注相反结果,分布式预训练若取得突破将改变AI的政治经济结构 [8] Linux之父使用AI工具开发项目 - Linux之父Linus Torvalds在GitHub发布了首个Vibe Coding项目AudioNoise,该项目使用谷歌Antigravity生成Python可视化工具,他坦言效果“比自己写的好” [9] - 该项目灵感源自吉他效果器板设计,主要探索数字音频处理基础知识,包含IIR滤波器和延迟循环等零延迟单采样处理 [9] - 仅在5天前的1月7日,Torvalds还在内核开发讨论中批评AI生成垃圾代码“愚蠢至极”,此次开源使用AI工具引发了圈内的“真香时刻”热议 [9] 马斯克关于AI与未来的预测 - 马斯克预测人工智能将在2026年达到AGI,2030年AI智能将超越全人类智能总和,AI性能每年以10倍速度提升,其xAI的孟菲斯Colossus 2数据中心将在1月中旬达到1吉瓦功率 [10] - 他提出AI安全的三个关键词,预测三年后Optimus机器人的手术水平将超越顶级外科医生,五年内机器人将从稀缺变为充裕,到2040年将达到100亿台 [11] - 马斯克强调“太阳是一切”的能源观点,赞赏中国太阳能年产能达到1500吉瓦,预测未来货币的本质是瓦特,并认为白领工作将最先被AI替代,但最终将实现全民富足 [11]