Workflow
Vidu Q2参考生Pro
icon
搜索文档
腾讯研究院AI速递 20260129
腾讯研究院· 2026-01-29 00:03
生成式AI产品与模型发布 - OpenAI推出由GPT-5.2驱动的新一代云端LaTeX工作区Prism,整合了起草、修改、协作和出版功能,支持智能文献搜索、草图转LaTeX、语音编辑,并允许无限协作者共同写作,对所有ChatGPT用户免费开放 [1] - Google在全球正式上线AI Plus低价计划,定价为每月7.99美元,首两个月享五折优惠,套餐包含Gemini 3 Pro、Flow视频创作、NotebookLM研究辅助、200GB云存储,并支持最多6人家庭共享 [2] - 腾讯混元图像3.0图生图模型正式开源,该模型基于80B参数混合专家架构,在LMArena图片编辑榜单位列全球第七,支持增删改、风格变换、老照片修复、多图融合等多样化编辑能力 [4] - 昆仑天工发布Mureka V8音乐大模型,基于MusiCoT技术实现音乐性、编曲完成度、人声表达全面提升,在中文歌曲生成主观评分中超越Suno,已与太合音乐集团达成战略合作,平台已为全球8000多家客户提供服务 [5][6] - Vidu发布Q2参考生Pro模型,全球首创支持特效、表情、纹理、动作、人物、场景六大参考类型的“万物可参考”能力,实现视频精细化编辑,支持任意元素增删改替换和风格切换 [7] - 蚂蚁灵波开源发布其第一款具身智能基座模型LingBot-VLA,该模型基于约20000小时覆盖9种双臂机器人构型的真实数据训练,在GM-100基准测试中整体超越Pi0.5,并采用Mixture-of-Transformers架构 [8] 行业竞争与战略动向 - Google推出AI Plus计划被视为对OpenAI ChatGPT Go的直接回应,现有Google One Premium 2TB用户将自动获得全部AI Plus权益 [2] - 爆火开源项目Clawdbot因收到Anthropic律师函指控商标侵权,被迫更名为Moltbot,更名过程中GitHub故障导致旧ID在10秒内被加密货币骗子抢注 [3] - OpenAI认为2025年AI改变了软件开发,并预测2026年科学领域将迎来同样变革,Prism是通向AI加速科研发现的先行者 [1] - 昆仑天工计划每年迭代2-3个版本,目标成为全球AI音乐领域第一平台 [6] 技术进展与性能表现 - OpenAI副总裁凯文·韦尔表示GPT-5的推理能力已跻身人类前沿,在GPQA博士级测试中得分率达92%,远超GPT-4的39% [12] - 蚂蚁灵波的研究首次揭示VLA模型在真实机器人数据上的Scaling Law,数据从3000小时扩展至20000小时后性能持续提升且未饱和 [8] - 腾讯混元图像3.0的训练过程构建了千万量级图生图数据覆盖80多个任务,并采用自研MixGRPO算法对齐用户偏好 [4] 领导层观点与行业预测 - OpenAI CEO奥特曼在开发者座谈会上承认GPT-5.2为专注推理和编码牺牲了写作能力,表示“我们搞砸了”,后续版本会补上 [10] - 奥特曼预测到2027年底GPT-5.2级别智能成本至少降低100倍,未来每个人的App都将是个性化定制版本 [10] - 奥特曼认为AI时代最重要的技能是高能动性、善于产生想法和适应变化,工程师定义会变但需求不会少 [10] - OpenAI副总裁凯文·韦尔认为大语言模型最大价值是发现跨学科关联和被遗忘的研究成果,正探索让模型具备“认知谦逊”和自我事实核查能力 [12] - 韦尔预测2026年将成为AI赋能科研的关键年,一年后未深度使用AI工具的科研人员将错失提升效率的机会 [12] 前沿科技与教育发展 - 中国科学院大学星际航行学院正式揭牌成立,由朱俊强院士任院长,将构建涵盖14个一级学科的课程体系,并新增22门核心课程,涵盖星际动力与推进、行星动力学、星际社会学与治理等前沿方向 [9] - 学院将新建6个特色教学实践平台,定位为抢占科技制高点的关键举措,将为国家深空探测、空间科学研究等重大战略需求提供人才支撑 [9]
万物皆可参考是种什么体验?Vidu Q2参考生Pro:特效、演技、细节全都要
机器之心· 2026-01-28 12:59
AI视频生成行业技术跃迁 - 行业在短短两年内从生成“抽象鬼畜”内容进化到“惟妙惟肖”的真智能水准,实现了翻天覆地的技术跃迁 [2] - 行业竞争焦点正从解决“有没有”转向追求“精不精”,站在追求“可控性”的关键转折点 [2] Vidu Q2参考生Pro产品发布与定位 - 公司于近期正式发布Vidu Q2参考生Pro,其全新Slogan“视频参考,创想无限”标志着对AI视频生产流的底层重构 [3] - 该产品是全球首个“万物可参考”的视频模型,将参考模态从静态图像扩展至动态视频与多维元素 [3][4] - 产品在短短数月内完成了从“生成”到“编辑”的闭环,其“视频参考”功能重新定义了AI的“模仿”与“创造” [3][4] 核心功能亮点:视频参考 - 功能极大丰富了参考类型,涵盖人物、场景、特效、表情、动作、材质纹理等 [4] - 能同时处理多段视频素材,实现百万级电影特效、细腻微表情、复杂流体纹理的一键迁移 [4] - 能精准拿捏细微情绪,让演技自然可信,让特效落地生根 [4] 核心功能亮点:视频编辑 - 支持对视频内元素的精准增、删、改、减,如改变人物站位、调整画幅、更换背景、美颜美发及复合编辑 [5] - 得益于支持2个视频加4张图片的多模态高并发输入能力,即便多次复合编辑,视频核心元素与画面一致性依然稳定 [5] - 让视频编辑告别了不可预测的“抽卡”模式 [5] 技术能力实测:复刻演技与特效 - 能完美复刻《X战警》魔形女的变身过程,实现“百万特效一键白嫖”,将传统需耗时数周、高成本的工业级特效制作边际成本压缩至几近归零 [17] - 能高精度复刻张曼玉在《甜蜜蜜》中的经典哭戏,眉眼间的情绪流转相当传神,实现了高精度的神态捕捉与生成 [22] - 支持多视频参考,能同时结合沈腾的动作与怪盗基德的服饰元素,生成效果丝滑,手部动作完美复刻,镜片高光、遮挡关系及服饰光影处理严丝合缝 [27] - 技术展现了惊人的“表演-特效”同步率,能同时驾驭高难度流体形变与读懂情绪代码 [27] 技术能力实测:材质纹理迁移 - 参考生视频中的材质纹理迁移意味着AI开始习得“质感语言”,理解光线在不同材质上的折射与粗糙度影响,使视频从“看起来像”进化到“感觉是真的” [29] - 能将普通杯子瞬间“烧制”成青花瓷,釉面反光与杯身曲面严丝合缝,毫无“贴图感” [30] - 能切换整体风格,如瞬间变为粘土风 [32] - 基于静态照片生成视频时,能精准构建画面的3D空间关系,完美还原环境并保持毛绒质感稳定 [36] - 在修改物体(如将碗换色)时,AI真正理解了物体的3D结构和光影关系,实现了物理层面的重构而非简单滤镜叠加 [37] 技术能力实测:精准视频编辑 - 视频编辑功能能精准修改细节,如完美删除指定物体(绿色餐具)并在指定位置添加新元素(蓝色碗中放苹果) [38] - 在官方演示中,能完美抹去手机并“脑补”出被遮挡的手指细节和掌纹,类似将Photoshop的“内容识别填充”应用于视频 [41] - 尽管在极度复杂画面下偶有瑕疵,但相比过去的崩溃体验,可用性已实现从0到1的质变 [41] 行业影响与产业应用前景 - 技术的生产力跃迁意味着影视创作将告别“唯预算论”的旧时代,工业级特效不再是昂贵的奢侈品,创作者的想象力成为衡量作品价值的唯一天花板 [17] - 高精度神态生成能力可极大拓展制作流程想象空间,降低短剧市场创意可视化门槛,让好故事不再受限于初期制作条件简陋 [22] - 在影视制作前期,可升级为更直观的Previz(预演)工具,让导演在开机前看到带有情绪色彩的动态分镜 [22] - 在动漫领域,该技术或能成为传统转描工艺的智能化升级,将真人表演韵律转化为特定画风动画,助力跨次元创作高效落地 [22] - 对于创作者而言,技术意味着能同时驱动虚拟角色的皮囊与灵魂,实现“一人就是一支特效剧组”,跳过繁琐后期 [28] - 精准的编辑能力为创作者直接省掉了无数次“重新抽卡”的垃圾时间 [42] 行业发展趋势总结 - AI视频生成正从一场凭运气拆盲盒的“概率游戏”走向“颗粒度掌控”,技术从“野蛮生长”走向精细化 [43] - AI视频的下半场,竞争焦点不是运气,而是控制力,这代表着创作自由的回归 [44]
【太平洋科技-每日观点&资讯】(2026-01-28)
远峰电子· 2026-01-27 21:06
大盘与板块表现 - 主要股指涨跌互现,科创50指数领涨,涨幅为1.51%,创业板指上涨0.71%,上证指数上涨0.18%,深证成指微涨0.09%,北证50微跌0.05% [1] - TMT板块内部分化显著,领涨板块为SW分立器件、SW模拟芯片设计和SW集成电路封测,涨幅分别为5.70%、3.60%和3.59% [1] - TMT领跌板块为SW安防设备、SW其他计算机设备和SW教育出版,跌幅分别为1.11%、1.07%和1.03% [1] 国内半导体与显示产业动态 - 澜起科技在国内率先推出基于PCIe 6.x/CXL 3.x标准的高性能有源电缆(AEC)解决方案,采用自研Retimer芯片,旨在满足数据中心多机架架构对高带宽、低延迟互连的需求 [1] - 具备边缘推理能力的数字终端将成为中国半导体产业扩张的重要驱动力,尤其是在成熟工艺领域,预计2026年中国半导体市场规模将增长31.26%至5465亿美元 [1] - 国科微宣布对旗下固态存储芯片、SSD主控芯片及配套存储模组等全系列产品进行价格调整,涨幅区间为20%至80%,其中企业级SSD及高端DDR适配产品涨幅最高达80% [1] - 合肥国显8.6代AMOLED生产线项目整体进度已完成65%,预计今年二季度开始洁净室交付并搬入工艺设备,设计产能为每月3.2万片玻璃基板(尺寸2290mm × 2620mm) [1] 海外半导体与AI芯片进展 - 美光在新加坡动工建设先进晶圆制造设施,计划10年内投资约240亿美元(约1669亿人民币),最终提供70万平方英尺无尘室空间,晶圆产出计划于2028年下半年开始,以应对AI和数据中心驱动的NAND需求增长 [2] - Counterpoint Research预计,到2027年,全球服务器专用AI服务器计算ASIC出货量将比2024年增长三倍,增长动力来自谷歌TPU、AWS Trainium集群以及Meta和微软内部芯片产能的提升 [2] - 微软正式推出全新AI加速器Microsoft Azure Maia 200,其FP4算力最高可达10千万亿次浮点运算每秒,是亚马逊Trainium3的三倍,搭载216GB HBM3e,内存带宽达7TB/s,并配备272MB片上SRAM [2] - 美国专利商标局正式驳回了长江存储针对美光科技两项涉及3D NAND闪存关键制造工艺的核心专利提出的无效请求 [2] AI模型与应用创新 - DeepSeek发布OCR 2模型,采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像部分,更接近人类视觉编码逻辑 [3] - Vidu推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro,支持特效、表情、纹理、动作、人物、场景六大参考类型,用户可通过视频或图片输入实现精细化编辑 [3] - 月之暗面Kimi发布并开源K2.5模型,在多项基准测试中达到开源SOTA水平,支持多模态输入,并创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理任务,效率最高提升4.5倍 [3] - 阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,总参数量超1万亿,预训练数据量高达36T Tokens,在19项权威基准测试中性能可媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型 [3] “十五五”前瞻产业追踪 - 【深空经济】国星宇航披露全球首个服务硅基智能体的太空算力网计划,计划构建由2400颗推理计算卫星与400颗训练计算卫星组成的全球算力基础设施,目标在2035年前完成组网,具备服务数以亿计硅基智能体的能力 [4] - 【高端仪器】国内自主研发的“石工卓灵-超声兰姆波扫描成像测井仪(CBUI)”已在多个主力油田实现规模化应用,具备环空介质识别、水泥胶结评价等五大功能,实现井筒完整性全景化、定量化诊断 [4] - 【工业母机】根据德国机床制造商协会2025年初步统计数据,中国机床出口额同比增长18%,以21.6%的全球市场份额首次成为出口冠军,德国则以16.7%的份额跌至第二,出口额同比大跌10% [4] - 【具身智能】浙江人形机器人公司完成4.5亿元Pre-A轮融资,其人形机器人已在华为、中控、吉利等头部企业应用于汽车精密装配、纺织布料分片等多个场景 [4] 公司业绩速递 - 概伦电子2025年实现营业收入约4.87亿元,同比增长16.21%,归母净利润预计为3600万元,实现扭亏为盈 [5] - 蓝特光学预计2025年实现归母净利润3.75亿至4.00亿元,同比增长70.04%至81.38%,扣非净利润达3.68亿至3.93亿元,同比增长70.89%至82.50% [5] - 南亚新材预计2025年实现归母净利润2.2亿元至2.6亿元,同比增长337.20%至416.69%,扣非净利润为2.0亿元至2.4亿元,同比增长613.21%至755.85% [5] - 仕佳光子预计2025年营业收入达21.29亿元,同比增长约98.13%,预计实现归母净利润3.42亿元,同比增长约425.95% [5] 高频数据与材料价格 - 2025年1月27日国际DRAM颗粒现货价格中,DDR5 16G (2G×8) 4800/5600均价为36.600美元,日跌幅0.18%;DDR4 16Gb (2G×8) 3200均价为78.750美元,日跌幅0.07%;DDR3 4Gb 512M×8 1600/1866均价为5.170美元,日涨幅0.43% [5] - 2025年1月27日百川盈孚半导体材料价格显示,锌系粉体、高纯金属及晶片衬底价格多数持平,部分高纯金属材料价格出现上涨,例如6N高纯钴市场均价为3050元/千克,日上涨200元;7N高纯铟市场均价为4350元/千克,日上涨200元 [6]