Workflow
观察者网
icon
搜索文档
光伏取消出口退税,释放了怎样的信号?
观察者网· 2026-01-13 10:48
政策调整核心内容 - 自2026年4月1日起,中国光伏组件出口退税将直接归零,不再享受增值税补贴 [2] - 动力电池出口退税税率将从2026年的9%降至6%,并计划于2027年全面归零 [2] 出口退税政策目的与调整逻辑 - 出口退税政策是一种变相的“外贸补贴”,旨在通过退还增值税来鼓励出口 [3] - 政策通常倾向于支持出口价值高、规模大、增速猛、技术含金量高的产品 [3] - 对于已足够强大、不再需要补贴的行业,或低附加值产品,政策会逐渐降低或取消退税 [3] 取消光伏出口退税的原因 - 中国光伏行业已非常强大,全球市占率超过60%,部分核心组件市占率超过80% [5] - 高市占率导致市场增量有限,引发行业内为争夺订单的疯狂价格战,使产品陷入“低价循环” [5] - 过低的价格可能引发海外市场抵制(如加征关税),并因利润微薄而削弱企业研发投入,长期损害产品竞争力 [5] - 国家力推反内卷,取消补贴旨在抬高成本,倒逼行业告别价格战,转向技术创新以获取技术溢价 [7] 降低动力电池出口退税的原因 - 中国动力电池产业优势巨大,即使没有出口退税也能主导全球市场 [7] - 从产业链角度看,中国已是全球唯一的动力电池主导者,产业已足够强大,不再需要额外退税补贴 [8] - 全球主要竞争对手仅日本松下和韩国LG,且其原料供应严重依赖中国 [7] 动力电池全球市场数据 - 2025年1-11月,全球(除中国市场外)电动汽车电池累计使用量为415.1 GWh,同比增长26.4% [8] - 宁德时代(CATL)同期用量为121.2 GWh,市占率达29.2%,同比增长37.5% [8] - 比亚迪(BYD)同期用量为31.9 GWh,市占率达7.7%,同比大幅增长138.0% [8] - 蜂巢能源(SVOLT)同期用量为8.7 GWh,同比激增320.6% [8] 政策调整的宏观背景与资金转向 - 中国贸易顺差已突破1万亿美元,创历史新高,继续出口补贴对外贸增量作用有限 [9] - 取消出口补贴所节约的资金,将转向用于补贴国内消费,如购房、购车、生育及兴建公立幼儿园等 [9][11] - 政策重心将从投资生产端(出口补贴)转向投资消费端和公共投资,以反哺国内消费 [11]
道指标普创历史新高:谷歌市值达4万亿美元,中国金龙指数涨超4%
观察者网· 2026-01-13 09:22
美股市场整体表现 - 当地时间1月12日,美股三大指数全线收涨,道琼斯工业平均指数收于49590.20点,涨幅0.17%,标准普尔500指数收于6977.27点,涨幅0.16%,纳斯达克综合指数收于23733.90点,涨幅0.26% [1] - 纽约证券交易所综合指数收于22695.93点,涨幅0.46% [1] - 道指与标普500指数创下历史收盘新高 [1] 大型科技股动态 - 大型科技股涨跌不一,谷歌A(GOOGL)收涨1%,报331.860点,收盘市值历史性突破4万亿美元(约合人民币27.89万亿元)大关 [2] - 谷歌当日成交额为111.9亿美元,总股本为120.7亿股,总市值达4.005万亿美元 [3] - 苹果公司收涨0.34%,报260.25点 [2] - 苹果与谷歌正式达成多年期战略合作协议,谷歌Gemini模型及其云端技术将作为底层核心技术,全面赋能苹果新一代人工智能体系,包括对Siri进行升级 [2] - 特斯拉、英伟达、美光科技股价小幅走高,而英特尔股价跌幅超过3%,亚马逊与微软股价小幅收跌 [3] 矿业板块表现 - 矿业板块普遍走高,赫克拉矿业股价上涨8.95%,报24.460点 [3] - 科尔黛伦矿业股价涨幅接近6%,纽曼矿业股价上涨超过3% [3] 中概股表现 - 中概股整体走强,纳斯达克中国金龙指数上涨4.26% [5] - 热门个股多数收涨,阿里巴巴涨幅超过10%,创下自8月29日以来最大单日涨幅 [5] - 哔哩哔哩股价上涨近9%,小鹏汽车股价上涨超过8% [5] - 百度和微博股价均上涨超过6%,蔚来、网易及京东股价涨幅超过4%,理想汽车股价上涨超过2% [5]
中国科学家发布月球计时软件,“反映出中国对月球的重视”
观察者网· 2026-01-12 23:00
行业背景与需求 - 随着世界各国日益重视月球探索,如何定义月球标准时间成为科学界关注的新问题[1] - 过去月球任务数量很少,时间误差问题几乎“无关紧要”,工程师可根据地球时间单独修正每个任务[5] - 随着月球探索成为世界航天领域焦点,未来将有越来越多的航天器乃至载人飞船前往月球,临时解决方案将难以应对误差问题[5] - 月球时间测定正成为一种真正的工程需求,不再像过去那样可以依照地球时间逐个处理[3] - 制定时间标准不仅对协调月球任务非常重要,同时也是政治影响力的象征[5] 技术挑战与现有方案 - 根据广义相对论,由于月球引力仅为地球的约六分之一,月球上的时间比地球更快,每天快大约56微秒[1] - 微小的误差积累起来,足以对需要精确计时的航天任务产生严重影响[1] - 在航天器导航系统中,微秒级的误差都可能产生显著影响,进而在以分钟为单位的时间尺度上影响计算结果[4] - 定义和构建月球标准时间的关键环节之一是明确月球坐标时与太阳系质心力学时之间的对应关系[3] - 国际上现有的转换公式均采用级数近似理论,导致计算结果精度低、计算过程繁琐,且缺少可直接使用的产品[3] 公司解决方案与产品 - 中国科学院紫金山天文台上个月正式发布了全球首款“月球计时软件”,实现了月球与地球时间的精确转换[1] - 科研人员构建了一个模型,同时考虑了月球较弱的引力及其在太空中的运动,使月球上的事件能够与地球上的时钟准确同步[1] - 研究团队利用目前精度最高的太阳、行星、主带小行星和柯伊伯带天体的轨道信息,实现了月球坐标时与质心力学时的精确转换,其累积误差即使在1000年后也不超过1/20000000秒[3] - 研究团队进一步开发了端到端的软件包产品,用户仅需一步操作即可获得月球坐标时的精确转换结果[3] - 上个月,紫金山天文台正式发布了月球时间历表产品LTE440[1] - 相关研究成果已发表在期刊《天文学和天体物理学》上[3] 产品意义与行业影响 - 该软件产品解决了月球与地球时间转换的问题[1] - 美国哈佛-史密松森天体物理中心的天文学家指出,虽然美国也在进行类似工作,但尚未听说过可直接使用的“月球计时软件”[5] - 该产品反映出中国对月球的重视,并且在分享与月球相关的研究方面非常开放[5] - 该技术对于未来在月球上使用类似GPS的系统至关重要,尤其是用于精确着陆位置,可能几年内就会有此需求[4]
大众2025业绩出炉:燃油车保住中国市场基盘,为2026新能源产品方案做准备
观察者网· 2026-01-12 22:27
2025年全球及中国市场业绩表现 - 大众汽车集团2025年全球交付车辆超898万台,市场地位稳健 [1] - 集团纯电动汽车全球交付量达98.31万辆,同比增长32%,占全球销量比重达10.9%,同比提升2.7个百分点 [1] - 集团在中国市场全年交付超269万辆汽车,达成年度目标,继续位居在华外资车企销量第一 [1] 中国市场燃油车业务表现 - 集团2025年在中国市场交付燃油车超过257万辆,占据中国燃油车市场超过22%的市场份额,巩固了领先地位 [1] - 大众汽车品牌(含捷达)位列中国燃油汽车市场销量第一,帕萨特领跑B级燃油车市场,朗逸、速腾、途观、探岳等车型在各自细分市场位居前列 [2] - 奥迪品牌时隔六年重回中国豪华燃油车市场销量第一,奥迪A6L蝉联C级豪华燃油轿车销冠 [2] “在中国,为中国”战略进展 - 2025年,包括奥迪Q6L e-tron、奥迪E5 Sportback在内的一系列新一代电动化、智能网联车型已陆续投放中国市场 [3] - 集团为中国市场打造了本土电子电气架构CEA以及本土开发的整车平台CMP [3] - 通过“软件定义汽车”的研发流程,集团已将新车开发周期缩短约30%、成本优化约40% [3] 出口业务与未来展望 - 2025年,大众汽车集团(中国)出口战略正式启航,首批车辆已成功出口至中东市场 [3] - 未来集团将继续携手本土合资企业,进一步拓展出口业务,重点覆盖东盟、中东、中亚、拉丁美洲及非洲等市场 [3] - 展望2026年,集团计划在中国市场上市超过20款纯电动、插电式混合动力及增程式车型 [4] 2026年产品与技术规划 - 2026年计划上市的新车型将搭载前沿的电动化、智能网联技术及高级驾驶辅助系统,最高实现L2++辅助驾驶功能 [4] - 新车型将支持城市道路场景下的导航辅助驾驶(NOA)以及自动泊车 [4] - 集团旨在通过强化新能源产品矩阵,提升新能源车型在整体销量中的占比,加速成为新能源汽车市场的佼佼者 [4]
北汽新能源与小马智行达成全面深化战略合作
观察者网· 2026-01-12 22:27
合作升级与战略框架 - 北汽新能源与小马智行于1月10日宣布达成“五位一体”全面深化战略合作,旨在打造中国智能驾驶产业协同创新的标杆范式[1] - 合作将在L4级Robotaxi规模化量产与运营成功基础上,进一步拓展合作维度[1] - 双方合作正式进入“从1到N”的2.0时代,目标是构建从技术研发到商业运营的完整闭环,而非简单的“再多造几百台车”[6] - 此次深化合作是立足产品、市场、产业、生态、资本五个维度的系统推进,旨在以十亿级投入撬动千亿级汽车智驾的产业协同[6] 合作具体维度 - **产品共创**:以极狐阿尔法T5 Robotaxi成功量产经验为基础,正向研发多元L4产品矩阵,并延伸至高端智能车型[4] - **市场共拓**:深耕国内市场的同时,推动“中国方案”出海,重点布局中东、欧洲市场[4] - **产业共链**:启动“补链、建链、稳链、升链”专项行动,深度融合双方供应链,优化L4全周期成本,培育本土智慧出行供应链集群[4] - **生态共建**:打通“研发、量产、获客、运营、维护、金融”全价值链,整合双方出行平台与后市场资源,与自动驾驶车队运营深度融合,构建可持续的Robotaxi商业生态[4] - **资本共融**:深化基于互信的资本联动,围绕技术、供应链与全球市场开拓,形成长期利益共享的战略绑定[4] 合作历史与量产进展 - 双方于2024年11月签署技术合作协议,以北汽新能源全冗余底盘架构为基础,深度融合小马智行第七代自动驾驶软硬件系统,联合打造出L4级极狐阿尔法T5 Robotaxi车型[6] - 2025年7月,极狐阿尔法T5 Robotaxi首台量产车辆正式下线并启动路测[6] - 此后仅一个月即完成第100台交付,三个月内实现第300台下线且投入规模化试运营[6] - 截至目前,极狐阿尔法T5 Robotaxi累计量产已突破600台,覆盖城市道路、高速公路、城市环路等多种复杂驾驶场景,实现全天候、全场景的无人驾驶运行[6] 商业化运营现状 - 自2025年11月起,极狐阿尔法T5 Robotaxi已在北京亦庄、深圳南山及宝安区等核心区域开展全面运营[9] - 运营范围覆盖机场、高铁站、商圈及早晚高峰时段[9]
iPhone17在中国卖爆,苹果成为全球手机出货第一
观察者网· 2026-01-12 22:21
全球智能手机市场2025年回顾 - 2025年全球智能手机出货量同比增长2%,实现连续第二年增长 [1] - 市场增长主要受高端需求增加、关键新兴市场势头好转以及5G设备在新兴市场日益普及共同推动 [1] - 2025年第四季度全球智能手机出货量同比增长1%,增长受前几个季度库存积压影响而表现平稳 [1] 苹果公司表现 - 苹果以20%的市场份额和10%的同比增长率领跑2025年全球智能手机市场 [1] - 2025年第四季度,苹果占全球出货量的四分之一,创下其历史最高份额 [1] - 苹果的增长得益于其在新兴和中型市场的扩张及需求上升,并受到更强产品组合的支持 [3] - iPhone 17系列在成功发布后,于第四季度展现了巨大的市场吸引力 [3] - iPhone 16在日本、印度和东南亚的表现保持出色 [3] - 疫情期间的换机需求迎来集中释放,进一步放大了增长势头 [3] - 截至2025年第52周,iPhone 17系列累计销量已达1557.27万台 [4] - iPhone 17标准版在中国市场的销量几乎达到iPhone 16同期水平的两倍,增长得益于“加量不加价”的产品策略 [4] 三星公司表现 - 三星以19%的市场份额和5%的同比增长率在2025年位居全球第二 [4] - 其增长主要由中端定位的Galaxy A系列推动 [4] - Galaxy Fold7和S25系列驱动了高端市场的吸引力,表现优于前代产品 [4] - 尽管在拉丁美洲和西欧面临压力,但其在日本市场的强劲势头以及稳定增长的核心市场支撑了2025年的表现 [4] 小米公司表现 - 小米以13%的市场份额保持2025年全球第三 [4] - 在高端化战略、新兴市场需求以及旗舰与中端设备均衡的产品组合支持下,表现稳定 [4] - 在拉丁美洲和东南亚的强力执行,加上有效的渠道管理,帮助其在行业逆风中维持了出货量 [4] 其他主要厂商表现 - vivo排名第四,同比增长3%,得益于其高端化战略、在印度强大的线下执行力以及精简的产品组合 [5] - OPPO出货量同比下降4%,因本土中国市场及亚太地区需求疲软和激烈竞争 [5] - 随着真我(Realme)回归OPPO体系,合并后OPPO的2025年出货量份额将达到11%,占据全球第四的位置 [5] - Nothing和谷歌表现出色,2025年分别录得31%和25%的同比增长 [6] 2026年市场前景 - 研究机构对2026年的前景持保守态度,预计全球智能手机市场将走弱 [7] - 随着芯片制造商将产能优先倾斜给AI数据中心,DRAM、NAND短缺和组件成本上升,智能手机价格上涨已初现端倪 [7] - 机构已将2026年全球智能手机出货量预期下调了3% [7] - 预计供应紧缩将对出货量造成压力,但得益于更强的供应链能力和高端市场定位,苹果和三星可能会保持韧性 [7] - 集中在低价位段的中国OEM厂商或将面临更大的压力 [7]
“令人作呕且非法”,英国对马斯克的X动手
观察者网· 2026-01-12 21:27
监管调查与指控 - 英国通信管理局对X平台的Grok人工智能聊天机器人展开调查 调查其生成的性私密深度伪造内容是否违反保护英国民众免受非法内容侵害的义务[1] - 调查源于报道称Grok被用于创建和分享裸体图像 可能构成私密图像滥用或色情内容以及儿童性虐待材料[1] - 英国首相斯塔默批评Grok生成的图像令人作呕且非法 并施压监管机构采取行动 其政府将全力支持Ofcom[1] - Ofcom将调查X平台是否未能评估英国用户接触非法内容的风险 以及是否考虑到对儿童的风险[4] - 在最严重违规情况下 Ofcom可要求法院强制支付服务提供商或广告商停止向平台提供服务 或要求互联网服务提供商屏蔽英国用户访问[4] 具体事件与功能争议 - 具体案例涉及音乐人朱莉·尤卡里 用户提示Grok对其发布的照片进行数字脱衣 随后其近乎裸露的图像在网络流传[3] - X平台的Grok功能可以生成穿着暴露的女性和未成年人的图像 该功能已限制为付费用户使用[3][4] - 法国官员已向检察官和监管机构举报X平台 称这些内容明显非法 印度政府也已要求X平台作出解释[3] 公司回应与措施 - X平台表示将删除平台上的所有非法内容 并永久封禁涉及账户 任何使用或提示Grok制作非法内容的人将遭受与上传非法内容相同的处罚后果[4] - 马斯克旗下的人工智能公司xAI回应称传统媒体在撒谎[4] - 对于Ofcom启动调查一事 X平台没有立即回应置评请求[5] 更广泛的监管压力 - 去年12月5日 欧盟委员会根据《数字服务法案》对X平台罚款1.2亿欧元[6] - 作为X平台拥有者 马斯克呼吁废除欧盟[6] - 欧盟此前曾依据《数字市场法案》向苹果公司和Meta公司分别开出5亿欧元和2亿欧元的罚款 并多次针对谷歌进行反垄断调查 累计罚款82.5亿欧元[6]
“AI伪造色情图像”,马来西亚、印尼禁用马斯克的Grok
观察者网· 2026-01-12 20:34
事件概述 - 印度尼西亚和马来西亚成为首批因深度伪造问题而封禁马斯克旗下大模型Grok的国家 [1] - 封禁的直接原因是大量用户利用Grok的图像生成功能,将真实女性及未成年人照片恶意篡改为裸露或穿着暴露的图像 [1] - 该行为引发了受害者和公众的强烈抗议,矛头指向马斯克及其公司,要求加强管控 [1] 政府监管行动 - 印度尼西亚数字部长于1月10日宣布禁令,旨在保护妇女、儿童及公众免受AI生成的虚假色情内容风险 [1] - 马来西亚于1月11日宣布临时禁令,原因是Grok被滥用于生成涉及妇女和未成年人的淫秽、冒犯性伪造图像 [1] - 英国首相斯塔默谴责该行为“可耻”和“令人作呕”,科技大臣表示支持根据《在线安全法案》封锁违规服务商 [3] 公司回应与现状 - 马斯克和xAI曾表示正通过封禁违规账户以及与当地政府合作来解决问题 [2] - 有消息人士透露,马斯克在xAI内部一直抵制为Grok设置审查和安全防护机制 [2] - 截至新闻发布,X平台及马斯克方面尚未就印尼和马来西亚的封禁做出正式回应 [3] - 尽管公司声称采取措施,但X平台仍然充斥着此类利用Grok生成的伪造图像 [2] 具体案例与影响 - 一位印尼残障人士表示,陌生人利用Grok将其坐在轮椅上的照片篡改为身穿比基尼的图像 [2] - 受害者尝试调整隐私设置和投诉,但收效甚微 [2] - 此次事件凸显了AI图像生成技术被滥用于制作非自愿深度伪造色情内容的具体风险 [1][2]
最新测评集:几乎所有大模型,视觉能力都不如3岁小孩
观察者网· 2026-01-12 20:30
多模态大模型视觉能力评测结果 - 红杉中国xBench与UniPatAI团队发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力[1] - 首轮测试结果显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线[1][4] - 在包含20道视觉中心任务的BabyVision-Mini测试中,大多数顶尖模型得分集中在明显低于3岁儿童平均水平的区间[4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距[4] 模型与人类表现对比 - 在BabyVision-Mini测试中,三岁儿童能凭本能轻松完成垃圾分类连线等视觉任务,而最强的Gemini3-Pro-Preview模型虽写下大段推理过程,最终仍给出错误答案[4][6] - 在包含388道题目的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1%[8] - 大模型方面,在Full测试中表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7%[8] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间[8] 视觉能力系统性缺失的类别 - 评测指出,大模型的不足体现在视觉能力的四大类别上的全方位不足,包括精细辨别、视觉追踪、空间感知以及视觉模式识别,说明存在系统性缺失[10] - 第一类挑战来自“非语言细节”缺失:模型将视觉信息转为语言概括(如“像钩子、有两个腿”)时,细微的像素级差异被抹平,导致选项在token空间里变得“几乎一样”[12] - 第二类挑战体现在轨迹追踪任务:模型将连续路径翻译成“左/右/上/下”的离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”[14] - 第三类挑战是空间想象能力缺失:在三维方块计数等任务中,模型依靠语言推理,但文字描述并非真实三维结构,导致漏掉隐藏块、搞错投影关系[14] - 第四类挑战是图形规律归纳难题:模型会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则[17] 核心原因与潜在改进方向 - 研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中许多题目具有“不可言说”的特性,即无法在不损失信息的情况下被完整语言化[19] - 人类通过指一指、圈一圈、沿线追踪等直觉方式解题,而模型必须将视觉信息压缩为token进行语言化处理,此过程中大量关键细节丢失,最终导致推理失误[19] - 研究团队通过让视觉推理“落地到视觉操作”上,例如Sora2一笔一划成功绘制了左上角鳄鱼的连线图像,展示了潜在改进方向[19] - 然而,Sora2也仅画对了鳄鱼这一条线,其他模型则一条线也未成功[21] - 团队认为,未来通过让模型进行绘画、临摹等方式进行推理,或许可以恢复大模型文字推理所缺失的能力[21] - 团队总结指出,很难想象一个视觉能力低于3岁儿童的机器人能够可靠地在真实物理世界里帮助人类,未来的模型必须从根本上重建视觉能力,而非依赖语言推理[21]
“几乎所有大模型,视觉能力都不如3岁小孩”
观察者网· 2026-01-12 20:21
核心观点 - 一项最新的多模态理解评测显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线,揭示了其在基础视觉能力上存在系统性缺失 [1][4] 评测设计与结果 - 评测集BabyVision-Mini包含20道严格控制语言依赖的视觉中心任务,并设立3岁、6岁、10岁、12岁儿童作为对照组 [4] - 结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间 [4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距 [4] - 在扩展至388道题的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1% [8] - 在BabyVision-Full评测中,表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7% [9] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间 [9] 模型视觉能力的具体短板 - 大模型的视觉能力在四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上存在全方位不足 [10] - 模型面临的第一类挑战是“非语言细节”缺失,将视觉信息压缩为语言概括时,像素级差异被抹平,导致选项在token空间里变得“几乎一样” [12] - 第二类挑战体现在轨迹追踪任务中,模型将连续路径翻译成离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,从“跟随一条线”退化为“猜测终点” [14] - 第三类挑战是空间想象能力缺失,在三维相关任务中,模型依赖不真实的文字描述,导致漏掉隐藏块或搞错投影关系 [14] - 第四类挑战是图形规律归纳难题,模型易关注颜色、形状等外观属性,将“结构规则”误读成“外观统计”,导致迁移时产生幻觉规则 [16] 能力差距的典型案例 - 在一道垃圾分类连线题中,三岁儿童能轻松完成,而最强的Gemini3-Pro-Preview虽写下大段推理过程,最终仍给出错误答案 [6] - 在空间想象任务中,Gemini3-Pro-Preview错误地忽略了积木块,导致计数错误 [16] - 在图形规律任务中,阿里千问成功判断出部分结构,但在选项识别上出现错误 [18] 根本原因与潜在方向 - 造成大模型普遍超低评分的核心原因在于,许多题目具有“不可言说”的特性,无法在不损失信息的情况下被完整语言化 [18] - 人类可通过直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,此过程会丢失大量关键细节,最终导致推理失误 [18] - 研究团队通过让视觉推理“落地到视觉操作”上,例如让Sora2进行一笔一划的绘制,成功完成了部分连线图像,但Sora2也仅画对了其中一条线 [18][20] - 未来或可通过让模型进行绘画、临摹等方式进行推理,以恢复其文字推理所缺失的能力 [20] - 为了推动多模态智能发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理 [20]