通用智能(AGI)
搜索文档
国产大模型同日转向:DeepSeek向左,Kimi向右,拼落地的时代开始了?
36氪· 2026-01-29 08:29
文章核心观点 - 国内两大AI模型公司DeepSeek与Kimi几乎同时发布重要开源更新,标志着大模型的发展重点从提升参数规模和对话能力,转向重构底层工程化能力,以解决实际应用中的效率与协作问题[6] - 行业共识是AI的升级方向正从“模型有多强”转向“能否真正用起来”,核心在于让AI更深一步嵌入真实工作环境,价值衡量标准变为是否更省成本、更少出错、更值得长期依赖[15][23] DeepSeek-OCR 2的关键升级 - 该模型是对去年震动行业的DeepSeek-OCR的关键升级,核心是重新设计AI“读文档”的方式,通过新的视觉编码机制让大模型学习人类的视觉逻辑[1][8] - 其技术路径从上一代的CLIP架构转向以Qwen2为基础的LM视觉编码器,使模型能像人一样先看版面、抓重点,再理解含义,区分标题、表格及相关信息[8] - 直接价值体现在具体体验提升:处理几十页报告时无需逐字读完;处理复杂表格时减少错位问题;由于输入被高度压缩,相同任务能以更低成本、更短时间完成[10] - 此次升级解决的是一个长期存在的“用起来不顺”的工程化问题,有潜力让AI更适合被放进真实的文档流程,如检索、比对、摘要及结构化信息抽取[10] Kimi K2.5的核心进展 - Kimi K2.5继续推进其超长上下文、多模态与“智能体化”路线,目标是将AI从“答题模式”推向“执行模式”,打造更接近“数字助理”的体验[1][4][12] - 模型宣称是迄今最智能、最全能的模型,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务[4] - 升级重点在于“长记忆+多模态+智能体”:超长上下文让模型能长期记住对话与中间结论;多模态能力使其能理解图片、界面截图等;智能体能力则让AI能拆解复杂任务并执行,实现了“Agent集群”在不同阶段调用不同能力[12] - 其追求并非单一能力点的极限,而是能否承接更长、更复杂、更接近真实工作的任务链条,让AI真正进入工作流[14] 行业升级趋势与共识 - 近期主流大模型(包括OpenAI GPT-5.2、Anthropic Claude 4.5、Google Gemini 3、字节跳动豆包1.8、阿里巴巴千问Qwen3-Max-Thinking)的升级方向异常一致,重心从“模型有多强”转向“让AI更深一步进入真实的工作环境”[15] - 具体升级围绕几个核心维度打磨:记得住、看得懂、接得住流程、干得完事情[16] - **记忆能力被集体拉高**:各模型通过更长的上下文和更稳定的状态保持,让AI能够跟随长任务协作,减少用户重复解释背景的需要,例如GPT-5.2将长上下文产品化,Kimi K2.5将其嵌入智能体流程[17] - **对“看”的能力重新理解**:升级重点从“能识图”转向“能不能看懂”,强调理解图像中的结构、版面和信息组织方式,DeepSeek-OCR 2是此方向的激进代表,GPT、Claude、Gemini也都在强化对截图、界面等复杂图像的理解[18][19][21] - **AI角色从“顾问”向“执行者”转移**:模型设计开始强调拆任务、接工具、跑流程,价值判断标准从“说得对不对”转向“能不能跑完、稳不稳”,“工程化”重要性凸显[22] - **国内外公司均强调产品封装与部署**:DeepSeek、Kimi、千问、豆包等国内公司强调模型是否好部署、好接入现有系统;国内外AI都通过产品封装将复杂能力隐藏在界面和服务之下,目标都是让AI从“演示”走向“可用”、“好用”[22]
从游戏工厂到空间智能仿真:混元 3D 为何是腾讯 AI 的“侧翼突围”
AI前线· 2025-11-27 12:02
公司AI战略与产品发布 - 混元3D创作引擎发布国际版,API上线腾讯云国际站,同时开源版全球下载量突破300万次[2] - 公司AI战略路线基于业务需求端、技术端和生态端的复合能力,形成"业务—技术—生态"三位一体的独特优势[3][4] - 公司AI投入重点不是堆规模而是提效率,AI被定义为贯穿内部业务的基础能力,第三季度营收同比增长15%[33] 3D生成技术在游戏行业的应用 - 传统3D制作成本高昂,美术成本占游戏研发50%–80%,一个3D角色模型成本在几万元到近百万元,顶尖3D游戏投入高达数亿美元[6] - 混元3D通过两条技术主线提升效率:面向3D资产提升批量产出效率,面向世界模型解决场景级搭建问题[8] - 在《元梦之星》案例中,玩家输入描述后几秒钟即可生成可编辑3D资产,道具制作时间从2天缩短至0.2天,效率提升10倍[9][12] - 在《轻游梦工坊》中,新手可在一周左右完成游戏开发,约四成参赛者无游戏开发经验却完成了优秀作品[10] 3D生成技术面临的挑战与突破方向 - 技术上面临质量、可控性和速度三座大山,目前真正达到要求的内容比例不足10%[30][35] - 核心挑战包括组件化生成、低多边形拓扑平衡等问题,影响游戏工业化管线对AI产出的接纳[14] - 数据成为行业瓶颈,全球可用3D数据仅千万量级,远不及文本百亿级规模,限制模型泛化能力[38] - 公司正从数据层面、模型架构层面和交互面三个层面进行突破,包括扩充高质量数据和支持多模态输入等[42] 跨行业应用与商业化进展 - 超过150家企业通过腾讯云接入混元3D模型,应用横跨游戏制作、电商展示、影视特效等行业[25] - 3D打印领域率先跑通商业闭环,拓竹MakerWorld平台月调用量预计突破10万次,创想三维可实现5分钟生成Q版手办[26] - 电商场景中家居商家实现约35%的点击率提升,教育文博领域制作成本降至传统流程十分之一[29] - 在自动驾驶和具身智能领域,混元3D承担补齐仿真场景短缺的角色,被多家厂商用于补充真实道路采集[30] 技术竞争与生态建设 - 世界模型竞争白热化,Google DeepMind、Meta、OpenAI、NVIDIA、特斯拉等巨头都在推进相关技术[17][18] - 公司通过开源策略构建生态,开源版下载量超过300万次,社区反馈推动技术改进[20][22] - 混元图像3.0在LMArena全球26个模型盲测中登顶,获得最佳综合文生图模型与最佳开源模型两项第一[31] - 公司定位Model as a Service为核心竞争力,不急于求成,注重技术领先性巩固后的自然商业化平衡点[39]
马斯克宣称Grok智能超越人类,图像训练短板待补:一个月内或迎关键突破
搜狐财经· 2025-07-10 14:02
核心观点 - 特斯拉与SpaceX创始人埃隆·马斯克宣布xAI开发的聊天机器人Grok 4在大多数领域展现出超越人类的智能水平,但在图像理解方面仍存在缺陷,预计一个月内解决 [1] - Grok 4在逻辑推理、多模态交互和复杂任务处理上显著优于普通人类,部分专业领域接近顶尖专家水平,训练效率较前代提升300%,响应速度缩短至0.8秒 [1] - Grok 4基于全球最大开源数据集训练,参数量达10万亿级,支持20种语言,并接入Twitter(现X平台)实时数据流,具备"自我进化"能力 [1] 技术性能 - Grok 4在科学文献分析、代码生成和实时决策等场景中表现突出 [1] - 当前版本Grok 4处理抽象图像、复杂场景和动态视觉信息的准确率较文本任务低40%以上 [2] - 改进方案包括升级多模态大模型架构、引入3D空间感知算法,并扩充包含10亿张高分辨率图像的专用训练集 [2] 行业竞争 - 全球AI巨头围绕多模态能力展开激烈角逐,OpenAI的GPT-4o支持实时语音和图像生成,谷歌Gemini实现文本与图像深度融合,Meta的Llama 3.1强调开源生态协同效应 [2] - Grok的差异化优势在于"实时数据接入"和"极端场景优化",例如调用SpaceX卫星图像分析地质灾害或结合特斯拉自动驾驶数据理解交通场景 [2] 挑战与资源 - 多模态训练需消耗巨量算力,xAI目前仅拥有10万块H100显卡,远低于OpenAI和谷歌的百万级集群 [3] - 图像数据的版权和伦理问题可能引发监管审查 [3] - xAI正与特斯拉合作开发专用AI芯片,并计划通过"众包模式"鼓励用户上传合规图像数据 [3] 商业化前景 - xAI已与医疗、教育、制造业等领域的200家企业签署合作协议,例如协助医生分析X光片、为学生生成个性化学习方案或为工厂设计自动化流程 [3] - 预计到2026年,Grok将覆盖全球1亿用户,创造"数百亿美元"年收入 [3] 安全与伦理 - xAI已建立由哲学家、伦理学家和科学家组成的"红队",持续监测模型偏见和安全隐患 [3] - 马斯克警告AI的指数级进化可能带来"失控风险",强调必须确保Grok的价值观与人类对齐 [3]
李录最新交流剖析新秩序:通过“四两拨千斤”,中国还可以释放很多改革红利……
聪明投资者· 2025-04-26 09:08
中国经济转型与改革红利 - 中国经济需疏通两大关键堵点:保障体系低效依赖家庭储蓄方式,以及资本市场未能有效连接消费与财富循环[11][18] - 商业保险机制可大幅提升保障效率(如100万大病治疗费通过年缴1万保费实现),释放约50%的高储蓄率进入消费[13][16] - 消费占GDP比例从48%-49%降至40%,远低于发达国家70%-80%水平,需通过制度变革激活香港资本市场连接内地储蓄(港股通现存IPO投资限制等)[21][23] 全球贸易秩序重塑 - 美国单边关税动摇WTO规则执行力,全球贸易体系进入重构期,中国可借机推动"东盟+中日韩"区域自贸体[33][43] - 中国内需驱动转型加速,生产外销占比50%不可持续,需通过改革释放增量(如2023年储蓄率逼近50%)[31][36] - 美元资产锚定地位受挑战(美国联邦债务超GDP100%,年增2万亿短债),为新秩序创造窗口[35] 科技与创新周期 - 经济体持续高增长后易现创新井喷(如英国1820-1860、美国1940-1960),中国20-40岁群体进入密集创新阶段[57][61] - AI发展受三重动力驱动:市场竞争、地缘压力、人类好奇心,技术演进已形成不可逆惯性[63][64] - 当AI接近AGI临界点时,中美合作将从战略选择变为生存必需[65][67] 国际关系新范式 - 修昔底德陷阱存在双重漏洞:未考虑中国"防御-贸易-文化融合"传统思维,以及现代经济累进增长弱化零和博弈[50][55] - 核威慑使中美共存成为生存状态,台湾问题可通过非军事手段解决[48][53] - 区域经济联盟可基于文化纽带(如东亚儒家圈)替代意识形态划分,形成新多极秩序[45][46]