通用模型
搜索文档
只会写代码没戏了,奥特曼最新面试题曝光:1人要干1个团队的活
36氪· 2026-01-28 09:30
OpenAI战略方向与模型发展 - 公司承认在GPT-5.2版本开发中,为追求编程能力而牺牲了创意协作能力,这是决策失误[3] - 公司未来将致力于打造真正优秀的通用模型,并承诺GPT-5.x版本在写作上将超越GPT-4.5[3] - 公司预测到2027年底,将能够提供GPT-5.2水平的高级智力,且成本至少降低100倍,但如何在保持质量的同时将输出速度提高100倍仍是挑战[24] AI对软件工程行业的影响 - 公司认为“软件工程师”的定义将发生巨变,敲代码和调试的时间将根本性改变,但世界对软件的需求并未减缓[10][12] - 行业将进入“个人定制软件”时代,大量软件专为个人或极少数人编写,这可能带来需求的暴增,并在世界GDP中占据更大比例[13] - 公司认为未来会有更多人能够指挥计算机创造价值,软件工程工作的形态将改变,而非单纯减少岗位需求[10] AI产品开发与市场挑战 - 当前开发者面临的瓶颈已从产品开发转向市场推广,因为在一个物质和软件极度丰富的世界里,人类的注意力是极其稀缺的资源[14] - 公司承认许多AI产品的点子质量不佳,但随着创造成本暴跌和试错循环加快,有望更快找到好点子,公司正在尝试构建“头脑风暴”工具[20][22] - 公司表示模型能力与大多数人能提取的价值之间存在巨大落差,构建工具帮助人们利用模型的市场目前是空白,鼓励开发者进入[17][19] AI代理与未来应用 - 关于AI代理何时能真正自主运行,公司认为取决于任务性质,具体任务已可通过特殊提示框架实现持续运行,但开放式任务仍难[24] - 公司内部正在深度使用Codex定制工作流,并认为未来软件将是流动的、专为用户即时编写的,而非静态应用[30] - 在科学研究领域,AI目前最适合作为“无限的研究生”或“无限的博士后”进行广度优先搜索,完全闭环的自主研究尚有距离[27][29] AI成本、能力与平衡 - 公司承认在模型能力发展上存在“参差不齐”的问题,例如编程能力突飞猛进但写作未跟上,并承诺将在通用模型的写作和人格魅力上迅速追赶[23][24] - 公司面临的新矛盾是,不仅要降低AI成本,还要大幅提高输出速度,这是一个艰难的平衡[24] - 公司认为AI将带来巨大的通缩效应,万物将变得极度便宜,这将对个体形成极大赋权[33] 人机协作与未来技能 - 公司认为在AI时代,人与人的连接反而会更重要,未来的协作模式可能是多人围绕一个AI进行头脑风暴[31] - 公司认为AI时代最重要的技能不再是编程,而是极具主观能动性、善于产生想法、有韧性、能适应快速变化等软技能[38][39] - 公司表示招聘面试必须改变,重点考察候选人能否利用AI在极短时间内完成过去需要数周的任务,这才是所需的能力[36]
奥特曼承认OpenAI路线走偏了,以及“写代码将变得不再重要”
量子位· 2026-01-27 13:37
AI对软件工程与就业的影响 - 未来从事软件工程师工作的人数可能会大幅增加,全球GDP中会有更大一部分通过这种方式被创造出来 [4][7] - AI将显著减少工程师花在敲代码和调试代码上的时间,更多精力将用于让系统完成预期功能 [4][6] - 未来将大量出现为个人或极小群体量身定制的软件,每个人都会不断为自己定制工具 [5][6] AI模型的发展趋势与OpenAI产品路线 - OpenAI承认在ChatGPT-5系列模型的开发中“搞砸”了,因其过度专注于提升智力、推理和编程能力,导致其他方面(如写作能力)表现不稳定 [18][19] - 从长远看,主流将是真正高质量的通用型模型,OpenAI希望下一代模型在所有维度上都变得非常优秀,并相信可以在单一模型中实现 [21][22][23] - 模型学习新技能的速度在未来几年会比人类还要快,并且有望在面对完全陌生的新工具或技术时,仅需一次解释或自行探索后就能稳定可靠地使用 [11][12] AI对教育的影响与态度 - 在幼儿园阶段,最重要的学习方式是跑动、玩耍以及通过真实物品和真人进行交流,因此不仅AI,连电脑本身都不应被引入 [14][15] - 在真正搞清楚技术对青少年的长期影响之前,至少在幼儿园阶段没有必要引入AI [16] AI的成本、速度与商业化瓶颈 - 模型发展进入新阶段,市场关注点不再只是降低成本,对输出速度的要求变得同样重要,用户甚至愿意为更快的速度支付更高价格 [24][26][27] - OpenAI在压低模型成本方面一直做得非常好,成本曲线已呈现明显下行趋势,并有信心将成本降至足以支持大规模运行Agent的经济可行性 [24][28] - AI降低了软件开发成本,但创业最难的部分在于让大众关注、使用并连接产品,根本问题在于人类注意力的极度稀缺 [43][45][46] AI的经济效应与社会影响 - AI很可能带来非常强的通缩效应,因为它能让个人以极低成本完成以往需要大公司或大团队才能完成的事情 [34][36] - AI有潜力拉平长期存在的经济差距(如性别工资差距),但也可能将权力和财富进一步集中到少数人或公司手中,最终效果取决于部署、监管和政策设计 [37][38] AI安全与风险 - 对2026年AI可能出问题感到紧张,最担心的领域是生物安全,当前依赖限制访问和分类器的“封堵式”安全策略难以持续 [39][42] - AI安全必须从阻止一切发生转向提高整体抗风险能力,即建设“韧性式”安全,AI本身既是问题也是解决方案的一部分 [40] AI在创意与科学研究中的应用 - 世界上已存在大量人类生成的垃圾内容,真正的困难在于想出好的新点子,应构建专门帮助人们产生好想法的工具 [29][30][31] - 内部使用的“特殊版本”GPT-5.2模型带来的科学进展已不再是可有可无的水平 [33]
王小川,计划再造一个IPO
第一财经· 2026-01-13 21:29
文章核心观点 - 百川智能CEO王小川认为AI医疗行业爆发点已至,全球竞争进入深水区,公司已彻底聚焦医疗赛道并计划于2027年左右上市 [4][7] - 王小川指出,AI在医疗领域的核心价值在于将部分医疗决策权从医生让渡给患者,通过辅助决策提升医疗效率,而非简单取代或赋能医生 [6] - 对于近期赴港上市的AI公司,王小川认为其技术方向正确,但市值与商业化能力不匹配 [3] 行业动态与竞争格局 - 全球AI医疗竞争加剧,标志性事件包括OpenAI推出OpenAI Health,Anthropic推出Claude for Healthcare [4] - 国内蚂蚁集团等巨头正大规模从行业挖角技术人员与财务人员,进入AI医疗领域 [4] - 埃隆・马斯克声称,三年内特斯拉Optimus人形机器人将超越顶尖人类外科医生 [5] - 中国AI力量在过去一年从技术端到应用端均有突破 [3] - 原“大模型六小龙”发展路径分化:智谱与Minimax赴港上市,月之暗面刚完成融资,百川智能与零一万物转向垂直应用 [3] 百川智能的战略与产品 - 公司战略彻底聚焦医疗赛道,重点布局儿科与肿瘤两个方向 [6] - 已与北京儿童医院、中国医学科学院肿瘤医院合作,推进真实场景验证 [6] - 发布新一代开源医疗增强大语言模型Baichuan-M3,该模型在HealthBench评测中表现不错,具备原生“端到端”严肃问诊能力 [5] - Baichuan-M3的问诊能力高于真人医生的平均水平 [5] - 计划2025年上半年陆续发布两款面向消费者(to C)的医疗产品,初期免费开放,后续按模块引入付费能力,重点服务于患者辅助决策与居家健康看护场景 [6] - 未来可能通过与药企等建立深度服务等方式实现价值 [6] - 公司明确瞄准2027年左右上市 [7] - 公司目前账上还有近30亿资金 [7] AI医疗的价值主张与市场痛点 - AI医疗旨在解决优质医生供给不足、医患不平等、基层医疗薄弱、医学本身发展不充分等医疗体系痛点 [6] - AI的核心价值在于通过提供充分的信息支持、方案对比和风险解读,帮助患者在复杂的治疗方案中做出更明智的决定,实现医疗决策权从医生向患者的部分让渡 [6] - 此模式被类比为法律体系中的“陪审团”,既能缓解患者焦虑、提升效率,又不动摇医生的核心地位 [6] - AI医疗是大模型竞争中的一个重要范式,尽管成熟较晚,商业模型仍需继续调优 [7]
人形机器人的AppStore 上线了
36氪· 2025-12-15 10:49
宇树科技人形机器人应用商店上线 - 宇树科技于12月13日公测其人形机器人应用商店“宇树应用商店”,允许开发者与产品经理上架应用 [1] - 应用商店目前上线了网页版,包含用户广场、动作库、个人中心及开发者中心等功能,但当前部分功能跳转存在报错 [1] - 目前商店内仅有3个应用上架,且均为娱乐类应用 [7] 应用商店的商业模式与意义 - 应用商店的推出意味着开发者有机会通过开发机器人应用获得收入,而不仅限于科研,这被视为行业发展的关键动力 [3] - 当前人形机器人设备年出货量仅“寥寥几十万”,与智能手机上千万的出货量差距巨大,限制了用户红利和开发者的边际效应 [3] - 随着机器人成本与供应链成熟,人形机器人有望成为超越手机的最普及终端设备 [3] 应用生态与开发特点 - 开发者可基于官方开放的SDK平台开发应用,目前上架的应用主要集中在舞蹈类,尚未拓展至具体生活或家庭场景 [3] - 应用详情页包含应用介绍、付费信息、版本更新以及“自由度”更新,后者是区别于手机应用商店的独特特点 [5][7] - 用户可直接下载应用来完成机器人动作,例如李小龙、跳舞等,相关动作视频可通过空间智能模型生成,无需真实拍摄 [5] 操作系统与平台基础 - 应用商店需运行在共识的操作系统上,宇树科技的应用商店基于ROS系统,并已支持开源且不受设备限制的OM1系统(由Openmind推出) [9] - 当前开发门槛和终端数量有限,上架应用可能获得官方推荐或深度合作,审核要求不像iOS或安卓系统那样严格 [7] 行业发展的挑战与边界 - 通用模型(如ChatGPT)正朝多场景、多能力发展,机器人应用(APP)与机器人自身模型的生态和商业模式边界尚不清晰,存在潜在冲突 [8] - 类比手机发展初期,当前人形机器人处于“小灵通时刻”,其核心基础功能(类似手机的“打电话”、“发短信”)尚未被明确定义,存在开发者应用被机器人厂家替代的风险 [8] 对产品经理角色的影响 - 人形机器人产品经理的工作将更类似于MR眼镜或空间计算产品经理,需重点思考用户的空间行为、场景、地理位置,并利用双手、语音等多模态交互完成任务 [9] - 未来的产品经理工作将发生较大改变,不再侧重于设计原型或UI页面,而是深入理解人类的同理心、感知及空间行为 [10]
关于模型治理,中美欧的差异与共识
腾讯研究院· 2025-11-14 18:13
文章核心观点 - 人工智能治理正从基于规则的智能转向自我学习进化的智能,模型治理成为关键议题 [2] - 中美欧在通用及前沿大模型治理上形成三种差异化路径:欧盟构建复杂义务体系,美国加州采取轻监管模式,中国从应用场景延伸至模型治理 [2][3] - 三方共性包括柔性治理倾向、构建评估生态、以透明度为核心工具,差异体现在监管范围、义务强度与风险判断逻辑 [2][11][12] 欧盟模型治理路径 - 在原有AI系统四级风险体系外,平行构建针对通用模型的治理机制,区分有无"系统性风险"的模型 [4] - 系统性风险判断结合理念性标准(如"高影响能力")与技术性量化指标(如训练计算量超过10^26 FLOPs) [4] - 模型义务扩展至应用场景,如要求模型提供者构建未来风险情景和收集最终用户反馈,超出其对模型自身的控制范围 [5] - 治理框架复杂笨重,模型风险与应用风险混同,导致模型提供者承担无法预见的责任,欧盟正推动立法简化方案 [5] 美国加州模型治理路径 - 监管起点高且范围窄,仅覆盖训练计算量超过10^26 FLOPs的"前沿开发者","大型前沿开发者"需额外满足年总收入超5亿美元门槛 [5] - 义务轻量化,透明度报告仅要求基础信息,如网站、沟通机制和预期用途,对比欧盟对技术文档的细节要求极为限缩 [5][6] - 立法主线为促进产业发展,避免过多制约,过去三年出台的AI法规多针对细分场景(如伴侣聊天机器人、医疗AI误用) [6] 中国模型治理路径 - 以应用服务为切入点,自下而上延伸至模型治理,通过算法推荐、深度合成、生成式AI等服务规制间接约束模型层 [7][8] - 采用"内生风险—应用风险—衍生风险"三层结构,将模型算法风险归入内生风险范畴(如可解释性不足、鲁棒性不强),厘清风险边界 [9] - 治理工具务实,依托算法备案、安全评估、内容标识等具体抓手,形成系统完善的治理机制 [8][9] 三方治理共性 - 均体现柔性治理倾向:欧盟《实践准则》为自愿性承诺,美国加州SB 53以企业自律主导,中国以指导性文件推进治理 [11] - 重视构建评估生态:欧盟建议社区驱动模型评估榜单,美国要求第三方灾难性风险评估,中国提出建立安全测评体系 [11] - 透明度成为核心工具:欧盟按披露对象分级设置信息层级,加州按开发者规模纵向分级,中国通过算法备案实现模型功能可见性 [12]
通用模型“吞噬”垂类应用?美图管理层回应
犀牛财经· 2025-10-21 10:22
行业讨论:通用模型与垂类应用的关系 - Nano Banana的爆火引发关于通用模型是否会“吞噬”垂类应用的广泛讨论 [2] - Nano Banana开放预览后迅速走红,在Gemini AI中被用于创作超过50亿件作品 [2] - 在某些垂直场景中,通用模型难以满足端到端的需求,这为垂类应用提供了机会 [2] - 效率是关键因素,通用模型产品在某些场景中的完成效率低于垂类应用 [2] - 设计领域在Photoshop之外依然诞生了Canva、Figma等优秀产品,证明垂类应用存在空间 [2] 公司战略与产品定位 - 美图产品会随着大模型发展不断迭代,在电商设计等垂直场景深耕全链路的整合 [2] - 公司通过美图设计室等产品,致力于满足通用模型难以覆盖的端到端垂直需求 [2] 公司财务与运营业绩 - 2025年上半年,公司实现营收18亿元,同比增长12.3% [2] - 2025年上半年,公司实现归母净利润3.97亿元,同比增长30.8% [2] - 2025年上半年,公司全球月活跃用户达到2.8亿,同比增长8.5% [2] - 公司月活跃用户中近1亿来自海外,海外用户增速超过15% [2] 公司面临的竞争环境 - AI应用进入爆发期,Adobe、Canva等国际巨头持续挤压垂类应用的市场空间 [3] - 国内大厂依托流量与技术优势,在设计工具等领域快速布局 [3] - 公司需在技术壁垒与场景深化上持续突破方能走远 [3]
通用模型“吞噬”垂类应用?美图管理层回应AI影像竞争
新浪科技· 2025-10-13 16:20
公司对通用模型竞争的看法 - 相较于通用模型公司,公司在挖掘垂直场景、满足用户体验和效率等方面具备足够优势,面对竞争保持积极态度 [1] - 在诸如电商设计等垂直场景中,通用模型难以满足端到端的需求,而公司的产品可以深耕全链路的能力整合 [1] - 即便通用模型推出同类型功能,公司产品的MAU和付费订阅用户仍能保持增长,用户订阅是因为提供了一整套从头到尾的解决方案 [1] 公司产品与技术应用 - 公司产品会随着大模型发展不断迭代,美图秀秀凭借AI合照功能荣获欧洲14个国家App Store总榜第一 [1] - 公司能够使技术为应用服务并变现 [1] - 在某些场景中,通用模型产品的完成效率低于垂类应用,这给了后者更多机会,正如设计领域在Photoshop之外诞生了Canva、Figma等产品 [2] 投资机构观点 - 国际投行摩根士丹利、瑞银、杰富瑞对公司的战略方向和增长潜力保持信心,并重申"买入"评级 [2]
美图管理层谈AI影像竞争:产品具有多重优势,MAU及订阅用户保持增长
格隆汇· 2025-10-13 16:02
公司战略与竞争优势 - 公司认为相较于通用模型公司,其在挖掘垂直场景、满足用户体验和效率等方面具备足够优势 [1] - 公司产品会随着大模型发展不断迭代,例如美图秀秀凭借AI合照功能荣获欧洲14个国家App Store总榜第一 [1] - 在电商设计等垂直场景中,通用模型难以满足端到端的需求,而公司产品可以深耕全链路的能力整合 [1] - 公司提供一整套从头到尾的解决方案,包含更多用户需要及潜在需要的功能,这是用户付费订阅的关键原因 [1] - 在某些场景中,通用模型产品的完成效率低于垂类应用,这为后者提供了市场机会 [1] 市场表现与行业观点 - 即便通用模型推出同类型功能,公司产品的MAU和付费订阅用户仍能保持增长 [1] - 国际投行摩根士丹利、瑞银、杰富瑞对公司的战略方向和增长潜力保持信心,并重申"买入"评级 [2] - 行业现象如Photoshop被广泛使用下依然诞生Canva、Figma等优秀产品,证明垂类应用存在市场空间 [1]
谷歌“香蕉”爆火启示:国产垂类AI的危机还是转机?
36氪· 2025-09-26 18:44
Nano Banana的市场影响与用户增长 - Nano Banana上线两周内全球生成超2亿张图片 亚太地区用户热情最高[1] - 英伟达CEO黄仁勋公开宣称是其忠实粉丝[1] - 为Gemini App带来超1000万新用户 并助其超越ChatGPT登顶苹果应用榜[1] 行业竞争格局变化 - OpenAI以11亿美元全股票交易收购产品实验平台Statsig以应对冲击[3] - 字节跳动快速推出Seedream4.0强化豆包和即梦产品[5] - 美图股价因通用模型威胁出现巨量波动[5] 技术突破与产品特性 - 通过自然语言对话实现精准图像编辑 无需结构化提示词[8][9] - 具备Gemini大模型的"原生世界知识" 支持风格一致性/多图融合/逐步编辑等功能[9] - 成本为0.039美元每张图片(按30美元/百万token 每张消耗1290 token计算)[11] - 核心技术依赖文字渲染/交错生成/速度哲学及世界知识引入[11] 垂类应用的竞争壁垒 - 摩根士丹利认为美图核心价值在于"最后一公里"解决方案[14] - 美图优势包括垂直领域数据积累/付费功能专注/多模型整合能力[14] - C端业务依赖美颜美体精细化理解 B端业务聚焦商拍场景know-how[14] - 与阿里达成18亿元战略合作 重点推进AI试衣和AI商品图功能[17] 行业发展趋势与战略方向 - 通用模型与垂类应用的竞争焦点在于场景赋能能力[24][25] - 垂类应用需聚焦"用户付费转化" 避免与通用模型直接技术对抗[24] - AI时代演化速度是移动互联网的三倍 需寻找差异化竞争机会[25] - 终极胜负手取决于能否将通用技术转化为用户愿付费的场景服务[25]
Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention
Founder Park· 2025-09-22 19:39
图像模型发展趋势 - 图像模型正从创意工具向信息查询工具转变,类似于LLM的发展路径[4][11] - 未来模型将更主动、更智能,能根据用户问题灵活运用文本、图像等多模态交互[4][11] - 所有团队都在朝通用模型(Omni Models)方向发展,即能处理多种任务的模型[6][40] 技术突破方向 - 关键进步将体现在模型的可表达性方面,重点是提升能力下限而非上限[6][33] - 现在最好的图像质量与几年后相差不大,但最差的图像质量将显著改善[6][33] - 图像与视频模型技术共享紧密,未来可能融合在一起[40][41] 产品应用场景 - 角色一致性功能成为用户最感兴趣的功能之一,允许用户将自己形象置于不同场景[8][9] - 用户最高频需求包括更高分辨率(目前为1K)、透明背景和更好的文字渲染效果[9] - 图像模型在专业工作流中应用广泛,包括建筑设计、视频制作和网站UI生成[24][25][28] 交互设计挑战 - 多模态交互核心在于识别用户意图,根据实际任务切换不同交互模式[4][19] - 界面设计需明确问题边界,让用户清楚哪些操作可行[5][20] - 当前UI设计被低估,需要整合各种模态让普通人更容易使用模型[4][18] 模型评估方法 - 真实用户主动测试是最佳评估方式,如LM Arena平台让用户输入自己的Prompt使用模型[21] - 形成反馈循环,利用语言模型的智能来评估自己生成的内容[21] - 团队通过多渠道收集用户反馈,调整评估标准确保好用功能不退化[22] 个性化与美学需求 - 美学需求难以满足,需要深度个性化才能提供有用建议[6][26] - 个性化更多停留在Prompt层面,通过对话和上下文实现而非专属模型[26][27] - 现成模型支持的使用场景范围广泛,但高级功能需求需要结合其他工具[28] 行业竞争格局 - Midjourney成功关键在于比其他团队更早搞清楚如何进行模型的后续训练[6][31] - 小团队仍有可能做出顶尖模型,但有能力训练LLMs的团队可能占据主导地位[6][43] - 图像和视频领域存在良性竞争,推动整个行业快速发展[30] 工作流整合 - 传统工具和AI模型将长期共存,各自满足不同精度控制需求[35][36][37] - Gemini等聊天工具适合快速迭代和创意构思,专业场景需要更精密的多工具协作流程[35] - 模型在办公协作、知识性场景和创意领域都有巨大应用潜力[37][38]