通用模型
搜索文档
人形机器人的AppStore 上线了
36氪· 2025-12-15 10:49
宇树科技人形机器人应用商店上线 - 宇树科技于12月13日公测其人形机器人应用商店“宇树应用商店”,允许开发者与产品经理上架应用 [1] - 应用商店目前上线了网页版,包含用户广场、动作库、个人中心及开发者中心等功能,但当前部分功能跳转存在报错 [1] - 目前商店内仅有3个应用上架,且均为娱乐类应用 [7] 应用商店的商业模式与意义 - 应用商店的推出意味着开发者有机会通过开发机器人应用获得收入,而不仅限于科研,这被视为行业发展的关键动力 [3] - 当前人形机器人设备年出货量仅“寥寥几十万”,与智能手机上千万的出货量差距巨大,限制了用户红利和开发者的边际效应 [3] - 随着机器人成本与供应链成熟,人形机器人有望成为超越手机的最普及终端设备 [3] 应用生态与开发特点 - 开发者可基于官方开放的SDK平台开发应用,目前上架的应用主要集中在舞蹈类,尚未拓展至具体生活或家庭场景 [3] - 应用详情页包含应用介绍、付费信息、版本更新以及“自由度”更新,后者是区别于手机应用商店的独特特点 [5][7] - 用户可直接下载应用来完成机器人动作,例如李小龙、跳舞等,相关动作视频可通过空间智能模型生成,无需真实拍摄 [5] 操作系统与平台基础 - 应用商店需运行在共识的操作系统上,宇树科技的应用商店基于ROS系统,并已支持开源且不受设备限制的OM1系统(由Openmind推出) [9] - 当前开发门槛和终端数量有限,上架应用可能获得官方推荐或深度合作,审核要求不像iOS或安卓系统那样严格 [7] 行业发展的挑战与边界 - 通用模型(如ChatGPT)正朝多场景、多能力发展,机器人应用(APP)与机器人自身模型的生态和商业模式边界尚不清晰,存在潜在冲突 [8] - 类比手机发展初期,当前人形机器人处于“小灵通时刻”,其核心基础功能(类似手机的“打电话”、“发短信”)尚未被明确定义,存在开发者应用被机器人厂家替代的风险 [8] 对产品经理角色的影响 - 人形机器人产品经理的工作将更类似于MR眼镜或空间计算产品经理,需重点思考用户的空间行为、场景、地理位置,并利用双手、语音等多模态交互完成任务 [9] - 未来的产品经理工作将发生较大改变,不再侧重于设计原型或UI页面,而是深入理解人类的同理心、感知及空间行为 [10]
关于模型治理,中美欧的差异与共识
腾讯研究院· 2025-11-14 18:13
文章核心观点 - 人工智能治理正从基于规则的智能转向自我学习进化的智能,模型治理成为关键议题 [2] - 中美欧在通用及前沿大模型治理上形成三种差异化路径:欧盟构建复杂义务体系,美国加州采取轻监管模式,中国从应用场景延伸至模型治理 [2][3] - 三方共性包括柔性治理倾向、构建评估生态、以透明度为核心工具,差异体现在监管范围、义务强度与风险判断逻辑 [2][11][12] 欧盟模型治理路径 - 在原有AI系统四级风险体系外,平行构建针对通用模型的治理机制,区分有无"系统性风险"的模型 [4] - 系统性风险判断结合理念性标准(如"高影响能力")与技术性量化指标(如训练计算量超过10^26 FLOPs) [4] - 模型义务扩展至应用场景,如要求模型提供者构建未来风险情景和收集最终用户反馈,超出其对模型自身的控制范围 [5] - 治理框架复杂笨重,模型风险与应用风险混同,导致模型提供者承担无法预见的责任,欧盟正推动立法简化方案 [5] 美国加州模型治理路径 - 监管起点高且范围窄,仅覆盖训练计算量超过10^26 FLOPs的"前沿开发者","大型前沿开发者"需额外满足年总收入超5亿美元门槛 [5] - 义务轻量化,透明度报告仅要求基础信息,如网站、沟通机制和预期用途,对比欧盟对技术文档的细节要求极为限缩 [5][6] - 立法主线为促进产业发展,避免过多制约,过去三年出台的AI法规多针对细分场景(如伴侣聊天机器人、医疗AI误用) [6] 中国模型治理路径 - 以应用服务为切入点,自下而上延伸至模型治理,通过算法推荐、深度合成、生成式AI等服务规制间接约束模型层 [7][8] - 采用"内生风险—应用风险—衍生风险"三层结构,将模型算法风险归入内生风险范畴(如可解释性不足、鲁棒性不强),厘清风险边界 [9] - 治理工具务实,依托算法备案、安全评估、内容标识等具体抓手,形成系统完善的治理机制 [8][9] 三方治理共性 - 均体现柔性治理倾向:欧盟《实践准则》为自愿性承诺,美国加州SB 53以企业自律主导,中国以指导性文件推进治理 [11] - 重视构建评估生态:欧盟建议社区驱动模型评估榜单,美国要求第三方灾难性风险评估,中国提出建立安全测评体系 [11] - 透明度成为核心工具:欧盟按披露对象分级设置信息层级,加州按开发者规模纵向分级,中国通过算法备案实现模型功能可见性 [12]
通用模型“吞噬”垂类应用?美图管理层回应
犀牛财经· 2025-10-21 10:22
行业讨论:通用模型与垂类应用的关系 - Nano Banana的爆火引发关于通用模型是否会“吞噬”垂类应用的广泛讨论 [2] - Nano Banana开放预览后迅速走红,在Gemini AI中被用于创作超过50亿件作品 [2] - 在某些垂直场景中,通用模型难以满足端到端的需求,这为垂类应用提供了机会 [2] - 效率是关键因素,通用模型产品在某些场景中的完成效率低于垂类应用 [2] - 设计领域在Photoshop之外依然诞生了Canva、Figma等优秀产品,证明垂类应用存在空间 [2] 公司战略与产品定位 - 美图产品会随着大模型发展不断迭代,在电商设计等垂直场景深耕全链路的整合 [2] - 公司通过美图设计室等产品,致力于满足通用模型难以覆盖的端到端垂直需求 [2] 公司财务与运营业绩 - 2025年上半年,公司实现营收18亿元,同比增长12.3% [2] - 2025年上半年,公司实现归母净利润3.97亿元,同比增长30.8% [2] - 2025年上半年,公司全球月活跃用户达到2.8亿,同比增长8.5% [2] - 公司月活跃用户中近1亿来自海外,海外用户增速超过15% [2] 公司面临的竞争环境 - AI应用进入爆发期,Adobe、Canva等国际巨头持续挤压垂类应用的市场空间 [3] - 国内大厂依托流量与技术优势,在设计工具等领域快速布局 [3] - 公司需在技术壁垒与场景深化上持续突破方能走远 [3]
通用模型“吞噬”垂类应用?美图公司管理层回应
证券时报· 2025-10-15 01:29
行业竞争格局 - Nano Banana开放预览后迅速走红,在Gemini AI中被用于创作超过50亿件作品,引发关于通用模型"吞噬"垂类应用的讨论 [2] - 公司认为相较于通用模型公司,其在挖掘垂直场景、满足用户体验和效率等方面具备足够优势 [2] - 设计领域在Photoshop广泛使用的前提下,依然诞生了Canva、Figma等优秀产品,表明垂类应用存在市场机会 [3] 公司战略与产品定位 - 公司产品会随着大模型发展不断迭代,在电商设计等垂直场景中,通用模型难以满足端到端的需求 [2] - 公司产品如美图设计室致力于深耕全链路的整合,提供一整套从头到尾的解决方案 [2] - 用户订阅产品的原因在于其提供了更多用户需要及潜在需要的功能,而非仅仅因为某些特定功能 [2] 运营与财务表现 - 即便通用模型推出同类型功能,公司产品的月活跃用户和付费订阅用户仍能保持增长 [2] - 效率是用户选择的关键原因,在某些场景中,通用模型产品的完成效率低于垂类应用 [3]
通用模型“吞噬”垂类应用?美图管理层回应AI影像竞争
新浪科技· 2025-10-13 16:20
公司对通用模型竞争的看法 - 相较于通用模型公司,公司在挖掘垂直场景、满足用户体验和效率等方面具备足够优势,面对竞争保持积极态度 [1] - 在诸如电商设计等垂直场景中,通用模型难以满足端到端的需求,而公司的产品可以深耕全链路的能力整合 [1] - 即便通用模型推出同类型功能,公司产品的MAU和付费订阅用户仍能保持增长,用户订阅是因为提供了一整套从头到尾的解决方案 [1] 公司产品与技术应用 - 公司产品会随着大模型发展不断迭代,美图秀秀凭借AI合照功能荣获欧洲14个国家App Store总榜第一 [1] - 公司能够使技术为应用服务并变现 [1] - 在某些场景中,通用模型产品的完成效率低于垂类应用,这给了后者更多机会,正如设计领域在Photoshop之外诞生了Canva、Figma等产品 [2] 投资机构观点 - 国际投行摩根士丹利、瑞银、杰富瑞对公司的战略方向和增长潜力保持信心,并重申"买入"评级 [2]
美图管理层谈AI影像竞争:产品具有多重优势,MAU及订阅用户保持增长
格隆汇· 2025-10-13 16:02
公司战略与竞争优势 - 公司认为相较于通用模型公司,其在挖掘垂直场景、满足用户体验和效率等方面具备足够优势 [1] - 公司产品会随着大模型发展不断迭代,例如美图秀秀凭借AI合照功能荣获欧洲14个国家App Store总榜第一 [1] - 在电商设计等垂直场景中,通用模型难以满足端到端的需求,而公司产品可以深耕全链路的能力整合 [1] - 公司提供一整套从头到尾的解决方案,包含更多用户需要及潜在需要的功能,这是用户付费订阅的关键原因 [1] - 在某些场景中,通用模型产品的完成效率低于垂类应用,这为后者提供了市场机会 [1] 市场表现与行业观点 - 即便通用模型推出同类型功能,公司产品的MAU和付费订阅用户仍能保持增长 [1] - 国际投行摩根士丹利、瑞银、杰富瑞对公司的战略方向和增长潜力保持信心,并重申"买入"评级 [2] - 行业现象如Photoshop被广泛使用下依然诞生Canva、Figma等优秀产品,证明垂类应用存在市场空间 [1]
谷歌“香蕉”爆火启示:国产垂类AI的危机还是转机?
36氪· 2025-09-26 18:44
Nano Banana的市场影响与用户增长 - Nano Banana上线两周内全球生成超2亿张图片 亚太地区用户热情最高[1] - 英伟达CEO黄仁勋公开宣称是其忠实粉丝[1] - 为Gemini App带来超1000万新用户 并助其超越ChatGPT登顶苹果应用榜[1] 行业竞争格局变化 - OpenAI以11亿美元全股票交易收购产品实验平台Statsig以应对冲击[3] - 字节跳动快速推出Seedream4.0强化豆包和即梦产品[5] - 美图股价因通用模型威胁出现巨量波动[5] 技术突破与产品特性 - 通过自然语言对话实现精准图像编辑 无需结构化提示词[8][9] - 具备Gemini大模型的"原生世界知识" 支持风格一致性/多图融合/逐步编辑等功能[9] - 成本为0.039美元每张图片(按30美元/百万token 每张消耗1290 token计算)[11] - 核心技术依赖文字渲染/交错生成/速度哲学及世界知识引入[11] 垂类应用的竞争壁垒 - 摩根士丹利认为美图核心价值在于"最后一公里"解决方案[14] - 美图优势包括垂直领域数据积累/付费功能专注/多模型整合能力[14] - C端业务依赖美颜美体精细化理解 B端业务聚焦商拍场景know-how[14] - 与阿里达成18亿元战略合作 重点推进AI试衣和AI商品图功能[17] 行业发展趋势与战略方向 - 通用模型与垂类应用的竞争焦点在于场景赋能能力[24][25] - 垂类应用需聚焦"用户付费转化" 避免与通用模型直接技术对抗[24] - AI时代演化速度是移动互联网的三倍 需寻找差异化竞争机会[25] - 终极胜负手取决于能否将通用技术转化为用户愿付费的场景服务[25]
Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention
Founder Park· 2025-09-22 19:39
图像模型发展趋势 - 图像模型正从创意工具向信息查询工具转变,类似于LLM的发展路径[4][11] - 未来模型将更主动、更智能,能根据用户问题灵活运用文本、图像等多模态交互[4][11] - 所有团队都在朝通用模型(Omni Models)方向发展,即能处理多种任务的模型[6][40] 技术突破方向 - 关键进步将体现在模型的可表达性方面,重点是提升能力下限而非上限[6][33] - 现在最好的图像质量与几年后相差不大,但最差的图像质量将显著改善[6][33] - 图像与视频模型技术共享紧密,未来可能融合在一起[40][41] 产品应用场景 - 角色一致性功能成为用户最感兴趣的功能之一,允许用户将自己形象置于不同场景[8][9] - 用户最高频需求包括更高分辨率(目前为1K)、透明背景和更好的文字渲染效果[9] - 图像模型在专业工作流中应用广泛,包括建筑设计、视频制作和网站UI生成[24][25][28] 交互设计挑战 - 多模态交互核心在于识别用户意图,根据实际任务切换不同交互模式[4][19] - 界面设计需明确问题边界,让用户清楚哪些操作可行[5][20] - 当前UI设计被低估,需要整合各种模态让普通人更容易使用模型[4][18] 模型评估方法 - 真实用户主动测试是最佳评估方式,如LM Arena平台让用户输入自己的Prompt使用模型[21] - 形成反馈循环,利用语言模型的智能来评估自己生成的内容[21] - 团队通过多渠道收集用户反馈,调整评估标准确保好用功能不退化[22] 个性化与美学需求 - 美学需求难以满足,需要深度个性化才能提供有用建议[6][26] - 个性化更多停留在Prompt层面,通过对话和上下文实现而非专属模型[26][27] - 现成模型支持的使用场景范围广泛,但高级功能需求需要结合其他工具[28] 行业竞争格局 - Midjourney成功关键在于比其他团队更早搞清楚如何进行模型的后续训练[6][31] - 小团队仍有可能做出顶尖模型,但有能力训练LLMs的团队可能占据主导地位[6][43] - 图像和视频领域存在良性竞争,推动整个行业快速发展[30] 工作流整合 - 传统工具和AI模型将长期共存,各自满足不同精度控制需求[35][36][37] - Gemini等聊天工具适合快速迭代和创意构思,专业场景需要更精密的多工具协作流程[35] - 模型在办公协作、知识性场景和创意领域都有巨大应用潜力[37][38]
六大主流Agent横向测评,能打的只有两个半
虎嗅· 2025-06-02 17:45
Agent行业发展趋势 - 未来十年被视为Agent发展的关键时期,行业普遍认同Agent将成为重要技术方向[1][3] - Token成本下降和MCP资源丰富推动Agent产品从Demo走向B/C端应用[4][5] - 企业需求旺盛,部分Agent产品内测阶段即出现邀请码炒作和私有化部署咨询[6] Agent产品评估框架 - 核心评估公式:产品价值=能力×信任×频率,三项均为3分制,总分8分以上为优质Agent[7][8] - 能力维度关注任务完成度和交付稳定性[9] - 信任维度强调过程可控性和行为可解释性[9] - 频率维度考察场景适配性和调用便捷性[9] - 行业投资人普遍认同该框架,红杉资本提出"Always-On Economy"概念,a16z强调需求承接能力[11] 典型Agent产品分析 Manus - 首创完整动作链范式,但存在成功率低(20%以下)、入口重、上下文易断等问题[27][28] - 能力1分、信任2分、频率1分,总分4分低于基准线[28] - 行业意义在于确立Agent≠Chatbot的新范式[30][32] 扣子空间 - 首个实现MCP调用+任务编排+结果交付完整链路的系统[36] - 能力3分、信任2分、频率2分,总分7分接近基准线[38][40] - 优势在于豆包模型+火山MCP+完整架构的生态协同[42][43] Lovart - 设计领域垂类Agent,实现从需求到成稿的端到端交付[45][50] - 能力3分、信任3分、频率2分,总分18分达到优秀水平[54][58] - 商业化采用积分制,单任务成本约3美元[204][211] Flowith Neo - 特色在于并发任务处理和上下文管理技术[66] - 能力3分、信任3分、频率1分,总分9分[71][73] - 交互复杂度限制其日常使用频率[68][70] Skywork - 办公场景最强Agent,实现从分析到PPT的完整工作流[77][83] - 能力3分、信任3分、频率2分,总分18分[101][105] - 关键价值在于结果可直接交付且带溯源功能[99][100] 超级麦吉 - 专注OA流程自动化,实现审批、报销等企业高频需求[104][112] - 能力3分、信任2分、频率3分,总分18分[128][138] - 体现Agent在B端流程提效中的独特价值[126][137] 行业竞争格局 - 当前阶段垂类Agent更具留存优势,因其场景深度和交付确定性[139][140] - 通用模型存在执行链断裂风险,KnowHow构成垂类Agent短期壁垒[146][147] - 商业化面临信任挑战,用户对付费产品的容错率显著降低[220][225] - 入口争夺成为关键竞争维度,缺乏流量支撑的产品易被大厂复制[235][240] - 行业呈现"通才处理长尾需求,专才攻克核心场景"的共生格局[171][175]