Workflow
从 Harness 到 Environment? 这波 Agent 创业还有护城河吗?
Founder Park· 2026-04-03 13:00
AI Agent工程概念演进与产业价值重构 - 2022年底至2024年,行业焦点是提示词工程,通过优化指令提升模型输出[5] - 2025年6月,Shopify CEO提出上下文工程,关注为模型提供恰到好处的上下文信息[5] - 2025年11月,Anthropic提出harness概念,旨在通过上下文管理、工具调用等方法提升agent运行时间和成功率[5] - 2026年2月,HashiCorp联合创始人提出harness engineering,OpenAI和Anthropic随后发布相关研究,使其成为agent圈新共识[5] - 约一个月后,硅谷出现新观点“Harness将死,未来属于environment engineering”,认为应重构环境接口而非依赖复杂harness[6] - 这些概念快速更迭的核心,是在探讨AI Native时代新兴公司应如何构建长期价值与壁垒[6] 环境工程的杠杆价值与局限 - 底层模型正“基建化”,OpenAI等将重试机制、JSON格式约束等复杂功能简化为API参数,使仅封装基础逻辑的套壳框架被降维打击[10] - Anthropic实验证明,在高度结构化的数字环境中,agent表现远超在真实终端的混乱环境,表明重塑环境接口收益可能大于打磨驾驭工程[11] - 环境工程在代码开发、本地文件管理等天然数字化且高度结构化的场景中收益可观[17] - 在传统商业场景中,环境工程面临“隐性知识与遗留系统”的挑战,如文档不全的ERP系统、非结构化的邮件和经验知识,重构成本与难度极高[19] - 商业世界惯性大,企业难以轻易为适配agent而重构运行多年的核心业务系统,因此环境工程是局部、垂直的,难成统一标准平台[19] 驾驭工程作为控制平面与策略层的核心价值 - 大语言模型是基于概率的非确定性系统,而真实商业世界要求确定性结果,这构成了根本的工程悖论[15] - 企业需要可观测性、成本与路由网关、系统级容错等,这些商业铁律决定了harness的本质是复杂系统的“控制平面”与“策略层”,而非简单的中间件[15] - API可以包揽工具调用、记忆存储等“机制”,但无法替代“策略”,如触发降级方案、动态切分任务、解决多Agent决策冲突、保证行业合规性等[16] - 在概率与确定性的鸿沟之间,harness是agent的方向盘,更是防止AI系统在商业环境中造成灾难的“安全气囊与刹车”[16] - 一个基座模型在粗糙脚本驱动下,面对复杂任务成功率可能只有20%,但在深度优化的harness驱动下,成功率可跃升至70%以上[24] - Devin、Cursor等项目的核心壁垒正在于其harness系统,包含了精密的任务规划、代码执行与沙箱、持续学习与反思等逻辑[24] AI产业价值演进的三阶段模型 - **第一阶段:模型为王**:时间约为2023-2025年,是AI的“蛮荒时代”,AI应用能力约等于模型能力,模型厂拥有最高话语权[21][22] - **第二阶段:Harness为王**:时间约为2025-2028年,当前正处初期,价值公式演变为“AI应用能力 = 模型能力 × Harness效率”,竞争焦点从“谁的模型更强”转向“谁的控制层更优”[23][24][25] - **第三阶段:数据与环境为王**:时间在2028年之后,当模型成为基础设施、harness系统标准化后,终极能力公式为“AI终极能力 = (模型能力 × Harness效率) (数据 × 环境)”,核心竞争力在于将模型和控制层深度嵌入真实业务场景并重构环境[26] - 环境工程是提前押注第三阶段,最强大的AI系统将能重构环境交互接口,并利用产生的闭环数据微调模型和优化Harness决策逻辑,形成自我进化闭环[26] - 微软Microsoft 365 Copilot是范例,其orchestrator是面向办公场景的标准化Harness系统,在结构化环境中调度模型,用户反馈形成闭环数据反哺系统优化[27] 对AI创业公司的战略启示 - 当下及未来2~3年,做深特定领域的Harness系统架构是有价值的创业切入点[30] - 类比云计算时代,AWS吞掉底层技术,但Datadog和Snowflake因掌握“运营控制层”而成长为千亿巨头,这同样是AI时代的财富密码[30] - 环境工程是长期目标而非短期捷径,应提前布局但不可幻想一步到位[30] - 今天构建的强大harness,是未来撬动环境改造、构建数据飞轮的唯一杠杆[30] - 公司应将注定成为基础设施的基础工作交给模型厂,不应在注定基建化的地方建名存实亡的壁垒[28] - 在新概念浪潮中形成原生世界观,并扎进去把该做的事做到最好,是当前最值得做的事情[30]
如何将日常压力转化为“最优压力”
麦肯锡· 2026-04-03 12:52
理解压力本质 - 压力本身并无好坏之分,其生理反应(交感神经系统激活、肾上腺素与皮质醇飙升)旨在提升身体力量和头脑清醒度以应对威胁,威胁消散后副交感神经系统会帮助身体恢复休整 [2] - 将压力视为必须消灭的"负资产"并硬撑或压制,反而会使其更难被有效管理,正确的态度是将其视为成长与巅峰表现的引擎 [1] - 没有任何一段有意义的人生是没有压力的,关键在于学会读懂、优化压力,将负面影响降到最低并激活其正向价值 [1][3] 慢性压力的风险与影响 - 当压力源连绵不绝且缺乏修复过程时,压力会演变为慢性状态,导致情绪失控、同理心下降、冲动控制力减弱,并增加心血管疾病和中风等健康风险 [6] - 慢性压力是职场倦怠的温床,表现为身心疲乏、工作效能下滑和对工作态度冷淡,约三分之二的全职员工在任何时间点都受倦怠影响 [9] 压力管理核心:寻找最优压力点 - 压力管理的核心在于找到个人的"最优压力点",这需要理解自身的压力模式并主动驾驭身体的应激反应,而非被其控制 [9] - 通过练习,可以在投入(精力饱满、专注高效)与恢复(大脑沉淀吸收、积蓄能量)两种状态间自由切换,此过程类似于体能训练中的"超量恢复"原理 [9] - 实现持久改变的第一步是提升对压力的自我觉察,注意力所至能促进新的神经通路生长并最终形成新习惯 [13] 提升自我觉察的方法 - 管理者需觉察并描述自身压力,需了解何种情境最易引发紧张、一天中何时精力最足以及自身对压力的典型反应模式 [13] - 可通过定期重温自我提问、记录活动反应日志或测量心率变异性来加深对自身压力反应的理解 [13] - 许多管理者对自身压力模式浑然不觉,且受"永远冲锋、永不示弱"的领导者刻板期待影响,难以清晰描述压力影响 [13] 为高效投入创造空间 - 应每天在日程中预留一至三小时的深度工作时段,关闭通讯工具,确保不被打扰,例如谷歌CEO会在日程中留白用于阅读和思考 [17] - 减少外界干扰,如关闭手机邮件提醒、为应用设置使用时限或将手机调成黑白模式以降低使用诱惑 [17] - 可尝试改变沟通形式以缓解疲劳,例如在视频会议中偶尔关闭摄像头,仅专注声音交流 [17] 为有效恢复创造条件 - 必须主动重建休息恢复的空档,并认真对待睡眠、运动、饮食等有效恢复路径 [16] - 睡眠方面,应尽量保持固定作息并睡足7至9小时,避免睡前摄入酒精、重餐、使用电子屏幕和咖啡因,下午两点摄入的咖啡因到午夜仍可能有四分之一残留体内 [20] - 规律运动能改善情绪、降低炎症,即便是10到15分钟的快走等低强度运动,只要形成习惯也能提升精力和缓解疲惫 [20] 实现投入与恢复的交替切换 - 应学会有意识地在投入与恢复状态间切换,使用过渡仪式帮助大脑清晰区分不同模式,从而更有效地掌控自身节奏 [18] - 可在会议间隙安排五分钟甚至三十秒的微休息,有意识地用于看绿植、翻旧照等放松活动,但应避免刷手机,因为研究显示休息时刷手机在认知消耗上几乎等同于没休息 [18][20] - 建立明确的下班仪式感,如设置下班闹钟或进行固定对话,用身体节奏告诉大脑工作已结束,并遵守既定工作时长,不将其拉长作为默认选项 [21] 领导者帮助团队管理压力 - 领导者的压力会真实传染给团队,一项研究显示,仅观看陌生人做高难度算术就有四分之一的人出现"共情压力"导致皮质醇升高 [18] - 应为团队优化会议安排,如尝试散步会议、纯语音会议等形式,并在日常安排中为团队加入微休息时间,以提升专注或改善恢复 [19][20] - 需清晰划定工作与休息的边界并尊重他人,例如在邮件中注明无需在非工作时间回复,或设定每周无会议日,且必须坚持执行以避免增加团队负担 [22] 识别与干预团队倦怠 - 领导者需细心观察团队中出现的冷漠、疲态等异常表现,多安排无固定议程的一对一交流以捕捉状态,尤其要关注表现优异但可能不堪重负却鲜少求助的成员 [23] - 看到倦怠苗头应提早介入,提供理解、支持与关怀,必要时可引入心理咨询师或职业教练等外部支持 [23] - 必须清楚高强度、长工时的"危机模式"无法长期维持,应如实告知团队所处阶段,适配节奏,并在高强度时期后主动引导团队进入恢复轨道 [22][23]
恒生科技舍“老钱”、爱新贵
经济观察报· 2026-04-03 12:50
AI新贵与互联网大厂资本市场表现分化 - AI新贵智谱与MiniMax股价自2026年开年以来大幅上涨,而传统互联网大厂股价则呈下跌趋势 [1][2] - 截至4月1日,智谱股价单日上涨32%,市值达4079亿港元,超过京东、百度、携程,约为快手的2倍 [2] - 智谱自1月8日上市至4月2日,股价上涨近6倍;MiniMax自1月9日上市首日大涨109%,累计涨幅超过475% [2][11] 互联网大厂财务表现与市场反应 - 2025年主要互联网大厂均实现盈利,腾讯净利润最高,达2248.42亿元,百度净利润最低,为55.89亿元 [5] - 净利润增速方面,仅腾讯、网易、快手实现同比增长,其余公司同比下滑 [6] - 收入方面,京东收入最高,达1.3万亿元,网易收入最低,为1126亿元;除阿里、美团和网易外,其他公司收入增速均为两位数以上 [6] - 财报发布后次日,除京东外,其余公司股价均下跌,其中快手跌幅最大,达13% [6] - 市场担忧主要源于对AI高投入的质疑,例如快手预计2026年资本开支将新增110亿元至约260亿元,主要用于大模型算力支撑 [6] 互联网大厂的AI业务现状 - 大厂主要收入仍依赖游戏、电商、广告等传统业务,AI收入贡献占比较小 [6] - 百度明确公布2025年AI收入为400亿元,占其核心业务收入的39% [7] - 快手公布其可灵AI在2025年收入超10亿元,截至2026年1月ARR已超过3亿美元(约20.66亿元),并预计2026年该收入同比有望翻倍 [7] - 腾讯称广告业务19%的同比增长主要得益于AI驱动;阿里云AI相关产品收入连续第十个季度实现三位数增长;京东JoyAI大模型已落地2000多个场景,2025年Token调用量同比激增近100倍 [7][8] - 拼多多是唯一未在文中提及AI业务的公司 [9] - 大厂的AI支出巨大,2025年资本开支最高的是阿里(1039亿元),其次是腾讯(792亿元),其余几家也均在百亿元级别 [9] AI新贵的财务表现与增长潜力 - 智谱与MiniMax均处于亏损状态且亏损额扩大,但收入增速极高 [11] - 智谱2025年经调整净亏损31.82亿元,同比扩大29.1%;收入7.24亿元,同比增长131.9% [11] - MiniMax 2025年经调整净亏损2.5亿美元(约17.5亿元),与2024年基本持平;收入7903.8万美元(约5.69亿元),同比增长158.9% [11] - 智谱开放平台API的年度经常性收入约17亿元,同比增长约60倍,较2025年底增长2.4倍 [2] - 资本市场看重其高增长预期与技术突破,例如“龙虾”等个人智能体产品的爆火,使AI原生厂商相比大厂入场速度更快 [11][12] AI新贵的战略定位与市场认知 - MiniMax创始人提出公司将由大模型公司向AI时代的平台型公司迈进 [12] - 智谱CEO将公司对标对象从OpenAI换为Anthropic,认为“当模型足够强,API本身就是最好的商业模式” [12] - Anthropic的年度经常性收入从1亿美元到10亿美元只用了一年,再从10亿美元到100亿美元也只用了一年 [12] - 分析师认为AI新贵受追捧的原因包括:AI产业风口、稀缺标的引发的FOMO情绪、高增长预期、技术突破,以及流通比例小、纳入指数预期等 [13] - 其估值特征与2021年快手上市初期相似,提示高成长赛道在早期情绪过热后,估值可能需要较长时间消化 [13] 市场对行业代际更替的认知 - 传统互联网公司年龄均在20岁以上,被自嘲为“老登”或“传统公司”,在AI时代开展新业务比新公司更困难 [2][3] - 市场观点认为,虽然大厂仍在盈利,但赚的是“上个时代的钱”,目前缺乏新的增长故事 [3]
Wind ESG 2026版方法学正式启用,年度预评级与系列解读同步开启
Wind万得· 2026-04-03 12:34
Wind ESG 2026版评级体系升级与启动 - 2026版Wind ESG评级方法学已正式启用,升级以“贴合监管、强化实质、提升透明”为核心,旨在提升与当前披露框架、市场实践和应用场景的匹配度,更准确地映射企业在治理、风险管理、关键指标等方面的实质表现[4] - 方法学升级的背景是中国可持续披露准则与交易所指引的出台,市场关注点正从规则发布转向落地执行,2025年是沪深交易所首批适用公司的首个强制披露执行期,可持续发展信披正加快进入首次集中实践阶段[3] - 评级体系以ESG内涵为基础,以数据驱动为核心,接轨国际标准并考虑中国政策与现状,通过科学方法学预见性评估企业实质性ESG风险及可持续经营能力[13] 评级覆盖范围与数据服务 - Wind ESG评级结果与底层数据已全面覆盖全部A股、港股上市公司,超过6,000家公募信用债发债主体以及超过8,000只国内公募基金[13][14] - 针对上市公司提供接轨国际、适用中国企业的指标体系及全量底层数据、得分与评级[14] - 针对发债主体提供适用其特征的指标、全量底层数据、得分与评级[14] - 针对公募基金提供基金ESG评级、基金碳核算(碳足迹)、基金ESG分类与标签等服务[14] 2026年度评级工作安排 - 2026年度Wind ESG评级工作与预评级已同步开启,评级将围绕新方法学体系有序推进[9][10] - 预评级为受评主体提供了前置的观察与准备窗口,是识别重点议题变化、校验信息口径、完善数据准备、加强内部协同的关键阶段[10] - 受评主体可通过发行人沟通平台关注预评级进展及相关提示信息,并及时反馈,为后续正式评级做准备[10] - 公司将持续做好预评级阶段的沟通与支持,帮助受评主体准确把握新体系下的评价重点,推动评级与信披实践顺畅衔接[11] 市场赋能与解读计划 - 为帮助金融机构与受评主体准确把握新评级体系,公司将通过万得课堂推出《Wind ESG评级框架如何落实信披新规?》专题培训,由评级专家围绕方法学调整、重点议题变化及研究应用场景进行分享[5][6] - 公司将陆续推出“2026版方法学升级”系列文章,围绕气候变化、生物多样性、董事会与高管、公司治理等重点议题,分期解读指标设置逻辑与评分方法[9] - 此举旨在持续推进评级方法学的透明化建设与应用支持,帮助市场更全面、系统地掌握新体系,高质量回应可持续发展信息披露与价值发现的新要求[9] 产品应用场景 - 服务于机构ESG投资,通过专业模型、研发技术和科学评级体系,以数据驱动ESG投研决策、管理ESG风险并应对监管要求[15][16] - 助力企业ESG实践,提供企业ESG信息可视化展示、同业ESG表现一键对比功能,并为企业提供路演平台,向投资者展示自身ESG管理能力[17] - 支持机构ESG研究,提供自2017年至今全透明的底层数据,超过500个指标支持各类ESG研究,全市场覆盖的碳排放数据库及科学估算方法支持气候变化分析[18]
跟OpenAI撕破脸、微软喊话要“完全独立”!靠不到10人、 一半GPU用量,推出三款王炸低价模型
AI前线· 2026-04-03 12:33
微软发布三款自研AI模型 - 公司旗下Microsoft AI研究实验室推出三款基础AI模型,分别用于生成文本、语音和图像,均已登陆Microsoft Foundry平台,其中转录和语音模型已在MAI Playground开放使用[2] - 此次发布标志着公司在与OpenAI保持合作的同时,正积极构建自有的多模态AI模型体系,并计划与OpenAI、谷歌等前沿实验室在模型研发上直接竞争[2] MAI-Transcribe-1语音转录模型 - 该模型是本次发布的核心产品,专为复杂真实场景设计,支持全球使用量最高的25种语言的语音转文本[3] - 根据公司基准测试,该模型在全部25种语言上优于OpenAI的Whisper-large-v3,在22种语言上超过谷歌Gemini 3.1 Flash,在15种语言上分别领先于ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe[3] - 模型采用基于Transformer的架构,支持MP3、WAV、FLAC格式,最大文件容量200MB,其批量转写速度是现有Azure Fast服务的2.5倍[5] - 在FLEURS多语言测试基准上,针对25种核心语言实现了最低的平均词错误率,仅为3.8%[5] - 公司已在Copilot语音模式和Microsoft Teams中测试该模型用于对话转写,计划迅速用自研模型替代第三方或旧版内部模型[5] - 模型定价起步为每小时0.36美元,低于谷歌和OpenAI的同类产品[8] MAI-Voice-1音频生成模型 - 该模型支持在1秒内生成60秒自然流畅的音频,GPU利用率极高,能生成细节丰富、情感饱满且保留说话人音色的语音[5] - Microsoft Foundry平台新增了安全创建自定义语音功能,仅需几秒音频即可完成,极大简化了开发者构建语音交互体验的流程[5] - 模型定价起步为每百万字符22美元[8] MAI-Image-2视频生成模型 - 该模型专为摄影师、设计师等视觉创作者打造,满足对自然光影、精准肤色与纹理的要求,并能在图像中生成清晰的文字[6] - 模型最初于3月19日在MAI Playground上线,在Arena.ai榜单上跻身前三模型系列,并大幅提升了Copilot上的图像生成性能与速度[6] - 根据实际生产流量数据,用户在Foundry和Copilot上的生成速度至少提升至原来的2倍,同时保持画质一致,该模型正在逐步向Bing和PowerPoint分批推送[6] - 模型定价为文本输入每百万tokens 5美元,图像输出每百万tokens 33美元[8] 模型研发效率与成本优势 - 研发这些模型的MAI Superintelligence团队由AI负责人Mustafa Suleyman牵头,于2025年11月组建,目标是实现“AI自给自足”[10] - Suleyman表示,实现同等效果所需的GPU资源仅为当前行业顶尖竞品的一半[10] - 语音模型由10人团队打造,图像团队同样不足10人,速度和效率的大幅提升主要源于模型架构和数据创新[11] - 公司采用极度扁平化的管理结构,团队工作模式类似初创公司,成员沉浸式协作[11][12] - 小团队和低GPU消耗意味着公司AI业务的利润结构与那些“烧钱”换取相似成绩的竞争对手将截然不同[11] 战略定位与未来规划 - Suleyman称公司现已跻身前三的AI实验室,仅次于OpenAI与Gemini[11] - 公司为AI业务构建“人文主义AI”理念品牌,强调以人为中心,并称其数据来源干净合规,与一些开源方案形成对比[12] - 2025年10月之前,公司受与OpenAI的原始协议限制,无法独立研发通用人工智能[14] - 2025年9月,双方重新谈判协议,新条款允许公司自研前沿模型,同时保留至2032年使用OpenAI所有模型的授权[14] - 公司已向OpenAI投资超130亿美元,合作关系至少持续至2032年,同时通过Foundry API提供Anthropic的Claude访问服务,定位为“平台中的平台”[14] - Suleyman的目标是在未来5年,为微软打造世界级模型,实现完全独立,并计划在所有模态上推出顶尖模型[15] - 公司已规划未来2至4年实现AI自给自足所需完成的全部目标及对应的算力布局路线[15] 发布背景与商业考量 - 此次发布恰逢公司股票迎来2008年金融危机以来表现最差的一个季度,投资者要求其证明数千亿美元的AI基础设施投入能转化为实际收入[8] - 这批定价极具竞争力且旨在降低公司自身销售成本的模型,正是应对上述压力的首个答卷[8]
一个内测码,怎么就成UP主们的「硬通货」了?
机器之心· 2026-04-03 12:24
产品定位与市场切入点 - 产品是一款面向专业创作者的AI视频创作产品,在B站首届AI创作大赛颁奖活动现场首次公开亮相,内测阶段已在创作者圈内引发关注和“求码” [1] - 产品出现的时间点在于,过去一两年市面上AI视频产品虽多,但真正在专业创作者中口碑好的没几个,多数产品存在审美不佳或工作流设计不合理的问题 [2] - 产品的核心理念是区分“创作”与“生产”,旨在服务于创作者天马行空的想象力,而非按部就班的批量生产流程 [2] 产品核心功能与工作流设计 - 产品工作台设计简洁,没有满屏按钮和复杂模板,有助于创作者专注内容 [6] - 产品采用引导式、对话式的交互,从用户模糊的想法开始进行头脑风暴,而非一开始就询问视频时长、横竖屏等技术指标 [8][10] - 工作流符合创作者思维逻辑,即先有故事雏形,再考虑技术实现,而非被预设参数框住 [11] - 产品在流程推进中提供多个可能的行动分支供选择,并解释每个选择的含义,既保证流程井井有条,又充分保留创作空间 [12][13] - 整个创作过程被体验为自由度高的“沙盒游戏”,给予创作者强烈的掌控感 [14] - 产品支持高度灵活的修改,即使在生成视频阶段,也可随时修改分镜构图等,无需切换窗口或产品,贴合创作过程的非线性特点 [14] 技术特性与能力 - 产品在任务执行中会自动调用现成的“Skills”(技能),例如在生成角色形象时会自动激活“SKILL: character-design” [17] - 产品具备强大的上下文记忆能力,在一个任务内能记住用户的要求(如角色设定),并在后续生成中保持一致 [27] - 产品支持跨任务的长期记忆,能够留存用户的想法、偏好等个性化信息 [29] - 产品提供精细调整面板,支持生成新分镜、调整人物微表情、扩展镜头等操作,允许在视频基本成型后加入更多细节 [30][31] - 精调面板集成了多样化的AI模型,包括做图的Nano Banana,以及做视频的Kling、Seedance、Hailuo等优秀模型 [33] 技能社区与生态 - 产品设有“skills社区”,社区内有许多用户(包括大神)将创作经验打包成技能分享,例如特定滤镜调色、排版逻辑、叙事框架等 [19] - 技能社区界面展示了多种热门技能,如“写剧本超快”、“提示词全能自动优化器”、“批量统一分镜光影”等,并显示其获赞、使用数据(例如“♡ 4 ▷ 705 < 171”) [20] - 用户可以将自己积累的技巧打包创建为个人技能,供后续使用 [19] - 调用特定技能(如剧本skill)可生成专业结果,例如能为每个场景标注节奏(如“缓慢,充满爱意”、“骤然紧张”)和提供画面感强的细节描述(如“红围巾在风中飘动”),这些可直接转化为镜头语言 [21] - 生成的分镜具有很高专业度,明确标注景别、镜头角度和光影细节,能极大提升与团队沟通的效率,并帮助新手创作者提升水平、避开常见创作坑 [22] 产品效果与潜在影响 - 实测案例中,借助产品和原故事框架,仅用几个小时就生成了经典动画《雪孩子》的改编片段 [5] - 体验表明,即使是不常接触视频创作的文字编辑也能使用产品完成视频素材创作,预示着产品在专业创作者手中可能迸发更大能量 [36] - 产品试图解决的核心问题不仅是“更快做出视频”,而是“创作这件事本身,能不能被AI好好接住”,旨在接住创作者发散的思维和非线性的创作过程 [39] - 产品及其背后的平台(B站)有意通过面向专业创作者的设计、举办AI创作大赛、设立AI动画剧场质量门槛等一系列动作,推动“AI辅助打造的好内容”,而非仅仅追求“更多AI内容”,以防范市场沦为“低质内容农场” [40] - 产品被认为做到了“尊重创作规律,也尊重创作者”,其发展方向值得期待 [40]
Physion-Eval发布 | 别被「更像真的视频」骗了,AI视频生成,可能还远未真正学会物理世界
机器之心· 2026-04-03 12:24
文章核心观点 - 当前视频生成模型的评测过于关注“视觉真实”(清晰度、流畅度、观感),而忽略了“物理真实”,即视频内容是否符合现实世界的物理规律[4][5] - 行业提出了名为Physion-Eval的新评测基准,旨在系统性地评估生成视频的物理真实性,其核心结论是当前主流视频生成模型在物理一致性上存在严重缺陷,远未达到“物理一致”的水平[6][7][15] - 视频生成技术的下一阶段发展,不应仅追求画面观感的提升,而应更本质地解决物体持续性、接触关系、状态变化、时序一致性和因果结构等物理规律建模问题,这对于迈向世界模型、具身智能等高级应用至关重要[42] 当前视频生成评测的局限性 - 常见评测方式(自动指标或人工选择“哪个更好”)主要比较清晰度、流畅度和观感,难以识别视频中违反基本物理常识的问题[5] - 这些被忽略的物理问题包括:物体无故消失或出现、未接触物体发生交互、动作结果与过程对不上等,这些问题关系到模型是在生成画面还是在模拟可信世界[5] Physion-Eval评测基准介绍 - 该基准旨在评估AI生成视频在物理层面的真实性,而不仅仅是“好看”[6][7] - 覆盖第一人称和第三人称场景,包含10,990条专家推理轨迹,覆盖22类细粒度物理现象[9] - 每条样本标注详细,会标出错误发生的时间戳、错误类别及文字解释,而非简单打分[9] - 数据来源:第三人称部分来自WISA-80K,第一人称部分基于EPIC-KITCHENS构建[9] - 标注质量高:由90位具有STEM背景并接受过本科物理训练的专家进行标注,采用双人标注和资深专家裁决流程[9] 对当前视频生成模型的评估结果 - 在物理过程敏感的场景中,**83.3%** 的第三人称生成视频和 **93.5%** 的第一人称生成视频至少包含一个人类可明确识别的物理错误[16] - 错误是系统性的,典型问题包括:接触或交互失败、对象突然出现或消失、时间连贯性崩塌、因果顺序错乱、材料或状态变化异常、几何碰撞不合理等[17] - 具体模型表现(第三人称失败率):Kling 2.5 (**73.8%**)、Veo3.1 Fast (**79.4%**)、Sora 2 (**79.2%**)、Hailuo 2.3 (**93.1%**)、Wan 2.2 (**90.3%**),平均失败率为 **83.3%**[17] - 具体模型表现(第一人称失败率):Kling 2.5 (**96.4%**)、Veo3.1 Fast (**97.5%**)、Sora 2 (**96.6%**)、Hailuo 2.3 (**92.0%**)、Wan 2.2 (**83.5%**),平均失败率为 **93.5%**[17] - 许多错误并非渲染粗糙,而是看似合理却违背基本物理规律,如物体守恒、重力、不可穿透性和稳定接触等[19] 对多模态大模型作为“自动评委”的评估结果 - 当前最先进的多模态大模型(MLLM)在判断视频物理错误方面与人类存在明显差距,尚无法可靠替代人类评委[21] - 以Gemini 3.0 Pro为例,它会漏掉超过 **74.4%** 的第三人称错误视频和 **90.1%** 的第一人称错误视频[22] - MLLM不仅漏检率高,还经常将错误发生的时间说错,甚至编造不存在的原因[22] - 人类判断(即使是未受训练者)在识别物理错误方面目前仍是最可靠的标准[24][26] 物理过程的动态性与模型短板 - 分析表明,相比物理现象的强度大小,过程本身的动态性和复杂性更容易暴露视频生成模型的物理建模缺陷[35][36] - 对于MLLM评委而言,只有当错误足够明显时,它们才表现出有限的判断能力,但整体仍明显落后于人类[36] 对行业发展的启示 - 行业在追求视频“看起来真”的同时,必须重视其“实际上对不对”的根本问题,这对于开发世界模型、机器人、具身智能和仿真系统至关重要[42] - 视频生成的下一阶段应聚焦于解决物体持续性、接触关系、状态变化、时序一致性和因果结构等更本质的物理规律问题[42]
openJiuwen:打造高可靠、自演进、多智能体原生、算力亲和的AgentOS
机器之心· 2026-04-03 12:24
文章核心观点 - 当前AI Agent正从演示走向规模化落地,但面临算力效率、稳定性、安全可控及多智能体协同等瓶颈,需要操作系统级别的变革 [3][4][5] - openJiuwen定位为“AgentOS”,旨在通过打造企业级高可靠、自演进、多智能体原生、算力亲和的智能体运行与协同底座,为AI Agent规模化应用提供关键支撑,助力跨越“可演示”到“可生产”的门槛 [3][6][8][9] 行业背景与挑战 - AI Agents作为人工智能落地的关键形态正在加速规模化,其应用复杂度正以每7个月翻一番的指数级速度发展 [5] - 行业面临四大核心挑战:1) 大量上下文堆积与重复推理导致Token消耗大、运行成本高;2) 安全与可控性问题突出,权限管控不足、工具调用风险高;3) 复杂任务中成功率低,稳定性与鲁棒性不足,长时运行易出现中断、逻辑漂移等问题;4) AI算力基础设施成本高昂,Agent负载资源消耗模式复杂,高效运行与降低成本是关键 [5][6] openJiuwen (AgentOS) 的定位与设计理念 - 生态定位为“AgentOS”,南向亲和模型和算力基础设施,北向使能各类智能体 [9] - 提出三大设计理念:“CLI as New POSIX, Skill as New Library, Agent as New Service” [10] - 总体架构分为三层:1) **Agent System Service**:借鉴POSIX,定义感知、规划、行动、记忆存储、隔离等智能体时代新系统原语,支持Agentic UI动态生成 [11];2) **Agent Distributed Runtime**:让智能体实现分布式协同,通过Intent Router和Orchestrator构建可治理的分布式智能体网格(Agent Mesh) [12];3) **Agent Framework**:提供可复用的Skill能力单元,支持版本管理、依赖声明及基于执行反馈的Agent自演进等能力 [13] openJiuwen (AgentOS) 的主要特征与能力 算力亲和:提升性能与效率 - 与NPU等AI算力搭建主动亲和机制,通过Agent上下文动态感知协同、NPU亲和缓存调度,提升KV Cache整体利用率,**降低Agent时延30%** [17] - 与CPU感知调度能力协同,基于Agent业务流将进程/线程无序调度转变为有序全流程协同调度,**提升端到端吞吐20%** [18] 系统级Turbo Skills与生态 - 开箱即用,提供面向企业、个人及设备控制的通用Agents,以及提升系统性能的Turbo Skills [15] - Skill Inventory作为生态分发平台,支持官方、厂商、社区及私有Skill的统一上传、审核、发布与安装 [15] - 预置高效运维Skills,例如:指标采集Skill实现分钟级检测AI慢节点,识别准确率**80%**;故障检测Skill实现内存故障小时级定位,准确度**>80%**;调优Skill可提升专家优化效率 [19] 长时确定性运行保障 - 构建分层记忆与上下文管理体系,通过多层知识图谱与双时间轴建模,实现记忆的智能提取、按需失效与动态重排序,避免上下文冗余与噪声累积 [20] - 在分布式引擎中构建双通道验证架构,结合LLM的“快思考”与形式化方法的“慢验证”,形成“执行—验证—修复”的闭环机制,在概率性之上构建确定性保障 [21] 分布式状态管理与多智能体协同 - 分布式运行时将Agent运行状态实时分布式备份,支持故障节点自动重建实例并恢复状态,实现断点续跑,确保语义一致无副作用 [22] - 在Agent Team场景中,建立高效的发现与互联协议,支撑多智能体在异构单元间高效协作与全局优化 [22] 原生自演进框架 - 支持提示词自动优化与上下文经验沉淀,采用「文本梯度」机制对提示词进行自动化、非随机、具备梯度意义的持续优化 [23] - 依托工具与Skills自演进,基于执行异常与用户纠错信号驱动工具与Skill持续迭代更新,让Agent“每次使用都是一次有效训练” [24] 安全可信的全栈纵深防御体系 - 构建六层安全防护:1) 身份认证,绑定用户与Agent身份;2) 权限管控,基于用户意图+任务上下文的细粒度动态授权;3) 行为检测,多层安全护栏覆盖全链路;4) 签名校验,将信任链从OS延展到每一次Skill和工具调用;5) 隔离运行,通过安全沙箱实现资源精细隔离;6) 审计运营,实现全链路可观测与可追溯 [25][26]
营收同比增长42.41%,三利谱公布2025年业绩
WitsView睿智显示· 2026-04-03 12:21
公司2025年财务业绩 - 2025年公司实现营业收入36.88亿元,较上年同期增长42.41% [2][3] - 2025年归属于上市公司股东的净利润为4708.69万元,较上年同期下降30.85% [2][3] - 2025年归属于上市公司股东的扣除非经常性损益的净利润为5985.99万元,较上年同期下降21.15% [3] - 2025年经营活动产生的现金流量净额大幅增长至19.31亿元,较上年同期增长357.45% [3] - 2025年基本每股收益和稀释每股收益均为0.27元/股,较上年同期下降30.77% [3] - 2025年加权平均净资产收益率为1.99%,较上年同期下降0.92个百分点 [3] - 2025年末公司总资产为60.42亿元,较上年末增长14.95% [3] - 2025年末归属于上市公司股东的净资产为23.84亿元,较上年末微增0.96% [3] 公司业务与产能进展 - 公司主营业务为偏光片产品的研发、生产和销售,主要产品包括TFT系列和黑白系列偏光片 [3] - 报告期内公司稳步推进合肥二期新产能、莆田OLED新产能的试产、量产和产能爬坡工作 [4] - 新产能旨在扩大在大尺寸电视显示领域、OLED领域的产能配置,满足下游客户多元化产品需求 [4] - 新增产能的逐步释放有助于提升公司大尺寸电视偏光片产能,扩大市场份额,优化产品结构,增强主营业务盈利能力 [4] 公司研发与技术创新 - 2025年公司研发投入为2.08亿元,较上年同期增长11.97% [5] - 公司持续精进小尺寸超薄偏光片和柔性AMOLED偏光片、中尺寸用低收缩偏光片和大尺寸TV偏光片相关技术工艺 [5] - 公司持续开展车载偏光片、可折叠偏光片等多种新型偏光片产品和技术的创新研发 [5] - 研发活动旨在保障产品品质,提升产品性能,推动产品结构优化和业务布局扩充,增强核心竞争力 [5] 公司未来战略展望 - 公司未来将在大尺寸电视产品、OLED产品、车载产品等领域加大投入与推广力度 [5] - 公司力求实现关键产品线的规模化突破,持续培育新的业务增长点 [5] 行业技术动态与活动 - 行业活动议程显示,AMOLED技术正跨入IT领域,8.6代线启幕标志着战略转折与格局重构 [7] - 行业关注大世代OLED的产业演进与战略机会、大世代FMM的国产化与技术挑战、IJP OLED技术进展与趋势等议题 [7] - 行业亦聚焦国产OLED红光材料的技术突破、ViP制程下的AMOLED技术突破、以及极致画质与功耗平衡的系统优化方案 [7]
小米宣布涨价
WitsView睿智显示· 2026-04-03 12:21
小米产品价格调整 - 公司于4月3日宣布,将自2026年4月11日0时起调整部分在售产品的建议零售价 [2][4] - 价格调整的核心原因是全球存储芯片等关键零部件价格持续大幅飙升 [4] - 此次调整涉及3款机型,公司表示将尽力把内存涨价的影响控制在尽可能少的机型范围内 [4][5] - 具体调整方案包括:REDMI K90 Pro Max上调200元;REDMI Turbo 5、Turbo 5 Max取消新春特惠,但512G大内存版本继续补贴200元 [7] 行业价格趋势与竞争格局 - 公司高管表示,虽然面临内存涨价压力,但公司产品多元化(手机、平板、PC、汽车、家电等)可帮助消化部分压力,但手机涨价的趋势是不可避免的 [5] - 公司强调,此次价格调整的幅度相比其他厂商要温和很多,只有小幅调价 [5] - 在存储涨价的背景下,行业内其他主要厂商如OPPO(包含一加)、vivo(包含iQoo)已在2026年3月相继宣布上涨部分型号手机价格 [5] 显示技术行业动态 - 行业将于4月23日上午举办OLED显示专场研讨会,议程涵盖多个前沿技术话题 [8] - 关键议题包括:8.6代线启幕与AMOLED跨入IT领域的战略转折、大世代OLED的产业演进与战略机会、大世代FMM的国产化与技术挑战、IJP OLED技术进展与趋势、国产OLED红光材料的技术突破等 [8] - 演讲方包括行业研究机构(如TrendForce集邦科技)、主要面板制造商(如京东方、TCL华星、维信诺)以及上游材料与芯片厂商(如卢米蓝、联发科) [8]