Agent(智能体)
搜索文档
39岁一线“新中产”:坚定看多A股,希望早日实现“FIRE计划”| 在春天许一个愿望
新浪财经· 2026-02-23 09:11
行业趋势与劳动力市场 - 全球主要科技公司在市场环境变化、成本压力及人工智能投资加速背景下持续重塑其劳动力[1] - 谷歌在2024年10月裁减了100多个与设计相关职能的职位[1] - 亚马逊确认计划裁员约14000名企业员工作为大规模组织变革的一部分[1] 人工智能技术发展与应用 - AI技术应用不断落地,DeepSeek等大语言模型在国内引发关注[2][5] - 智能体(Agent)的核心是大语言模型,在软件开发领域可帮助编写代码、生成测试方案以提高开发效率[2] - 各大厂对Agent项目的竞争加剧,从小组负责1-2个项目变为每个组同时跑5-6个项目,个人负责项目数量增加[3] 科技行业工作环境与人才流动 - 互联网大厂存在高强度工作模式,包括朝九晚十、996及24小时待命[1] - 行业中存在“35岁毕业”的年龄压力[1] - 懂AI系统的年轻人被竞品以双倍薪资挖走,显示人才争夺激烈[2] - 项目竞争导致工作氛围紧张,从小组协作变为个人独立作战[3] 个人投资者策略与市场观点 - 投资者因感受到科技浪潮“山雨欲来”及对美股估值担忧,在2024年中开始将资金从美股转入A股[5] - 资产配置包括将四成仓位放在股份制银行作为“基本盘”[5] - 重仓6-8只科技个股,包含龙头股及市值不足100亿的“隐形冠军”[6] - 使用自行编写的程序对个股基本面及资金流向进行数据分析以辅助决策[6] - 投资者曾受益于美股“十年长虹”,早期以十几美元价格投资特斯拉和英特尔等科技龙头股[5] - 其资产转移使其躲过了2025年初的美股暴跌[5] 科技浪潮与投资主题 - 自ChatGPT横空出世后,国内DeepSeek接过接力棒,标志新一轮科技浪潮[5] - 投资者希望新兴科技资产成为A股的中流砥柱[6]
Altman承认“搞砸了”!曝 GPT-5.2 牺牲写作换顶级编程,明年成本降 100 倍,实锤Agent 已能永久干活
AI前线· 2026-01-27 11:50
OpenAI战略方向与模型发展蓝图 - OpenAI正在引领行业进入一个智力成本极低、软件形态从“静态”转向“即时生成”的剧变期[4] - 公司承认在GPT-5.2的研发中“搞砸了”写作能力的优先级,将有限算力资源倾斜于推理、编码和工程能力等硬核智力指标[4][8] - 公司战略重心是通过Scaling Law先攻克人类智力的最高地带,再回头填补审美和表达的细节,最终在全维度实现“智力平权”[5] - 公司目标是到2027年底,让GPT-5.2级别的智力成本至少降低100倍[5][11] - 公司认为智力是一种“可塑的资源”,当模型具备顶级推理引擎后,写作等能力的回归只是时间问题[5][9] 成本、速度与未来软件形态 - 市场出现微妙转向,开发者对“速度”的渴求正在超越对“成本”的关注,特别是当智能体处理长程任务时[6][11] - OpenAI未来可能提供两种路径:一种是极致廉价的“智力自来水”,另一种是极速反馈的“智力推进器”[6] - 未来的软件不应是静态的,计算机应能直接生成“即时应用”来解决特定问题,形成“随需随生、用完即弃”的模式[6][7] - 软件将根据用户习惯进行极致定制,工具会不断进化并向个人需求收敛,最终形成独属于个人的、动态进化的生产力系统[7][12] - 在OpenAI内部,员工已习惯用编程模型来定制自己的工作流,每个人的工具都完全不同[12] 对创业者与开发者的建议 - 建立成功初创公司的核心规则未变,仍需解决获客、市场策略、创造粘性及形成网络效应等问题[13] - 创业者应构建“模型越强,产品就越强”的业务,避免只在模型边缘做“小补丁”[13] - 对于智能体执行长流程任务,开发者应先拆解任务,让智能体能够自我验证每一个中间步骤,再逐步扩大其职责范围[14] - 目前通过SDK运行的特定任务已经可以近乎永久地运行下去,实现长期自主运行的关键在于任务复杂度和理解深度[13][14] AI的能力边界与科研应用 - AI模型本质上是一个“通用推理引擎”,未来的里程碑是模型能通过一次解释或自主探索,极其可靠地学会使用全新的环境、工具或技术[16] - 当前的AI对科学家而言像是“无限量的博士后”,能帮助同时探索多个新问题,进行广度搜索[17] - 实现完全闭环的自主科研仍有很长的路要走,顶尖研究者仍需深度参与以纠正模型的直觉偏差[17] - 在物理实验方面,倾向于构建一个由全球科研社区贡献实验数据的、更分布式、更聪明、更高效的科研生态,而非公司自建自动化实验室[17] - GPT-5.2已经让内部科学家感受到了非平庸的科学进展[15] AI安全与治理范式转变 - 在AI安全,尤其是生物安全领域,世界需要完成一次根本性的转变:从“封堵”转向“韧性”[19] - 类比火灾安全,社会需要制定规范、发明阻燃材料并建立体系来提高对AI潜在风险的韧性,而非仅仅试图禁止或限制[19] - AI在生物恐怖主义和网络安全方面会成为真实的问题,但同时也是这些问题的重要解决方案[19] - 如果2026年AI出现一次“明显、严重”的失败事件,生物安全是一个相当合理的“风险爆点”方向[20] - 需要全社会层面的努力来建设具有韧性的基础设施,而非依赖少数受信任的实验室封堵风险[20] AI对社会协作与教育的影响 - 在一个充满AI的世界里,人与人之间的连接会变得更有价值,而不是更没价值[24] - AI会以前所未有的方式让多人协作成为可能,例如五人团队与一个AI共同工作,生产力会被大幅放大[24] - 总体上反对在幼儿园阶段使用电脑和AI,认为该阶段应注重户外活动、接触真实物体和人际互动[30] - 当前的教育体系需要改变教学和评估思考能力的方式,以适应AI工具的存在,而非假装其不存在[23] - 那10%极端自学能力很强的学习者已表现出色,需要找到新方式重构课程体系以带动其他学生[23] Agent大规模部署的潜在风险 - 随着智能体开始大规模运行并直接操作生产系统,最被低估的风险是人们因其强大的能力和便利性而放松警惕[25][26] - 工具的失败概率可能很低,但一旦失败,后果可能是灾难性的,例如在系统中埋下安全漏洞[26] - 随着模型变强、变复杂,如果存在微妙的错位或在长期使用后出现新的系统性问题,风险会加剧[26] - 围绕构建整体性的安全基础设施,本身值得诞生一家伟大的公司[28] - 人们可能会习惯并信任某个阶段的模型行为,却没有构建足够健全的安全设施,从而在不知不觉中走向危险状态[26][27]
为什么是这10个词,定义了2025年AI叙事
钛媒体APP· 2025-12-31 08:05
文章核心观点 - 2025年是AI技术从理论走向深度应用与产业爆发的关键一年,AI从聊天工具演变为具备深度推理能力的智能体,并驱动了从大模型竞争到算力军备竞赛的全面变革 [2] - 行业竞争格局被打破,以DeepSeek为代表的国产力量崛起,改变了OpenAI旗下ChatGPT独步全球的局面,将竞争焦点引向应用推理效率与算力估值 [2] - 每一个年度热词都标志着人类向通用人工智能(AGI)迈进的坚实步伐 [2] AI技术演进与能力突破 - **多模态能力爆发**:AI拥有了视听感官,从演示阶段走向成熟应用,例如Sora 2.0、Veo 3等模型生成的视频画质可媲美电影,并应用于视频游戏交互场景 [4] - **端侧多模态受青睐**:苹果与高通发布AI芯片,使AI能在手机端离线运行;植入AI眼镜的摄像头可借助多模态实时分析环境并提供语音服务 [4] - **推理能力质变**:“推理”指大模型通过强化学习和思维链获得慢思考与自我纠错能力,例如DeepSeek-R1、OpenAI o3/o4-mini模型在AIME等逻辑测试中逼近满分 [7] - **智能体(Agent)成为核心**:2025年被视为“智能体元年”,以Agent为核心的系统化AI被公认是释放生产力的关键,AI初创公司Manus凭借通用任务处理能力迅速实现1亿美元年度经常性收入 [12] 关键参与者与市场格局 - **OpenAI保持技术灯塔地位**:尽管面临竞争,其估值增长迅猛,3月完成软银领投的400亿美元融资后估值达3000亿美元,9月在迪士尼10亿美元股权投资后估值冲上5000亿美元,成为全球估值最高独角兽 [8] - **ChatGPT维持领先地位**:完成从聊天工具到全能交互中心的跨越,依旧是全球用户规模最大的AI应用,周活跃用户数突破8亿,付费用户数突破2000万 [5] - **DeepSeek成为最大黑马**:凭借DeepSeek-R1模型以不足30万美元的训练成本实现比肩国际顶尖模型的能力,其独特的MLA架构与FP8混合精度训练大幅拉低了大模型推理成本 [9] - **英伟达巩固算力霸主地位**:作为AI经济的核心与地缘政治杠杆,其Blackwell架构芯片(如GB200/GB300)大规模量产,占据高端GPU出货量的80%以上,并于10月成为全球首家市值突破5万亿美元的公司 [2][6] 算力基础设施与供应链 - **GPU成为硬指标**:几乎所有AI重大突破都建立在GPU供给之上,围绕GPU供应链安全、自研AI芯片和国产替代的讨论成为高频话题 [2] - **算力竞争白热化**:英伟达Blackwell执掌霸权,AMD凭借MI325X和MI350系列强化在推理市场的贡献 [10] - **国产算力崛起**:迎来上市元年,摩尔线程和沐曦股份已登陆科创板,壁仞科技即将冲击港股,标志着国产算力迈向商业化量产拐点 [10] 前沿应用与产业融合 - **机器人站上风口**:因“具身智能”而兴起,从年初宇树科技等人形机器人亮相春晚完成复杂歌舞,到年底英伟达发布开源VLA模型Alpamayo-R1,机器人已成为集成物理AI、具备多模态感知与自主决策能力的实体 [11] - **Agent验证商业前景**:Meta收购Manus,验证了Agent技术的巨大商业潜力,为年度AI热点画上句号 [12]
AI浪潮下的Agent突围:供应链优化如何打通数据孤岛?
21世纪经济报道· 2025-09-30 21:49
AI Agent在供应链领域的应用前景与核心价值 - AI Agent被视为推动人工智能深入业务场景、实现效率跃迁的核心抓手[1] - 行业需要全链条协同智能以释放供应链最大价值,而非单点优化[1] - 供应链领域是AI场景落地最关键领域之一,挑战在于将技术转化为跨企业、跨行业、跨领域的协同行动[1] 当前AI应用落地的主要挑战与“影子AI”现象 - 尽管90%的企业员工高频使用通用大模型,但仅5%的企业能获得可量化的商业回报[2] - 95%的企业AI投入陷入“打水漂”境地,核心症结在于通用大模型与企业实际业务需求脱节[2] - 通用大模型难以完成从“提供思路”到“解决问题”的转化,例如在仓库运营中仍需大量人工介入[2] 供应链智能体的具体实践与效率提升 - 神州控股旗下科捷发布供应链智能体“小金”,致力于破解通用大模型与企业个性化需求之间“最后一公里”难题[3] - 该应用可覆盖80%以上的数据查询场景,将日常查询效率提升90%[3] - AI与大数据技术能促进跨境电商、国际物流、金融结算等环节无缝衔接,推动服务贸易全链条提质增效[3] 市场规模与企业需求 - 全球生成式AI市场规模未来将触及10万亿美元,各行业对智能化转型存在迫切需求[4] - 供应链正成为私域领域的可信大数据风口,需要汇聚过去形成的信息孤岛数据[3] - 企业面临外部环境不可预测与客户需求急迫的双重压力,供应链从弹性变得越来越紧绷[5] 行业对AI解决方案的具体期望与现状 - 企业需要从响应式解决方案转向可预测性方案,这必须依赖大数据或AI强力支持[5] - 供应链计划准确率即便达到70%以上依然不够,企业希望有一键解决的AI方案进一步提高效率[5] - 未来行业竞争主战场将聚焦于“AI应用工艺”,尤其是能解决实际业务问题的工业化落地能力[5] 人才培养与产学研合作 - 高校正加快培养数字加交通的复合型人才,例如设立供应链管理、大数据管理与应用等专业[6] - 产学研合作推动打破数据孤岛,构建跨部门、跨区域、跨行业的数据流通机制[6] - 合作旨在攻克共性技术,在交通与物流等领域形成自主可控的技术体系,推动数字技术从实验室走向实际应用[6]
天风证券计算机首席缪欣君:B端智能体落地转折点将近
上海证券报· 2025-09-26 02:14
核心观点 - 2026年一季度有望成为中国to B Agent市场的转折点 阿里云等行业巨头将显著受益并带动生态链蓬勃发展[2] 市场需求因素 - Agent投资回报率ROI明确化成为重要支撑因素 美国市场Tokens价格下降已成确定性趋势 从成本结构上决定企业采用Agent的更强意愿[3] - 国内企业此前对Agent软件付费意愿较弱 但随着模型API调用价格进一步下滑 Agent将提供更明确成本优势 ROI将上行[3] 产品供给因素 - 技术进步带来交付能力提升 使更优质Agent产品进入市场[4] - Agent与传统软件最显著区别在于交付能力 例如金融数据提取场景中 Agent可根据自然语言指令直接反馈结果 避免复杂操作流程[4] - 本土模型能力在DeepSeek-R1发布后呈上扬趋势 预计2024年底或2026年初再次迎来攀升 Agent交付能力将进一步加强[4] 一级市场因素 - 从2024年二季度开始 一级市场相关资本投入与产品创新进入新阶段 约半年后就会看到成果[5] - 产品化是工程问题 正常情况下不需要特别长时间[5] 落地场景分析 - Agent产品将在法律 金融 客服等场景率先落地 因数据更易标准化且人力成本较高 使ROI更高[5] - ROI高 数据可标准化的场景更容易被跑通[5] 行业竞争格局 - 阿里云等在模型能力 硬件能力与生态建设能力上保持领先的行业巨头将占据优势地位[5] - 上游大模型公司将受益 行业巨头将带动整条生态链蓬勃发展[5] 硬件生态优势 - 行业巨头具备自主芯片能力可极大降低推理成本 芯片成本约占AI云服务整体营业成本的60%至70%[6] - 芯片实现自营后 公司云服务整体毛利率将受到大幅提振[6] - 参考谷歌TPU发展路径 国产巨头可能在自主硬件生态成熟后开始对外输出[6] 软件生态优势 - 行业巨头模型种类更丰富 合作伙伴更多 更容易触达B端客户[6] - Agent解决方案底层往往由多个大模型产品共同组成[6] - 巨头模型能力和训练底座更完善 能更多与生态伙伴展开MaaS产品集成与被集成合作 更容易做到场景know-how[6]
热议WAIC⑤ | 热钱还在涌入,Agent替代打工人还要多久?
搜狐财经· 2025-07-30 19:03
行业现状与趋势 - Agent成为2025世界人工智能大会的热点话题 多家企业展示从数字员工到行业助手的相关产品 [1] - 行业调查显示超过50%的公司已在生产环境中部署Agent 近80%的公司正在开发中 [3] - 国际创投数据显示Agent成为2025年种子轮投资主要趋势 AI Agent初创公司截至2025年6月总共筹集约7亿美元 [3] - 市场咨询机构预测到2027年末超过40%的代理型AI项目可能因成本攀升和商业价值不明确被取消 [8] 技术应用与商业化 - 垂类Agent在特定领域更受关注 业务明确且数据扎实的解决方案更容易获得商业化订单 [2] - 京东云开源JoyAgent智能体框架 GitHub上线三天获得1000颗星标 显示开发者热情高涨 [3] - 百度智能云推出形象化数字员工 负责金融、科技、汽车等垂直行业的具体任务 [3] - 企业更倾向将Agent作为辅助工具而非完全替代 重点应用于信息收集、初步撰写和数据分析等重复性工作 [5][6] 实施挑战与瓶颈 - 企业面临数据清洗复杂、语义难准和行业语料稀缺等难题 向量化数据质量直接决定场景理解能力 [2] - 存在技术进步速度与应用落地之间的差距 现实场景对稳定性、责任边界和数据安全有高要求 [5] - 部分Agent存在基础能力缺陷 如无法区分同义词不同语境(Apple公司与苹果水果) [7] - 虽然产品生态多元但尚未出现爆款 企业缺乏构建用户黏性壁垒的能力 [9] 创新方向与发展路径 - AI硬件创业者尝试将Agent与硬件结合 出现教育类和陪伴类智能体硬件产品 [9] - 技术应用方向聚焦特定场景、专业术语和精准交付 而非完全替代人类 [5] - 核心价值在于改变人机协作范式 在具体任务中承担部分工作量并提升企业效率 [1][4]
WAIC观察|Agent替代打工人还要多久?
第一财经· 2025-07-30 14:09
Agent行业现状 - Agent成为2025世界人工智能大会(WAIC)的热词,京东、百度、蜜度、亚马逊等企业均有相关产品展示 [1] - LangChain调查显示超过50%的公司已在生产环境中部署Agent,近80%正在开发中 [4] - 国际创投数据库Crunchbase显示,截至2025年6月AI Agent初创公司总共筹集约7亿美元 [4] 垂类Agent发展 - 垂类Agent相比通用Agent更受关注,因其业务明确、数据扎实且更容易锁定商业化订单 [2] - 蜜度针对舆情、公文写作、校对场景推出三个智能体新品,使用十多年积累的行业语料 [2] - 百度智能云推出"数字员工"形象,如"产品经理胡馨月"负责金融、科技等垂直行业任务 [4] 技术挑战 - 企业面临数据清洗复杂、语义难准、行业语料稀缺等难题,向量化处理质量直接影响Agent效果 [3] - 需要团队基于专业积累进行判断,没有捷径可走 [3] - 部分智能体存在基础理解问题,如分不清Apple公司和苹果水果 [7] 商业化尝试 - 京东云开源JoyAgent智能体,上线GitHub三天收获1000颗星标 [3] - AI硬件创业者尝试将Agent与硬件结合,如京东展出的教育类、陪伴类智能体硬件 [9] - Gartner预测到2027年末超过40%的代理型AI项目可能因成本、价值或风险问题被取消 [8] 行业观点 - 企业更倾向将Agent作为辅助工具而非替代品,关键判断和责任环节仍需人工把控 [5][6] - 当前存在技术进步速度与应用落地之间的gap,涉及稳定性、责任边界和数据安全 [5] - 真正有价值的Agent应在特定场景合理"出场",而非追求完全替代人类 [13]
李彦宏说的「MCP」,还有人不知道吗?
36氪· 2025-04-28 17:44
核心观点 - MCP(Model Context Protocol)作为AI领域的统一协议,正在推动AI应用生态的标准化和开放化,有望引发2025年AI应用大爆发 [5][9][10] - MCP通过定义大模型与外部工具交互的标准接口,显著降低AI应用开发门槛,开发者无需再为不同工具编写适配代码 [12][14][20] - 全球科技巨头(OpenAI、谷歌、Meta、阿里、腾讯等)已全面接入MCP协议,推动形成统一生态,全球MCP服务器数量超4000个且快速增长 [8][20][25] - MCP的开放性与抽象性使其成为行业共识,对比OpenAI封闭的GPTs商店策略,MCP更符合开发者需求和技术演进方向 [29][30] MCP协议定义与价值 - MCP全称Model Context Protocol,是由Anthropic于2024年11月推出的开放标准,相当于大模型的"万能插座",统一数据源与工具的交互语言 [12][13] - 核心价值在于标准化:服务方(如高德地图、微信读书)维护MCP服务器,开发者可直接调用,代码复用率提升80%以上 [7][14][20] - 典型应用场景:AI旅游助手开发中,MCP使地图查询、攻略检索等功能调用效率提升3倍,Token消耗减少50% [16][19][20] 行业生态发展现状 - 2025年2月起,Cursor、VSCode等主流开发工具支持MCP协议,3月OpenAI/谷歌相继接入,标志大模型厂商战略转向开放生态 [24][25][26] - 国内阿里云魔搭社区等平台已整合MCP服务,百度李彦宏将当前MCP开发类比"2010年移动APP开发"的黄金期 [5][18] - 现存问题:部分MCP服务器功能不完善(如某度地图仅20个工具)、文档缺失,非官方服务的稳定性与安全性存疑 [21][22] 技术对比与竞争格局 - 相比OpenAI的Function Calling,MCP将工具调用封装为"乐高积木"式模块,开发效率提升60%且兼容任意AI模型 [17][29] - OpenAI封闭式GPTs商店策略失败:商店中70%应用为低质套壳,商业化受阻;MCP开放路线重新赢得开发者 [28][30] - Anthropic通过MCP实现生态逆袭,OpenAI/谷歌等被迫跟进,行业进入"开放协议主导"的新阶段 [27][30] 市场影响与未来预期 - MCP协议推动AI应用从"散点创新"转向规模化爆发,2025年有望出现首个用户破亿的AI超级应用 [8][10] - 协议标准化使AI应用开发周期缩短40%,初创公司Manus等先行者已验证商业可行性 [6][18][20] - 长期博弈点:大厂核心数据开放程度将决定MCP生态上限,目前工具调用深度仍受厂商限制 [21][22]
李彦宏说的「MCP」,还有人不知道吗?
36氪· 2025-04-28 09:26
MCP协议概述 - MCP全称为"Model Context Protocol",是一种允许大模型标准化调用外部工具的开放协议 [6] - 该协议由Anthropic于2024年11月首次推出,2025年2月开始全球范围快速普及 [6][12] - 类比为给大模型安装"万能插座",统一不同工具间的交互标准 [6] 行业应用现状 - 高德地图、微信读书等应用已推出官方MCP服务器供开发者调用 [2] - OpenAI、谷歌、Meta及国内BAT等科技巨头均宣布支持MCP协议 [2] - 全球已有超过4000个MCP服务器上线,数量持续快速增长 [12] 技术价值 - 解决大模型与外部工具交互缺乏统一标准的问题,提升代码复用性 [11] - 开发者无需维护工具性能,只需专注应用开发,工作量减少50%以上 [12][13] - 支持云端/本地多种部署形式,不限制底层模型类型 [19] 生态发展 - Cursor、VSCode等主流开发工具2025年2月起支持MCP协议 [16] - OpenAI于2025年3月27日宣布支持,成为生态转折点 [16] - 对比封闭的GPTs商店,MCP开放特性更受开发者青睐 [18][19] 现存挑战 - 部分MCP服务器工具不足20个,存在功能不完善问题 [15] - 非官方维护的服务器存在安全性和稳定性风险 [12][15] - 大厂商可能保留核心数据接口,未完全开放能力 [15] 行业影响 - 被类比为AI领域的"秦始皇统一标准",可能引发2025年AI应用爆发 [4][5] - 促使大模型厂商从封闭生态转向开放合作战略 [17][21] - 开发门槛降低使AI应用创新从"星星点点"转向规模化发展 [3][5]
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
AI科技大本营· 2025-04-27 15:12
大模型技术演进 - 大模型作为产业变革核心引擎,通过RAG、Agent与多模态技术重塑AI与现实的交互边界,推动行业从效率革新迈向业务重构 [1][2] - RAG突破大模型静态知识边界,解决数据时效性、隐私安全与专业适配等关键难题 [2][12] - Agent重构人机协作范式,具备自主决策与多任务协同能力 [2][5] - 多模态大模型解锁复杂场景落地潜力,实现跨模态语义理解 [2][6] RAG技术 - RAG通过外挂实时知识库解决大模型知识固定、数据隐私、可解释性及成本优化问题 [12][14][15][16] - 相比传统生成模型,RAG支持动态知识更新、答案可追溯至检索文档,适用于需事实性支持的场景 [17][19] - RAG构建面临文本向量化、多模态文档处理及可控检索等挑战,需优化分块策略与检索架构 [20][21][23][27] - 未来方向包括多模态文档统一处理范式与记忆驱动RAG,后者利用LLM的KV缓存实现动态索引 [28][32][34] Agent技术 - Agent通过感知层、决策层、执行层形成自主性系统,结合LLM、规划与工具实现复杂任务处理 [39][42] - 分为自主智能体(任务执行)与生成智能体(内容创作),MetaGPT和AutoGen为当前主流框架 [44][49][50][52] - Multi-Agent系统通过分布式协作解决非线性动态任务,提升容错能力与资源管理效率 [53][56][58] - 行业应用需突破任务解构、动态环境适应及价值观对齐等难点,采用元学习、联邦学习等技术优化 [59][62][63] 多模态大模型 - 紫东太初项目将目标检测、分割等CV任务统一到图文大模型,增强局部感知能力,在RefCOCO等任务中精度超越专有模型 [67][69][73][74] - 360研究院开放世界目标检测技术提升图像理解与语义融合能力,应用于自动驾驶等领域 [78][79][83] - 腾讯视频号审核系统融合多模态内容理解与文本RAG,通过垂类大模型与分甬道审核提升效率 [84][85][88][92][96] 未来趋势 - 算法层面向全模态能力发展,产品层面涌现人机协同复杂系统,领域层面与垂类场景深度结合 [98][100][103] - RAG、Agent与多模态将深度融合,形成感知-认知-决策闭环,催生手术机器人等新一代产业智能体 [100]