Workflow
刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器

国产大模型开源趋势 - 7月国产大模型开源数量达33款,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等厂商密集发布开源模型 [1] - 8月延续技术发布热潮,昆仑万维启动"Skywork AI技术发布周",连续5天推出视频生成、世界模型、生图一体化等多模态模型 [1] 昆仑万维Agent技术突破 - 发布全球首款Office智能体"天工超级智能体",支持文档、PPT、Excel等多任务一站式生成 [3] - 升级Skywork Deep Research Agent至V2版本,在BrowseComp评测中常规模式正确率27.8%,并行思考模式跃升至38.7%刷新SOTA [4] - 在GAIA基准测试中超越所有竞品,平均得分83.39分,Level 1至Level 3得分分别为93.55/83.02/65.31 [6][9] 多模态深度调研创新 - 业界首创多模态深度调研Agent,突破纯文本检索局限,支持图片/图表信息识别与融合 [12] - 实测生成特斯拉中国销量报告时,分析180个网页/54个信源,自动整合折线图、柱状图、饼图等可视化数据 [20][21] - 采用四大核心技术:多模态爬取、长距离信息收集、异步并行Multi-Agent架构、多模态结果呈现 [27] 浏览器智能体技术革新 - Skywork Browser Agent突破传统瓶颈,支持社交媒体图文/视频/评论分析,实现65%冗余图片流量削减 [29][30] - 演示案例中自动生成《戏台》电影分析网页,完成豆瓣数据采集、HTML框架搭建、CSS设计及JS交互功能实现 [33][34] - 关键技术包括多模态推理模型优化、DOM解析增强、平台动作适配与并行搜索机制 [36] 智能基座构建策略 - 建立端到端深度信息问题合成流程,数据质量标准涵盖多样性/正确性/唯一性/可验证性/挑战性五大维度 [40] - 创新非对称验证强化学习,采用GRPO算法与动态课程学习机制,结合生成式密集奖励提升训练效率 [41] - 自研并行推理框架实现三大突破:并行思考模式、生成式评估方案、熵自适应剪枝技术 [42][43] - 多智能体演进系统通过MCP工具自动创建与协同框架,整合规划/调研/浏览器/数据分析等Agent能力 [44] 行业竞争格局演变 - AI行业重心从单一通用大模型转向开源生态与应用落地,Agent成为加速商业化部署的核心途径 [47][49] - 昆仑万维通过全栈式布局(基座模型+多模态系统+Agent产品矩阵)强化AGI/AIGC战略优势 [50]