多模态AI

搜索文档
昆仑万维正式发布Skywork Deep Research Agent v2
证券日报网· 2025-08-14 18:47
公司技术发布活动 - 昆仑万维于8月11日至15日启动SkyWorkAI技术发布周 每天发布一款新模型 覆盖多模态AI核心场景的前沿模型 已发布SkyReels-A3、Matrix-Game2.0、Matrix-3D、SkyworkUniPic2.0模型 [1] 多模态深度调研智能体 - 公司于8月14日正式发布SkyworkDeepResearchAgentv2 作为天工超级智能体的核心引擎 首次整合多模态检索理解和跨模态生成能力到深度研究工作 [1] - 该智能体自5月22日上线后大幅重塑大模型在AIOffice领域的角色 通过skywork.ai为用户产出大量信息密度极高的优质文档、PPT、表格及其他交付物 [1] 多模态技术突破 - 为实现多模态信息检索能力提升 公司在四个方面完成技术突破:多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行Multi-Agent多模态理解架构和多模态结果呈现能力 [2] - 通过技术创新使智能体实现"读文字+看图片"功能 让用户一次获得信息完整、节奏顺畅、视觉友好的深度报告 [2] 浏览器智能体技术优化 - 多模态深度浏览器智能体进行多项关键自研技术优化 包括升级DOM+视觉推理方案、主流平台专项适配、并行搜索、多动作规划机制、智能筛选、人机无缝接管与隐私保护 [2] - 该智能体模拟人类浏览与交互方式 革新传统数据采集与分析模式 可精准完成智能搜索、多模态信息分析与社区内容洞察 [3] - 有效解决传统浏览器智能体痛点 展示天工智能体在长周期任务与VLA任务中的巨大潜力 [3] 智能体性能提升 - 为加强复杂任务执行和信息检索整理能力 v2版本引入多种提升机制:高质量数据合成及训练、端到端强化学习、高效的并行推理、多智能体自我学习演进系统 [3] - 新版本在多项Agent任务评测上超越现有模型 达到行业SOTA水平 [3] - 在并行思考模式下 正确率随思考时间增加持续攀升 展现自研系统架构潜力与扩展性 [3]
中胤时尚跌2.77%,成交额1.08亿元,近5日主力净流入-1249.22万
新浪财经· 2025-08-14 17:33
公司股价表现 - 8月14日公司股价跌2.77%,成交额1.08亿元,换手率2.52%,总市值42.14亿元 [1] 业务亮点 - 公司在虚拟数字人领域拥有多项国际领先技术,包括3D数字人生成重建、AIGC+3D数字人AI跨模态实时交互等 [2] - 参股孙公司新畅元科技已推出第一代数字人产品"创视元",支持AIGC多模态内容生成 [2] - 童鞋设计和供应链整合业务收入占比10%-15%,鞋履设计覆盖全品类 [2] - 公司海外营收占比高达83.07%,受益于人民币贬值 [3] 财务数据 - 2025年一季度实现营业收入7898.53万元,同比增长4.96% [7] - 2025年一季度归母净利润-263.89万元 [7] - A股上市后累计派现8333.24万元,近三年累计派现5933.24万元 [8] 主营业务构成 - 供应链整合业务占比80.77% [7] - 设计业务占比10.62% [7] - 品牌运营业务占比3.56% [7] - 鞋履生产业务占比1.95% [7] - 文旅服务业务占比1.59% [7] - 其他业务占比1.51% [7] 股东情况 - 截至8月8日股东户数8700户,较上期增加3.57% [7] - 人均流通股27586股,较上期减少3.45% [7] 行业属性 - 所属申万行业为纺织服饰-服装家纺-非运动服装 [7] - 概念板块包括小盘、英伟达概念、虚拟数字人、融资融券、增持回购等 [7]
刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
机器之心· 2025-08-14 12:57
国产大模型开源趋势 - 7月国产大模型开源数量达33款,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等厂商密集发布开源模型 [1] - 8月延续技术发布热潮,昆仑万维启动"Skywork AI技术发布周",连续5天推出视频生成、世界模型、生图一体化等多模态模型 [1] 昆仑万维Agent技术突破 - 发布全球首款Office智能体"天工超级智能体",支持文档、PPT、Excel等多任务一站式生成 [3] - 升级Skywork Deep Research Agent至V2版本,在BrowseComp评测中常规模式正确率27.8%,并行思考模式跃升至38.7%刷新SOTA [4] - 在GAIA基准测试中超越所有竞品,平均得分83.39分,Level 1至Level 3得分分别为93.55/83.02/65.31 [6][9] 多模态深度调研创新 - 业界首创多模态深度调研Agent,突破纯文本检索局限,支持图片/图表信息识别与融合 [12] - 实测生成特斯拉中国销量报告时,分析180个网页/54个信源,自动整合折线图、柱状图、饼图等可视化数据 [20][21] - 采用四大核心技术:多模态爬取、长距离信息收集、异步并行Multi-Agent架构、多模态结果呈现 [27] 浏览器智能体技术革新 - Skywork Browser Agent突破传统瓶颈,支持社交媒体图文/视频/评论分析,实现65%冗余图片流量削减 [29][30] - 演示案例中自动生成《戏台》电影分析网页,完成豆瓣数据采集、HTML框架搭建、CSS设计及JS交互功能实现 [33][34] - 关键技术包括多模态推理模型优化、DOM解析增强、平台动作适配与并行搜索机制 [36] 智能基座构建策略 - 建立端到端深度信息问题合成流程,数据质量标准涵盖多样性/正确性/唯一性/可验证性/挑战性五大维度 [40] - 创新非对称验证强化学习,采用GRPO算法与动态课程学习机制,结合生成式密集奖励提升训练效率 [41] - 自研并行推理框架实现三大突破:并行思考模式、生成式评估方案、熵自适应剪枝技术 [42][43] - 多智能体演进系统通过MCP工具自动创建与协同框架,整合规划/调研/浏览器/数据分析等Agent能力 [44] 行业竞争格局演变 - AI行业重心从单一通用大模型转向开源生态与应用落地,Agent成为加速商业化部署的核心途径 [47][49] - 昆仑万维通过全栈式布局(基座模型+多模态系统+Agent产品矩阵)强化AGI/AIGC战略优势 [50]
对谈 Memories AI 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds
海外独角兽· 2025-08-13 20:03
文章核心观点 - Memoriesai致力于构建基础性视觉记忆层,目标是成为所有AI的"海马体",通过LVMM(大型视觉记忆模型)实现对无限量视频数据的压缩、索引和查询 [2][8][9] - 当前AI的记忆本质是"上下文工程",而真正的类人记忆应是视觉化的,视觉记忆与文本记忆在数据特性(数据量、信噪比)上存在根本差异 [13][14][18] - 构建PB级基础设施能力是打造全球视觉记忆的护城河,公司已建立亿级视频数据库并实现规模化运行 [28][29][30] - 视觉记忆技术将赋能多模态AI助手和人形机器人,成为实现高度个性化服务的关键组件 [21][39][40] Memoriesai的视觉记忆技术与多模态AI应用路径 - 公司定位为B2B基础设施提供商,通过LVMM系统解决视频数据特有的海量存储(单日视频数据超5GB)和低信噪比问题 [8][20][22] - 技术路径区别于text-to-video生成类公司,专注于video-to-text理解领域,解决B2B场景的长链路需求 [12][17] - 视觉记忆系统包含解压层、聚合模块和服务层,采用类脑架构模拟人类记忆的压缩、索引和检索机制 [27][28] LVMM的人类记忆模拟机制 - 系统设计受人类记忆类型(语义/程序性/情景记忆)启发,但尚未实现人类水平的连续学习和记忆重构能力 [25][26] - 关键技术突破包括:基于范式的token聚合、视觉检索模型(VRM)和亿级数据库的实时问答能力 [27][29] - 当前系统在信息重要性判断(retrieval & reranking)环节已接近人脑机制,但抽象能力仍存在差距 [26][27] 大规模视频记忆的基础设施与VRM技术路径 - 采用非端到端架构,通过分布式数据库处理增长性数据,技术路径区别于Gemini等有上下文限制的模型 [28][29] - VRM技术超越RAG(检索增强生成)框架,直接对视觉数据进行token化处理,要求更高的基础设施能力 [29][30] - 团队核心成员来自Meta Ads Team,具备处理亿级数据库的工程经验,实现从演示到规模化运行的跨越 [30] 视觉记忆技术的多行业应用 - 安防领域:实现实时行为检测,应用于商场人流量统计、餐厅翻台率等B2B场景,覆盖零售/楼宇/停车场等 [34][35] - 媒体领域:为短剧提供毫秒级人物信息分析、自动剧本生成和视频再利用解决方案,提升内容生产效率 [35][36] - 视频营销:建立TikTok视频索引库(超100万条),提供创意引擎和网红达人搜索服务,优化内容策略 [35][41] 视觉记忆技术的隐私合规与未来应用方向 - 通过SOC 2 Type 1/2和GDPR合规认证,建立受监管的数据处理体系 [38] - 未来最大应用场景为AI助手和类人机器人,通过视觉记忆实现人机情感连接和个性化服务 [39][40] - 现阶段聚焦B2B基础设施赋能,长期可能通过开源或示范应用推动生态建设 [40][41]
昆仑万维开源“Skywork UniPic 2.0”模型
证券日报网· 2025-08-13 14:16
公司动态 - 昆仑万维于8月11日至8月15日连续五天每天发布一款新模型,覆盖多模态AI核心场景的前沿模型,目前已发布SkyReels-A3、Matrix-Game2.0、Matrix-3D模型 [1] - 8月13日公司正式开源"Skywork UniPic 2.0"模型,该模型面向统一多模态建模的高效训练和推理框架,具备理解、生图、编辑一体化核心能力 [1] - "Skywork UniPic 2.0"及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等资源 [1] 技术架构 - 生图编辑模块基于SD3.5-Medium架构改进,支持文本和图像同时输入,通过训练扩展出生图、编辑双能力 [2] - 统一模型能力通过冻结生图编辑模块,连接多模态模型Qwen2.5-VL-7B和Pre-Train连接器,实现理解生成编辑一体化 [2] - 生图编辑后训练采用Flow-GRPO渐进式双任务强化策略,实现生成与编辑任务协同优化而不互相干扰 [2] 产品特性 - "Skywork UniPic 2.0"由生图编辑、统一模型能力、生图编辑后训练三个核心模块组成 [1] - 模型围绕生成和编辑模块轻量化设计,连接多模态理解模型进行联合训练 [1] - 技术目标为实现"高效、高质、统一"的多模态生成模型 [1]
港股科技ETF(513020)涨超2.5%,技术迭代与成本优化驱动AI视频产业扩容
每日经济新闻· 2025-08-13 13:53
AI视频生成技术进展 - AI视频生成技术在成本优化和内容创新方面取得显著进展 快手可灵通过技术迭代实现推理成本下降 阿里Wan2.2的MoE架构可节省50%计算消耗 [1] - 行业普遍采用此类技术将降低用户使用成本并提升渗透率 AI参与度从50%提升至80% 真人实拍环节也可被AI工具替代 [1] - AI漫剧生成和转绘等新形态推动内容市场扩容 测算显示AI视频潜在空间达416亿美元 其中B端商业化空间约397亿美元(渗透率20%) P端创作者市场约38亿美元 [1] 行业趋势 - 视频时长延伸 年内或达1分钟 成本下降带动"更好更便宜" 新内容品类扩充供给 [1] - 技术突破与成本优化将加速产业趋势 尤其看好多模态AI应用出海布局的公司 其商业化进程或更快 [1] 港股科技ETF - 港股科技ETF(513020)跟踪的是港股通科技指数(931573) 该指数主要覆盖通过港股通渠道可投资的科技相关企业 [1] - 成分股以非必需性消费行业为主 同时涵盖汽车 药品及生物科技 资讯科技器材等多个恒生二级行业 旨在反映市场中科技板块的整体表现 [1] 基金产品 - 没有股票账户的投资者可关注国泰中证港股通科技ETF发起联接C(015740) 国泰中证港股通科技ETF发起联接A(015739) [2]
昆仑万维“Matrix-Game 2.0”发布
证券日报· 2025-08-12 21:38
公司技术发布活动 - 昆仑万维于8月11日至15日启动SkyWorkAI技术发布周 每日发布一款新模型 覆盖多模态AI核心场景的前沿模型 [2] 新模型技术特性 - 8月12日发布自研世界模型Matrix系列升级版本Matrix-Game2.0 实现通用场景下交互式实时长序列生成 [2] - 模型以25FPS速度在复杂场景中稳定生成连续视频内容 生成时长扩展至分钟级 大幅提升连贯性与实用性 [2] - 在推理速度显著提升的同时保持对物理规律与场景语义的精准理解 支持用户通过简单指令实时构建虚拟环境 [2] 技术开源与行业影响 - Matrix-Game2.0全面开源 是业内首个通用场景实时长序列交互式生成的世界模型开源方案 [2] - 打破内容生成与交互壁垒 为虚拟人、游戏引擎、具身智能等前沿应用提供技术基座 [3] - 生成跨场景长时视频并保持时序一致性 支持连续指令输入 成为游戏创作、虚拟现实和智能交互系统的理想解决方案 [3]
卫星互联网建设持续提速,GPT5正式发布,持续看好相关产业投资机会
长城证券· 2025-08-12 14:10
行业投资评级 - 通信行业维持"强于大市"评级 [4] 核心观点 - 卫星互联网建设持续提速,进入密集组网期,2025-2026年主要星座将迈入发射加速阶段 [6][20][21] - GPT5正式发布,在长文本处理、编程能力和计算效率方面较前代有明显提升 [2][3][18] - 持续看好算力产业链和商业航天相关投资机会 [6][19][21] 行业动态 - 通信(申万)指数本周上涨1.30%,跑赢沪深300指数0.07个百分点 [13] - 在TMT子板块中,通信板块涨跌幅居第三位,最新市盈率为21.84倍 [14][15] - 重点推荐组合包括中国移动、中际旭创、天孚通信等20余家公司 [8][22] GPT5技术进展 - 推出4个版本,包括GPT-5、GPT-5 mini、GPT-5 nano和GPT-5 Pro [2][17] - 在解决复杂问题时token消耗减少50%-80%,计算效率显著提升 [2][18][29] - 上下文能力提升至400k,大海捞针测试准确率比o3提升近一倍 [3][18][36] - 编程能力较前代有明显提升,但与Claude 4.1 Opus差距仅0.3% [3][32] 卫星互联网进展 - 7月27日至8月4日完成三次发射任务,将三组低轨卫星送入太空 [40][41][42] - GW星座规划发射12992颗卫星,已完成多个批次发射 [44][46] - 蓝箭航天启动科创板IPO辅导,规划10000颗卫星星座 [7][48][53] - 朱雀二号2025年预计交付6发,朱雀三号计划执行3次发射任务 [21][50][53]
三态股份股价上涨2.36% 跨境电商业务受关注
金融界· 2025-08-12 01:48
股价表现 - 最新股价为9 56元 较前一交易日上涨0 22元 [1] - 当日开盘价为9 32元 最高触及9 57元 最低下探至9 32元 [1] - 成交量为19 84万手 成交金额达1 88亿元 [1] 公司业务 - 专注于跨境电商业务 主要经营贸易行业相关业务 [1] - 业务涉及多模态AI和AIGC等领域 [1] - 注册地位于广东省 [1] 资金流向 - 当日主力资金净流入141 5万元 占流通市值的0 07% [1] - 近五个交易日内 主力资金累计净流出5629 59万元 占流通市值的2 69% [1]
昆仑万维正式发布SkyReels-A3模型
证券日报网· 2025-08-11 12:48
公司动态 - 昆仑万维于8月11日正式发布SkyReels-A3模型,该模型基于DiT视频扩散模型、插帧模型、强化学习动作优化和运镜可控技术,能够实现全模态音频驱动数字人创作 [1] - SkyReels-A3模型已正式上线,可支持任意时长的音频驱动内容创作,提升个性化、交互式内容的创作效率 [1] - 公司启动SkyWork AI技术发布周活动,计划在8月11日至15日期间每天发布一款新模型,涵盖视频生成、世界模型、生图一体化、智能体和AI音乐创作等多个AI核心场景 [1] 技术特点 - SkyReels-A3是一款音频驱动人像视频生成模型,能够实现照片或视频中人物根据语音内容开口说话、唱歌或表演 [2] - 该模型支持替换原视频音频并自动调整人物口型、表情和表演,保持画面连贯性 [2] - 针对直播带货等应用场景,公司优化了视频生成的一致性和特定交互动作的自然度 [2] - 针对音乐MV、电影片段等场景,公司开发了基于ControlNet结构的镜头控制模块,可实现帧级别精准运镜控制 [2] 技术验证 - SkyReels-A3的性能已通过广泛实验验证,包括与现有最先进开源和闭源模型的定量和定性比较 [3]