多模态AI
搜索文档
美团两大技术高管联合创业,推出全球首款多模态 AI 穿戴设备|36氪首发
36氪· 2025-08-20 09:00
融资情况 - 公司在半年内完成天使轮、天使+轮和Pre-A轮三轮融资 融资金额共计超千万美元 [1] - 本轮融资由EBVC领投 老股东BAI、阿尔法公社和同歌创投超额追投 [1] - 融资资金将用于持续打造产品和团队 [1] 产品特性 - 初代产品L1售价199美元 全球发货将于2025年9月开始 [2] - 产品重量仅30g 采用磁吸佩戴方式 主打胸前佩戴拍摄视频 [2] - 产品具备12小时续航能力 支持全天候生活记录 [2] - 产品通过多模态信息感知融合技术 能对场景、人物动作、语音等信息进行智能分析 [2] - 产品具备故事模式(Story Mode)功能 可实现智能化间隔拍摄 [2] 技术架构 - 产品采用AI原生多模态架构 具备感知-理解/决策-生成的全链路能力 [2] - 产品能自主感知物理世界 实现以人为中心的个性化AI交互 [2] - 系统通过建立Personal Context层来提供Personal AI和各种Agent服务 [4] 应用场景 - 可为用户推送高光时刻 自动剪辑每日vlog [2][4] - 支持卡路里摄入量查询 健身进度记录等健康管理功能 [4] - 具备情感分析能力 可帮助用户分析情绪并提供沟通建议 [4] 战略定位 - 产品被定义为全球首款多模态AI穿戴设备 [5] - 公司核心目标是构建以人为中心的AI交互入口 [5] - 公司认为下一代AI硬件的核心是定义人和AI的关系 [5] - 公司优先考虑如何让AI发挥全部潜能 硬件形态选择居次要地位 [5] 团队背景 - 两位创始人均毕业于卡内基梅隆大学 [6] - CEO曾任美团智能硬件负责人、Momenta高级研发总监、Google Assistant创始成员 [6] - CTO曾任美团自动驾驶算法负责人、Pony.AI创始成员 [6] - 团队成员来自多伦多大学、浙江大学、伦敦政经学院等知名学府 [6] - 团队成员曾就职于Google、Amazon、Qualcomm、字节等知名企业 [6]
对话心影随形刘斌新:AI产品不要和短视频、游戏抢用户
36氪· 2025-08-19 18:36
公司背景与创始人 - 心影随形创始人刘斌新(Binson)曾担任B站副总裁、百度副总监、360助理总裁,具有大厂高管背景,于2023年创业 [5][6] - 公司核心产品"逗逗游戏伙伴"是一款桌宠形态的AI陪玩产品,主打游戏场景实时陪伴,注册用户达800万,MAU超200万 [6][7] - 创始人强调不做与用户抢时间的AI产品,因移动互联网红利结束,用户时间已被短视频和游戏占据 [6] 产品与技术 - 逗逗游戏伙伴1.0版本实现多模态突破,可实时识别游戏画面并理解进度、状态,提供语音互动 [7] - 产品留存率与头部游戏相当,用户日均使用时长集中在8:00-次日4:00,高峰持续全天 [8][9] - 核心使用场景包括游戏共情(讨论操作)、攻略查询、刷剧陪伴 [11] - 目标用户为18-25岁年轻人,满足其独处时的社交与情感共鸣需求 [12] 商业化路径 - 当前商业模式包括皮肤道具付费、会员订阅,未来计划拓展to B广告(游戏分发、电商推荐) [14] - 预计to C与to B收入各占50%,国内to C付费设定为月均20-30元 [15] 产品愿景与挑战 - 长期目标是实现长时序事件推理(如游戏复盘关键决策),当前版本仅完成70%目标功能 [16][17] - 用户自发拓展使用场景(如代码鼓励师),反映市场对情感陪伴的广泛需求 [19] - 陪伴型AI需避免成为"数字景点",核心价值在于不抢占用户时间的前提下融入娱乐场景 [23][24] 行业洞察 - AI陪伴产品需解决创意性不足和多模态能力瓶颈,避免与大厂直接竞争 [6][18] - 数字原住民对虚拟与现实界限模糊化,情感需求驱动产品形态创新 [13][23]
中胤时尚涨0.06%,成交额6343.62万元,近5日主力净流入-759.74万
新浪财经· 2025-08-19 17:02
核心观点 - 中胤时尚是一家以时尚产品设计为核心业务的创意设计企业 其业务涵盖鞋履设计 图案设计 供应链整合等 公司近期在AIGC和虚拟数字人技术领域有技术储备 并受益于人民币贬值带来的海外收入优势 [2][3][6][7] 业务与技术 - 公司参股孙公司新畅元科技在虚拟数字人技术领域储备了多项国际领先技术 包括3D数字人生成重建 AIGC+3D数字人AI跨模态实时交互等 [2] - 新畅元第一代数字人产品"创视元"支持AIGC多模态内容生成 可快速识别文本 语音并一键智能生成视频 [2] - 公司主营业务收入构成为:供应链整合业务80.77% 设计业务10.62% 品牌运营业务3.56% 鞋履生产业务1.95% 文旅服务业务1.59% 其他业务1.51% [7] - 公司童鞋设计和供应链整合业务收入占比在10%-15%之间 鞋履设计覆盖全品类包括女鞋 童鞋及男鞋 [2] 财务表现 - 2025年第一季度实现营业收入7898.53万元 同比增长4.96% 归母净利润-263.89万元 [7] - 公司海外营收占比为83.07% 受益于人民币贬值 [3] - A股上市后累计派现8333.24万元 近三年累计派现5933.24万元 [8] 市场表现 - 8月19日股价涨0.06% 成交额6343.62万元 换手率1.50% 总市值42.07亿元 [1] - 主力轻度控盘 筹码分布较为分散 主力成交额5910.94万元 占总成交额的11.01% [5] - 筹码平均交易成本为15.95元 近期筹码减仓程度减缓 股价靠近支撑位17.25元 [6] - 股东户数8700.00户 较上期增加3.57% 人均流通股27586股 较上期减少3.45% [7] 行业与概念 - 公司所属申万行业为纺织服饰-服装家纺-非运动服装 [7] - 概念板块包括小盘 英伟达概念 虚拟数字人 融资融券 增持回购等 [7] - 同时涉及AIGC概念 虚拟数字人 多模态AI 三胎概念 人民币贬值受益等多个市场热点概念 [2][3]
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 17:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
一年为企业投融资超20亿元!增城低碳总部园探路科技金融
搜狐财经· 2025-08-16 09:41
增城低碳总部园概况 - 园区拥有38栋企业总部楼和高层产业大楼 每月举办项目路演、产融对接、金融知识宣讲等活动 为科创型企业搭建沟通平台 [1] - 现有20多家金融机构入驻 包括商业银行、风创投资基金、保险证券等 构建覆盖企业全生命周期的资本赋能体系 2024年已为企业融资超20亿元 [1] - 被纳入广州中小微企业金融服务区管理范围 为近千家落户企业提供更有力支撑 [1] 科技金融服务体系 - 提供法人按揭贷、科技贷、信用贷等多样化金融产品 累计发放贷款超过200亿元 为德玛科技等多家企业提供超千万元融资支持 [3] - 保险机构定制科技企业风险解决方案 证券机构提供股权融资、债券承销等专业服务 加速创新成果转化 [3] - 中国邮政储蓄银行推出"短、小、急"信用产品融资 线上审批三天放贷 曾为雷登电梯提供2000万元无抵押科创信用贷款 [2] 创新创业生态建设 - 连续三届承办中国创新创业大赛广东赛区赛事 2024年15家获奖企业获得风投并落户园区 [7][8] - 广东元能星泰通过大赛获奖落户 获侨梦苑产业投资基金500万元股权融资 其数字孪生平台覆盖水利能源20余个核心场景 [7] - 上半年新增注册企业60多家 同比增长30% 企业评价聚焦"周边环境好""服务态度好"等优势 [9] 企业培育与上市支持 - 打造6大公共服务平台 提供从初创到产业化的全周期服务 [9] - 联合六方共建"增城区企业上市培育示范基地" 已培育上市后备企业14家 广东股权交易中心挂牌企业8家 [9] - 计划提高股权投资、募投资金等服务质效 打造全省科技金融特色小镇 [10]
云鼎科技股价上涨2.90% 半年度报告即将披露
金融界· 2025-08-16 01:54
股价表现 - 截至2025年8月15日收盘 云鼎科技股价报13 12元 较前一交易日上涨0 37元 涨幅2 90% [1] - 当日开盘价为12 76元 最高触及13 19元 最低下探至12 60元 [1] - 成交量为47 75万手 成交额达6 20亿元 [1] 主营业务 - 公司主营业务涵盖互联网服务 多模态AI 数据要素等领域 [1] - 公司注册地位于山东 [1] 财务披露 - 公司2025年半年度报告将于8月27日披露 [1] 资金流向 - 8月15日主力资金净流入4944 07万元 占流通市值的0 89% [1] - 近五个交易日主力资金累计净流出191 71万元 [1]
昆仑万维正式发布Skywork Deep Research Agent v2
证券日报网· 2025-08-14 18:47
公司技术发布活动 - 昆仑万维于8月11日至15日启动SkyWorkAI技术发布周 每天发布一款新模型 覆盖多模态AI核心场景的前沿模型 已发布SkyReels-A3、Matrix-Game2.0、Matrix-3D、SkyworkUniPic2.0模型 [1] 多模态深度调研智能体 - 公司于8月14日正式发布SkyworkDeepResearchAgentv2 作为天工超级智能体的核心引擎 首次整合多模态检索理解和跨模态生成能力到深度研究工作 [1] - 该智能体自5月22日上线后大幅重塑大模型在AIOffice领域的角色 通过skywork.ai为用户产出大量信息密度极高的优质文档、PPT、表格及其他交付物 [1] 多模态技术突破 - 为实现多模态信息检索能力提升 公司在四个方面完成技术突破:多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行Multi-Agent多模态理解架构和多模态结果呈现能力 [2] - 通过技术创新使智能体实现"读文字+看图片"功能 让用户一次获得信息完整、节奏顺畅、视觉友好的深度报告 [2] 浏览器智能体技术优化 - 多模态深度浏览器智能体进行多项关键自研技术优化 包括升级DOM+视觉推理方案、主流平台专项适配、并行搜索、多动作规划机制、智能筛选、人机无缝接管与隐私保护 [2] - 该智能体模拟人类浏览与交互方式 革新传统数据采集与分析模式 可精准完成智能搜索、多模态信息分析与社区内容洞察 [3] - 有效解决传统浏览器智能体痛点 展示天工智能体在长周期任务与VLA任务中的巨大潜力 [3] 智能体性能提升 - 为加强复杂任务执行和信息检索整理能力 v2版本引入多种提升机制:高质量数据合成及训练、端到端强化学习、高效的并行推理、多智能体自我学习演进系统 [3] - 新版本在多项Agent任务评测上超越现有模型 达到行业SOTA水平 [3] - 在并行思考模式下 正确率随思考时间增加持续攀升 展现自研系统架构潜力与扩展性 [3]
中胤时尚跌2.77%,成交额1.08亿元,近5日主力净流入-1249.22万
新浪财经· 2025-08-14 17:33
公司股价表现 - 8月14日公司股价跌2.77%,成交额1.08亿元,换手率2.52%,总市值42.14亿元 [1] 业务亮点 - 公司在虚拟数字人领域拥有多项国际领先技术,包括3D数字人生成重建、AIGC+3D数字人AI跨模态实时交互等 [2] - 参股孙公司新畅元科技已推出第一代数字人产品"创视元",支持AIGC多模态内容生成 [2] - 童鞋设计和供应链整合业务收入占比10%-15%,鞋履设计覆盖全品类 [2] - 公司海外营收占比高达83.07%,受益于人民币贬值 [3] 财务数据 - 2025年一季度实现营业收入7898.53万元,同比增长4.96% [7] - 2025年一季度归母净利润-263.89万元 [7] - A股上市后累计派现8333.24万元,近三年累计派现5933.24万元 [8] 主营业务构成 - 供应链整合业务占比80.77% [7] - 设计业务占比10.62% [7] - 品牌运营业务占比3.56% [7] - 鞋履生产业务占比1.95% [7] - 文旅服务业务占比1.59% [7] - 其他业务占比1.51% [7] 股东情况 - 截至8月8日股东户数8700户,较上期增加3.57% [7] - 人均流通股27586股,较上期减少3.45% [7] 行业属性 - 所属申万行业为纺织服饰-服装家纺-非运动服装 [7] - 概念板块包括小盘、英伟达概念、虚拟数字人、融资融券、增持回购等 [7]
刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
机器之心· 2025-08-14 12:57
国产大模型开源趋势 - 7月国产大模型开源数量达33款,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等厂商密集发布开源模型 [1] - 8月延续技术发布热潮,昆仑万维启动"Skywork AI技术发布周",连续5天推出视频生成、世界模型、生图一体化等多模态模型 [1] 昆仑万维Agent技术突破 - 发布全球首款Office智能体"天工超级智能体",支持文档、PPT、Excel等多任务一站式生成 [3] - 升级Skywork Deep Research Agent至V2版本,在BrowseComp评测中常规模式正确率27.8%,并行思考模式跃升至38.7%刷新SOTA [4] - 在GAIA基准测试中超越所有竞品,平均得分83.39分,Level 1至Level 3得分分别为93.55/83.02/65.31 [6][9] 多模态深度调研创新 - 业界首创多模态深度调研Agent,突破纯文本检索局限,支持图片/图表信息识别与融合 [12] - 实测生成特斯拉中国销量报告时,分析180个网页/54个信源,自动整合折线图、柱状图、饼图等可视化数据 [20][21] - 采用四大核心技术:多模态爬取、长距离信息收集、异步并行Multi-Agent架构、多模态结果呈现 [27] 浏览器智能体技术革新 - Skywork Browser Agent突破传统瓶颈,支持社交媒体图文/视频/评论分析,实现65%冗余图片流量削减 [29][30] - 演示案例中自动生成《戏台》电影分析网页,完成豆瓣数据采集、HTML框架搭建、CSS设计及JS交互功能实现 [33][34] - 关键技术包括多模态推理模型优化、DOM解析增强、平台动作适配与并行搜索机制 [36] 智能基座构建策略 - 建立端到端深度信息问题合成流程,数据质量标准涵盖多样性/正确性/唯一性/可验证性/挑战性五大维度 [40] - 创新非对称验证强化学习,采用GRPO算法与动态课程学习机制,结合生成式密集奖励提升训练效率 [41] - 自研并行推理框架实现三大突破:并行思考模式、生成式评估方案、熵自适应剪枝技术 [42][43] - 多智能体演进系统通过MCP工具自动创建与协同框架,整合规划/调研/浏览器/数据分析等Agent能力 [44] 行业竞争格局演变 - AI行业重心从单一通用大模型转向开源生态与应用落地,Agent成为加速商业化部署的核心途径 [47][49] - 昆仑万维通过全栈式布局(基座模型+多模态系统+Agent产品矩阵)强化AGI/AIGC战略优势 [50]
对谈 Memories AI 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds
海外独角兽· 2025-08-13 20:03
文章核心观点 - Memoriesai致力于构建基础性视觉记忆层,目标是成为所有AI的"海马体",通过LVMM(大型视觉记忆模型)实现对无限量视频数据的压缩、索引和查询 [2][8][9] - 当前AI的记忆本质是"上下文工程",而真正的类人记忆应是视觉化的,视觉记忆与文本记忆在数据特性(数据量、信噪比)上存在根本差异 [13][14][18] - 构建PB级基础设施能力是打造全球视觉记忆的护城河,公司已建立亿级视频数据库并实现规模化运行 [28][29][30] - 视觉记忆技术将赋能多模态AI助手和人形机器人,成为实现高度个性化服务的关键组件 [21][39][40] Memoriesai的视觉记忆技术与多模态AI应用路径 - 公司定位为B2B基础设施提供商,通过LVMM系统解决视频数据特有的海量存储(单日视频数据超5GB)和低信噪比问题 [8][20][22] - 技术路径区别于text-to-video生成类公司,专注于video-to-text理解领域,解决B2B场景的长链路需求 [12][17] - 视觉记忆系统包含解压层、聚合模块和服务层,采用类脑架构模拟人类记忆的压缩、索引和检索机制 [27][28] LVMM的人类记忆模拟机制 - 系统设计受人类记忆类型(语义/程序性/情景记忆)启发,但尚未实现人类水平的连续学习和记忆重构能力 [25][26] - 关键技术突破包括:基于范式的token聚合、视觉检索模型(VRM)和亿级数据库的实时问答能力 [27][29] - 当前系统在信息重要性判断(retrieval & reranking)环节已接近人脑机制,但抽象能力仍存在差距 [26][27] 大规模视频记忆的基础设施与VRM技术路径 - 采用非端到端架构,通过分布式数据库处理增长性数据,技术路径区别于Gemini等有上下文限制的模型 [28][29] - VRM技术超越RAG(检索增强生成)框架,直接对视觉数据进行token化处理,要求更高的基础设施能力 [29][30] - 团队核心成员来自Meta Ads Team,具备处理亿级数据库的工程经验,实现从演示到规模化运行的跨越 [30] 视觉记忆技术的多行业应用 - 安防领域:实现实时行为检测,应用于商场人流量统计、餐厅翻台率等B2B场景,覆盖零售/楼宇/停车场等 [34][35] - 媒体领域:为短剧提供毫秒级人物信息分析、自动剧本生成和视频再利用解决方案,提升内容生产效率 [35][36] - 视频营销:建立TikTok视频索引库(超100万条),提供创意引擎和网红达人搜索服务,优化内容策略 [35][41] 视觉记忆技术的隐私合规与未来应用方向 - 通过SOC 2 Type 1/2和GDPR合规认证,建立受监管的数据处理体系 [38] - 未来最大应用场景为AI助手和类人机器人,通过视觉记忆实现人机情感连接和个性化服务 [39][40] - 现阶段聚焦B2B基础设施赋能,长期可能通过开源或示范应用推动生态建设 [40][41]