Workflow
多模态技术
icon
搜索文档
“技术引领+临床实践”双轮驱动 商汤医疗助力病理数智化转型
中国新闻网· 2025-09-24 13:42
行业挑战 - 病理诊断面临数据复杂多样、专业人才短缺、诊断标准不一的共性挑战 [1] 技术解决方案 - 公司以医疗大语言模型"大医"为智慧中枢 融合原创病理大模型PathOrchestra及影像基模型等多模态技术 [1] - 打造通专融合技术体系 实现对病理图像、文本报告及临床信息的高效融合与协同理解 [1] - 通过三大技术平台协同实现采-存-管-用-研全链路闭环的智慧病理综合解决方案 [3] 技术应用 - 采用技术引领+临床实践双轮驱动模式 展示病理大模型性能 [1] - 凸显人工智能技术在真实医疗场景中的应用价值 [1] - 探索数字病理与人工智能技术的交叉融合 持续攻坚多模态大模型关键技术 [3] 发展路径 - 以模型筑基-平台赋能-生态共建为路径 推动医疗大模型从技术可行到临床好用发展 [3]
从苹果收购传闻到ASML豪掷13亿成大股东,起底Mistral AI的技术与商业密码
36氪· 2025-09-12 15:35
公司融资与估值 - 2023年6月完成1.05亿欧元(1.17亿美元)种子轮融资 创欧洲史上最大种子轮纪录[2] - 2023年12月完成3.85亿欧元(4.15亿美元)A轮融资[2] - 2024年6月完成6亿欧元(6.45亿美元)B轮融资 估值达58亿欧元(62亿美元)[2] - 2025年9月C轮融资获17亿欧元(20亿美元) ASML以13亿欧元(15亿美元)领投 估值飙升至120亿欧元(140亿美元) 较2024年6月翻倍[2] 技术优势 - 拥有8类模型系列 覆盖复杂推理、批量执行及中级推理三类任务[5][11] - Mistral 7B模型仅70亿参数 性能超越同级别模型 硬件需求降低且推理速度提升[8] - Mixtral 8×7B模型在Hugging Face基准测试中超越Llama 2 70B 推理速度较传统模型提高6倍[8] - 多模态模型Pixtral Large实现图像理解与文本生成融合 应用于医疗影像分析、自动驾驶决策及内容创作[9] 开源生态与产品矩阵 - Mistral 7B及Mixtral等核心模型采用Apache 2.0开源许可 开放权重供开发者二次开发[10][13] - 产品矩阵包含La Plateforme开发平台、Codestral代码工具及企业智能助理[14] - 企业对话助手Le Chat在100天内推动业务规模翻两番[14] 战略合作背景 - 苹果考虑收购Mistral AI以弥补Siri技术短板 提升自然语言处理能力[3][15] - ASML通过战略合作将AI技术整合至光刻设备研发与生产流程 提升设备精度并降低成本[16][17] - 地缘战略价值显著 作为欧洲本土AI标杆 可能成为美国模型受欧盟限制时的替代选项[24][25] 争议事件 - 2025年8月被前员工指控抄袭DeepSeek模型 涉嫌蒸馏技术未公开披露[18][20] - 模型Mistral-small-3.2与DeepSeek-v3输出高度相似 引发技术诚信质疑[18] - 行业意见存在分歧 HuggingFace CEO认为蒸馏开源模型属常见技术手段[23]
烹饪、演奏、救援……多家具身智能企业在沪展示人机协作新场景 人机互动 协同共进
深圳商报· 2025-09-11 07:14
具身智能堪称多模态技术的"最强实战场"。蚂蚁集团旗下的具身智能公司灵波科技的R1机器人首次亮 相外滩。这是一款多模态感知和交互机器人,可多场景作业。现场展示的"机器人厨师"正在为观众烹饪 4道菜品。该机器人具有多模态识别能力,能自动识别操作台上的各类食材和厨具,精准定位食材工 具,从取菜、炒菜到清洁,全流程自动化,无需人工干预。 在"机器人小镇",来自四川的成都人形机器人创新中心发布了全新的"贡嘎一号"四代机。"贡嘎一号"是 国内唯一的超轻量级人形机器,在现场,参观者给到一个简单的拿饮料的指令后,机器人能自主去餐桌 拿饮料并给到坐在客厅沙发上的参观者,展示了很好的空间智能理解和行动能力。 在主题展区举行的AI科创赛表演赛——"机器人职业技能表演赛"上,机器人翻越崎岖高地,操作电箱闸 刀,安插火药雷管,甚至还在废墟中成功救出"婴儿",以表演赛的形式展现AI应用前景。 在医疗和康养领域,达摩院 "达医智影"通过一次胸腹部平扫CT即可筛查5类癌症、预警1种急症并管理4 种慢性病;而云上华佗超声辅助诊断系统能快速识别多部位细微病灶,助力各级医疗机构提升诊疗水 平。傅利叶智能康复港让参观者感受到科技对康复的助力,使用A ...
云从科技H1实现营收1.69亿元,亏损为2.3亿元
巨潮资讯· 2025-08-30 09:59
核心财务表现 - 上半年营业收入为1.69亿元 同比增长40.21% [2][3] - 归属于上市公司股东的净亏损为2.30亿元 较上年同期亏损3.56亿元收窄35.5% [2][3] - 扣非净亏损为2.48亿元 较上年同期3.69亿元收窄32.8% [2][3] - 经营活动现金流量净额为-3026万元 较上年同期-1.30亿元改善76.8% [3] - 总资产19.55亿元 较上年度末下降1.37% [3][4] - 归属于上市公司股东的净资产9.97亿元 较上年度末下降10.78% [3][4] 运营效率提升 - 期间费用同比下降33.83% 主要得益于精细化成本管理举措 [3] - 研发投入规模同比下降55.11% 主要由于研发人员精准配置与薪酬结构调整 [4] - 研发投入占营业收入比例同比减少147.01个百分点 系收入增长与研发投入下降共同作用 [4] 业务驱动因素 - 营业收入增长主要源于人工智能解决方案业务规模扩大 [3] - 亏损收窄超过30% 得益于收入增长与成本控制双轮驱动 [3] - 研发战略调整旨在平衡短期盈利压力与长期创新驱动 [4] 行业技术发展 - 生成式大模型与多模态技术取得显著进展 应用场景持续拓展 [5] - 大型预训练模型成为行业核心驱动力 提升智能语音/视觉/语言处理能力 [5] - 2025年上半年中国智算中心招标项目达393个 出现43个合同金额超亿元项目 [5] - 开源模型(Llama/DeepSeek等)降低应用门槛 助力中小企业快速部署智能应用 [5] - 混合模型逐渐普及 企业结合开源与私有模型优化成本/安全性/效率 [5] 基础设施支撑 - 算力基础设施持续强化 支撑AI技术演进 [5] - "东数西算"等国家算力协同战略加速推进 [5] - 绿色算力与国产芯片要求趋增 [5]
共商产业升级新趋势新路径
搜狐财经· 2025-08-30 08:02
活动概况 - 2025数博会"数智无界·开放式创新驱动产业跃迁"交流活动于8月29日在贵阳国际生态会议中心举行[2] - 活动由中国国际大数据产业博览会组委会主办 贵州省科学技术厅指导 贵阳大数据科创城与璞跃中国承办[2] - 吸引产学研界 资本机构及科技企业150余位代表参与[2] 前沿技术探讨 - 与会嘉宾围绕数字经济 人工智能 数据智算 新能源等前沿领域探讨开放式创新赋能产业跃迁[2] - 璞跃中国CEO徐洁平强调开放式创新对构建城市创新生态的关键作用[2] - 阶跃星辰副总裁赵海涛论述多模态技术是通向AGI的必经之路[2] 行业应用实践 - 全国公共资源交易指数工作委员会秘书长李喆阐述智能化技术推动公共资源交易领域变革[2] - 贵州大学副校长王旭分享校企合作在数智营销 技术攻关等领域的实践成果[2] - 强调政产学研协同对区域创新的赋能效应[2] 产业生态建设 - 圆桌讨论围绕"数字经济与科创生态的螺旋进化""资本链接与国际协作的创新合力"等议题展开[3] - 华为云产业发展总裁王丰等7位嘉宾探讨通过多元协同推动区域经济高质量发展[3] - 活动设置科技企业路演环节 7家科技企业展示人工智能 新能源 智能制造等领域创新成果[3]
破局者字节,全栈AI狂飙
21世纪经济报道· 2025-08-29 15:34
文章核心观点 - 字节跳动通过全栈AI布局实现纵向成本与体验的飞轮效应和横向C端超级App与B端企业服务的双轮驱动 构建开放生态 坚定长期投入追求智能上限并服务产业应用 [1] 全栈AI布局 - 公司持续加大AI基础技术研发投入 基于互联网海量数据建设海内外算力中心 自研DPU的GPU实例较上一代集群性能最高提升三倍以上 [3] - 2025年计划在AI基础设施投入超120亿美元(约855.78亿元人民币) 2024年资本开支800亿元 2025年预计翻倍至1600亿元 主要用于自建算力中心与DPU芯片研发 [3] - 最新开源Seed-OSS-36B模型采用Apache-2.0许可证 支持原生512K上下文长度 引入可控思维预算机制提升推理效率 在AIME24达91.7分 AIME25达84.7分 [3] - 多模态技术Waver 1.0基于修正流Transformer架构 支持文本到视频 图像到视频和文本到图像生成无需切换模型 统一架构实现多模态生成无缝切换重构内容创作流程 [3][4] - OmniHuman-1.5通过全方位条件训练颠覆静态图像转动态视频传统认知 仅需一张人物照片和一段音频即可生成说话 唱歌 做手势和表达情绪的视频 [6] 产品矩阵与市场表现 - ToC端AI应用布局全面 Chatbot豆包或为国内最大的AI Native应用 覆盖Chatbot 教育 图像视频 情感陪伴等垂类 海外国内产品基本一一对照 同时布局APP端和Web端 [6] - 豆包拥有超1.1亿用户 同比增长864.35% 位列榜单第二 豆包家族包含通用Pro/Lite 角色扮演 语音合成/识别 文生图 视频生成等十余款细分模型 [6] - 视频生成产品线Seedance 1.0 Pro在全球文生视频 图生视频双榜领先 5秒1080P视频生成成本仅3.67元 Waver 1.0支持长达10秒高质量视频生成 兼容多种艺术风格 [7] - 企业级市场HiAgent 2.0与豆包企业版双轮驱动 HiAgent 2.0采用调度对话行动三位一体架构 支持流程图/自然语言/API三种任务编排方式 内置100+行业模板库 [7] - 推出AI硬件产品包括AI耳机Ola Friend等AIoT产品 截至6月11日接入豆包的AIoT产品出货量超100万台 预计2025年年底有望突破1000万台 [7] 行业应用与渗透 - 豆包大模型服务全球TOP10手机厂商中的9家 八成主流汽车品牌 70%的系统重要性银行及超五成985高校 [8] - 截至2025年5月底 豆包大模型日均Tokens使用量超过16.4万亿 较去年5月刚发布时增长137倍 [8] - IDC报告显示2024年火山引擎在中国公有云大模型服务调用量上稳居第一 市场份额46.4% [8] 差异化竞争策略 - SuperCLUE 2025年5月测评显示字节豆包1.5深度思考模型与商汤日日新V6并列国内第一 [10] - 首创按输入长度区间定价 0~32K段输入0.8元/百万Tokens 综合成本仅为竞品的1/3 推动大模型进入厘时代 [10] - 火山引擎差异化优势体现在规模优势与AI原生能力 抖音 头条等内部业务运行使其成为中国计算规模最大的云厂商之一 通过规模化降低成本提供高性价比多云服务 [10][11] - 豆包大模型发展迅速 C端用户可直接体验形成B端与C端的协同 [11] 生态建设与未来趋势 - 火山引擎定位不只做自有模型而是打造模型超市 汇聚智谱 MiniMax 百川等第三方大模型 提供精调 评测 推理全托管服务 [13] - 成立手机 汽车等行业联盟 与头部企业合作 与金蝶 汉得等行业伙伴集成模型能力拓展垂直领域 [11] - 孵化AI原生企业服务初创公司 通过孵化器提供代金券和技术支持 助力成长推动中国AI企业服务弯道超车 [11] - 技术融合更加深入 多模态技术打破传统内容生成边界 AI与VR/AR结合可能成为下一个突破点 [13] - 人机交互方式发生变革 探索更便携更自然的交互方式 未来可能出现更多创新交互设备 [13] - 智能体中台技术成熟与行业模板库完善 企业级AI Agent将从单点效率提升转向全链路智能重构 推动中国企业数字化转型进入AI原生新阶段 [13]
破局者字节,全栈AI狂飙
21世纪经济报道· 2025-08-28 20:54
公司AI战略布局 - 公司完成从底层硬件到上层应用的全栈AI布局 形成成本与体验的飞轮效应 [1] - 以C端超级App流量与B端企业服务双轮驱动 构建强大开放生态 [1] - 坚定长期投入 追求智能上限 服务产业应用 [1][9] 算力基础设施投入 - 2025年计划在AI基础设施投入超120亿美元(约855.78亿元人民币) [2] - 2024年资本开支800亿元 2025年预计翻倍至1600亿元 主要用于自建算力中心与DPU芯片研发 [2] - 自研DPU的GPU实例较上一代集群性能最高提升三倍以上 [2] 模型技术突破 - Seed-OSS-36B模型支持原生512K上下文长度 引入可控思维预算机制 [2] - 在AIME24达91.7分 AIME25达84.7分 [2] - Waver 1.0基于修正流Transformer架构 支持文本到视频等多模态生成 [2] - OmniHuman-1.5通过全方位条件训练实现静态图像转动态视频 [3] C端产品表现 - 豆包拥有超1.1亿用户 同比增长864.35% 位列国内AI应用第二 [4] - 豆包家族包含通用Pro/Lite 角色扮演 语音合成等十余款细分模型 [4] - Seedance 1.0 Pro文生视频成本仅3.67元/5秒1080P视频 [4] - Waver 1.0支持10秒高质量视频生成 运动连贯性超越现有模型 [4] B端企业服务 - HiAgent 2.0采用调度对话行动三位一体架构 支持三种任务编排方式 [5] - 内置100+行业模板库 [5] - 豆包大模型服务全球TOP10手机厂商中的9家 80%主流汽车品牌 [6] - 服务70%系统重要性银行及超50%的985高校 [6] 硬件生态建设 - 接入豆包的AIoT产品出货量超100万台 预计2025年底突破1000万台 [6] - 推出AI耳机Ola Friend等AIoT产品 [6] - 硬件产品与软件生态互补 构建完整AI体验 [6] 市场竞争力 - 豆包1.5深度思考模型与商汤日日新V6并列国内第一 超越谷歌Gemini 2.5 Flash [7] - 首创按输入长度区间定价 0-32K段输入0.8元/百万Tokens [7] - 综合成本仅为竞品1/3 推动大模型进入厘时代 [7] 云服务优势 - 火山引擎在中国公有云大模型服务调用量市场份额46.4% 稳居第一 [6] - 成为中国计算规模最大的云厂商之一 通过规模化降低成本 [8] - 豆包大模型日均Tokens使用量超16.4万亿 较发布时增长137倍 [6] 生态合作策略 - 成立手机 汽车等行业联盟 与头部企业合作 [8] - 与金蝶 汉得等行业伙伴集成模型能力 拓展垂直领域 [8] - 孵化AI原生企业服务初创公司 提供代金券和技术支持 [8] 技术发展趋势 - 多模态技术打破内容生成边界 音频文本图像视频转换更流畅 [10] - 火山引擎打造模型超市 汇聚智谱 MiniMax等第三方大模型 [10] - 探索新的人机交互方式 产品向更便携自然方向发展 [10] - 企业级AI Agent从单点效率提升转向全链路智能重构 [10]
港股科技ETF(513020)涨超1.4%,AI视频技术迭代驱动行业成本优化与内容创新或将加速内容渗透
每日经济新闻· 2025-08-13 11:17
AI视频生成技术 - AI视频生成技术通过成本优化和内容创新驱动行业快速发展 视频生成产品在推理层面实现毛利打平 MoE架构可节省50%计算消耗 [1] - AI漫剧直接生成流程中AI参与度从50%提升至80% AI转绘等新内容形态推动内容市场扩容 [1] - AI视频潜在空间达416亿美元 其中B端内容制作市场若渗透率达20%对应397亿美元空间 [1] - 行业趋势呈现三大逻辑:视频生成时长延伸(年内或达1分钟) 成本下降带动"更好更便宜" 新内容品类扩充供给 [1] - 技术侧如字节提出的Captain Cinema框架通过分层规划实现长视频连贯性 若泛化应用将加速内容渗透 [1] - 多模态技术突破与出海布局受看好 成本优化和商业模式创新将推动用户增长及商业化进阶 [1] 港股科技ETF - 港股科技ETF(513020)跟踪的是港股通科技指数(931573) 该指数聚焦于通过港股通机制可投资的科技相关企业 [1] - 成分股覆盖非必需性消费 药品及生物科技 资讯科技器材等9个恒生二级行业 主要选取具有创新能力和成长潜力的公司作为指数样本 [1] - 反映在港上市并符合特定标准的科技企业的整体表现 [1] 基金产品 - 没有股票账户的投资者可关注国泰中证港股通科技ETF发起联接A(015739) 国泰中证港股通科技ETF发起联接C(015740) [2]
当宇树王兴兴、数美万物任利锋他们来到锦秋小饭桌……
锦秋集· 2025-08-12 22:09
锦秋小饭桌活动概览 - 锦秋基金每周五在北京、深圳、上海、杭州等地举办AI创业者闭门社交活动,已连续举办25场,聚焦多模态技术、AI计算架构、具身智能及AI硬件等前沿话题 [3] - 活动形式为创业者、技术专家和产品创新者围绕实景案例分享干货,避免商业互吹,强调真诚交流与创业经验 [3] - 未来活动预告包括8月15日北京Agent专场、8月22日上海运动AI专场、8月29日北京产品力专场及9月5日上海AI应用吐槽大会 [4][5][6][7] 具身智能发展 - 数据分为三层:低精度人类数据、高精度人类数据和真机遥操作数据,其采集成本和质量直接影响模型价值 [16] - 灵巧手产品成熟度低,高自由度设计未满足实际需求,低自由度产品功能近似夹爪,实用性受限 [16] - 触觉传感器需优先关注线性度和量程,绝对精度和切向力感知非核心因素,人类切向力感知依赖推断而非直接传感 [16] - 生成式世界模型需大量数据和算力,适合大厂主导探索,人形机器人需满足家庭基础要求如防跌倒、防燃烧及自主充电 [16] AI硬件创新 - 产品差异化依赖细节设计,例如Lovot机器人通过挠痒反馈和眼神交互提升情绪调动能力 [23] - 端侧算力需求增长,因视觉模态涉及隐私问题,云端处理存在存储和计算成本压力 [24] - 可穿戴硬件受限于小体积元器件,电池技术影响美观与体验,记忆解决方案需平衡成本与体验 [25] - 记忆系统需结合主观与客观数据,纯客观数据无意义,需理解用户mindset实现个性化 [26] - 细分市场策略有效,如高驰手表专注越野跑人群从Garmin抢占市场,美国航模市场依托高客单价和club文化 [27][28] - 创业者应选择非小米覆盖市场,避免中间路线摇摆,功能性与非功能性需明确二选一 [22][29] AI计算架构与算力需求 - 算力需求分生产力视角和消费视角:前者替代脑力劳动者所需算力有限,后者因每人调用多个AI Agent处理琐事可能创造无限算力消耗 [35] - 头部公司内部高端AI卡(如英伟达)争夺激烈,算力资源远未饱和 [36] - 模型训练进入下半场,互联网可用数据耗尽,需超越人类先验知识探索新解决方案 [38] - 强化学习成为下一代核心范式,奖励机制设计需平衡避免Reward Hacking或学习停滞 [39] - 下一代GB300集群采用液冷技术,但大规模运维经验不足,华为披露集群平均无故障时间小于24小时 [41] - 服务型AI(情商模型)侧重沟通能力,几十B参数即够,科研/生成式AI(智商模型)需高算力支持实时交互式生成 [42] - HBM5/6技术路线集成PIM功能,未来HBM堆栈可能新增HBF层存储模型权重,Transformer数据访问模式不规律挑战PIM架构 [43] 多模态技术落地 - 视频生成面临UGC痛点:生成速度慢和成本高,闭源方案即梦速度最快,实时生成需推理速度突破 [52] - 多模态交互升级方向包括视频生成与理解一体化,基于用户视频生成定制内容如衍生剧情和角色互动 [53] - 内容社区依赖评论区和高频互动提升活跃度,新平台采用"PGC起步-UGC引入-AI定义价值"模式 [54] - 用户行为呈现性别差异:女性偏好幻想和情感陪伴,男性倾向对抗性互动,平台需降低创作门槛并增强多样性 [54] - AI商业壁垒体现在数据、标注和场景深度,头部团队投入资金进行高质量标注训练模型 [55] AI应用场景与数据 - 手机AI调用中10%为口算计算器场景,大模型chatbot主要应用OCR,视觉模态落地监控和学习机拍照搜题 [30][31] - 数据标注质量对多模态模型至关重要,需对图片进行详尽多维标注 [51]
智源大会盛况:AI领域精英共绘科技蓝图,探索智能未来新方向
搜狐财经· 2025-08-05 03:16
大会概况 - 第七届北京智源大会于2025年6月在中关村国家自主创新示范区举办,汇聚全球AI领域精英 [1] - 大会自2019年创立以来已成为AI领域重要盛会,连接学术与市场 [1] - 参会者包括4位图灵奖得主(Yoshua Bengio、Richard S Sutton、Joseph Sifakis、姚期智)及Google、DeepMind、meta、华为、百度、字节跳动等企业代表 [1] 技术焦点 - 大会设置近20场专题论坛,讨论多模态技术(处理图像/音频/文本)和深度推理(提升AI逻辑能力) [2] - 多模态技术应用于图像识别、语音识别、自然语言处理领域,通过融合多数据类型提升理解准确性 [2] - 深度推理结合深度学习算法与知识图谱,增强AI在智能客服、医疗、交通等场景的决策能力 [2] 企业参与 - 北京弘易信泰科技发展有限公司展示数据治理解决方案,整合大数据、AI、云计算技术 [4] - 该公司人工智能实验室通过大会交流前沿理念,优化"决胜"系列应用产品线 [4]