多模态

搜索文档
自动保存草稿 - 2025-07-27 13:54:52
36氪· 2025-07-27 13:59
腾讯AI战略升级 - 公司在世界人工智能大会(WAIC)上重点展示AI智能体技术 构建覆盖14亿用户的"数字好友"生态 [1] - 发布"AI全家桶"产品组合 包括自研大模型和智能体等多款新品 [1] - 技术路线从短期记忆演进到长期记忆 探索多智能体协同技术 [1] 技术路线演进 - 从2023年聚焦"行业大模型"转向多模态和具身智能方向 [2][3] - 发布国内首个模块化具身智能开放平台Tairos 面向机器人行业开放 [3][4] - 混元3D世界模型1.0实现文字/图片输入生成可漫游3D场景 大幅缩短建模时间 [5][8] 产品布局 - To B侧: 发布混元世界模型1.0 应用于VR/游戏开发等场景 计划开源多个小体量模型 [5][7] - To C侧: 推出10+生活场景智能体 如旅游规划Agent实现一站式服务 [7][12] - 平台层面: 发布智能体开发平台等5大平台 降低AI应用门槛 [7][13] 技术突破 - 3D资产生成效率提升 从数周缩短至几分钟 但数据量仅千万级 与图片数据存在数量级差距 [9] - 混元3D系列模型社区下载量超230万 成为全球最受欢迎3D开源模型 [10] - 多模态理解模型混元-large-vision在LMArena Vision榜单国内第一 [10] 商业化落地 - 将AI能力嵌入QQ浏览器/QQ音乐等应用 覆盖搜索/创作/娱乐等场景 [12] - 通过智能体开发平台降低企业应用门槛 解决行业大模型落地难题 [13] - 智能体与行业大模型协同 前者解决前端场景问题 后者沉淀行业Know-how [13]
直击WAIC2025 | 首日探馆:大模型丰产下的共舞时代 具身智能与AI终端齐飞
每日经济新闻· 2025-07-27 07:36
人工智能全球治理高级别会议 - 2025世界人工智能大会暨人工智能全球治理高级别会议在上海开幕 [1] - 大会探讨AI能否真正嵌入产业与社会并创造可验证的真实价值 [2] - 现场展示智能机器人在调酒、叠衣服、打鼓、写字、煮串等实际应用场景 [2] 大模型技术发展 - 大模型技术迈向推理时代,需满足强智能、低成本、可开源和多模态特征 [7] - 阶跃星辰Step 3大模型在国产芯片上推理效率最高可达DeepSeek-R1的300% [7] - 多模态矩阵已覆盖语音、视觉理解、图像编辑、图像和视频生成、音乐等领域 [7] - 大模型落地需要模型、芯片、平台到应用的全产业链协同创新 [9] - 星环科技转型为AI Infra供应商,提供AI就绪数据平台解决数据孤岛问题 [9] 行业应用落地 - 垂类大模型通过场景共创与数据耦合重塑产业效率曲线与创新范式 [9] - 金融领域投研应用可理解业务语言、掌握领域知识并保证内容输出准确性 [10] - 企业AI部署仍以单点场景应用为主,受限于数据治理前期投入 [10] 具身智能与人形机器人 - 宇树科技G1人形机器人展示仿生科技的敏捷性,完成拳击比赛 [11] - 智元机器人启元通用具身大模型获大会最高奖项SAIL奖 [14] - 灵犀X2人形机器人展示本体+运动/交互/作业智能的超预期表现 [14] AI终端设备 - AI眼镜实现实时翻译、内容检索、AI照相、演讲提词等功能 [18] - 端侧大模型技术驱动智能手机、智能眼镜、个人电脑等设备智能化 [16] - AI终端面临能耗与算力瓶颈、功能与需求偏差、生态碎片化等挑战 [19]
实探|今日看点,上海这场会AI含量拉满、机器人成分爆表!
证券时报· 2025-07-26 23:42
2025世界人工智能大会展示亮点 - 网易有道推出全球首个虚拟人口语私教,具备实时互动和个性化答疑功能,可生成专属回答案例 [1] - 网易有道发布AI答疑笔SpaceOne,采用多模态视觉技术突破题库限制,能解析图形题和实验现象等复杂内容 [1] - 无问芯穹发布全规模AI效能跃升方案,包括三大操作系统级产品:无穹AI云、无界智算平台和无垠终端智能解决方案 [2] - 无问芯穹联合创始人提出AI算力建设需要适应小而广泛的应用企业,满足敏捷生产需求 [2] - 中昊芯英展示自研"刹那"TPU芯片和"泰则"服务器,芯片能耗仅为传统GPU的70%,单位算力成本为海外领先GPU的50% [2] AI技术发展趋势 - 浪潮集团强调AI发展进入"经济可行性"周期,提出企业需要复合AI能力(判别式+生成式AI) [3] - 数据治理成为AI落地关键,高质量数据决定应用上限,行业竞争进入数据战阶段 [3] - AI与企业应用间存在工具链断层,需构建数智底座支撑 [3] - 企业软件优化迎来智能体时刻,安全可信是AI落地基础 [3] 行业应用场景 - 展会展示机器人广泛应用于零售、制造、维修等劳动场景 [1] - 无问芯穹生态企业展示AI视频创意、语音建模、角色互动、人像美化等多样化应用 [2] - 人工智能正快速融入具身智能、多模态、智能体、APP和科研等领域 [3]
这家国产大模型公司年收入破10 亿了?
虎嗅· 2025-07-26 21:56
WAIC大会与行业动态 - WAIC世界人工智能大会在上海举办,规格高且产业界和投资圈高度关注[2] - 参展商数量众多,社群群友超200人参会[3] - 大会前后多家AI公司发布重要消息[4] 阶跃星辰商业化表现 - 公司预计2025年全年收入近10亿人民币,商业化半年增长迅猛[5][7] - 合作领域覆盖手机厂商、新能源汽车厂商、金融、通信等多个场景[5] - 对比同行,智谱去年收入2-3亿,Minimax曾创造千万美金收入但近期不确定[9][10] - 上一代AI公司需3-4年突破10亿收入,阶跃仅用2年实现[11] 公司技术优势 - 定位"开源世界最强多模态推理模型",主力模型Step 3参数量达321B并取得SOTA成绩[24] - Step系列模型覆盖文字、语音、图像、视频、3D、音乐等多模态能力[25] - 在国产芯片上推理效率达DeepSeek-R1的300%,并成立"模芯生态创新联盟"优化国产芯片适配[34][35] - 联合华为昇腾、沐曦等近10家芯片厂商推动国产AI生态[35][37] 商业化落地场景 - 多模态调用量环比增长超800%,终端应用覆盖汽车、手机、具身智能等领域[48] - 合作案例包括吉利银河M9的AI语音、Top10手机厂商旗舰机型、人形机器人等[42][43][44] - 提出"强智能、低成本、可开源、多模态"四大商业化特征[30] 行业趋势展望 - 多模态能力正成为终端标配,推动"万物智能"发展[48][49] - 国产大模型与芯片的协同优化提升性价比,形成生态闭环[38][39] - 10亿营收或成行业新门槛,预示国产大模型商业化能力初步验证[12][52]
这家国产大模型公司年收入破10 亿了??
佩妮Penny的世界· 2025-07-26 20:42
WAIC世界人工智能大会概况 - 2024年WAIC世界人工智能大会在上海举办,规格高且产业界和投资圈高度关注,总理出席开幕式并致辞 [1] - 参展商数量庞大,社群群友有200多人参会 [1] - 大会期间多家AI公司发布重要消息 [2] 阶跃星辰商业化表现 - 国产大模型公司阶跃星辰预计2025年全年收入近10亿元,商业化半年增长迅猛 [3] - 公司成立仅两年,去年收入仅几千万元,增速显著 [5] - 与手机厂商、新能源汽车厂商在AI助手方面合作,覆盖金融、通信等多个场景 [3] - 对比同行:智谱去年收入2-3亿元,Minimax海外应用曾创千万美金收入但24年末下架,Kimi和Deepseek不以2B服务为重 [7] - 上一代AI公司需3-4年才能突破10亿元收入,阶跃增速远超行业平均水平 [7] 公司技术实力与战略 - 阶跃星辰定位为"多模态卷王",专注于基础模型研究而非应用出海 [6][9] - 创始人姜大昕提出"通往AGI的路径方向"战略图,涵盖多模理解、生成、具身智能等方向 [10] - 最新基座模型Step 3总参数量321B,在多个榜单取得SOTA成绩 [11] - Step系列模型涵盖文字、语音、图像、视频生成、3D、音乐等多模态能力,覆盖场景广泛 [11] - 在国产芯片上推理效率最高可达DeepSeek-R1的300%,并对各类芯片友好 [15] - 联合近10家芯片厂商成立"模芯生态创新联盟",包括华为昇腾、沐曦等 [15] 商业化成功因素 - 团队重视真实应用场景需求,提出"强智能、低成本、可开源、多模态"四大特征 [13][15] - 针对中端和国产芯片进行系统优化,提升性价比 [15] - 客户覆盖汽车、手机、具身智能、零售、IoT等领域 [20][21] - 智能终端多模态模型调用次数和调用量较去年下半年环比增长均超800% [23] - 具体合作案例:吉利银河M9搭载AI语音大模型,国内Top10手机厂商过半接入 [20][21] 行业趋势与前景 - 国产大模型商业化能力初步验证,10亿元营收或成行业新门槛 [7] - 多模态能力逐渐成为终端标配,"万物智能"趋势显现 [23] - 国产大模型与芯片厂商相互优化,提升国产芯片性价比 [17][18] - 行业对比:国产大模型水平已接近国外,但国产芯片仍有差距 [17]
Jinqiu Spotlight | 用户破1000万,造梦次元沈洽金:AI应用创业是踏浪而行,必须站上大模型的每一波浪潮
锦秋集· 2025-07-23 23:39
公司概况 - 深圳想法流科技有限公司(造梦次元)成立于2023年,专注于AI互动内容平台开发,核心产品"造梦次元"于2024年2月上线 [2] - 截至2025年6月,平台累计用户超1000万,日均活跃互动时间超100分钟,用户粘性居行业前列 [2] - 平台日均tokens消耗量突破千亿,峰值达1600-1800亿,成为大模型厂商的重要测试场景 [2][3] 技术驱动与产品定位 - 大模型技术突破使互动内容平台成为可能,解决传统UGC内容门槛高、供给不足的问题 [6] - 平台定位为AI原生应用,不自主研发模型,而是与字节、阿里等头部厂商合作共创角色模型、记忆方案等 [16] - 模型推理能力和多模态进化是核心驱动力,推动AI从Assistant向Agent甚至Multi-Agent转变 [7][16] 产品特点与增长策略 - 提供互动故事、剧本杀、换装游戏等多元玩法,聚合图文/音频/视频内容,形成差异化体验 [9] - 用户裂变效应显著,相关UGC内容在快手累计播放量达6.3亿次 [12] - 创作者生态活跃,拥有23万创作者,日均新增3000作品,通过"IdeaFlow Studio"降低创作门槛 [13] 商业化与IP运营 - 主要变现方式包括虚拟道具、付费短剧、角色打赏,如热门道具"读心术"可解锁角色内心OS [15] - 强调IP长期价值,创作者通过运营粉丝群体和商业化玩法获得激励,未来计划拓展虚拟装扮、联名等IP衍生形态 [15][16] - 创作Agent即将上线,可自动完成意图识别、任务规划及多模态内容生成,提升效率50%以上 [13][19] 行业趋势与战略方向 - 2025年重点布局多模态和Agent:多模态模型生成速度提升(如Veo 3模型10秒生成高质量视频),实时性增强将催化AI直播类内容 [17] - Agent能力突破支持复杂场景交互(如自动调用定位/时间服务)和智能化创作辅助(自动关联意象、生成动态分镜) [18][19] - 内容形态边界模糊,交互体验重要性超越格式,用户行为兼具消费与创作属性 [7][8] 企业文化与愿景 - 以"真实有效,坚韧极致"为文化内核,强调执行力与技术创新转化能力 [21][22] - 目标从单一内容类型进化为真正的AI Native平台,持续占据技术转化先发优势 [3][22]
同样1GB文本,为何中文训练效果差?对话EleutherAI研究员Catherine,看懂多语言模型的“诅咒”与“祝福”
AI科技大本营· 2025-07-23 15:32
以下文章来源于GOSIM开源创新汇 ,作者GOSIM开源创新汇 GOSIM开源创新汇 . GOSIM源于全球开源社区的共同愿景。这个完全以志愿者为基础的项目由社区组织并为社区服务,其首要目标是:提供一个舞台,让创新的开源项目能 够在这里大放异彩、相互协作并不断发展。它不仅是一个平台,更是一个全心全意拥抱开放、多元和包容文化的运动。 作者 | 王诗棋 何苗 采访 | 王启隆 Eric Wang 出品丨GOSIM 开源创新汇 从语言学跨界到自然语言处理(NLP),Catherine Arnett 深刻体会到, 多语言背景带来的思维多样性,正在为多语言模型的构建开辟全新路径。 作为 EleutherAI 的 NLP 研究员,Catherine 起初在爱丁堡大学主修中文与语言学。一次偶然的导师更替,引导她从传统语言学研究转向语言模型的 计算探索,由此踏上了 跨越语言与技术边界的研究之路。 她精通英语、西班牙语、法语和汉语,对语言的结构差异与共性有着敏锐的感知。在深入多语言自然语言处理的过程中,Catherine 提出了一个具有 启发性的重要概念—— "字节溢价"(byte premium) 。她发现: 即使是字节数相 ...
多模态都是假的:最强模型数不清手指、认不出雷碧
虎嗅· 2025-07-22 15:21
因为最近接了个图像相关AI项目,在看各种视觉AI相关文章,过程中看了一篇很有意思的文章:AI们数不清六根手指,这事没那么简单。 一时兴起马上用上了我最强的GPT模型,结果一不小心忘了传图片,却不想提前暴露了意图: 于是在AI几乎清楚意图的情况下,我上传了图片: 果不其然,他还是给出了标准答案:这张图里是一只自然张开的手掌,可以清楚地看到 5根手指。 在这个情况下,我追问了一个:你确定?AI再次识别我的意图,但依旧给出了错误的回答: 而后无论我怎么调戏,AI就是不为所动: 所以这是为什么呢? 一、所谓多模态 事实上在2年前,业内也有很多号称多模态的模型,其实他连训练都没做,其本质是OCR,并且还挺好用的。 PS:另一方面,声音的数据样本获取成本低一些,量大管饱 但到视觉这里就比较尴尬了,不懂行的同学可能真的以为模型能看见东西,事实上模型什么都看不见! 对于模型来说,图像是二维空间数据,加上颜色通道后会更复杂一点,比如: 一张 224x224 的彩色图 → 形状为 [224, 224, 3] 的张量,包含 150528 个数值(0-255)。 如果需要模型(AI)能识别他的话,就需要做进一步处理,将数字化的图像转 ...
梁文锋等来及时雨
是说芯语· 2025-07-19 09:26
行业竞争格局 - 国内大模型行业进入密集更新期,Kimi、阶跃星辰、智谱AI、科大讯飞等玩家将在7月底集中发布新一代基础大模型 [3] - DeepSeek自4月起月活用户持续下滑,5月MAU为1.69亿(环比-5.1%),官网访问量下降29%,使用率从7.5%峰值回落至3% [3][4][18] - 第三方平台托管的DeepSeek模型使用量逆势增长20倍,形成与官方流量下滑的反差 [13] 技术发展动态 - Kimi K2成为国内首个万亿参数MoE架构开源模型,在代码/数学推理任务反超DeepSeek,支持128K上下文窗口 [10][15] - MiniMax-M1以53.47万美元低成本完成训练(512块H800三周),对比DeepSeek V3训练成本557万美元(2048块H800) [11] - 行业普遍提升上下文窗口能力(MiniMax达100万token),而DeepSeek保持64K最小窗口的保守策略 [15] 商业模式对比 - 科技大厂通过低价API争夺市场:百度李彦宏公开批评DeepSeek"慢且贵",阿里/字节/百度等推出更低价模型 [10] - Kimi K2定价与DeepSeek标准时段对齐(输入4元/百万tokens,输出16元/百万tokens) [11] - DeepSeek坚持开源路线但面临商业化压力,需平衡开发者生态与产品使用率 [17] 供应链挑战 - 英伟达H20芯片禁售导致DeepSeek R2模型延迟发布,算力储备出现紧缺 [5][7] - 7月15日英伟达获准重新销售H20芯片,将缓解DeepSeek算力瓶颈 [7] - H20芯片因DeepSeek的低成本训练方法在中国需求激增,引发4月美国出口管制 [5] 产品能力短板 - DeepSeek暂不支持多模态功能(语音/图片/视频生成),成为主流AI助手中唯一缺失该能力的产品 [19] - 调用工具能力不足:字节测试发现其工具调用表现不理想,最终改用自研模型 [19] - 小版本更新策略(如DeepSeek-R1-0528仍基于2024年V3 Base模型)导致竞争力下降 [8][10] 国际对标差异 - OpenAI通过高频更新保持领先(GPT 4.1系列发布后份额达10%),而DeepSeek R1仅持平o1水平 [17][18] - DeepSeek缺乏OpenAI的代际优势,使用率从7%峰值降至3%(跌幅超50%) [18] - 行业普遍学习OpenAI的快速迭代策略,如奥特曼每周更新产品的运营方法 [17]
交银产业机遇混合:2025年第二季度利润4321.38万元 净值增长率2.8%
搜狐财经· 2025-07-18 19:07
基金业绩表现 - 2025年第二季度基金利润4321.38万元,加权平均基金份额本期利润0.0271元 [3] - 报告期内基金净值增长率为2.8% [3] - 截至7月17日单位净值为0.974元 [3] - 近三个月复权单位净值增长率为6.81%,同类排名134/182 [3] - 近半年复权单位净值增长率为18.89%,同类排名29/182 [3] - 近一年复权单位净值增长率为32.61%,同类排名32/181 [3] - 近三年复权单位净值增长率为0.04%,同类排名49/172 [3] - 近三年夏普比率为0.3485,同类排名23/174 [9] 基金风险指标 - 近三年最大回撤为41.72%,同类排名65/174 [11] - 单季度最大回撤出现在2024年一季度,为31.21% [11] 基金资产配置 - 近三年平均股票仓位为86.75%,略低于同类平均87.2% [14] - 2024年三季度末达到最高仓位89.87% [14] - 2020年末最低仓位为53.99% [14] 基金投资策略 - 将持续关注AI大趋势下耕耘推进的公司,重点关注多模态方向进展 [3] - 关注致力于给消费者带来快乐和美好的泛消费公司 [3] 基金持仓情况 - 截至2025年二季度末基金规模为15.43亿元 [3][15] - 持股集中度较高,前十大重仓股包括泡泡玛特、恺英网络、吉比特、李宁、腾讯控股等 [18]