多模态能力 - 财报，业绩电话会，研报，新闻

多模态能力

搜索文档

IPO早知道· 2025-05-13 09:55

公司战略与核心观点 - 公司坚持基础大模型研发，追求AGI（通用人工智能）是初心且不会改变 [3] - 公司差异化特点在于多模态能力，目前多个模态性能在业界领先，并积极探索前沿方向 [3] - 公司在应用层面选择差异化路线，与合作伙伴共同发力智能终端Agent，形成从模型到Agent、云侧到端侧的生态体系 [3] - 行业技术发展处于陡峭区间，公司不会放弃主流增长或前进趋势 [3][4] 技术发展趋势 - 基础大模型发展呈现两大趋势：从模仿学习到强化学习、从多模态融合走向多模态理解生成一体化 [6] - 多模态理解生成一体化是重要趋势，尤其在视觉领域，理解与生成由同一模型完成 [11] - 公司已发布理解生成一体化模型Step 1X-Edit，总参数量19B（7B MLLM + 12B DiT），支持11类高频图像编辑任务 [13] - 公司内部正在开发更高级版本，未来几个月将发布更先进技术 [13] 多模态能力布局 - 公司建立Step系列通用大模型矩阵，包括语言模型和多模态模型，多模态细分涵盖图像、视频、语音、音乐等 [8] - 公司是国内少数重视模态全覆盖并坚持原生多模理念的企业，认为多模态是实现AGI的必经之路 [9] - 多模态能力对垂直领域和C端应用必不可少，公司具备全面自研预训练模型能力，构成独特优势 [9] 智能终端Agent战略 - 公司采用"超级模型+超级应用"双轮驱动策略，将智能终端Agent作为重要方向之一 [15] - Agent爆发需要多模态能力和慢思考能力，这两项能力在2024年取得突破性进展 [15] - 公司已与OPPO、吉利、智元机器人等头部企业合作，重点布局手机、汽车、机器人等智能终端 [16] - 公司认为AI时代产品流量增长逻辑不同于传统互联网，智能终端服务C端存在巨大机会 [17] 产品与技术成果 - 图像编辑大模型Step1X-Edit性能达到开源SOTA，具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [13] - 该模型支持文字替换、风格迁移、材质变换、人物修图等11类高频图像编辑任务 [13] - 理解生成一体化的技术路线在公司成立之初就已设定 [14]

Artificial Intelligence

Artificial Intelligence

Step1X - Edit图像编辑大模型

生成网页可以垫视频了？教你用 Gemini 2.5 最强大的能力

歸藏的AI工具箱· 2025-05-09 16:34

Gemini 2 5 Pro 0506版本核心能力 - 根据网页交互视频生成还原度极高的网页效果显著提升前端开发效率[1][4] - 多模态能力与代码生成产生化学反应实现复杂交互动画的自动还原[5][6] - 在AI Studio中选择Gemini 2 5 Pro 05-06版本可体验该功能需注意视频压缩和长度控制[13] 技术特性 - 前端代码美观度显著提升仅需设计稿无需优化提示词即可生成完美还原网页[4] - 视频多模态理解能力行业领先可捕捉Hover动画、图标高亮等复杂交互细节[7][8] - 输出格式支持HTML/CSS/JS三合一文件浏览器直接预览简化开发流程[12] 应用案例 - 邮箱地址交互案例: 成功还原图标高亮效果但存在间距和变色细节缺失[7] - 翻译工具Hover案例: 完美捕捉动态翻译卡片效果仅字体大小需微调[8] - YouTube科普视频转化案例: 实现从视频到互动网页的端到端生成[5] 使用优化建议 - 提示词需明确标注重点效果(如淡蓝色圆角背景)以弥补视觉细节识别不足[11][12] - 动画效果需增加缓动参数图标库通过CDN引用提升还原度[11] - 适用场景包括但不限于动效生成开发者可拓展更多创新应用[14]

观察者网· 2025-04-28 17:29

夸克AI相机功能升级 - 公司发布全新AI相机功能"拍照问夸克"，基于视觉理解与推理模型创新下一代搜索体验[1] - 功能覆盖旅游（行程制定、景点识别）、文物识别（中外语音讲解）、跨国翻译（菜单翻译）、图像处理（杂物消除、表情调整）及社交文案生成[3] - 生活场景支持故障诊断（电器蓝屏拍照解决方案）、物品购买指导（灯泡/螺丝型号识别）[5] - 健康管理功能包括体检报告解读、用药禁忌查询及定制化食谱生成（如尿酸偏高食谱）[7] - 工作学习场景支持合同补全、图表计算、代码注释复现等[10] 多模态AI行业动态 - 行业竞争聚焦多模态能力，OpenAI推出视频生成工具Sora，谷歌发布跨模态模型Gemini[13] - 国内企业快速跟进：腾讯混元大模型新增视频生成，月之暗面发布Kimi1.5支持跨模态推理，字节豆包1.5实现视觉推理[13] - 公司通过"AI超级框"迭代拓展多模态应用场景，3月发布后持续升级用户体验[12] 技术实现与定位 - 产品定位为阿里巴巴AI旗舰应用，目标打造生活/工作/学习的超级入口[1] - 核心技术依托视觉理解与思考推理模型，实现物理世界问题的交互解答[1] - 交互方式创新体现在拍照即搜索的跨场景应用（旅游/健康/工作等）[3][5][7][10]

多模态能力

AI大模型

Software and Internet

Software and Internet

夸克AI超级框

夸克AI相机

腾讯混元大模型

超越DeepSeek！刚刚，腾讯元宝登顶下载榜

21世纪经济报道· 2025-03-03 23:14

腾讯元宝市场表现 - 3月3日腾讯元宝在中国区苹果应用商店免费APP下载排行榜上升至第一，超越DeepSeek，豆包位居第四 [1] - 腾讯元宝是AIGC应用中用户增长最快的App，2月22日在排行榜上升100多名，排名超越豆包，仅次于DeepSeek [3] 产品功能迭代 - 3月1日腾讯元宝正式发布电脑版，支持Windows和macOS系统，具备读图、智能对话、文件解析能力 [5] - 电脑版通过DeepSeek-R1满血版和混元T1进行深度思考，结合腾讯内容源确保答案时效性和可信度 [6] - 后续将推出划词搜索与翻译、截图提问等便捷功能 [7] - 2月25日新增对话导出为长图功能，所有模型支持理解图片、解析文件、联网搜公众号、微信上传文件 [9] 技术整合创新 - 腾讯将DeepSeek与混元多模态能力融合，使其具备图片理解能力，而官方DeepSeek仅支持OCR文字识别 [13][14] - 目前接入DeepSeek-R1满血版、DeepSeek-V3、混元T1和混元Turbo四个模型，均支持多模态功能 [15] - 行业分析认为此次更新属于产品创新而非底层模型迭代，体现模块化创新的差异化价值 [16] 腾讯战略布局 - 腾讯过去半个月快速调整战略拥抱DeepSeek，微信、腾讯文档等十余款产品已接入 [18][19] - 最新接入产品包括理财通（整合金融数据和公众号资源提升专业性）和企业微信（智能机器人、客户跟进总结功能） [20][21][22] - 公司凭借庞大C端用户和产品矩阵，加速大模型场景试验，有望开拓新AI应用体验 [24]