多模态能力
搜索文档
阶跃星辰姜大昕:追求AGI的初心不变,要在多模态能力和Agent方向做出差异化
IPO早知道· 2025-05-13 09:55
公司战略与核心观点 - 公司坚持基础大模型研发,追求AGI(通用人工智能)是初心且不会改变 [3] - 公司差异化特点在于多模态能力,目前多个模态性能在业界领先,并积极探索前沿方向 [3] - 公司在应用层面选择差异化路线,与合作伙伴共同发力智能终端Agent,形成从模型到Agent、云侧到端侧的生态体系 [3] - 行业技术发展处于陡峭区间,公司不会放弃主流增长或前进趋势 [3][4] 技术发展趋势 - 基础大模型发展呈现两大趋势:从模仿学习到强化学习、从多模态融合走向多模态理解生成一体化 [6] - 多模态理解生成一体化是重要趋势,尤其在视觉领域,理解与生成由同一模型完成 [11] - 公司已发布理解生成一体化模型Step 1X-Edit,总参数量19B(7B MLLM + 12B DiT),支持11类高频图像编辑任务 [13] - 公司内部正在开发更高级版本,未来几个月将发布更先进技术 [13] 多模态能力布局 - 公司建立Step系列通用大模型矩阵,包括语言模型和多模态模型,多模态细分涵盖图像、视频、语音、音乐等 [8] - 公司是国内少数重视模态全覆盖并坚持原生多模理念的企业,认为多模态是实现AGI的必经之路 [9] - 多模态能力对垂直领域和C端应用必不可少,公司具备全面自研预训练模型能力,构成独特优势 [9] 智能终端Agent战略 - 公司采用"超级模型+超级应用"双轮驱动策略,将智能终端Agent作为重要方向之一 [15] - Agent爆发需要多模态能力和慢思考能力,这两项能力在2024年取得突破性进展 [15] - 公司已与OPPO、吉利、智元机器人等头部企业合作,重点布局手机、汽车、机器人等智能终端 [16] - 公司认为AI时代产品流量增长逻辑不同于传统互联网,智能终端服务C端存在巨大机会 [17] 产品与技术成果 - 图像编辑大模型Step1X-Edit性能达到开源SOTA,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [13] - 该模型支持文字替换、风格迁移、材质变换、人物修图等11类高频图像编辑任务 [13] - 理解生成一体化的技术路线在公司成立之初就已设定 [14]
生成网页可以垫视频了?教你用 Gemini 2.5 最强大的能力
歸藏的AI工具箱· 2025-05-09 16:34
Gemini 2 5 Pro 0506版本核心能力 - 根据网页交互视频生成还原度极高的网页效果 显著提升前端开发效率[1][4] - 多模态能力与代码生成产生化学反应 实现复杂交互动画的自动还原[5][6] - 在AI Studio中选择Gemini 2 5 Pro 05-06版本可体验该功能 需注意视频压缩和长度控制[13] 技术特性 - 前端代码美观度显著提升 仅需设计稿无需优化提示词即可生成完美还原网页[4] - 视频多模态理解能力行业领先 可捕捉Hover动画、图标高亮等复杂交互细节[7][8] - 输出格式支持HTML/CSS/JS三合一文件 浏览器直接预览简化开发流程[12] 应用案例 - 邮箱地址交互案例: 成功还原图标高亮效果 但存在间距和变色细节缺失[7] - 翻译工具Hover案例: 完美捕捉动态翻译卡片效果 仅字体大小需微调[8] - YouTube科普视频转化案例: 实现从视频到互动网页的端到端生成[5] 使用优化建议 - 提示词需明确标注重点效果(如淡蓝色圆角背景)以弥补视觉细节识别不足[11][12] - 动画效果需增加缓动参数 图标库通过CDN引用提升还原度[11] - 适用场景包括但不限于动效生成 开发者可拓展更多创新应用[14]
加码多模态能力,夸克发布全新“AI相机”
观察者网· 2025-04-28 17:29
夸克AI相机功能升级 - 公司发布全新AI相机功能"拍照问夸克",基于视觉理解与推理模型创新下一代搜索体验[1] - 功能覆盖旅游(行程制定、景点识别)、文物识别(中外语音讲解)、跨国翻译(菜单翻译)、图像处理(杂物消除、表情调整)及社交文案生成[3] - 生活场景支持故障诊断(电器蓝屏拍照解决方案)、物品购买指导(灯泡/螺丝型号识别)[5] - 健康管理功能包括体检报告解读、用药禁忌查询及定制化食谱生成(如尿酸偏高食谱)[7] - 工作学习场景支持合同补全、图表计算、代码注释复现等[10] 多模态AI行业动态 - 行业竞争聚焦多模态能力,OpenAI推出视频生成工具Sora,谷歌发布跨模态模型Gemini[13] - 国内企业快速跟进:腾讯混元大模型新增视频生成,月之暗面发布Kimi1.5支持跨模态推理,字节豆包1.5实现视觉推理[13] - 公司通过"AI超级框"迭代拓展多模态应用场景,3月发布后持续升级用户体验[12] 技术实现与定位 - 产品定位为阿里巴巴AI旗舰应用,目标打造生活/工作/学习的超级入口[1] - 核心技术依托视觉理解与思考推理模型,实现物理世界问题的交互解答[1] - 交互方式创新体现在拍照即搜索的跨场景应用(旅游/健康/工作等)[3][5][7][10]
超越DeepSeek!刚刚,腾讯元宝登顶下载榜
21世纪经济报道· 2025-03-03 23:14
腾讯元宝市场表现 - 3月3日腾讯元宝在中国区苹果应用商店免费APP下载排行榜上升至第一,超越DeepSeek,豆包位居第四 [1] - 腾讯元宝是AIGC应用中用户增长最快的App,2月22日在排行榜上升100多名,排名超越豆包,仅次于DeepSeek [3] 产品功能迭代 - 3月1日腾讯元宝正式发布电脑版,支持Windows和macOS系统,具备读图、智能对话、文件解析能力 [5] - 电脑版通过DeepSeek-R1满血版和混元T1进行深度思考,结合腾讯内容源确保答案时效性和可信度 [6] - 后续将推出划词搜索与翻译、截图提问等便捷功能 [7] - 2月25日新增对话导出为长图功能,所有模型支持理解图片、解析文件、联网搜公众号、微信上传文件 [9] 技术整合创新 - 腾讯将DeepSeek与混元多模态能力融合,使其具备图片理解能力,而官方DeepSeek仅支持OCR文字识别 [13][14] - 目前接入DeepSeek-R1满血版、DeepSeek-V3、混元T1和混元Turbo四个模型,均支持多模态功能 [15] - 行业分析认为此次更新属于产品创新而非底层模型迭代,体现模块化创新的差异化价值 [16] 腾讯战略布局 - 腾讯过去半个月快速调整战略拥抱DeepSeek,微信、腾讯文档等十余款产品已接入 [18][19] - 最新接入产品包括理财通(整合金融数据和公众号资源提升专业性)和企业微信(智能机器人、客户跟进总结功能) [20][21][22] - 公司凭借庞大C端用户和产品矩阵,加速大模型场景试验,有望开拓新AI应用体验 [24]