多模态能力
搜索文档
洲明科技拟携智谱华章等成立智显机器人 构建AI智能终端领域创新生态体系
智通财经网· 2025-10-25 01:13
合资设立新公司 - 洲明科技与智谱华章、元客视界共同投资设立智显机器人公司,注册资本为5000万元 [1] - 洲明科技认缴出资2500万元,持股比例为50%,为控股股东 [1] - 智谱华章认缴出资1500万元,持股比例为30%,元客视界认缴出资1000万元,持股比例为20% [1] 战略目标与技术整合 - 对外投资旨在整合三方核心技术优势,构建AI智能终端领域的创新生态体系 [1] - 三方将协同构建"算法模型+硬件终端+感知交互"的一体化解决方案 [1] - 该合作将为AI智能终端提供从垂类模型训练到软硬件集成的全链条支持 [1] 产品规划与应用场景 - 合资公司产品拟依托LLM、LED、图像视觉交互等基础能力 [1] - 产品将集成语音交互、图像识别、智能问答、实时翻译等多模态能力 [1] - 业务将包含AI智能体、AI智能终端等在内的端侧解决方案与AI端侧应用 [1] - 通过打造垂直行业模型与端侧小模型,为智能终端提供内容和服务 [1] - 产品将广泛应用于教育、会议、文旅等领域,推动智能体的"显示具身化"落地 [1]
2025年AI知识库本地化部署厂商盘点:先知AI与行业解决方案解析
搜狐财经· 2025-10-21 15:19
在2025年人工智能技术全面落地的背景下,企业级AI知识库的私有化部署正成为数字化转型的核心需求。随着数据安全法规的日益严格和业务场景的深度 个性化,越来越多的企业选择将AI知识库部署在本地环境,以平衡技术创新与风险控制。本文将重点介绍先知AI公司的私有化部署解决方案,并盘点当前 市场上的主要服务商。 先知AI:企业知识管理的私有化部署专家 先知AI(北京先知先行科技有限公司)作为国内领先的人工智能技术应用创新企业,自主研发了企业级预训练大模型"先知AI",并率先提出"模型即服务"理 念。在全国设有多个分支机构,团队汇聚了来自阿里、腾讯、百度等企业的技术精英和商业领袖,具备超强的国际视野和商业创新能力。 在保险领域,先知AI通过私有化部署为保险代理人打造了"高效惠民智囊",在负面反馈话术辅助和业务知识应答方面发挥重要作用,显著提高了业务员的接 待效率和应答精准度。 核心技术优势 先知AI知识库采用多模态混合大模型架构,融合文本、图像、音视频处理能力,支持复杂知识的解析与应用。其私有化部署方案具有以下显著特点: 安全可控的数据管理:通过本地化部署模式,将全部数据存储在企业自有服务器,避免敏感信息外泄,特别适合金 ...
等不来DeepSeek-R2的246天:梁文锋的“三重困境”与“三重挑战”
36氪· 2025-09-23 18:13
核心观点 - DeepSeek-V3.1-Terminus版本发布 主要针对用户反馈问题改进 提升模型稳定性与一致性 [1] - 市场对DeepSeek-R2模型发布预期持续落空 自R1发布后246天内出现至少10次发布传言 反映公司面临技术、战略与市场竞争的多重压力 [2][5][6] - 公司通过开源策略推动技术普惠 开源包括通用模型V3.0324、多模态文生图模型Janus-Pro及底层工具链 但核心产品R2延迟暴露生态短板 [8][9][15] 技术更新与产品迭代 - DeepSeek-V3.1-Terminus版本更新 非例行迭代 重点改进用户反馈问题 提升稳定性与一致性 [1] - 开源通用模型DeepSeek-V3.0324 API成本为GPT-4的1/14 大幅降低使用成本 [8] - 开源多模态文生图模型Janus-Pro 但未在行业掀起波浪 [13][14] - 开源工具链包括FlashMLA解码内核、DeepGEMM矩阵运算库 推理速度提升约30% 并支持华为昇腾平台 [9] 市场预期与竞争环境 - 市场对DeepSeek-R2预期高涨 自2025年2月起多次传言发布 包括5月初、3月17日等 但均未实现 [5][6] - 竞争对手阿里巴巴通义千问、百度文心大模型已完成多轮功能迭代和模型升级 [6] - 公司估值因R1成功水涨船高 但R2延迟发布消耗用户耐心 导致市场预期管理失焦 [5][6][11] 技术挑战与算力限制 - R2延迟因技术突破难度大 需实现碾压级优势 但内部测试未达颠覆性提升 [6][11] - 算力供应问题突出 尝试迁移至华为昇腾芯片遇性能瓶颈和不稳定 被迫切回NVIDIA平台 [11] - 模型面临"幻觉"问题 在创意和事实性内容上表现不佳 影响用户信任 [15] 战略布局与生态构建 - 公司构建全栈开源技术体系 覆盖底层模型到上层工具链 推动国产AI算力落地 [8][9] - 缺乏内容生态优势 依赖外部数据集 无法像百度、字节跳动那样通过自有平台产生实时数据 [15] - 多模态能力缺位 技术路线单一 主要集中在文本和代码领域 限制商业化想象空间 [13][14] 行业影响与公司定位 - DeepSeek-R1开源策略降低AI技术应用成本 打破海外厂商垄断 推动行业创新 [17] - 公司面临创新者窘境 需在技术极致与市场时机间权衡 R2发布决策复杂化 [16] - 当前困境反映国内AI公司普遍挑战 包括技术瓶颈、战略短板和激烈竞争 [17]
Nano-Banana 核心团队分享:文字渲染能力才是图像模型的关键指标
Founder Park· 2025-09-01 13:32
技术突破与核心能力 - 谷歌Gemini 2.5 Flash Image(代号Nano-Banana)在角色一致性、自然语言理解和空间感知方面显著优于其他模型,社交平台热度超过Elon Musk推荐的Grok视频生成[2][11] - 模型通过完全内生的多模态能力实现自然对话式图像创作,支持模糊指令和多轮迭代,无需依赖精确提示词[9][10] - 在LM Arena测试中展现出色的角色一致性保持能力,支持任意风格迁移、环境融合及多元素组合生成[13][14][17] 创新方法论与指标优化 - 团队将文字渲染能力作为关键代理指标(Proxy metric),因其要求像素级精准控制,可客观反映模型整体性能提升[22][23][24] - 通过优化文字渲染(需处理字母形状、间距、背景融合等),模型整体图像质量同步提升,验证该指标对系统优化的牵引作用[24][25] - 采用交错生成(Interleaved Generation)技术,模型在统一上下文中串行生成多图,保持系列作品的协调性与差异性[26][29][30] 产品哲学与用户体验 - 生成速度降至秒级(如13秒生成5张风格一致图片),支持用户无负担快速迭代调整,接近人类创作中的草图探索过程[21][29][32] - 与谷歌Imagen定位差异:Imagen专注于高质量一次性生成(类似Photoshop),而Gemini强调通过对话迭代实现创意探索(类似创意总监)[33][34] - 团队直接收集社交媒体用户失败案例作为基准测试集,针对性优化光影一致性、风格融合等痛点[33][35] 应用场景与行业影响 - 角色一致性能力实现跨角度3D渲染(如固定角色生成多场景),对故事叙述、品牌IP塑造及视频创作(如MetaPuppet视频生成)至关重要[35][38][39] - 支持从线稿控制造型生成、实拍转换真人cosplay等复杂创作需求,拓展了艺术设计、娱乐内容生产场景[18][20][36] - 模型具备"智能感"(Smartness),可超越用户指令预期(如自动添加创意标题),同时追求事实性(Factuality)以支持工作用图表、幻灯片生成[29][39][41] 技术原理与系统设计 - 图像理解与生成能力双向强化:通过视觉学习弥补语言描述中的"报告偏差"(Reporting bias),通过生成验证对世界的理解[30] - 采用类似思维链(Chain of Thought)的分解迭代方法,将复杂任务拆解为多步骤处理,突破单次处理能力上限[32] - 基于世界模型的空间想象能力实现合理3D视角转换(如俯视图生成),体现Gemini在物理空间理解方面的进展[20][22]
魔法再现,谷歌发布最强图片模型 nano banana,劈柴一秒回印度老家
36氪· 2025-08-27 16:19
产品性能与市场地位 - Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview(别称Nano Banana)以1362分位列LMArena图片编辑模型排行榜榜首,显著领先第二名Black Forest的flux-1-kontext-max模型(1191分)[1][3] - 该模型在投票中获得2,521,035次支持,远超第二名模型的357,196次,且评分95%置信区间为±2,显示数据稳定性高[1] - 支持多模态输入(文本、图像、视频、音频),图像输出定价为每百万tokens 30美元,单张图像处理成本约0.3元人民币[48] 技术能力突破 - 实现通过文本指令精准编辑图像,包括更换背景、视角、色调及添加衣物,并保持主体特征高度一致(人物转圈后面部变化微小)[6][11][23] - 具备多轮次编辑与多图叙事能力,支持连续修改图像而不丢失原始特征,可生成漫画分镜、多角色互动及技术插图[6][25][27] - 处理速度达1-2秒/张,显著快于同类模型10-15秒的处理时长,且集成Veo3工作流后可快速生成高质量视频[47] 应用场景与用户反馈 - 在动漫领域表现突出,能根据手绘示意图生成多角色姿态一致的三视图及消费级漫画[25][27][33] - 支持科学插图绘制,具备高保真文本渲染与几何题目解答能力,5秒内完成复杂插图生成[43][44][45] - 用户实测反馈一致性极强(普通人物照片难以察觉面部变化),但名人面部处理偶有轻微失真,且过滤器存在误拒正常请求的情况[35][36][47]
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:19
大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分,超过特殊类型招生控制线(521分)和普通类一段线(441分),预估赋分后最高可达690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中,豆包1.6-Thinking以683分位列第一,领先谷歌Gemini 2.5 Pro(651分)32分;理科总分Gemini 2.5 Pro以655分排名第一,豆包以648分位列第二 [6] - 基础学科表现优异:豆包语文128分、数学141分、英语144分,与其他主流模型(如Gemini数学140分、英语141分)差距较小,显示基础能力趋近人类优秀考生水平 [3][6] 多模态能力对比 - 山东高考试卷中图像类问题占比36%(378分),豆包凭借多模态能力优势显著,而DeepSeek R1因缺乏多模态支持无法正常解答图像题 [6] - 副科赋分优势明显:豆包物理90分、化学100分、地理94分,资深教师预估其赋分后成绩可提升至690分以上,尤其在化学等难度较高科目表现突出 [1][6] 技术迭代与行业应用 - 豆包1.6系列模型技术突破:采用230B总参数稀疏MoE架构,支持256K长上下文推理,新增动态思考能力和多模态融合,在复杂推理、数学竞赛等测试中跻身全球前列 [8] - 大模型产业价值显现:2024年中国AI大模型市场规模294.16亿元,预计2026年突破700亿元,豆包已覆盖4亿终端设备,渗透汽车、金融等八大行业,包括80%主流车企和70%系统重要性银行 [11][12] 高考作为AI评测场景 - 高考成为大模型核心竞技场:题目覆盖文理科全领域及多模态理解,能有效测试模型泛化能力,同时具备社会关注度,推动厂商积极参与测评 [10] - 豆包成绩年增幅显著:相比2024年测评,文科总分提升140.5分(542.5→683),理科提升181.5分(466.5→648),反映技术迭代速度 [11]
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 20:53
具身AGI的定义 - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调其人类交互能力和任务执行能力 [3] 通用具身智能路线 - 论文提出从L1到L5的五级路线图,衡量和指导具身AGI的发展,每个级别基于四个核心维度:模态、类人认知能力、实时响应能力和泛化能力 [4] - L1(单一任务完成):机器人能够可靠地完成单一、明确定义的任务,但功能局限于特定任务领域 [7] - L2(组合任务完成):机器人能够处理组合任务,通过将高级人类指令分解为简单动作序列来执行,但能力仍限于预定义任务和技能库 [7] - L3(有条件的一般任务完成):机器人能够处理多种任务类别,表现出对任务、环境和人类指令的有条件泛化能力,但对全新或开放式任务的可靠性不足 [7] - L4(高度通用机器人):机器人展现出对广泛未见任务的稳健泛化能力,具备强大的多模态理解和推理能力 [7] - L5(全功能机器人):机器人能够满足人类日常生活的广泛需求,展现出类似人类的认知行为 [7] 现状和挑战 - 当前具身AI的能力处于L1和L2之间 [7] - 现有的具身AI模型大多仅支持视觉和语言输入,并且输出仅限于动作空间 [8] - 现有的机器人主要专注于任务特定的操作,缺乏高级的推理和社交互动能力 [11] - 大多数现有的具身AI系统以半双工方式运行,即在完全接收和处理指令后才开始行动,这使得它们在动态环境中表现不佳 [14] - 具身AI需要在推理和对话智能方面表现出色,类似于复杂的聊天机器人,并展示与人类偏好和伦理价值观的一致性 [17] L3∼L5核心能力组件 - 全模态能力:L3+机器人需处理超越视觉和文本的多模态输入(如听觉、触觉、热感等),并生成多模态响应(动作、语音、推理等) [18] - 类人认知行为:包括自我意识、社会关联理解、程序性记忆和记忆重组 [18] - 实时交互:现有模型因参数量限制难以支持全模态实时响应,且计算复杂度随序列长度平方增长 [19] - 开放任务泛化:当前模型依赖任务特定数据,缺乏物理规律的内化 [19] L3+机器人大脑框架 - 模型结构设计原则包括全模态流式处理和动态响应 [19] - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20] 总结与未来挑战 - 具身AGI的发展路线图具有长期相关性 [20] - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]
阶跃星辰姜大昕:追求AGI的初心不变,要在多模态能力和Agent方向做出差异化
IPO早知道· 2025-05-13 09:55
公司战略与核心观点 - 公司坚持基础大模型研发,追求AGI(通用人工智能)是初心且不会改变 [3] - 公司差异化特点在于多模态能力,目前多个模态性能在业界领先,并积极探索前沿方向 [3] - 公司在应用层面选择差异化路线,与合作伙伴共同发力智能终端Agent,形成从模型到Agent、云侧到端侧的生态体系 [3] - 行业技术发展处于陡峭区间,公司不会放弃主流增长或前进趋势 [3][4] 技术发展趋势 - 基础大模型发展呈现两大趋势:从模仿学习到强化学习、从多模态融合走向多模态理解生成一体化 [6] - 多模态理解生成一体化是重要趋势,尤其在视觉领域,理解与生成由同一模型完成 [11] - 公司已发布理解生成一体化模型Step 1X-Edit,总参数量19B(7B MLLM + 12B DiT),支持11类高频图像编辑任务 [13] - 公司内部正在开发更高级版本,未来几个月将发布更先进技术 [13] 多模态能力布局 - 公司建立Step系列通用大模型矩阵,包括语言模型和多模态模型,多模态细分涵盖图像、视频、语音、音乐等 [8] - 公司是国内少数重视模态全覆盖并坚持原生多模理念的企业,认为多模态是实现AGI的必经之路 [9] - 多模态能力对垂直领域和C端应用必不可少,公司具备全面自研预训练模型能力,构成独特优势 [9] 智能终端Agent战略 - 公司采用"超级模型+超级应用"双轮驱动策略,将智能终端Agent作为重要方向之一 [15] - Agent爆发需要多模态能力和慢思考能力,这两项能力在2024年取得突破性进展 [15] - 公司已与OPPO、吉利、智元机器人等头部企业合作,重点布局手机、汽车、机器人等智能终端 [16] - 公司认为AI时代产品流量增长逻辑不同于传统互联网,智能终端服务C端存在巨大机会 [17] 产品与技术成果 - 图像编辑大模型Step1X-Edit性能达到开源SOTA,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [13] - 该模型支持文字替换、风格迁移、材质变换、人物修图等11类高频图像编辑任务 [13] - 理解生成一体化的技术路线在公司成立之初就已设定 [14]
生成网页可以垫视频了?教你用 Gemini 2.5 最强大的能力
歸藏的AI工具箱· 2025-05-09 16:34
Gemini 2 5 Pro 0506版本核心能力 - 根据网页交互视频生成还原度极高的网页效果 显著提升前端开发效率[1][4] - 多模态能力与代码生成产生化学反应 实现复杂交互动画的自动还原[5][6] - 在AI Studio中选择Gemini 2 5 Pro 05-06版本可体验该功能 需注意视频压缩和长度控制[13] 技术特性 - 前端代码美观度显著提升 仅需设计稿无需优化提示词即可生成完美还原网页[4] - 视频多模态理解能力行业领先 可捕捉Hover动画、图标高亮等复杂交互细节[7][8] - 输出格式支持HTML/CSS/JS三合一文件 浏览器直接预览简化开发流程[12] 应用案例 - 邮箱地址交互案例: 成功还原图标高亮效果 但存在间距和变色细节缺失[7] - 翻译工具Hover案例: 完美捕捉动态翻译卡片效果 仅字体大小需微调[8] - YouTube科普视频转化案例: 实现从视频到互动网页的端到端生成[5] 使用优化建议 - 提示词需明确标注重点效果(如淡蓝色圆角背景)以弥补视觉细节识别不足[11][12] - 动画效果需增加缓动参数 图标库通过CDN引用提升还原度[11] - 适用场景包括但不限于动效生成 开发者可拓展更多创新应用[14]
加码多模态能力,夸克发布全新“AI相机”
观察者网· 2025-04-28 17:29
夸克AI相机功能升级 - 公司发布全新AI相机功能"拍照问夸克",基于视觉理解与推理模型创新下一代搜索体验[1] - 功能覆盖旅游(行程制定、景点识别)、文物识别(中外语音讲解)、跨国翻译(菜单翻译)、图像处理(杂物消除、表情调整)及社交文案生成[3] - 生活场景支持故障诊断(电器蓝屏拍照解决方案)、物品购买指导(灯泡/螺丝型号识别)[5] - 健康管理功能包括体检报告解读、用药禁忌查询及定制化食谱生成(如尿酸偏高食谱)[7] - 工作学习场景支持合同补全、图表计算、代码注释复现等[10] 多模态AI行业动态 - 行业竞争聚焦多模态能力,OpenAI推出视频生成工具Sora,谷歌发布跨模态模型Gemini[13] - 国内企业快速跟进:腾讯混元大模型新增视频生成,月之暗面发布Kimi1.5支持跨模态推理,字节豆包1.5实现视觉推理[13] - 公司通过"AI超级框"迭代拓展多模态应用场景,3月发布后持续升级用户体验[12] 技术实现与定位 - 产品定位为阿里巴巴AI旗舰应用,目标打造生活/工作/学习的超级入口[1] - 核心技术依托视觉理解与思考推理模型,实现物理世界问题的交互解答[1] - 交互方式创新体现在拍照即搜索的跨场景应用(旅游/健康/工作等)[3][5][7][10]