多模态能力 - 财报，业绩电话会，研报，新闻 - Reportify

多模态能力

搜索文档

刚刚，Gemini 3再次大更新，全球免费享Pro级智商，奥特曼又要失眠了

36氪· 2025-12-18 17:26

以下文章来源于APPSO ，作者发现明日产品的 APPSO . AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 又快又便宜，脑子还挺在线。来源｜ APPSO（ID：appsolution）封面来源｜ Gemini官方年底了，谷歌又开始冲业绩了。就在刚刚，Gemini 3 Flash正式发布，直接对标OpenAI和Anthropic的旗舰模型，官方号称比 2.5 Pro 速度快3倍，价格砍到3 Pro的四分之一，性能还不降反升。用谷歌自己的话说，这是「为速度而生的前沿智能」。翻译一下就是：又快又便宜，脑子还挺在线。而从今天起，你将能在Gemini产品线里用到三种模型： Gemini 3 Flash(Fast)：主打一个「快」，适合那些不需要长链条思考、追求效率的对话场景。不过，在实际体验过程中，Gemini 3 Flash的性能表现还是远远不如Pro的，以至于让我产生一种「货不对板」的落差感，也欢迎更多朋友分享你的体验。即便如此，谷歌在发布时机的选择上依然称得上「快、准、狠」。紧随Gem ini 3 Pro与Deep Think ...

多模态能力

多模态能力

全球竞逐AI时代：中国应用生态爆发与全球格局演变

搜狐财经· 2025-12-13 16:37

2025年，我国生成式人工智能用户规模已达 5.15亿人，普及率高达36.5%，这意味着超过三分之一的网民正在使用这项技术。与2024年底相比，短短半年内用户规模增长了2.66亿，增幅高达106.6%。当我们把视野扩大到全球，AI助理工具已经覆盖了36%的桌面用户和24%的移动用户。超过30%的桌面搜索现在会显示AI生成的概览内容，而在预订酒店的用户中，近63%的人会在决定前咨询AI平台。 2025年8月，国务院印发《关于深入实施"人工智能+"行动的意见》，部署了"人工智能+"科学技术、产业发展、消费提质等六大重点行动。根据这一规划，到2027年，中国将率先实现人工智能与六大重点领域广泛深度融合，新一代智能终端、智能体等应用普及率超过70%。 01 爆发之势：从规模增长到场景渗透中国人工智能产业已迈入"技术筑基、场景赋能、生态共生"的新阶段。截至2025年第三季度，中国人工智能企业数量超过5300家，全球占比达到15%。产业规模方面，中国人工智能产业规模已突破9000亿元，同比增长24%。AI应用的数量达到657个，同比增长61.8%，移动端用户规模突破7亿。更值得注意的是，人工智能正在深入各行 ...

多模态能力

多模态能力

2026年计算机行业年度策略：从“+AI”到“AI+”，AI巨轮破浪前行

西部证券· 2025-12-12 17:22

核心观点报告认为，人工智能正从“+AI”向“AI+”演进，2026年计算机行业将围绕“算力筑基，模型进阶，应用可期”展开[7] 具体关注方向包括：国内外大厂资本开支持续增长及AI规模化应用带动Token消耗，看好AI算力产业链；大模型多模态能力提升将极大拓展应用边界；“人工智能+”政策牵引下，企业级AI应用有望迎来规模化推广拐点，同时AI硬件终端革命和阿里等巨头生态布局值得关注[7][8] 2025年回顾：市场表现与业绩 - **市场走势**：2025年初，以DeepSeek为代表的国内AI大模型取得突破，推动计算机行业在2月走出一轮显著跑赢大盘的独立上涨行情[5] 4月受外部冲击与内部估值压力共振影响，板块出现快速回调，估值压力得到释放[5] 此后板块走势与沪深300指数呈现较高同步性[5] 截至12月11日，计算机板块全年累计涨幅为14.05%，在申万31个一级行业中排名第17位[13] - **行业业绩**：2025年前三季度，计算机行业（剔除特定公司后共314家）整体法下总营收为8329.43亿元，同比增长10.50%；归母净利润为102.91亿元，同比大幅增长47.77%；扣非后归母净利润为29.35亿元，同比激增535.39%[17] 中位数法下，营收中位数为6.00亿元，同比增长7.22%；归母净利润中位数为0.04亿元，同比下降48.62%[17] - **盈利能力与费用**：2025年前三季度，计算机行业整体毛利率为20.73%，同比下降2.26个百分点[21] 费用控制成效显著，销售费用率、管理费用率、研发费用率分别为6.56%、4.91%、8.17%，同比分别下降0.67、0.51、0.90个百分点，三费合计费用率同比下降2.08个百分点[21] 2025年回顾：公募基金持仓 - **配置比例**：2025年第三季度，计算机行业公募基金重仓股配置比例为2.6%，环比下降0.1个百分点，低配2.2个百分点[25] 该比例在2024年第四季度触底回升后，于2025年第一季度达到2.8%，随后连续两个季度环比下降[25] - **持仓结构**：2025年第三季度，机构重仓子领域包括AI算力、AI应用、金融科技、智能驾驶等[29] 持股市值前十的公司包括金山办公、中科曙光、科大讯飞等；持股基金数前十的公司包括金山办公（230个基金持有）、中科曙光、科大讯飞等[29] - **加仓方向**：2025年第三季度，机构加仓方向以AI算力、金融科技为主[29] 持股市值增加最多的公司是中科曙光（增加59亿元）和浪潮信息（增加36亿元）；持股基金数增加最多的公司是浪潮信息（增加29只）和德赛西威（增加26只）[29] 2025年回顾：大模型进展 - **DeepSeek突破**：2025年1月，DeepSeek发布R1模型，性能比肩国际顶尖闭源模型，其API定价约为OpenAI o1的1/30，极大地降低了部署门槛[32] 2025年3月，DeepSeek公布其推理系统理论成本利润率可达545%，重构了行业盈利预期[38] - **国际模型迭代**：2025年8月，OpenAI发布GPT-5，其出现事实错误的概率比GPT-4o低约45%，比OpenAI o3低约80%，且API价格更具性价比[42] 2025年11月，谷歌发布Gemini 3，在Humanity's Last Exam测试中得分达41%，在代表抽象推理能力的ARC-AGI-2测试中得分31.1%，显著领先于GPT-5.1的17.6%[52] - **国内模型进展**：2025年9月，阿里发布总参数超过1T的Qwen3-Max，其指令版在SWE-Bench评测中斩获69.6分，思考版在AIME 25和HMMT数学评测中均获满分[47] 2025年回顾：AI应用落地 - **AI视频生成**：快手可灵AI在2025年3月年化经常性收入突破1亿美元，第二季度营业收入超过2.5亿元人民币[82] 截至2025年11月，其全球用户规模突破4500万，累计生成超2亿个视频，为超2万家企业客户提供API服务[82] - **AI编程**：AI编程是增长最快赛道之一，海外独角兽Cursor年化收入突破10亿美元[87] 谷歌和微软均有约30%的代码由AI协助编写，腾讯超过90%的工程师使用AI编程助手[87] 预计全球AI编程工具市场规模将从2024年的62.1亿美元增长至2029年的181.6亿美元，复合年增长率为23.9%[91] - **企业级AI应用**：用友网络在2025年前三季度AI相关合同签约金额突破7.3亿元，仅第三季度单季就超过4亿元[95] 金蝶推出AI产品“小K”，已聚合近20个智能体覆盖多个业务领域[96] - **C端爆款应用**：谷歌Nano Banana图像生成模型拉动Gemini APP月活跃用户达到6.5亿，发布不到一个月已生成超5亿张图片[101] OpenAI推出的视频生成社交应用Sora APP，上线不到五天下载量突破100万次[107] 2026年展望：算力基建 - **海外资本开支高增**：主要云厂商资本开支持续增长，为AI算力需求提供支撑[114] 微软2026财年第一季度资本支出达349亿美元，同比增长74.5%；谷歌2025年第三季度资本开支为240亿美元，同比增长83%，并将2025年全年资本支出指引上调至910-930亿美元；Meta将2025年资本开支指引下限上调至700亿美元；亚马逊预计2026年资本支出将进一步增加[114][115] - **国内资本开支跟进**：阿里巴巴计划未来三年投入至少3800亿元用于云计算和AI基础设施建设[120] 报告预计中国云服务提供商明年的AI支出将大幅增长[120] - **Token消耗驱动**：AI应用规模化带动Token消耗高增，截至2025年9月底，豆包大模型日均Token调用量已突破30万亿，谷歌月均处理Token用量达1300万亿[124] - **国产算力加速**：DeepSeek-V3.1针对下一代国产芯片的特殊设计，有望加速国产AI芯片在推理市场的规模化落地[127] 北京大学开源的TileLang语言，有望推动国产AI芯片建立成熟的软件体系[131] 国产AI芯片性能持续提升，如平头哥PPU多项配置规格接近英伟达H20，华为也公布了昇腾AI芯片的三年发展路线图[136][137] 2026年展望：模型与应用 - **多模态能力**：报告认为多模态能力将极大降低大模型的理解与交互门槛，将其应用范围从文字世界拓展至物理世界，谷歌Gemini是原生多模态模型的代表[141] - **政策驱动与企业应用**：“人工智能+”顶层政策明确，到2027年新一代智能终端、智能体等应用普及率目标超过70%，企业级AI应用有望在2026年迎来规模化推广拐点[145] - **AI硬件终端**：OpenAI计划在2026年末至2027年初推出首批AI终端（如眼镜、录音笔等），其生态预热与产业链共振值得关注[147] - **阿里生态布局**：阿里巴巴发布通义大模型家族7款新成员，覆盖视觉、语音、多模态、代码等核心环节[152] 同时，阿里发力C端推出千问APP，全面对标ChatGPT，并计划接入各类生活场景，其生态合作伙伴有望率先受益[155] 投资建议报告建议关注三大方向[159]： - **AI算力**：包括国产AI芯片（寒武纪、海光信息等）、AI服务器（中科曙光、浪潮信息等）产业链[160] - **AI模型**：关注阿里巴巴、腾讯控股、商汤、百度集团等公司[161] - **AI应用**：包括AI终端（海康威视、大华股份等）、AI+企业软件（金山办公、用友网络等）、AI+工具（快手、万兴科技等）[162]

Artificial Intelligence

多模态能力

Software and Services

Artificial Intelligence

多模态能力

Software and Services

深度讨论 Gemini 3 ：Google 王者回归，LLM 新一轮排位赛猜想｜Best Ideas

海外独角兽· 2025-11-26 18:41

文章核心观点 - Google发布的Gemini 3标志着公司在pre-training算力投入上首次追平OpenAI，并在数据体系、多模态能力、系统架构和产品体验上实现协同突破，意味着大模型竞争格局加速演变为Google、Anthropic与OpenAI三家交替领先的动态结构[4][5][14] Gemini 3的核心优势 - 模型训练FLOPs达到6 × 10^25级别，首次在pre-training算力上追平OpenAI，证明scaling law依然有效[5] - 充分利用自身TPU集群效能，实现算力规模指数级跨越，解决算力利用率瓶颈[6] - 训练数据量相比Gemini 2.5可能增加一倍，凭借二十多年积累的用户搜索历史、视频观看记录等构成不可迁移的数据护城河[7] - 采用稀疏化混合专家架构，稀疏度可能超过50%，以更少计算资源调用更广阔知识储备，依托自研TPU和OCS互联技术实现软硬高度耦合的系统级优势[8][10][11] - 展现独特的产品经理式编程思维，先深度分析问题并输出任务需求书，再设计测试方案，最后执行代码编写，有效避免错误代码回滚成本[12] - 内部组织与研发模式成功转型，克服DeepMind与Google Brain整合的阻力，探索出适合大公司的模型研发机制[13] 大模型竞争新格局 - 行业形成Google强于pre-training和Infra、OpenAI优势在post training的共识，但随着Gemini 3在pre-training阶段追平甚至反超，OpenAI的护城河不再稳固[18] - OpenAI在agentic任务和工具调用上仍是绝对王者，GPT-5.1在复杂指令执行与工具使用能力基准测试中分数高于Gemini 3，并拥有2000万付费用户构成的优质反馈数据源[18][20] - Anthropic采取聚焦差异化策略，Claude系列在Coding和Agent稳定性上表现良好，更适合处理编程自动化及企业内部工作流[24] - 红杉中国XBench测评显示Gemini 3 Pro在500道博士级题目上准确率比GPT-5.1高约10%，处理速度是后者的3倍，成本仅为十分之一[22] 多模态能力突破 - Gemini 3在多模态理解上断档领先，能精准识别非正常图片手指数量、复杂图片特定按键，视觉编码器与语言模型实现高精度对齐[25] - 在还原撕碎购物小票案例中，Gemini 3完美还原所有菜名、单价及总金额，展现惊人逻辑闭环能力，而GPT-5.1存在明显误差和遗漏[27][31] - Google Veo 3.1追求极致物理一致性，能在1分钟以上生成过程中保持人物特征、场景布局高度一致，画面质感接近实拍素材，可能服务于电影工业专业工具[40][41] - OpenAI Sora 2聚焦创意优先，引入语音与视觉同时生成能力，降低内容创作门槛，更符合社交平台审美需求[43] TPU系统成本与架构优势 - 使用自研TPU进行训练和推理的成本约为Nvidia GPU方案的一半，通过掌控光模块、交换机等系统生态绕过组件层层加价[46][49] - TPU为Transformer架构量身定制，软硬高度协同形成长期能效优势，同时通过模型粘性反哺GCP市场份额[50] - 架构设计上押注scale-out横向扩展，依靠OCS技术构建超大规模Superpod，优于Nvidia的scale-up纵向扩展思路，光通信架构具长期演进优势[51][52][54] - Anthropic宣布使用Google TPU多达100万个芯片，标志着算力供应多平台策略，有助于Google生态扩张并获得顶级模型团队反馈[56] Gemini商业化路径 - 公司将Gemini提升至最高战略优先级，通过推广Antigravity IDE、Chrome浏览器插件功能及学生优惠等措施构建生态[62][64][65] - 移动端策略侧重将智能蒸馏至10B-20B参数量级小模型，支撑AI Overview达到10亿级DAU，通过升级Google Assistant快速触达海量用户[66] - 商业化变现持审慎态度，首要考核指标为用户满意度而非短期变现率，已构建大规模模型评测模型飞轮进行自动化评估[67] - 在广告归因、PMax及广告主生态上拥有深厚护城河，Meta和腾讯引入大模型技术后广告收入增长约20%，而字节跳动增长维持在个位数[69][70] AI Native产品形态演进 - Gemini 3引入Generative UI功能，根据用户意图实时生成可交互定制化界面，重塑Web交互形态，应用场景包括物理仿真、金融决策等[71][72][74] - 功能演进可能经历单次查询展示、静态内容结构化生成、具备深度交互能力的即时软件三个阶段，本质是让AI拥有生成HTML/JS并即时渲染的能力[74] - OpenAI在DevDay展示类似能力，选择由合作伙伴构建UI嵌入ChatGPT对话，两种模式未来演化值得关注[75]

大模型竞争

多模态能力

Artificial Intelligence

大模型竞争

多模态能力

Artificial Intelligence

Nano Banana 拉爆谷歌营收创纪录，劈柴哥开心坏了！幕后团队曝内部“绝对优先事项清单”

AI前线· 2025-11-04 13:48

Gemini应用的用户增长与Nano Banana的影响 - Gemini应用的月活跃用户达到6.5亿 [2] - 谷歌首次实现单季度营收突破1000亿美元，每个主要业务板块均实现两位数增长（五年前季度营收为500亿美元）[2] - ChatGPT目前有8亿周活跃用户，但Gemini在消费者应用层面追赶速度非常快 [2] - 在Nano Banana发布期间，Gemini的下载量飙升，而Adobe的Firefly应用下载量明显下滑 [2] - 用户结构发生变化：18-34岁年龄段用户大幅增长，且吸引了更多女性用户 [3] - 国际用户数量快速上升，热潮从泰国开始，迅速蔓延至东南亚地区 [4] - 谷歌通过Nano Banana等爆款功能吸引用户，并关注用户留存粘性（月活跃用户定义为在安卓、iOS或网页端进行互动操作的用户）[4] Nano Banana的开发背景与核心特性 - Nano Banana模型由多个团队合作开发，融合了Gemini的互动、对话、编辑能力与Imagine系列模型的视觉质量优势 [6] - 该模型是Gemini 2.5 Flash Image版本，旨在解决早期画质未达理想水准的问题 [6] - 名称"Nano Banana"更易传播，融合了Gemini的智能多模态互动与Imagine的高视觉质量 [7] - 开发过程中出现"哇"时刻：内部测试时模型能零样本生成高度个性化图像（如生成用户本人面孔），无需微调或上传多张图片 [9] - 模型上线后访问量远超预期，即使平台仅在部分时间可访问，用户仍积极尝试 [9] AI工具对创意行业的影响与未来应用 - AI工具可将创作者90%的时间从繁琐操作转向创意构思，提升效率 [12] - 未来艺术教育可能多元化：专业领域工具简化工作流，消费者领域可用于万圣节服装设计或PPT排版等实用任务 [12] - 艺术的核心在于"创作者的意图"，AI仅是工具，专业艺术家仍能利用最新工具创作有灵魂的作品 [13] - 模型优化重点包括可定制性、角色一致性和交互式对话的迭代性，以支持艺术创作的自然流程 [14] - 未来界面可能分为两类：面向普通用户的简单界面（如聊天式）和面向专业用户的复杂界面（如节点式ComfyUI），中间群体也有新界面机会 [18][19] - 模型未来将多样化发展，不同模型可能专注于指令遵循或灵感启发等不同场景 [20] 多模态能力与模型技术发展方向 - 多模态能力（图像、语言、音频等）是未来领先大语言模型的必备特性，尤其适用于人类参与的任务解决场景 [23] - 未来模型可能具备"视觉深度研究"能力，例如根据用户偏好自动设计房屋布局或搜索家具 [23][24] - 技术争论聚焦于3D世界模型与2D投影：3D表示有助于角色一致性，但2D投影更符合人类自然交互习惯（如洞穴壁画、2D界面）[25] - 角色一致性是当前挑战，通过面部特征测试和大量目测评估进行优化，阈值突破后将赋能更多应用场景 [27] - 模型评估依赖研究人员的主观偏好（如"效果更好"的模糊选择），而非单一标准 [28] 产品优化与未来迭代重点 - 产品优先保证事项包括角色生成功能不退化、照片级写实度（如广告场景），文本渲染效果为待改进方向 [31] - 延迟是关键优化点：若生成时间从两分钟缩短至10秒，用户体验将显著提升 [37] - 质量下限提升是核心方向，重点关注最差图像质量而非最佳表现，以拓展教育等生产力场景 [46] - 未来应用可能包括个性化教科书（文本和视觉内容因人而异）、国际化多语言支持，以及结合品牌规范指南的合规内容生成 [37][47] - 技术探索包括图像生成视频、几何问题求解、代码渲染（如从HTML图片生成网页）、长上下文窗口处理（如百页品牌指南）等新场景 [38][41][42][47]

多模态能力

多模态能力

洲明科技拟携智谱华章等成立智显机器人构建AI智能终端领域创新生态体系

智通财经网· 2025-10-25 01:13

合资设立新公司 - 洲明科技与智谱华章、元客视界共同投资设立智显机器人公司，注册资本为5000万元 [1] - 洲明科技认缴出资2500万元，持股比例为50%，为控股股东 [1] - 智谱华章认缴出资1500万元，持股比例为30%，元客视界认缴出资1000万元，持股比例为20% [1] 战略目标与技术整合 - 对外投资旨在整合三方核心技术优势，构建AI智能终端领域的创新生态体系 [1] - 三方将协同构建"算法模型+硬件终端+感知交互"的一体化解决方案 [1] - 该合作将为AI智能终端提供从垂类模型训练到软硬件集成的全链条支持 [1] 产品规划与应用场景 - 合资公司产品拟依托LLM、LED、图像视觉交互等基础能力 [1] - 产品将集成语音交互、图像识别、智能问答、实时翻译等多模态能力 [1] - 业务将包含AI智能体、AI智能终端等在内的端侧解决方案与AI端侧应用 [1] - 通过打造垂直行业模型与端侧小模型，为智能终端提供内容和服务 [1] - 产品将广泛应用于教育、会议、文旅等领域，推动智能体的"显示具身化"落地 [1]

AI智能终端领域创新生态体系

多模态能力

AI智能终端领域创新生态体系

多模态能力

2025年AI知识库本地化部署厂商盘点：先知AI与行业解决方案解析

搜狐财经· 2025-10-21 15:19

文章核心观点 - 在2025年人工智能技术全面落地的背景下，企业级AI知识库的私有化部署正成为数字化转型的核心需求，以平衡技术创新与风险控制 [1] - 企业级AI知识库的本地化部署已成为数字化转型的重要基石，帮助各行业企业将分散的知识转化为可复用的核心资产 [13] 先知AI公司概况 - 先知AI（北京先知先行科技有限公司）是国内领先的人工智能技术应用创新企业，自主研发了企业级预训练大模型“先知AI”，并率先提出“模型即服务”理念 [3] - 公司在全国设有多个分支机构，团队汇聚了来自阿里、腾讯、百度等企业的技术精英和商业领袖 [3] 先知AI核心技术优势 - 采用多模态混合大模型架构，融合文本、图像、音视频处理能力，支持复杂知识的解析与应用 [4] - 安全可控的数据管理：通过本地化部署模式，将全部数据存储在企业自有服务器，避免敏感信息外泄，特别适合金融、医疗等高合规性要求行业 [4] - 灵活的集成能力：支持API对接等多种模式，可无缝集成企业现有系统（如ERP、CRM、OA），预置行业模板能快速适配不同场景需求 [4] - 全生命周期服务：从需求分析、业务梳理到技术选型和部署实施提供全程专业服务，部署后还提供技术培训和持续运维支持 [4] 先知AI行业应用案例 - 在证券行业为某券商部署了智能投顾系统，专门支持金融投资产品相关的问答，实现了专业能力的标准化复制和专家经验的有效沉淀 [5] - 在保险领域通过私有化部署为保险代理人打造了“高效惠民智囊”，在负面反馈话术辅助和业务知识应答方面发挥重要作用 [5] 大型科技企业解决方案 - 腾讯云在WAIC 2025上展示了混元大模型的多模态能力与开发平台，支持文本、图像、音频等多种模态理解，通过混元Hub平台提供API接口和插件管理系统 [8] - 阿里云钉钉以办公智能体为突破口，构建“通义+钉钉”的生态融合，用户只需在群聊中输入请求，智能Agent便可自动生成项目推进表、会议纪要等文档 [8] - 华为云展示“盘古大模型+昇腾AI算力”组合优势，在气象预测、煤矿安全、工业检测等行业有深入应用，其昇腾硬件保障推理效率与安全性 [8] 垂直领域专业服务商 - 博睿数据的新一代核心产品Bonree ONE已集成DeepSeek-R1、阿里通义Qwen2-7B模型，主要应用于智能运维场景的语义理解层、知识问答和自动化配置 [9] - 润建股份的“曲尺智能体”平台集算力调度、大模型能力、行业知识库为一体，支持多语言对话，在通信运维场景中能自动检测基站异常、输出报告、生成派工单 [9] - 金蝶软件的苍穹Agent 2.0在企业财务、预算、人事、审批等场景有深度集成，用户可通过自然语言发起预算偏差分析，系统即时调取财务数据并生成可视化图表与分析建议 [9] 开源模型部署服务商 - DeepSeek生态作为开源大模型代表，已被众多企业采用，如中国建材集团5家企业接入DeepSeek，实现模型热加载、RAG知识库注入，支持命令行交互、WebUI界面操作等多种使用方式 [10] - 中国中冶多家子公司完成DeepSeek本地化部署，将其嵌入工程、科技、人才、财务等16个主题、206个场景功能中 [10] 企业选型核心考量因素 - 数据安全性：金融、政务等行业对数据安全要求极高，必须选择能提供完整数据隔离和加密保护的解决方案 [11] - 行业适配性：不同行业有独特的知识体系和业务流程，解决方案需具备良好的行业定制能力，如医疗行业需要专业的医学术语理解，法律行业需精准的法条解析能力 [11] - 总拥有成本：除初次部署费用外，还需考虑长期的运维、更新和培训成本，开源方案虽然初期投入较低，但可能需要更多技术团队支持 [11] 技术发展展望 - AI知识库正从“外挂工具”向“系统重构”方向发展，智能体（Agent）技术使得AI能深度融入业务流程成为智能中枢 [12] - 多模态能力成为标配，未来的知识库不仅能处理文本，还能解析图像、音视频等多元信息 [12] - 边缘计算与端侧智能兴起，让知识库能够部署到更多场景，如工业现场的边缘设备、移动办公终端等，实现更低延迟的智能响应 [12]

AI知识库本地化部署

智能体（Agent）技术

多模态能力

边缘计算与端侧智能

先知AI知识库

AI知识库本地化部署

智能体（Agent）技术

多模态能力

边缘计算与端侧智能

先知AI知识库

等不来DeepSeek-R2的246天：梁文锋的“三重困境”与“三重挑战”

36氪· 2025-09-23 18:13

核心观点 - DeepSeek-V3.1-Terminus版本发布主要针对用户反馈问题改进提升模型稳定性与一致性 [1] - 市场对DeepSeek-R2模型发布预期持续落空自R1发布后246天内出现至少10次发布传言反映公司面临技术、战略与市场竞争的多重压力 [2][5][6] - 公司通过开源策略推动技术普惠开源包括通用模型V3.0324、多模态文生图模型Janus-Pro及底层工具链但核心产品R2延迟暴露生态短板 [8][9][15] 技术更新与产品迭代 - DeepSeek-V3.1-Terminus版本更新非例行迭代重点改进用户反馈问题提升稳定性与一致性 [1] - 开源通用模型DeepSeek-V3.0324 API成本为GPT-4的1/14 大幅降低使用成本 [8] - 开源多模态文生图模型Janus-Pro 但未在行业掀起波浪 [13][14] - 开源工具链包括FlashMLA解码内核、DeepGEMM矩阵运算库推理速度提升约30% 并支持华为昇腾平台 [9] 市场预期与竞争环境 - 市场对DeepSeek-R2预期高涨自2025年2月起多次传言发布包括5月初、3月17日等但均未实现 [5][6] - 竞争对手阿里巴巴通义千问、百度文心大模型已完成多轮功能迭代和模型升级 [6] - 公司估值因R1成功水涨船高但R2延迟发布消耗用户耐心导致市场预期管理失焦 [5][6][11] 技术挑战与算力限制 - R2延迟因技术突破难度大需实现碾压级优势但内部测试未达颠覆性提升 [6][11] - 算力供应问题突出尝试迁移至华为昇腾芯片遇性能瓶颈和不稳定被迫切回NVIDIA平台 [11] - 模型面临"幻觉"问题在创意和事实性内容上表现不佳影响用户信任 [15] 战略布局与生态构建 - 公司构建全栈开源技术体系覆盖底层模型到上层工具链推动国产AI算力落地 [8][9] - 缺乏内容生态优势依赖外部数据集无法像百度、字节跳动那样通过自有平台产生实时数据 [15] - 多模态能力缺位技术路线单一主要集中在文本和代码领域限制商业化想象空间 [13][14] 行业影响与公司定位 - DeepSeek-R1开源策略降低AI技术应用成本打破海外厂商垄断推动行业创新 [17] - 公司面临创新者窘境需在技术极致与市场时机间权衡 R2发布决策复杂化 [16] - 当前困境反映国内AI公司普遍挑战包括技术瓶颈、战略短板和激烈竞争 [17]

Seek .(US:SKLTY)

开源驱动创新

多模态能力

Artificial Intelligence

开源驱动创新

多模态能力

Artificial Intelligence

Nano-Banana 核心团队分享：文字渲染能力才是图像模型的关键指标

Founder Park· 2025-09-01 13:32

技术突破与核心能力 - 谷歌Gemini 2.5 Flash Image（代号Nano-Banana）在角色一致性、自然语言理解和空间感知方面显著优于其他模型，社交平台热度超过Elon Musk推荐的Grok视频生成[2][11] - 模型通过完全内生的多模态能力实现自然对话式图像创作，支持模糊指令和多轮迭代，无需依赖精确提示词[9][10] - 在LM Arena测试中展现出色的角色一致性保持能力，支持任意风格迁移、环境融合及多元素组合生成[13][14][17] 创新方法论与指标优化 - 团队将文字渲染能力作为关键代理指标（Proxy metric），因其要求像素级精准控制，可客观反映模型整体性能提升[22][23][24] - 通过优化文字渲染（需处理字母形状、间距、背景融合等），模型整体图像质量同步提升，验证该指标对系统优化的牵引作用[24][25] - 采用交错生成（Interleaved Generation）技术，模型在统一上下文中串行生成多图，保持系列作品的协调性与差异性[26][29][30] 产品哲学与用户体验 - 生成速度降至秒级（如13秒生成5张风格一致图片），支持用户无负担快速迭代调整，接近人类创作中的草图探索过程[21][29][32] - 与谷歌Imagen定位差异：Imagen专注于高质量一次性生成（类似Photoshop），而Gemini强调通过对话迭代实现创意探索（类似创意总监）[33][34] - 团队直接收集社交媒体用户失败案例作为基准测试集，针对性优化光影一致性、风格融合等痛点[33][35] 应用场景与行业影响 - 角色一致性能力实现跨角度3D渲染（如固定角色生成多场景），对故事叙述、品牌IP塑造及视频创作（如MetaPuppet视频生成）至关重要[35][38][39] - 支持从线稿控制造型生成、实拍转换真人cosplay等复杂创作需求，拓展了艺术设计、娱乐内容生产场景[18][20][36] - 模型具备"智能感"（Smartness），可超越用户指令预期（如自动添加创意标题），同时追求事实性（Factuality）以支持工作用图表、幻灯片生成[29][39][41] 技术原理与系统设计 - 图像理解与生成能力双向强化：通过视觉学习弥补语言描述中的"报告偏差"（Reporting bias），通过生成验证对世界的理解[30] - 采用类似思维链（Chain of Thought）的分解迭代方法，将复杂任务拆解为多步骤处理，突破单次处理能力上限[32] - 基于世界模型的空间想象能力实现合理3D视角转换（如俯视图生成），体现Gemini在物理空间理解方面的进展[20][22]

多模态能力

多模态能力

魔法再现，谷歌发布最强图片模型 nano banana，劈柴一秒回印度老家

36氪· 2025-08-27 16:19

产品性能与市场地位 - Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview（别称Nano Banana）以1362分位列LMArena图片编辑模型排行榜榜首，显著领先第二名Black Forest的flux-1-kontext-max模型（1191分）[1][3] - 该模型在投票中获得2,521,035次支持，远超第二名模型的357,196次，且评分95%置信区间为±2，显示数据稳定性高[1] - 支持多模态输入（文本、图像、视频、音频），图像输出定价为每百万tokens 30美元，单张图像处理成本约0.3元人民币[48] 技术能力突破 - 实现通过文本指令精准编辑图像，包括更换背景、视角、色调及添加衣物，并保持主体特征高度一致（人物转圈后面部变化微小）[6][11][23] - 具备多轮次编辑与多图叙事能力，支持连续修改图像而不丢失原始特征，可生成漫画分镜、多角色互动及技术插图[6][25][27] - 处理速度达1-2秒/张，显著快于同类模型10-15秒的处理时长，且集成Veo3工作流后可快速生成高质量视频[47] 应用场景与用户反馈 - 在动漫领域表现突出，能根据手绘示意图生成多角色姿态一致的三视图及消费级漫画[25][27][33] - 支持科学插图绘制，具备高保真文本渲染与几何题目解答能力，5秒内完成复杂插图生成[43][44][45] - 用户实测反馈一致性极强（普通人物照片难以察觉面部变化），但名人面部处理偶有轻微失真，且过滤器存在误拒正常请求的情况[35][36][47]

多模态能力

Gemini-2.5-Flash-Image-Preview

多模态能力

Gemini-2.5-Flash-Image-Preview