多模态能力
搜索文档
刚刚,Gemini 3再次大更新,全球免费享Pro级智商,奥特曼又要失眠了
36氪· 2025-12-18 17:26
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 又快又便宜,脑子还挺在线。 来源| APPSO(ID:appsolution) 封面来源 | Gemini官方 年底了,谷歌又开始冲业绩了。 就在刚刚,Gemini 3 Flash正式发布,直接对标OpenAI和Anthropic的旗舰模型,官方号称比 2.5 Pro 速度快3倍,价格砍到3 Pro的四分之一,性能还不降反 升。 用谷歌自己的话说,这是「为速度而生的前沿智能」。翻译一下就是:又快又便宜,脑子还挺在线。 而从今天起,你将能在Gemini产品线里用到三种模型: Gemini 3 Flash(Fast):主打一个「快」,适合那些不需要长链条思考、追求效率的对话场景。 不过,在实际体验过程中,Gemini 3 Flash的性能表现还是远远不如Pro的,以至于让我产生一种「货不对板」的落差感,也欢迎更多朋友分享你的体验。 即便如此,谷歌在发布时机的选择上依然称得上「快、准、狠」。 紧随Gem ini 3 Pro与Deep Think ...
全球竞逐AI时代:中国应用生态爆发与全球格局演变
搜狐财经· 2025-12-13 16:37
2025年,我国生成式人工智能用户规模已达 5.15亿人,普及率高达36.5%,这意味着超过三分之一的网民正在使用这项技术。与2024年底相比,短短半年内 用户规模增长了2.66亿,增幅高达106.6%。 当我们把视野扩大到全球,AI助理工具已经覆盖了36%的桌面用户和24%的移动用户。超过30%的桌面搜索现在会显示AI生成的概览内容,而在预订酒店的 用户中,近63%的人会在决定前咨询AI平台。 2025年8月,国务院印发《关于深入实施"人工智能+"行动的意见》,部署了"人工智能+"科学技术、产业发展、消费提质等六大重点行动。 根据这一规划,到2027年,中国将率先实现人工智能与六大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超过70%。 01 爆发之势:从规模增长到场景渗透 中国人工智能产业已迈入"技术筑基、场景赋能、生态共生"的新阶段。截至2025年第三季度,中国人工智能企业数量超过5300家,全球占比达到15%。 产业规模方面,中国人工智能产业规模已突破9000亿元,同比增长24%。AI应用的数量达到657个,同比增长61.8%,移动端用户规模突破7亿。 更值得注意的是,人工智能正在深入各行 ...
2026年计算机行业年度策略:从“+AI”到“AI+”,AI巨轮破浪前行
西部证券· 2025-12-12 17:22
核心观点 报告认为,人工智能正从“+AI”向“AI+”演进,2026年计算机行业将围绕“算力筑基,模型进阶,应用可期”展开[7] 具体关注方向包括:国内外大厂资本开支持续增长及AI规模化应用带动Token消耗,看好AI算力产业链;大模型多模态能力提升将极大拓展应用边界;“人工智能+”政策牵引下,企业级AI应用有望迎来规模化推广拐点,同时AI硬件终端革命和阿里等巨头生态布局值得关注[7][8] 2025年回顾:市场表现与业绩 - **市场走势**:2025年初,以DeepSeek为代表的国内AI大模型取得突破,推动计算机行业在2月走出一轮显著跑赢大盘的独立上涨行情[5] 4月受外部冲击与内部估值压力共振影响,板块出现快速回调,估值压力得到释放[5] 此后板块走势与沪深300指数呈现较高同步性[5] 截至12月11日,计算机板块全年累计涨幅为14.05%,在申万31个一级行业中排名第17位[13] - **行业业绩**:2025年前三季度,计算机行业(剔除特定公司后共314家)整体法下总营收为8329.43亿元,同比增长10.50%;归母净利润为102.91亿元,同比大幅增长47.77%;扣非后归母净利润为29.35亿元,同比激增535.39%[17] 中位数法下,营收中位数为6.00亿元,同比增长7.22%;归母净利润中位数为0.04亿元,同比下降48.62%[17] - **盈利能力与费用**:2025年前三季度,计算机行业整体毛利率为20.73%,同比下降2.26个百分点[21] 费用控制成效显著,销售费用率、管理费用率、研发费用率分别为6.56%、4.91%、8.17%,同比分别下降0.67、0.51、0.90个百分点,三费合计费用率同比下降2.08个百分点[21] 2025年回顾:公募基金持仓 - **配置比例**:2025年第三季度,计算机行业公募基金重仓股配置比例为2.6%,环比下降0.1个百分点,低配2.2个百分点[25] 该比例在2024年第四季度触底回升后,于2025年第一季度达到2.8%,随后连续两个季度环比下降[25] - **持仓结构**:2025年第三季度,机构重仓子领域包括AI算力、AI应用、金融科技、智能驾驶等[29] 持股市值前十的公司包括金山办公、中科曙光、科大讯飞等;持股基金数前十的公司包括金山办公(230个基金持有)、中科曙光、科大讯飞等[29] - **加仓方向**:2025年第三季度,机构加仓方向以AI算力、金融科技为主[29] 持股市值增加最多的公司是中科曙光(增加59亿元)和浪潮信息(增加36亿元);持股基金数增加最多的公司是浪潮信息(增加29只)和德赛西威(增加26只)[29] 2025年回顾:大模型进展 - **DeepSeek突破**:2025年1月,DeepSeek发布R1模型,性能比肩国际顶尖闭源模型,其API定价约为OpenAI o1的1/30,极大地降低了部署门槛[32] 2025年3月,DeepSeek公布其推理系统理论成本利润率可达545%,重构了行业盈利预期[38] - **国际模型迭代**:2025年8月,OpenAI发布GPT-5,其出现事实错误的概率比GPT-4o低约45%,比OpenAI o3低约80%,且API价格更具性价比[42] 2025年11月,谷歌发布Gemini 3,在Humanity's Last Exam测试中得分达41%,在代表抽象推理能力的ARC-AGI-2测试中得分31.1%,显著领先于GPT-5.1的17.6%[52] - **国内模型进展**:2025年9月,阿里发布总参数超过1T的Qwen3-Max,其指令版在SWE-Bench评测中斩获69.6分,思考版在AIME 25和HMMT数学评测中均获满分[47] 2025年回顾:AI应用落地 - **AI视频生成**:快手可灵AI在2025年3月年化经常性收入突破1亿美元,第二季度营业收入超过2.5亿元人民币[82] 截至2025年11月,其全球用户规模突破4500万,累计生成超2亿个视频,为超2万家企业客户提供API服务[82] - **AI编程**:AI编程是增长最快赛道之一,海外独角兽Cursor年化收入突破10亿美元[87] 谷歌和微软均有约30%的代码由AI协助编写,腾讯超过90%的工程师使用AI编程助手[87] 预计全球AI编程工具市场规模将从2024年的62.1亿美元增长至2029年的181.6亿美元,复合年增长率为23.9%[91] - **企业级AI应用**:用友网络在2025年前三季度AI相关合同签约金额突破7.3亿元,仅第三季度单季就超过4亿元[95] 金蝶推出AI产品“小K”,已聚合近20个智能体覆盖多个业务领域[96] - **C端爆款应用**:谷歌Nano Banana图像生成模型拉动Gemini APP月活跃用户达到6.5亿,发布不到一个月已生成超5亿张图片[101] OpenAI推出的视频生成社交应用Sora APP,上线不到五天下载量突破100万次[107] 2026年展望:算力基建 - **海外资本开支高增**:主要云厂商资本开支持续增长,为AI算力需求提供支撑[114] 微软2026财年第一季度资本支出达349亿美元,同比增长74.5%;谷歌2025年第三季度资本开支为240亿美元,同比增长83%,并将2025年全年资本支出指引上调至910-930亿美元;Meta将2025年资本开支指引下限上调至700亿美元;亚马逊预计2026年资本支出将进一步增加[114][115] - **国内资本开支跟进**:阿里巴巴计划未来三年投入至少3800亿元用于云计算和AI基础设施建设[120] 报告预计中国云服务提供商明年的AI支出将大幅增长[120] - **Token消耗驱动**:AI应用规模化带动Token消耗高增,截至2025年9月底,豆包大模型日均Token调用量已突破30万亿,谷歌月均处理Token用量达1300万亿[124] - **国产算力加速**:DeepSeek-V3.1针对下一代国产芯片的特殊设计,有望加速国产AI芯片在推理市场的规模化落地[127] 北京大学开源的TileLang语言,有望推动国产AI芯片建立成熟的软件体系[131] 国产AI芯片性能持续提升,如平头哥PPU多项配置规格接近英伟达H20,华为也公布了昇腾AI芯片的三年发展路线图[136][137] 2026年展望:模型与应用 - **多模态能力**:报告认为多模态能力将极大降低大模型的理解与交互门槛,将其应用范围从文字世界拓展至物理世界,谷歌Gemini是原生多模态模型的代表[141] - **政策驱动与企业应用**:“人工智能+”顶层政策明确,到2027年新一代智能终端、智能体等应用普及率目标超过70%,企业级AI应用有望在2026年迎来规模化推广拐点[145] - **AI硬件终端**:OpenAI计划在2026年末至2027年初推出首批AI终端(如眼镜、录音笔等),其生态预热与产业链共振值得关注[147] - **阿里生态布局**:阿里巴巴发布通义大模型家族7款新成员,覆盖视觉、语音、多模态、代码等核心环节[152] 同时,阿里发力C端推出千问APP,全面对标ChatGPT,并计划接入各类生活场景,其生态合作伙伴有望率先受益[155] 投资建议 报告建议关注三大方向[159]: - **AI算力**:包括国产AI芯片(寒武纪、海光信息等)、AI服务器(中科曙光、浪潮信息等)产业链[160] - **AI模型**:关注阿里巴巴、腾讯控股、商汤、百度集团等公司[161] - **AI应用**:包括AI终端(海康威视、大华股份等)、AI+企业软件(金山办公、用友网络等)、AI+工具(快手、万兴科技等)[162]
深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas
海外独角兽· 2025-11-26 18:41
文章核心观点 - Google发布的Gemini 3标志着公司在pre-training算力投入上首次追平OpenAI,并在数据体系、多模态能力、系统架构和产品体验上实现协同突破,意味着大模型竞争格局加速演变为Google、Anthropic与OpenAI三家交替领先的动态结构[4][5][14] Gemini 3的核心优势 - 模型训练FLOPs达到6 × 10^25级别,首次在pre-training算力上追平OpenAI,证明scaling law依然有效[5] - 充分利用自身TPU集群效能,实现算力规模指数级跨越,解决算力利用率瓶颈[6] - 训练数据量相比Gemini 2.5可能增加一倍,凭借二十多年积累的用户搜索历史、视频观看记录等构成不可迁移的数据护城河[7] - 采用稀疏化混合专家架构,稀疏度可能超过50%,以更少计算资源调用更广阔知识储备,依托自研TPU和OCS互联技术实现软硬高度耦合的系统级优势[8][10][11] - 展现独特的产品经理式编程思维,先深度分析问题并输出任务需求书,再设计测试方案,最后执行代码编写,有效避免错误代码回滚成本[12] - 内部组织与研发模式成功转型,克服DeepMind与Google Brain整合的阻力,探索出适合大公司的模型研发机制[13] 大模型竞争新格局 - 行业形成Google强于pre-training和Infra、OpenAI优势在post training的共识,但随着Gemini 3在pre-training阶段追平甚至反超,OpenAI的护城河不再稳固[18] - OpenAI在agentic任务和工具调用上仍是绝对王者,GPT-5.1在复杂指令执行与工具使用能力基准测试中分数高于Gemini 3,并拥有2000万付费用户构成的优质反馈数据源[18][20] - Anthropic采取聚焦差异化策略,Claude系列在Coding和Agent稳定性上表现良好,更适合处理编程自动化及企业内部工作流[24] - 红杉中国XBench测评显示Gemini 3 Pro在500道博士级题目上准确率比GPT-5.1高约10%,处理速度是后者的3倍,成本仅为十分之一[22] 多模态能力突破 - Gemini 3在多模态理解上断档领先,能精准识别非正常图片手指数量、复杂图片特定按键,视觉编码器与语言模型实现高精度对齐[25] - 在还原撕碎购物小票案例中,Gemini 3完美还原所有菜名、单价及总金额,展现惊人逻辑闭环能力,而GPT-5.1存在明显误差和遗漏[27][31] - Google Veo 3.1追求极致物理一致性,能在1分钟以上生成过程中保持人物特征、场景布局高度一致,画面质感接近实拍素材,可能服务于电影工业专业工具[40][41] - OpenAI Sora 2聚焦创意优先,引入语音与视觉同时生成能力,降低内容创作门槛,更符合社交平台审美需求[43] TPU系统成本与架构优势 - 使用自研TPU进行训练和推理的成本约为Nvidia GPU方案的一半,通过掌控光模块、交换机等系统生态绕过组件层层加价[46][49] - TPU为Transformer架构量身定制,软硬高度协同形成长期能效优势,同时通过模型粘性反哺GCP市场份额[50] - 架构设计上押注scale-out横向扩展,依靠OCS技术构建超大规模Superpod,优于Nvidia的scale-up纵向扩展思路,光通信架构具长期演进优势[51][52][54] - Anthropic宣布使用Google TPU多达100万个芯片,标志着算力供应多平台策略,有助于Google生态扩张并获得顶级模型团队反馈[56] Gemini商业化路径 - 公司将Gemini提升至最高战略优先级,通过推广Antigravity IDE、Chrome浏览器插件功能及学生优惠等措施构建生态[62][64][65] - 移动端策略侧重将智能蒸馏至10B-20B参数量级小模型,支撑AI Overview达到10亿级DAU,通过升级Google Assistant快速触达海量用户[66] - 商业化变现持审慎态度,首要考核指标为用户满意度而非短期变现率,已构建大规模模型评测模型飞轮进行自动化评估[67] - 在广告归因、PMax及广告主生态上拥有深厚护城河,Meta和腾讯引入大模型技术后广告收入增长约20%,而字节跳动增长维持在个位数[69][70] AI Native产品形态演进 - Gemini 3引入Generative UI功能,根据用户意图实时生成可交互定制化界面,重塑Web交互形态,应用场景包括物理仿真、金融决策等[71][72][74] - 功能演进可能经历单次查询展示、静态内容结构化生成、具备深度交互能力的即时软件三个阶段,本质是让AI拥有生成HTML/JS并即时渲染的能力[74] - OpenAI在DevDay展示类似能力,选择由合作伙伴构建UI嵌入ChatGPT对话,两种模式未来演化值得关注[75]
Nano Banana 拉爆谷歌营收创纪录,劈柴哥开心坏了!幕后团队曝内部“绝对优先事项清单”
AI前线· 2025-11-04 13:48
Gemini应用的用户增长与Nano Banana的影响 - Gemini应用的月活跃用户达到6.5亿 [2] - 谷歌首次实现单季度营收突破1000亿美元,每个主要业务板块均实现两位数增长(五年前季度营收为500亿美元)[2] - ChatGPT目前有8亿周活跃用户,但Gemini在消费者应用层面追赶速度非常快 [2] - 在Nano Banana发布期间,Gemini的下载量飙升,而Adobe的Firefly应用下载量明显下滑 [2] - 用户结构发生变化:18-34岁年龄段用户大幅增长,且吸引了更多女性用户 [3] - 国际用户数量快速上升,热潮从泰国开始,迅速蔓延至东南亚地区 [4] - 谷歌通过Nano Banana等爆款功能吸引用户,并关注用户留存粘性(月活跃用户定义为在安卓、iOS或网页端进行互动操作的用户)[4] Nano Banana的开发背景与核心特性 - Nano Banana模型由多个团队合作开发,融合了Gemini的互动、对话、编辑能力与Imagine系列模型的视觉质量优势 [6] - 该模型是Gemini 2.5 Flash Image版本,旨在解决早期画质未达理想水准的问题 [6] - 名称"Nano Banana"更易传播,融合了Gemini的智能多模态互动与Imagine的高视觉质量 [7] - 开发过程中出现"哇"时刻:内部测试时模型能零样本生成高度个性化图像(如生成用户本人面孔),无需微调或上传多张图片 [9] - 模型上线后访问量远超预期,即使平台仅在部分时间可访问,用户仍积极尝试 [9] AI工具对创意行业的影响与未来应用 - AI工具可将创作者90%的时间从繁琐操作转向创意构思,提升效率 [12] - 未来艺术教育可能多元化:专业领域工具简化工作流,消费者领域可用于万圣节服装设计或PPT排版等实用任务 [12] - 艺术的核心在于"创作者的意图",AI仅是工具,专业艺术家仍能利用最新工具创作有灵魂的作品 [13] - 模型优化重点包括可定制性、角色一致性和交互式对话的迭代性,以支持艺术创作的自然流程 [14] - 未来界面可能分为两类:面向普通用户的简单界面(如聊天式)和面向专业用户的复杂界面(如节点式ComfyUI),中间群体也有新界面机会 [18][19] - 模型未来将多样化发展,不同模型可能专注于指令遵循或灵感启发等不同场景 [20] 多模态能力与模型技术发展方向 - 多模态能力(图像、语言、音频等)是未来领先大语言模型的必备特性,尤其适用于人类参与的任务解决场景 [23] - 未来模型可能具备"视觉深度研究"能力,例如根据用户偏好自动设计房屋布局或搜索家具 [23][24] - 技术争论聚焦于3D世界模型与2D投影:3D表示有助于角色一致性,但2D投影更符合人类自然交互习惯(如洞穴壁画、2D界面)[25] - 角色一致性是当前挑战,通过面部特征测试和大量目测评估进行优化,阈值突破后将赋能更多应用场景 [27] - 模型评估依赖研究人员的主观偏好(如"效果更好"的模糊选择),而非单一标准 [28] 产品优化与未来迭代重点 - 产品优先保证事项包括角色生成功能不退化、照片级写实度(如广告场景),文本渲染效果为待改进方向 [31] - 延迟是关键优化点:若生成时间从两分钟缩短至10秒,用户体验将显著提升 [37] - 质量下限提升是核心方向,重点关注最差图像质量而非最佳表现,以拓展教育等生产力场景 [46] - 未来应用可能包括个性化教科书(文本和视觉内容因人而异)、国际化多语言支持,以及结合品牌规范指南的合规内容生成 [37][47] - 技术探索包括图像生成视频、几何问题求解、代码渲染(如从HTML图片生成网页)、长上下文窗口处理(如百页品牌指南)等新场景 [38][41][42][47]
洲明科技拟携智谱华章等成立智显机器人 构建AI智能终端领域创新生态体系
智通财经网· 2025-10-25 01:13
合资设立新公司 - 洲明科技与智谱华章、元客视界共同投资设立智显机器人公司,注册资本为5000万元 [1] - 洲明科技认缴出资2500万元,持股比例为50%,为控股股东 [1] - 智谱华章认缴出资1500万元,持股比例为30%,元客视界认缴出资1000万元,持股比例为20% [1] 战略目标与技术整合 - 对外投资旨在整合三方核心技术优势,构建AI智能终端领域的创新生态体系 [1] - 三方将协同构建"算法模型+硬件终端+感知交互"的一体化解决方案 [1] - 该合作将为AI智能终端提供从垂类模型训练到软硬件集成的全链条支持 [1] 产品规划与应用场景 - 合资公司产品拟依托LLM、LED、图像视觉交互等基础能力 [1] - 产品将集成语音交互、图像识别、智能问答、实时翻译等多模态能力 [1] - 业务将包含AI智能体、AI智能终端等在内的端侧解决方案与AI端侧应用 [1] - 通过打造垂直行业模型与端侧小模型,为智能终端提供内容和服务 [1] - 产品将广泛应用于教育、会议、文旅等领域,推动智能体的"显示具身化"落地 [1]
2025年AI知识库本地化部署厂商盘点:先知AI与行业解决方案解析
搜狐财经· 2025-10-21 15:19
文章核心观点 - 在2025年人工智能技术全面落地的背景下,企业级AI知识库的私有化部署正成为数字化转型的核心需求,以平衡技术创新与风险控制 [1] - 企业级AI知识库的本地化部署已成为数字化转型的重要基石,帮助各行业企业将分散的知识转化为可复用的核心资产 [13] 先知AI公司概况 - 先知AI(北京先知先行科技有限公司)是国内领先的人工智能技术应用创新企业,自主研发了企业级预训练大模型“先知AI”,并率先提出“模型即服务”理念 [3] - 公司在全国设有多个分支机构,团队汇聚了来自阿里、腾讯、百度等企业的技术精英和商业领袖 [3] 先知AI核心技术优势 - 采用多模态混合大模型架构,融合文本、图像、音视频处理能力,支持复杂知识的解析与应用 [4] - 安全可控的数据管理:通过本地化部署模式,将全部数据存储在企业自有服务器,避免敏感信息外泄,特别适合金融、医疗等高合规性要求行业 [4] - 灵活的集成能力:支持API对接等多种模式,可无缝集成企业现有系统(如ERP、CRM、OA),预置行业模板能快速适配不同场景需求 [4] - 全生命周期服务:从需求分析、业务梳理到技术选型和部署实施提供全程专业服务,部署后还提供技术培训和持续运维支持 [4] 先知AI行业应用案例 - 在证券行业为某券商部署了智能投顾系统,专门支持金融投资产品相关的问答,实现了专业能力的标准化复制和专家经验的有效沉淀 [5] - 在保险领域通过私有化部署为保险代理人打造了“高效惠民智囊”,在负面反馈话术辅助和业务知识应答方面发挥重要作用 [5] 大型科技企业解决方案 - 腾讯云在WAIC 2025上展示了混元大模型的多模态能力与开发平台,支持文本、图像、音频等多种模态理解,通过混元Hub平台提供API接口和插件管理系统 [8] - 阿里云钉钉以办公智能体为突破口,构建“通义+钉钉”的生态融合,用户只需在群聊中输入请求,智能Agent便可自动生成项目推进表、会议纪要等文档 [8] - 华为云展示“盘古大模型+昇腾AI算力”组合优势,在气象预测、煤矿安全、工业检测等行业有深入应用,其昇腾硬件保障推理效率与安全性 [8] 垂直领域专业服务商 - 博睿数据的新一代核心产品Bonree ONE已集成DeepSeek-R1、阿里通义Qwen2-7B模型,主要应用于智能运维场景的语义理解层、知识问答和自动化配置 [9] - 润建股份的“曲尺智能体”平台集算力调度、大模型能力、行业知识库为一体,支持多语言对话,在通信运维场景中能自动检测基站异常、输出报告、生成派工单 [9] - 金蝶软件的苍穹Agent 2.0在企业财务、预算、人事、审批等场景有深度集成,用户可通过自然语言发起预算偏差分析,系统即时调取财务数据并生成可视化图表与分析建议 [9] 开源模型部署服务商 - DeepSeek生态作为开源大模型代表,已被众多企业采用,如中国建材集团5家企业接入DeepSeek,实现模型热加载、RAG知识库注入,支持命令行交互、WebUI界面操作等多种使用方式 [10] - 中国中冶多家子公司完成DeepSeek本地化部署,将其嵌入工程、科技、人才、财务等16个主题、206个场景功能中 [10] 企业选型核心考量因素 - 数据安全性:金融、政务等行业对数据安全要求极高,必须选择能提供完整数据隔离和加密保护的解决方案 [11] - 行业适配性:不同行业有独特的知识体系和业务流程,解决方案需具备良好的行业定制能力,如医疗行业需要专业的医学术语理解,法律行业需精准的法条解析能力 [11] - 总拥有成本:除初次部署费用外,还需考虑长期的运维、更新和培训成本,开源方案虽然初期投入较低,但可能需要更多技术团队支持 [11] 技术发展展望 - AI知识库正从“外挂工具”向“系统重构”方向发展,智能体(Agent)技术使得AI能深度融入业务流程成为智能中枢 [12] - 多模态能力成为标配,未来的知识库不仅能处理文本,还能解析图像、音视频等多元信息 [12] - 边缘计算与端侧智能兴起,让知识库能够部署到更多场景,如工业现场的边缘设备、移动办公终端等,实现更低延迟的智能响应 [12]
等不来DeepSeek-R2的246天:梁文锋的“三重困境”与“三重挑战”
36氪· 2025-09-23 18:13
核心观点 - DeepSeek-V3.1-Terminus版本发布 主要针对用户反馈问题改进 提升模型稳定性与一致性 [1] - 市场对DeepSeek-R2模型发布预期持续落空 自R1发布后246天内出现至少10次发布传言 反映公司面临技术、战略与市场竞争的多重压力 [2][5][6] - 公司通过开源策略推动技术普惠 开源包括通用模型V3.0324、多模态文生图模型Janus-Pro及底层工具链 但核心产品R2延迟暴露生态短板 [8][9][15] 技术更新与产品迭代 - DeepSeek-V3.1-Terminus版本更新 非例行迭代 重点改进用户反馈问题 提升稳定性与一致性 [1] - 开源通用模型DeepSeek-V3.0324 API成本为GPT-4的1/14 大幅降低使用成本 [8] - 开源多模态文生图模型Janus-Pro 但未在行业掀起波浪 [13][14] - 开源工具链包括FlashMLA解码内核、DeepGEMM矩阵运算库 推理速度提升约30% 并支持华为昇腾平台 [9] 市场预期与竞争环境 - 市场对DeepSeek-R2预期高涨 自2025年2月起多次传言发布 包括5月初、3月17日等 但均未实现 [5][6] - 竞争对手阿里巴巴通义千问、百度文心大模型已完成多轮功能迭代和模型升级 [6] - 公司估值因R1成功水涨船高 但R2延迟发布消耗用户耐心 导致市场预期管理失焦 [5][6][11] 技术挑战与算力限制 - R2延迟因技术突破难度大 需实现碾压级优势 但内部测试未达颠覆性提升 [6][11] - 算力供应问题突出 尝试迁移至华为昇腾芯片遇性能瓶颈和不稳定 被迫切回NVIDIA平台 [11] - 模型面临"幻觉"问题 在创意和事实性内容上表现不佳 影响用户信任 [15] 战略布局与生态构建 - 公司构建全栈开源技术体系 覆盖底层模型到上层工具链 推动国产AI算力落地 [8][9] - 缺乏内容生态优势 依赖外部数据集 无法像百度、字节跳动那样通过自有平台产生实时数据 [15] - 多模态能力缺位 技术路线单一 主要集中在文本和代码领域 限制商业化想象空间 [13][14] 行业影响与公司定位 - DeepSeek-R1开源策略降低AI技术应用成本 打破海外厂商垄断 推动行业创新 [17] - 公司面临创新者窘境 需在技术极致与市场时机间权衡 R2发布决策复杂化 [16] - 当前困境反映国内AI公司普遍挑战 包括技术瓶颈、战略短板和激烈竞争 [17]
Nano-Banana 核心团队分享:文字渲染能力才是图像模型的关键指标
Founder Park· 2025-09-01 13:32
技术突破与核心能力 - 谷歌Gemini 2.5 Flash Image(代号Nano-Banana)在角色一致性、自然语言理解和空间感知方面显著优于其他模型,社交平台热度超过Elon Musk推荐的Grok视频生成[2][11] - 模型通过完全内生的多模态能力实现自然对话式图像创作,支持模糊指令和多轮迭代,无需依赖精确提示词[9][10] - 在LM Arena测试中展现出色的角色一致性保持能力,支持任意风格迁移、环境融合及多元素组合生成[13][14][17] 创新方法论与指标优化 - 团队将文字渲染能力作为关键代理指标(Proxy metric),因其要求像素级精准控制,可客观反映模型整体性能提升[22][23][24] - 通过优化文字渲染(需处理字母形状、间距、背景融合等),模型整体图像质量同步提升,验证该指标对系统优化的牵引作用[24][25] - 采用交错生成(Interleaved Generation)技术,模型在统一上下文中串行生成多图,保持系列作品的协调性与差异性[26][29][30] 产品哲学与用户体验 - 生成速度降至秒级(如13秒生成5张风格一致图片),支持用户无负担快速迭代调整,接近人类创作中的草图探索过程[21][29][32] - 与谷歌Imagen定位差异:Imagen专注于高质量一次性生成(类似Photoshop),而Gemini强调通过对话迭代实现创意探索(类似创意总监)[33][34] - 团队直接收集社交媒体用户失败案例作为基准测试集,针对性优化光影一致性、风格融合等痛点[33][35] 应用场景与行业影响 - 角色一致性能力实现跨角度3D渲染(如固定角色生成多场景),对故事叙述、品牌IP塑造及视频创作(如MetaPuppet视频生成)至关重要[35][38][39] - 支持从线稿控制造型生成、实拍转换真人cosplay等复杂创作需求,拓展了艺术设计、娱乐内容生产场景[18][20][36] - 模型具备"智能感"(Smartness),可超越用户指令预期(如自动添加创意标题),同时追求事实性(Factuality)以支持工作用图表、幻灯片生成[29][39][41] 技术原理与系统设计 - 图像理解与生成能力双向强化:通过视觉学习弥补语言描述中的"报告偏差"(Reporting bias),通过生成验证对世界的理解[30] - 采用类似思维链(Chain of Thought)的分解迭代方法,将复杂任务拆解为多步骤处理,突破单次处理能力上限[32] - 基于世界模型的空间想象能力实现合理3D视角转换(如俯视图生成),体现Gemini在物理空间理解方面的进展[20][22]
魔法再现,谷歌发布最强图片模型 nano banana,劈柴一秒回印度老家
36氪· 2025-08-27 16:19
产品性能与市场地位 - Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview(别称Nano Banana)以1362分位列LMArena图片编辑模型排行榜榜首,显著领先第二名Black Forest的flux-1-kontext-max模型(1191分)[1][3] - 该模型在投票中获得2,521,035次支持,远超第二名模型的357,196次,且评分95%置信区间为±2,显示数据稳定性高[1] - 支持多模态输入(文本、图像、视频、音频),图像输出定价为每百万tokens 30美元,单张图像处理成本约0.3元人民币[48] 技术能力突破 - 实现通过文本指令精准编辑图像,包括更换背景、视角、色调及添加衣物,并保持主体特征高度一致(人物转圈后面部变化微小)[6][11][23] - 具备多轮次编辑与多图叙事能力,支持连续修改图像而不丢失原始特征,可生成漫画分镜、多角色互动及技术插图[6][25][27] - 处理速度达1-2秒/张,显著快于同类模型10-15秒的处理时长,且集成Veo3工作流后可快速生成高质量视频[47] 应用场景与用户反馈 - 在动漫领域表现突出,能根据手绘示意图生成多角色姿态一致的三视图及消费级漫画[25][27][33] - 支持科学插图绘制,具备高保真文本渲染与几何题目解答能力,5秒内完成复杂插图生成[43][44][45] - 用户实测反馈一致性极强(普通人物照片难以察觉面部变化),但名人面部处理偶有轻微失真,且过滤器存在误拒正常请求的情况[35][36][47]