Artificial Intelligence

Gemini 3模型能力提升 - 推理能力显著增强，推理链明显比2.5时代长，复杂任务拆解更自然，幻觉减少[5] - 编程能力夸张，可从手绘草图在十几秒内生成完整的响应式页面，细节基本无需修改[5] - 多模态进步巨大，视频理解、3D空间感和动态交互等能力已能落地到实际产品中[5] 对行业竞争格局的影响 - Cursor等代码工具面临巨大短期压力，Gemini 3在前端能力上形成降维打击，生成质量和速度拉开距离[6] - Manas、JinSpark等通用Agent厂商优势被削弱，大模型自身能力提升降低了包装工具的价值[6] - 垂直Agent在金融风控、政务、军工等有强行业壁垒和数据安全要求的场景中相对安全[6] 定价策略与成本分析 - 定价不降反升，原因在于长链推理和多模态能力消耗大量算力，MOE模型激活路径增多导致推理成本客观上浮[7] - 公司倾向于将顶级能力卖出溢价，与OpenAI的降价策略形成对比[7] - 长期看，能力提升带来的效率提升可抵消部分成本，且后续将推出精简版、蒸馏版使价格逐步下降[8] 国内外技术差距与客户选择 - 纯文本能力差距已不大，国内模型如DeepSeek再迭代几个月可在许多场景基本持平[9] - 多模态领域差距明显，尤其在动态交互、3D认知和具身智能方面，差距约6-12个月，主要受算力和训练经验限制[9] - 客户选型趋于务实：写文档、客服、简单数据分析等场景国内模型够用；实时UI、复杂视频理解、3D设计等场景仍需Gemini或Claude；金融、政务等数据安全要求高的场景选择离线部署国产模型或自建垂类小模型[11] 公司商业模式与收入来源 - 广告仍是基本盘，AI搜索和动态交互页中的场景化广告变现效率将显著提升[10] - ToC订阅日益重要，如Gemini Pro、anti-gravity等生产力工具通过谷歌账号体系实现月付几十美元[10] - ToB业务通过云API、TPU及垂类解决方案捆绑销售，企业客户愿为稳定性和定制化付费[10]

多模态

长链推理

具身智能

Artificial Intelligence

Gemini 3

DeepSeek

刚刚，百度系创始人，在硅谷干出一个AI独角兽

创业邦· 2025-11-21 18:39

融资与估值 - 完成2.75亿美元（近20亿元人民币）B轮融资，投后估值达12.5亿美元（约90亿元人民币），跻身独角兽行列[3] - 产品上线仅五个月内年化收入突破5000万美元，创AI行业增长最快纪录之一[3] 创始团队背景 - 创始人兼CEO景鲲为前百度集团副总裁、小度科技CEO，曾为微软必应搜索创始团队成员，在百度担任大搜索总产品架构师[5] - 景鲲在百度期间从零打造小度智能音箱，销量超4000万台，创建价值55亿美元的公司[7] - 联合创始人兼CTO朱凯华于2011年在谷歌开创AI驱动搜索排序技术，2013年推出全球首个生产环境使用的深度神经网络排序模型[7] - 联合创始人兼COO桑文拥有MIT博士学位，曾创立并成功退出由Y Combinator和Khosla Ventures支持的企业SaaS公司Smarking[7] 产品战略与转型 - 公司最初定位AI搜索产品，种子轮融资6000万美元，投后估值超18亿元人民币[9] - 2025年4月从AI搜索全面转向AI Agent，推出Super Agent功能后在45天内创下3600万美元年度经常性收入[9] - 同步发布Genspark AI Workspace平台，实现从"AI辅助"到"AI自动完成"的端到端自动化，用户只需提出目标即可交付完成工作[11] 技术架构 - 打造智能代理混合架构，从30多个主流及开源模型（包括GPT、Claude、Gemini等）中智能遴选、协同调度[11] - 借助超过150项自研工具与20多个高质量数据集实现复杂工作流程自动执行[11] 市场认可与投资逻辑 - 领投方Emergence Capital认为公司是首个实现自动执行并交付完成工作的AI工作空间平台[13] - 投资方蓝驰创投指出AI竞争焦点已超越模型能力，关键在于交付对用户有意义的立竿见影的工作成果[13] - 客户评价显示Genspark是唯一能达到董事会汇报水准的AI工具，试遍二十多款工具后仅其满足需求[13] 行业背景 - 2025年以来以Manus、Genspark为代表的华人AI Agent项目受全球关注，Manus发布当月达2300万月活跃用户，获Benchmark领投7500万美元融资[16] - Cognition AI推出的Devin为全球首个能端到端完成整个软件项目的AI工程师[16] - 周衔领导的Genesis AI打造GitHub上最大具身智能开源项目之一Genesis物理引擎[16]

AI Agent

AGI

Artificial Intelligence

Super Agent

Genspark AI Workspace

小度智能音箱

AI Agent

AGI

Artificial Intelligence

Super Agent

Genspark AI Workspace

小度智能音箱

从干洗店到伊丽莎白女王工程奖，李飞飞逆行硅谷技术神话，聚焦AI去人性化风险

36氪· 2025-11-21 18:18

2025 年春，李飞飞荣获「伊丽莎白女王工程奖」，以表彰其在计算机视觉与深度学习领域的奠基性贡献。作为 ImageNet 项目的核心推动者，她开创了数据驱动的视觉识别方法，也提出「以人为本」的 AI 理念，在硅谷的商业化浪潮中始终保持对 AI 伦理、社会价值与去人性化风险的警觉。然而，其少数派身份使她处于在科研成就与产业实践之间的微妙地带，引发持续讨论。 2025 年春，普林斯顿大学物理学学士、加州理工学院计算神经科学博士李飞飞教授荣获「伊丽莎白女王工程奖（Queen Elizabeth Prize for Engineering）」，这一奖项被视为「工程领域的诺贝尔奖」。评审团表彰了李飞飞在计算机视觉与深度学习中的奠基性工作，认为她的研究「让机器第一次以接近人类的方式看见世界」。「工程不止是算力与算法，更是责任与共情。」李飞飞在领奖演讲中强调，技术的突破并不等于理解的进步。对于 AI 加速的时代，她始终保持着一种警觉：算法在重构语言、图像与知识体系的同时，也在重塑社会的权力结构与人类的自我感知。AI的最大风险在于「去人性化」，她在个人回忆录 The Worlds I See 序言中写道，「如果人工 ...

AI去人性化风险

AI伦理

以人为本的AI

Artificial Intelligence

Artificial Intelligence

ImageNet

SGLang Diffusion震撼发布：图像视频生成速度猛提57%！

机器之心· 2025-11-21 18:17

产品发布与核心能力 - SGLang推理框架将其高性能调度与内核优化从大语言模型扩展至图像与视频扩散模型，推出SGLang Diffusion [2] - 相较于先前的视频和图像生成框架，新框架在多种工作负载上实现最高57%的推理加速 [2][3] - 框架支持主流开源视频和图像生成模型，包括Wan系列、Hunyuan、Qwen-Image、Qwen-Image-Edit、FLUX等 [2] 技术架构与创新 - 采用ComposedPipelineBase架构，将扩散推理过程拆分为可复用的Stage（如DenoisingStage、DecodingStage），实现组件化、可复用和可扩展的流水线构建 [11][12] - 引入先进并行技术以追求极致性能，包括USP（Unified Sequence Parallelism）、CFG-Parallel和Tensor Parallel等 [12] - 底层仍由sgl-kernel承载，为未来引入量化等高性能内核提供了天然扩展位 [12] - 设计专用的生成调度器，针对图像/视频生成的“多步迭代去噪”特性进行任务编排管理，以替代LLM的Token级调度逻辑 [16] 用户体验与生态整合 - 提供多种接口以降低使用门槛，包括OpenAI兼容API、CLI和Python接口 [4][14] - 对于已有基于OpenAI API的应用，引入SGLang Diffusion几乎是“零改动”级别，便于集成到现有工作流 [14] - 与FastVideo团队合作，打造从模型训练到生产部署的端到端解决方案 [5] 性能表现与基准测试 - 对比Huggingface Diffusers等开源基线，SGLang Diffusion在H100 GPU上实现了显著的性能提升 [29] - 多种并行方案（如CFG并行和USP）相比单GPU设置展现了显著加速 [29] 战略定位与未来规划 - SGLang Diffusion旨在成为面向未来的高性能多模态统一推理底座，以支撑自回归（AR）与扩散（Diffusion）的混合架构新时代 [8][9] - 未来规划包括持续优化现有模型支持、新增模型支持、引入量化内核、集成Flash Attention 4、加强Batching支持以及简化新模型接入流程等 [34][36]

多模态统一架构

生成式AI

Artificial Intelligence

Artificial Intelligence

SGLang Diffusion

Bagel

Transfusion

Nano Banana Pro深夜炸场，但最大的亮点不是AI生图

36氪· 2025-11-21 18:17

以下文章来源于APPSO ，作者发现明日产品的 APPSO . AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 初级设计师的饭碗，怕是要端不稳了。来源｜ APPSO（ID：appsolution）封面来源｜视觉中国奥特曼，迎来至暗时刻。凭借Gemini 3增强的多语言推理能力，你可以直接生成多种语言的文字，或者一键本地化、翻译你的内容。朋友丢来一页漫画，让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro上色干净，光影自然，文字识别准确，英文排版也和气泡形状严丝合缝，整个过程从识别到翻译再到重排一气呵成，表现得就像在真正「理解」这张图。它生成一张图之前，会先做一轮物理模拟和逻辑推演，而不只是凭视觉模式「胡猜」。 Google的AI攻势没有半点减弱的迹象。如果说前几天Gemini 3 Pro的镰刀伸向了「前端」领域，那么今天则轮到了设计行业。刚刚发布的Nano Banana Pro（Gemini 3 Pro Image）再次在图像生成能力上重拳出击。初级设计师的饭碗，怕是要端不稳了。核心功能如下：分辨率支持 ...

通用人工智能（AGI）

多模态原生

Artificial Intelligence

Artificial Intelligence

Nano Banana Pro

Gemini 3 Pro

中兴通讯屠嘉顺：从酷技术到好应用，Agent堵点在哪里

和讯· 2025-11-21 18:15

AI产业发展现状与挑战 - 生成式AI技术高速发展但商业落地缓慢美国公司采用付费AI产品的比例出现停滞迹象麻省理工学院报告指出95%的生成式AI应用项目效果不佳或中途夭折[2] - 约90%的垂直企业并未真正理解AI技术存在生搬硬套问题需要定制开发专业大模型和Agent数字人才能融入企业业务流程[3] 大模型技术演进路径 - 行业共识认为AGI未来将是融合多模态输入的世界模型针对特定场景可通过裁剪提升效率降低成本[6] - 主流大模型持续进化百度文心5.0多模态理解能力突出 MiniMax M2专为Agent和代码设计成本仅为Claude 3.5 Sonnet的8% Kimi k2 Thinking在token效率等工程化方向迭代[6] - 发展路径包括科技巨头研发终极通用模型后通过蒸馏剪枝技术适配不同场景以及先发展行业专有模型实现商业闭环再向通用大模型迈进例如特斯拉从自动驾驶FSD模型逐步升级至机器人应用[7] Agent技术落地进展 - 2025年Agent技术成为产业热点开始落地到医疗教育5G网络运维等领域中兴通讯与上海第十医院合作的医疗总检系统已投入应用[8] - 2026年Agent将大规模出现在各行业但当前规模化落地仍受限于大模型多模态能力不足多模态训练对算力需求呈指数级增长[8][9] - 算力紧缺是国产AI产业瓶颈国产GPU企业如摩尔线程和沐曦股份加速上市进程推动国产替代 DeepSeek OCR等多模态模型进化将促进Agent进步[9] 端侧AI发展趋势 - 2026年端侧AI产业链将加速成熟手机端侧大模型可能率先突破 Super CLUE实验室测试显示手机小模型在自动点单等场景准确率超90% 中兴星云小模型在13款应用中获银牌[10][11] - AR眼镜等设备受硬件限制难快速突破电池小导致续航差摄像头过热问题未解决普及仍需时间[11] 具身智能发展现状 - 人形机器人仍处于前期探索阶段演示多依赖人工遥控工业场景中存在机械自主动作控制等技术难点 C端缺乏可靠技术支撑[12] - 人形机器人需要兼容人类社会环境制造方案中具身大脑的自主控制能力最为稀缺是商业落地瓶颈[12][13] - 发展路径将先从B端工业场景开始环境相对简单任务流程固定可实现7×24小时作业 3C电子和汽车制造领域已实现突破[13][14] - 走进C端家庭预计还需5-10年因生活场景对灵活性安全性要求极高当前价格昂贵但资本投入有助于加速产业链迭代[14][15]

通用人工智能

具身智能

端侧AI

Artificial Intelligence

Artificial Intelligence

Robotics

大模型

AI圈大变天！阿里千问硬刚ChatGPT，开源免费掀翻行业规则

搜狐财经· 2025-11-21 16:48

产品发布与市场策略 - 阿里巴巴于11月17日突然官宣其AI产品“千问”APP公测，直接对标ChatGPT [4] - 千问基于全球性能第一的开源模型Qwen3，并采取免费策略，整合了淘宝、钉钉、高德、饿了么等阿里生态应用 [4] - 该产品旨在将AI从聊天工具转变为实用助手，功能包括比价下单、旅行规划、自动生成会议纪要，搅乱了AI to C市场格局 [4] 技术积累与模型性能 - 公司在AI基础设施领域投入了3800亿元，并持续迭代Qwen开源模型，强调底层功底的长期主义路线 [7] - Qwen3-Max性能超过GPT-4和ClaudeOpus，进入全球前三；开源的Qwen系列在2023年至今迭代三代，Qwen3性能比肩GPT5 [9] - Qwen系列全球下载量反超Llama，成为最火的开源模型；斯坦福大学报告指出中美顶级AI模型性能差距仅为0.3% [9][11] 行业路线与生态影响 - 千问代表的开源免费路线与ChatGPT的闭源付费路线形成正面较量，核心是AI应服务少数精英还是普惠所有人 [13] - 开源策略使千问被硅谷广泛采用，亚马逊用于训练人形机器人，苹果适配IOS系统，英伟达以Qwen为基座开发模型 [15] - 美国AI专家惊叹硅谷建立在Qwen之上，此举被认为可能削弱美国的技术领导力，并改写了全球AI行业的游戏规则 [17] 战略愿景与行业展望 - 公司的野心是打造AI时代的超级入口，让AI融入生活生产的方方面面，挑战过去十年由美国闭源模式主导的AI话语权 [17] - 千问的出现预示着AI未来应向普惠、开放的方向发展，随着更多企业加入开源阵营，行业将回归让每个人受益的本质 [19]

阿里巴巴(US:BABA)

Artificial Intelligence

开源路线

闭源+付费路线

Artificial Intelligence

ChatGPT

阿里千问

Artificial Intelligence

开源路线

闭源+付费路线

Artificial Intelligence

ChatGPT

阿里千问

After Posting 68% Revenue Growth in Q3, Is SoundHound AI Proving to Be an Underrated Buy?

The Motley Fool· 2025-11-21 16:00

公司股价表现 - 尽管人工智能行业备受关注，但SoundHound AI股票今年表现不佳，进入本周交易时已下跌约40% [1] - 公司当前股价为11.29美元，当日下跌2.92%，市值约为50亿美元 [2][7] 财务业绩表现 - 截至9月30日的季度收入为4200万美元，较去年同期的2510万美元大幅增长68% [3] - 当季净亏损高达1.093亿美元，是去年同期2180万美元亏损的五倍多 [4] - 毛利率从去年同期的48.6%下降至上季度的42.6% [5] - 过去九个月，公司日常运营活动消耗了7630万美元现金，略高于去年同期的7580万美元 [8] 运营与增长策略 - 公司通过收购实现业务多元化，例如去年收购了在多行业有合同的AI公司Amelia，从而推动收入增长 [3] - 收入增长主要来自收购，这可能使投资者对其有机增长情况产生误解 [11] 现金流与财务状况 - 公司现金及现金等价物余额为2.689亿美元，表明短期内不会耗尽资源 [9] - 尽管收入增长强劲，但公司运营仍未产生正现金流，未来可能进行股票增发导致股权稀释 [8][9]

SoundHound AI(US:SOUN)

Artificial Intelligence

Voice artificial intelligence

Artificial Intelligence

Voice artificial intelligence

Previous Next