Workflow
大语言模型
icon
搜索文档
淘天 AI 的终极目标:大象无形
晚点LatePost· 2025-10-20 11:51
AI电商战略理念 - 淘宝AI的核心指导思想是将AI功能无缝融入用户现有购物动线中,解决具体问题,目标是让用户感受不到AI的存在,即"大象无形"的理想状态[7][10] - 电商用户"多快好省"的基本需求并未因AI改变,关键在于利用新技术以不同方式满足这些经典需求,而非彻底改变用户习惯[8] - 公司选择将AI产品融入现有用户动线的思路类似Google,而非OpenAI的Chatbot模式,因电商动线长、用户痛点众多[9] 底层数据重构 - 2025年最重要的工作是利用大语言模型系统性优化搜索、推荐和广告环节,核心是解决商品底层数据陈旧问题[11] - 构建AI智能体自动消化行业知识、分析用户行为,为每个品类筛选关键属性,指导商家填写,以解决商品信息匮乏和不规范的历史难题[12] - 启动"SKU引擎"项目,利用AI深入理解每个SKU的完整信息,数据量将从几十亿爆炸性增长到数百亿,挑战在于识别"绝对同款"和"相似款"[13] 技术实施与效果 - 策略是让新老方法协同工作:大模型负责语义理解商品信息,深度学习模型仍负责预测用户点击或购买行为[14] - 在复杂语义下的商品搜索相关性通过AB测试验证可提高20个百分点,对成熟系统是罕见改进[16] - 淘宝是业界唯一在所有搜索请求中都应用大模型的平台,每天处理高达3亿次页面访问量[16] 商家工具应用 - AI美工每月帮助商家自动生成2亿张图片,AI客服每天为商家节省成本约2000万元人民币[18] - 公司不指望通过商家工具直接盈利,而是通过帮助商家降本增效来促进其销售额增长,从而让平台间接受益[17] - 商家工具的关键规模指标是使用人数以及商家利用这些工具完成的工作量[17] 用户侧产品创新 - 推出系列AI导购产品:AI万能搜解析模糊需求、AI帮我挑提供选购建议、AI试穿模拟上身效果、AI清单管理购物、拍立淘优化图片搜索[15][18] - 表达需求是高门槛行为,AI产品难点在于用户不知如何描述,因此策略是让用户输入宽泛词后由系统帮助精确化,而非要求用户输入100个词[10] - 评价AI导购产品的指标与传统产品一致,关注日活跃用户和用户留存[18] 组织与创新管理 - AI产品负责人必须是既懂产品又有算法背景的多面手,形成以产品为单位的高效创业体,避免过时的职能分工生产方式[7] - 公司通过更小、更灵活的团队负责AI方向,以适应AI时代"一步慢步步慢"的竞争节奏[7] - 团队日常讨论超越电商业务范畴,涉及互联网未来、Agent普及等宏观话题,组织氛围更像创新工坊而非作战指挥部[19]
凯文·凯利:AI技术在中国语境下的落地与实践
新浪财经· 2025-10-20 09:33
新浪财经ESG评级中心提供包括资讯、报告、培训、咨询等在内的14项ESG服务,助力上市 公司传播ESG理念,提升ESG可持续发展表现。点击查看【 ESG评级中心服务手册】 2025可持续全球领导者大会于10月16日-18日在上海市黄浦区世博园区召开。上海交通大学上海高级金 融学院副院长、金融学教授朱宁对话科技预言家、《2049》作者、《连线》杂志创始主编凯文·凯利, 共同探讨AI技术在中国语境下的落地与实践。 以下为对话实录: 朱宁:首先,感谢凯文·凯利先生您分享的非常棒的观点以及对未来的想象。 凯文·凯利:我觉得它使得人的能力更加强大。我成长的时候有一个恐惧,计算器会终结人类做算术的 过程和历史,即取代人类的价值,但有一点很明确,计算器可以让算术变得更加快。讲到最后,尤其用 于教育的AI,它会加速学习能力的上升以及学习速度的增加,同时可以扩充学生知识学习的范围以及 能力的提升。 朱宁:过去十年中,因为很多人都提到了AI,您觉得AI是不是成长速度或范围已经超过您的想象了? 还是说它增长得没有您想象得那么好。 凯文·凯利:感谢您的邀请,我非常荣幸来到这里,我非常喜欢来到中国上海,我非常喜欢上海的变 化。 朱宁: ...
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-20 07:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
新股消息 | 斑马智行拟港股上市 中国证监会要求补充说明股权变动等事项
智通财经网· 2025-10-20 06:48
公司上市备案进展 - 中国证监会于10月18日公布境外发行上市备案补充材料要求 涉及斑马智行 [1] - 证监会要求公司就股权变动 业务经营等事项进行补充说明 并由律师核查出具法律意见 [1] - 斑马智行已于2025年8月20日向港交所主板提交上市申请书 [1] 股权结构与合规性 - 证监会要求说明历次增资及股权转让的定价依据 公允性 实缴出资情况以及是否存在出资瑕疵 [1] - 需说明2025年8月定向减资和增资的工商变更登记进展 减资程序合规性 税费缴纳及对价款支付情况 [1] - 需说明公司是否存在应办理但未完成国有股东标识的情况 [1] - 公司需严格对照《境内企业境外发行证券和上市管理试行办法》第八条 说明是否存在境外发行上市禁止性情形 [3] 业务经营与资质 - 需说明公司及下属公司经营范围包含增值电信业务 市场调查 测绘服务 广告等业务的具体情况 是否实际开展 是否取得必要资质 [2] - 需说明相关业务是否涉及《外商投资准入特别管理措施(负面清单)(2024年版)》限制或禁止领域 以及发行上市后是否符合外商投资准入要求 [2] - 需说明子公司斑智云图《试点增值电信业务经营许可证》的办理进展及拟从事业务内容 [2] - 要求以通俗语言详述业务模式及涉及大语言模型的具体情况 并说明是否完成相关大模型备案 [2] 规范运作与数据安全 - 需说明公司及下属公司是否开发运营网站 小程序 APP 公众号等产品 是否向第三方提供信息内容及内容类型和安全措施 [2] - 需说明收集及储存的用户信息规模 数据收集使用情况 以及上市前后个人信息保护和数据安全的安排 [2] - 需说明公司及下属公司未完结诉讼及仲裁案件的最新进展 是否构成本次上市的实质性障碍 [2] 本次发行上市具体安排 - 需说明全额行使超额配售权后的预计募集资金量 [3] - 需说明本次拟参与"全流通"股东所持股份是否存在被质押 冻结或其他权利瑕疵的情形 [3] - 需说明本次分拆上市所履行上市地监管程序情况 [4] 公司核心业务定位 - 斑马智行是一家智能座舱解决方案供应商 致力于将汽车转变为能感知互动的智慧伙伴 [4] - 公司聚焦于智能座舱这一人车互动主要入口 [4] - 公司凭借自研的汽车操作系统与全栈元神AI架构 协助主机厂打造智能汽车 实现自然语音控制和个性化车舱体验 [4]
微博加码扶持中长视频:从注重播放量到以观看时长为分发主导
南方都市报· 2025-10-19 13:05
公司运营与用户数据 - 截至今年6月,微博平台月活跃用户(MAU)达到5.88亿,日活跃用户(DAU)2.61亿 [1] - 全平台日均发博量1.05亿、日均评论量0.63亿、点赞数1.97亿 [1] - 活跃用户中30岁以下人群占比70.7%,四线及以下人群占比达到31.5%,31-40岁中青年月活跃用户占比22.9% [1] - 截至今年9月,平台"金橙V"创作者总量达12.5万,其中"金V"作者1.8万,"橙V"作者大幅提升至10.7万,同比增长57% [1] 产品战略与视频生态改革 - 公司今年围绕关系流、推荐流、热点三大核心场景以及视频消费共四部分展开升级改造,以强化产品差异化优势 [2] - 自今年6月起,微博视频分发政策由原来以播放量主导转变为以观看时长为主导 [1][2] - 平台持续加大对1分钟以上中长视频的现金激励与流量倾斜,推动视频内容质量与消费时长增长 [2] - 今年第三季度,"金橙V"生产的时长超30秒且"质量分"超3分的"优质视频"生产量同比提升51%,全站视频观看时长同比增长12% [2] 技术赋能与内容分发机制 - 近两年,公司在传统机器学习基础上重点引入大语言模型,利用AI能力提升内容理解和用户体验水平 [3] - 平台推荐内容分发机制依赖三大引擎:兴趣、社交和热点,通过兴趣探索帮助用户发现新领域,通过热点提供新话题 [3] - 社交推荐被定位为依托社交深入理解人与人之间的关系,让推荐更有"温度",平台投入挖掘直接"关注"关系、间接关系及复杂协同关系 [4] - 公司利用神经网络算法对用户社交关系做扩展,寻找好友、同好及所属社群,并进行跨圈层推荐 [4]
我国生成式人工智能用户规模超5亿;苹果公司CEO库克:Apple Intelligence正在努力进入中国市场丨AIGC日报
创业邦· 2025-10-19 09:05
AI音乐生成行业动态 - AI音乐生成公司Suno正洽谈以超过20亿美元估值融资逾1亿美元,该估值较此前翻了四倍 [2] - 公司年经常性收入已超过1亿美元 [2] - 公司近期正与主流唱片公司协商解决法律纠纷 [2] 中国生成式AI市场概况 - 截至2025年6月,中国生成式人工智能用户规模达5.15亿人,较2024年12月增长2.66亿人 [2] - 用户规模半年翻番,普及率达到36.5% [2] 跨国科技公司中国市场进展 - 苹果公司CEO库克透露,Apple Intelligence(苹果智能)目前正在努力进入中国市场 [2] - 库克表示人工智能可以做了不起的事情,改变了人们的生活,包括救人性命 [2] AI创业与投融资趋势 - 智谱AI前COO张帆已创业,新项目专注于特定任务大语言模型的研发,推动AI技术在企业场景的深度落地 [2] - 创业公司已完成天使轮融资,投资方为蓝驰创投 [2] - 天使轮融资估值未出现过多溢价,股东光源创业者基金在项目推进中表现积极 [2]
明日开课!自动驾驶VLA三大体系学习路线图:算法+实践
自动驾驶之心· 2025-10-19 00:03
自动驾驶VLA行业趋势 - 端到端技术之后,学术界和工业界聚焦方向是VLA(Vision-Language-Action),其提供类人思考能力,通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性和安全性[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA自研[4] 课程核心内容 - 课程涵盖自动驾驶VLA三大子领域前沿算法细致讲解,配备两个实战及一个课程大作业[6] - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等[6] - 最前沿算法包括CoT(思维链)、MoE(混合专家模型)、RAG(检索增强生成)、强化学习等[6] - 第一章概述VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,包括Vision、Language、Action三个模块基础知识,以及大模型与自动驾驶VLA结合方式[14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,如DriveGPT4、TS-VLM、DynRsl-VLM、SENNA[15] - 第四章聚焦模块化和一体化VLA,讲解语言模型从被动场景描述演变为主动规划组件的过程,配套ReCogDrive实战代码[16] - 第五章聚焦推理增强VLA,讲解长思维链推理、记忆和交互技术,配套Impromptu VLA实战代码[17][19] - 第六章为大作业,基于ms-swift框架进行网络构建、自定义数据集和模型加载,开启训练任务并进行微调[20] 行业技术发展 - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释[17] - 课程涉及多家机构最新研究成果,包括华科&小米ICCV2025中稿的ORION、慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo的S4-Driver等[17][18][23]
为什么说AI智能体最大的价值,是悄悄嵌入工作流里?
36氪· 2025-10-18 08:06
AI智能体行业现状与核心认知 - AI智能体领域正经历快速迭代,新模型、新技术和新架构层出不穷,但行业多数从业者对进展仍不敏感 [1] - 行业将AI智能体定义为大语言模型(LLM)与推理、工具、记忆的结合体,可简化为LLM加工具和记忆 [1] - AI智能体并非独立产品,而是业务流程的催化剂和赋能者,其真正价值在于嵌入工作流程后在后台运行 [1][12] AI智能体开发框架与技术实践 - 开发框架(如crewai、dspy、langgraph、autogen等)并非关键限制因素,应用的核心流程更为重要 [3] - DSPy框架被视为未来发展方向,其签名、适配器、训练集、优化器等概念设计自然,编译体验良好 [10] - AI智能体开发本质更接近软件工程而非人工智能/机器学习,需要扎实的软件工程基础 [4] AI智能体性能与能力边界 - 智能体的能力上限高度依赖所提供上下文的质量,包括提示、工具、记忆及环境 [5] - 结构良好的上下文价值可能超过使用更大的语言模型 [5] - 缺乏工具的独立智能体实用性有限,赋予其执行操作能力(如调用API、访问数据库)后价值显著提升 [6][7] AI智能体设计原则与评估体系 - 最高效的智能体设计遵循简洁原则:清晰提示、少量定义明确的工具、单一职责,复杂性易导致系统脆弱 [8] - 评估体系作用被低估,建立测试和真实世界反馈循环是区分玩具项目与可靠生产系统的关键 [9] - 智能体应为精确场景而生并出色完成任务,而非追求通用性 [8] 行业应用与商业化前景 - AI智能体发展仍处早期阶段,正从研究玩物转向基础设施级系统 [12] - 未来每个产品背后都可能运行智能体,负责协调任务、提供个性化体验及处理复杂问题 [12] - 技术仅是成功因素之一,鼓励实验的文化、迭代速度及清晰愿景更为重要 [11]
理想自动驾驶团队GitHuB仓库与论文合集
理想TOP2· 2025-10-17 21:44
自动驾驶技术战略布局 - 公司自动驾驶团队致力于通过前沿技术引领交通运输领域变革,核心使命是提升出行安全性、效率和可持续性 [1] - 技术布局涵盖自动驾驶大语言模型、世界模型、3D几何场景理解以及端到端神经网络模型等多个前沿领域 [1] 大语言模型 (LLM) 应用 - 利用大语言模型解读复杂驾驶场景,旨在实现更智能、响应更迅速的自动驾驶车辆 [2] 自动驾驶模拟与测试 - 世界模型项目专注于模拟真实驾驶环境,用于在各种条件下测试和改进自动驾驶算法 [3] - DrivingSphere框架结合4D世界建模和视频生成技术,构建生成式闭环仿真系统,可生成无限大的城市规模静态背景 [8] - DriveDreamer4D使用视频生成模型作为数据机器,生成车辆执行复杂新轨迹时的视频数据,以补充真实数据不足 [8] 3D场景感知与重建 - 3D几何场景项目专注于创建精细城市环境3D地图,以增强车辆感知系统,实现更优导航和决策 [4] - StreetGaussians方法高效创建逼真、动态的城市街道模型 [7] - 3DRealCar是真实世界3D汽车数据集,包含2500辆经过3D扫描仪的汽车,每辆车平均有200个密集的RGB-D视图 [8] - Hierarchy UGP使用统一高斯基元的四维空间表示方法构建分层树状结构,用于大规模动态城市场景的高保真三维重建 [8] 端到端神经网络模型 - 研发全面的端到端神经网络模型,简化从感知到执行的整个自动驾驶系统处理流程 [5] - STR2运动规划器使用视觉Transformer作为编码器,采用单阶段自监督学习方式训练,旨在提升泛化能力 [8] - GaussianAD使用稀疏而全面的3D高斯函数表示场景信息,解决传统方法在信息完整性和计算效率间的权衡问题 [8] 视频生成与场景合成 - DiVE模型基于Diffusion Transformer架构,生成与鸟瞰图布局精确匹配的时间、多视角一致视频 [8] - GeoDrive利用3D几何信息生成高度逼真、时空一致的驾驶场景视频,实现实时场景编辑 [10] - StreetCrafter是专为街景合成设计的视频扩散模型,利用激光雷达数据实现摄像机位置的精确控制 [8] 视觉语言模型优化 - LightVLA是自适应视觉token pruning框架,同时提升机器人VLA模型任务成功率和运行效率 [10] 数据集与算法创新 - TOP3Cap是用自然语言描述自动驾驶街景的数据集,包含850个户外场景,超过64300个物体,230万条文字描述 [7] - ReconDreamer采用渐进式策略,将世界模型知识融合到场景重建中 [8] - DriveVLM采用端到端与视觉语言模型结合的双系统架构 [7]
新模型组团出道,多项机器人技术开源,近期AI新鲜事还有这些……
红杉汇· 2025-10-17 08:04
AI科研发现自动化 - 西湖大学开发的AI科学家系统DeepScientist在AI文本检测任务中,仅用两周时间就取得了相当于人类科学家三年的研究进展,并在多个领域刷新纪录 [6] - 该系统实现了除目标设定外无需人工干预的科研闭环,成为首个被大规模实证研究证明能在前沿科学任务上渐进式超越人类最先进水平的AI系统 [6] OpenAI开发者大会与平台生态 - OpenAI开发者大会现场有约1500名开发者参与,线上观众突破数万,平台已聚集400万开发者,ChatGPT周活跃用户达8亿,API每分钟处理近60亿token [8] - 大会发布多款开发工具,包括Apps SDK、全能工具集AgentKit和正式版Codex,同时开放Sora 2的API,其生成内容在物理规律呈现和提示一致性上显著提升,并新增同步对话、音效及现实元素注入功能 [8] 多模态图像生成模型竞争 - 腾讯的混元图像3.0在LMArena榜单登顶,得分1167,超越Google Gemini 2.5 Flash Image Preview(1151分)和字节跳动Seedream-4-2k(1144分)等26个全球模型 [11][12] - 该模型是业界首个开源工业级原生多模态生图模型,参数量达800亿,拥有64个专家网络,具备世界知识推理和极致美学表现等核心能力 [12] 机器人关键技术开源与生态 - 英伟达在机器人学习大会上开源物理引擎Newton、推理模型Isaac GR00T N1.6和世界模型Cosmos,旨在解决机器人研发中的仿真、推理和训练难题 [14] - 这一系列工具的开源有望显著缩短机器人开发周期,其中世界模型Cosmos通过文本、图像和视频提示生成多样化训练数据,减少对昂贵真实世界数据采集的依赖 [14][15] 大语言模型性能升级 - 智谱GLM-4.6总参数量达355B,激活参数为32B,上下文窗口从128K扩展至200K token,token效率提升超过30%,平均token消耗比GLM-4.5节省30%以上 [17] - 模型代码能力较GLM-4.5提升27%,在公开基准与真实编程任务中已对齐Claude Sonnet 4,整体性能超过DeepSeek-V3.2-Exp [17] 代码模型能力突破 - Anthropic发布的Claude Sonnet 4.5在权威编程基准SWE-bench Verified上取得82.0%的准确率,超过其前代Opus 4.1(79.4%)、GPT-5(72.8%)和Gemini 2.5 Pro(67.2%) [22] - 模型在复杂多步骤任务中可保持超过30小时的专注执行,正常请求拒绝率从Sonnet 4时的0.15%下降至0.02%,并同步发布了Claude Agent SDK [20][22] 视频模型零样本学习能力 - DeepMind的Veo 3视频模型展现出“无师自通”的零样本学习能力,能够处理一系列未经过专门训练的视觉任务,如边缘检测、物体分割、超分辨率等 [24][27] - 模型展现出对朴素物理规律(如刚体、软体、光的折射)和三维世界的理解能力,并能通过“帧链”能力解决复杂的视觉推理任务,有望发展为视觉基础模型 [27][28]