语言

搜索文档
大历史中的超能力|荐书
腾讯研究院· 2025-07-18 16:18
生物智能演化历程 - 犬齿兽作为哺乳动物祖先在2.6亿年前出现,凭借温血特性获得夜间活动优势,但面临食物短缺挑战[1] - 哺乳动物在1亿年前演化出新皮质,具备想象力和短期计划能力,形成"谋定后动"的生存策略[2][3] - 6600万年前小行星撞击事件导致恐龙灭绝,哺乳动物凭借体型优势和洞穴庇护实现生态位跃升[3] 大脑智能五次突破 - 第一次突破是5.5亿年前原始大脑的条件反射功能,仅需数百神经元即可实现利弊权衡和情感判断[4] - 第二次突破是脊椎动物强化学习系统,通过多巴胺机制量化目标价值并激发好奇心[4] - 第三次突破是哺乳动物新皮质带来的想象力和慢思考能力,实现系统2思维[5] - 第四次突破是灵长类心智理论能力,可模拟他人意图并发展政治行为,附带模仿学习和长期计划能力[6] - 第五次突破是人类语言系统,实现复杂知识传承和文明爆发[6] AI技术对应发展 - 强化学习使AI具备过程奖励机制,如AlphaZero通过棋步评估提升决策质量[5] - 大语言模型实现文本生成相当于想象功能,推理模型则体现系统2思维[5] - 截至2025年初AI在心智理论方面尚未成熟,智能体自我计划能力有待突破[6] - AI语言理解已超越简单语料背诵,能编码解码人类抽象规则[7] 家用机器人进化案例 - K1仅具备反射反应,K2通过强化学习实现试错优化[9] - K3搭载新皮质芯片获得数字孪生能力,可预判物理路径[9] - K4发展心智理论,能解读情感动机并调整行为策略[9] - K5将掌握语言沟通和抽象知识理解能力[9] 未来突破方向 - 第六次突破可能涉及人机结合,AI或率先实现跨模态感知和自我迭代[11] - 历史表明突变常引发链式反应,如光合作用导致大氧化事件和生物灭绝[12][13] - 陆地植物繁盛引发全球变冷,推动动物登陆进化[14] - 气候变迁促使人类大脑体积增大和社会协作强化[15]
Claude Code 作者:别再沉迷功能堆砌了!最好的 AI 工具,是把控制权还给你
AI科技大本营· 2025-07-18 15:40
核心观点 - 编程工具正经历从复杂功能堆砌向极简主义哲学的转变 强调简单 通用和无偏见的工具设计理念 将控制权交还给创造者 [3][34] - AI编码工具的发展呈现加速态势 模型能力和产品形态同步快速迭代 [4][5][25] - 编程语言抽象层级持续提升 各语言特性呈现趋同趋势 [12] 编程工具演化史 - **硬件阶段**:1940年代采用交换机面板编程 1950年代发展为打孔卡物理编程 [8][10] - **语言抽象**:1950年代末出现汇编语言 COBOL等高级语言 1990年代爆发JavaScript/Python等多语言生态 [12] - **开发环境**:1964年IBM O29打孔卡设备→1970年代Ed文本编辑器→1980年Smalltalk-80图形界面→1991年Visual Basic→2001年Eclipse代码补全IDE→Copilot AI补全→Devin自然语言编程 [16][18][19][20][22][24] Claude Code产品特性 - **工作流设计**:支持探索-规划-确认-执行的ultrathink模式 测试驱动开发(TDD) 目标导向迭代 [27][28][29][30] - **功能创新**: - 计划模式(Shift+Tab触发)实现分阶段任务处理 [31] - CLAUDE.md文件提供上下文记忆 支持项目级/全局配置 [31] - 自定义斜杠命令(.claude/commands/)实现工作流复用 [32][33] - **设计哲学**:坚持无偏见(unopinionated)原则 作为基础工具链组件而非封闭系统 [34] 行业趋势观察 - 编程语言特性收敛 TypeScript/Rust/Swift/Go等语言抽象层级趋同 [12] - IDE开发体验(devx)进化速度超越历史任何时期 自然语言编程成为新范式 [24][25] - AI工具开始覆盖编码全生命周期 从代码生成扩展到问题诊断 测试验证 设计还原等环节 [26][30]
谷歌发布Gemini嵌入模型,拓展基础层NLP能力
海通国际证券· 2025-07-18 15:34
报告行业投资评级 未提及 报告的核心观点 - 谷歌发布Gemini嵌入模型是对OpenAI在语言底座层的反超尝试,建议关注其在核心产品的集成节奏及对云服务商间NLP能力差异化格局的影响 [3] - 嵌入层将成为AI工作流新价值高地,谷歌嵌入模型有望快速落地多产品层构建数据闭环,超低定价或引发嵌入API服务价格战 [5] 根据相关目录分别进行总结 事件 - 2025年7月15日谷歌发布首个文本嵌入模型Gemini - embedding - 001并开放API,该模型以68.37分刷新MTEB排行榜,领先OpenAI的58.93分,定价为每百万tokens 0.15美元,面向开发者和独立创作者开放 [1][12] 点评 - 模型性能大幅领先,在MTEB的9大类任务中全面领先,为嵌入应用带来性能增益,确立嵌入领域新标杆 [2][13] - 价格极致下探,百万tokens定价仅0.15美元,相比OpenAI嵌入模型便宜数倍,降低调用门槛,释放中小企业等生产力,是“平台式让利”行动 [2][14] - 强化Gemini模型矩阵,使Gemini拥有“理解 - 匹配 - 表达”能力,构建谷歌在AI工作流中的底层核心竞争力 [2][15] 战略意义 - 谷歌发布Gemini嵌入模型是从内容生成向语义理解全栈平台战略的关键一跃,嵌入模型在AI多模态 + 多Agent协同方向下重要性被重新定义 [3][16]
为什么能落地?目标导航是怎么识别目标并导航的?
具身智能之心· 2025-07-18 11:21
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] - 技术依赖计算机视觉、强化学习与3D语义理解的交叉突破,典型场景如"去厨房拿可乐"需识别空间特征、构建拓扑地图并避开动态障碍[2] 产业化落地现状 - 终端配送领域:美团无人配送车采用动态路径重规划技术,Starship Technologies的机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用机器人实现药品、文件、餐食自主配送,美国Aethon公司TUG系列提升服务效率[3] - 人形机器人适配:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成工业场景导航模块,特斯拉Optimus展示端到端操作能力[3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代,从2020年CVPR点导航基准扩展至图像导航、目标导航及移动抓取任务,形成闭环评测体系[4] - 关键技术突破包括:视觉预训练模型提升特征泛化,分布式强化学习框架DDPPO使PointNav任务SPL指标显著提升,LLM解决开放词汇导航难题[4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍场景仍存挑战,Sim2Real迁移框架推动实际部署[4] 三代技术路线迭代 - 第一代端到端方法:基于强化学习与模仿学习,在点导航和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,零样本目标导航中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,重点开发场景表征接口[7] 技术挑战与学习路径 - 具身导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文碎片化且实战指导缺乏,Habitat生态文档不足提高入门门槛[9] - 解决方案包括构建领域框架、理论结合实践、系统化课程设计,覆盖语义导航核心框架、Habitat仿真生态、端到端/模块化/LLM-VLM导航方法及实战部署[10][11][12] 课程体系与目标 - 课程大纲分12周,涵盖Habitat仿真开发、端到端/模块化/LLM-VLM方法理论与实践,最终完成VLFM算法复现与真实场景部署[16][17][19][21][23][25] - 面向机器人抓取从业人员、具身智能研究者、CV/自动驾驶转行者,培养独立开展算法改进与工程优化的能力,掌握Sim2Real部署流程[33]
ICCV2025 | One image is all you need,多模态指令数据合成,你只管给图,剩下的交给Oasis
机器之心· 2025-07-18 11:14
多模态指令数据合成方法Oasis - 核心观点:提出一种新型多模态指令数据合成方法Oasis,仅需用户提供图片即可自动完成指令合成、质量控制和回复生成,显著降低人工成本并提升数据多样性[1][6][21] - 方法优势:打破依赖预设文本提示词的传统模式,利用图像输入诱导MLLM自主生成多样化指令,完全无需人工前置文本提示[6][14][15] - 质量控制:设计四维度筛选标准(可解性/清晰度/幻觉程度/无意义性),高质量指令接受率为50.9%[19][49][50] 技术流程 - 三步法:构造钩子提示词诱导自回归采样→LLM分类保留指令型数据→质量控制与回复生成[11][16][18] - 分类机制:采样结果分为指令型(保留)和描述型(舍弃),通过率为49.9%[15][16][46] - 垂域合成:基于OCR相关图片合成70k垂域数据,在OCR任务benchmark上提升显著[43] 数据特性 - 规模与扩展性:基于Cambrian-10M图片合成500k训练数据(Oasis-500k),数据量可线性增长[21] - 语言多样性:覆盖英文(78.52%)、中文(18.66%)及多种小语种[27] - 任务多样性:指令平均长度76.8(LLaVA-NeXT为55.03),动词-名词组合覆盖更广[24][28][33] 性能验证 - 基准测试:在14个benchmark上平均提升Vicuna1.5/Qwen2.5/Llama3模型性能3.1%/1.8%/3.2%[36][38] - 增量实验:500k Oasis数据使LLaVA-100k模型性能提升5.2%,300k→500k阶段增益达4.0%[40][41] - 消融结果:指令质量控制使模型整体性能提升1%,DocVQA/InfoVQA任务提升超7%[45][50] 开源生态 - 代码库MM-INF:集成Oasis及常用多模态数据合成方法,支持模块化数据合成流程[2][52] - 资源开放:提供论文、代码及数据集链接,涵盖Qwen2-VL等模型实现细节[4][12][52]
明天,围观学习ACL2025论文分享会,最后报名了
机器之心· 2025-07-18 11:14
AI领域发展动态 - 2025年AI领域持续高速发展,科技公司和机构发布大量研究成果,技术更新节奏极快,每隔几周甚至几天就有突破性进展出现[1][3][4] - DeepSeek和视频生成模型Veo 3等代表性技术推动行业进步,从业者需频繁跟踪arXiv、GitHub等平台以保持技术前沿性[2][5] ACL 2025会议概况 - ACL 2025总投稿数突破8000篇创历史新高,会议将于7月27日-8月1日在维也纳举行[6] - 国内配套活动7月19日在北京举办,包含Keynote演讲、论文分享、圆桌对话等环节,设置企业展位交流[6][7][14] 学术研究热点 - 上午Keynote聚焦ACL趋势与NLP研究热潮,车万翔教授将分析2025年研究重点与演化方向[18][20][21] - 下午Keynote由刘鹏飞教授主讲大模型强化学习与复杂推理,探讨认知工程范式转变及测试时扩展技术[22][24] - 论文分享涵盖大语言模型自校正、分布式长上下文推理加速、token回收等前沿课题[11][12][14] 行业专家阵容 - 圆桌讨论主题为"上下文工程价值",嘉宾来自阿里巴巴、腾讯、上海交大,涵盖大模型强化学习、游戏AI等方向[16][31][33][35] - 腾讯AI Lab专家研究员王琰曾获ACL 2021杰出论文奖,开发过Temp-Lora、Block-Attention等业界知名技术[35] 活动合作生态 - 活动由机器之心联合黄大年茶思屋科技网站举办,后者是聚焦前沿科技交流的开放平台[39][41] - 设置论文Poster展示环节,并通过双平台直播扩大影响力[37][41]
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
中金 | AI十年展望(二十四):AI Agent元年已至,应用拐点或将到来
中金点睛· 2025-07-18 07:49
AI Agent行业核心观点 - 2025年被定位为AI Agent"元年",技术基础和产品路线逐步成熟,产业期待应用端拐点形成商业闭环[1][4] - 基础大模型能力决定Agent上限,Coding与Agentic能力成为厂商竞争焦点[12][21][23] - C端注重通用性,B端强调场景化,商业化路径呈现差异化特征[4][5][36] - 海外商业化进度领先国内,但国内需求拐点渐近[5][43][73] 技术架构与产品形态 - 形成底层大模型+工具+Agent Infra的三层架构,大模型提供核心推理能力,工具赋予场景能力[12] - Agent Infra包含环境、记忆、工具接口等组件,生态仍处早期阶段[13] - 主流开发框架包括AutoGen、Dify、LangChain等,降低开发者门槛[16] - 产品能力分级L1-L5,从规则执行到具备情感协作的通用智能体[18][19] 商业化进展 C端市场 - 大厂和创业公司主导,OpenAI、Google、字节、阿里等积极布局[4][37] - 产品形态包括通用型(Manus、Flowith)和垂直型(Cursor、Harvey)[61][62] - 海外单任务定价0.5-2美元,国内扣子空间低至0.008元/任务[67] B端市场 - 海外Microsoft、Salesforce等形成完整产品矩阵,Oracle、Workday等企业服务商推动落地[37][69] - 国内厂商在开放场景中灵活尝试,DeepSeek加速短期渗透[72][74] - 头部厂商2025年订单可达过亿元级别[74] 关键趋势 - 从Workflow Agent向端到端自主Agent演进[24] - 单Agent架构向多Agent协作系统升级[26][27][29] - 工程化优化降低Tokens消耗,提升性价比[30][32] - Agent任务长度呈现Scaling-Law指数增长,已达小时级[32][33] 区域差异 - 海外模型即应用趋势显著,OpenAI年化收入超100亿美元[52][53] - 国内付费意愿边际改善,产品化基因局部领先[73] - AI+代码成为最成熟场景,海外收入体量领先国内一个数量级[43][44]
微软AI CEO:曾在谷歌主导开发类ChatGPT,因公司顾虑错失先机
搜狐财经· 2025-07-17 20:26
IT之家 7 月 17 日消息,微软 AI 部门 CEO 穆斯塔法・苏莱曼上周(7 月 11 日)出席了《CatGPT》播客,畅聊 AI 的多个话题,其中他在谷歌 DeepMind 时 错过的机会引人注目。 他表示:"因为无法发布 LaMDA,所以我在谷歌的时候感觉非常沮丧。LaMDA 实际上就是'ChatGPT 推出之前的 ChatGPT'。它是第一个能真正进行对话的 大语言模型,表现极其出色。谷歌内部几乎所有人都试用过它,也都见识过它的能力"。 但苏莱曼表示,当时谷歌内部有很严重的意见分歧:"大概一半的人都非常怀疑,觉得这个东西不怎么安全。它总会产生'幻觉'(生成虚假内容),而且如 果推出的话肯定会破坏谷歌现有的搜索服务,肯定会存在各种安全隐患"。 播客中,他特别提到了在谷歌 DeepMind 任职期间(2010-2022)的一段经历 —— 在离职并创立 Inflection AI 前曾主导开发谷歌内部的大语言模型 LaMDA,但无疾而终。 尽管如此,当时谷歌还有一群人认为该产品潜力巨大,甚至预见它将成为搜索引擎的未来。 苏莱曼接着表示,他在谷歌时真的很想把它发布出来,但行不通。谷歌就是无法理解这个产品的 ...