大语言模型

搜索文档
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
量子位· 2025-07-20 13:08
大语言模型的自信与动摇行为研究 核心观点 - 大语言模型如GPT-4o和Gemma 3存在"固执己见"和"被质疑就动摇"的冲突行为,表现为初始自信但易受反对意见影响而改变答案 [2][3] - 模型行为与人类认知存在偏差:在记忆机制下表现出类似人类的观点维护倾向,但无记忆机制时对反向建议过度敏感,易放弃正确初始答案 [4][5][16][17] 实验设计 - 采用两轮回答实验:第一轮为初始回答,第二轮引入虚构建议LLM的反馈(同意/反对/中立)后观察最终决策 [7][8] - 关键变量为初始答案是否可见:可见时模型倾向于坚持原答案(类似人类行为),隐藏时改变答案概率显著提高 [10][11][12][13] - 反馈建议设置三大属性:态度类型(同意/反对/中立)、准确率标签(50%-100%梯度)、规范化信息呈现方式 [18] 行为机制分析 - 训练层面:强化学习从人类反馈(RLHF)导致过度迎合外部输入,缺乏对信息可靠性的独立判断 [19] - 决策逻辑:依赖文本统计模式而非逻辑推理,反对信号与修正答案的高频关联易使模型被表面反对带偏 [19] - 记忆机制:初始答案可见时路径依赖强化固执性,隐藏时因失去锚点而让反对建议主导决策 [21] 潜在影响 - 多轮对话场景中,模型可能被后期错误反对信息干扰而偏离正确结论 [22] - 当前模型无法自我验证答案正确性,决策质量受外部反馈质量显著影响 [19][21]
百度集团-SW(09888):AI搜索改造下百度核心广告业务承压,萝卜快跑继续领跑Robotaxi行业
东吴证券国际· 2025-07-18 22:00
报告公司投资评级 - 买入(维持) [2] 报告的核心观点 - 25Q2百度核心广告业务受AI搜索改造等影响可能承压,预计该季度广告业务营收同比下滑16.3%;百度萝卜快跑领跑全球Robotaxi行业,UE有望于2028年回正,25年Q1订单量同比增长75%至144万次;生成式AI及大语言模型推动公司智能云业务快速增长,25Q1云服务收入同比增长42%,预计25Q2增速同比20%以上;下调公司业绩预测和目标价,2025 - 2027年营收分别同比增长-5.2%、4.4%、4.8%,non - gaap净利润分别为197.41亿、220.37亿、240.33亿元,得出DCF估值结果下调公司目标价至95.15港币,维持“买入”评级 [7] 根据相关目录分别进行总结 盈利预测与估值 |项目|2024A|2025E|2026E|2027E| | ---- | ---- | ---- | ---- | ---- | |营业收入(百万元)|133,125|126,265|131,853|138,172| |同比(%)|-1.1|-5.2|4.4|4.8| |归母净利润(百万元)|23,760|18,324|20,200|22,172| |同比(%)|17.0|-22.9|10.2|9.8| |每股收益-最新股本(元/股)|8.6|6.7|7.3|8.1| | P/E(倍)|10.9|14.1|12.8|11.7| [2] 市场数据 |项目|数值| | ---- | ---- | |收盘价(港元)|85.6| |一年最低/最高价|73.25/119.4| |市净率(倍)|0.81| |流通股市值(百万港元)|235,414.3| |每股净资产(港元,LF)|98.1| |资产负债率(%,LF)|36.1| |总股本(百万股)|2,750.2| |流通股(百万股)|2,750.2| [6] 公司分季度业绩拆分和预测 - 2025 - 2027年百度核心业务营收分别为981.9亿、1,032.3亿、1,085.9亿元,同比分别为-6.2%、5.1%、5.2%;核心业务在线营销服务营收分别为618.0亿、611.9亿、605.7亿元,同比分别为-15.3%、-1%、-1%;核心业务云服务营收分别为267.2亿、320.6亿、378.3亿元,同比分别为22.2%、20%、18%;爱奇艺营收分别为289.2亿、294.4亿、304.3亿元,同比分别为-1.0%、1.8%、3.4%;营收合计分别为1262.6亿、1318.5亿、1381.7亿元,同比分别为-5.2%、4.4%、4.8%;归属于母公司股东利润分别为183亿、202亿、222亿元;Non - Gaap净利润分别为197亿、220亿、240亿元 [8] 公司资本成本假设与百度DCF估值 |假设|数值| | ---- | ---- | |无风险利率Rf|1.50%| |市场预期回报率Rm|10.00%| |第二阶段年数(年)|5| |第二阶段增长率|2.00%| |永续增长率(可参考CPI)|1.00%| |DCF估值|现金流折现值|价值百分比| |第一阶段|95,380.90|25.75%| |第二阶段|108,867.34|29.39%| |第三阶段(终值)|166,203.15|44.87%| |企业价值AEV|370,451.39| - | |加:非核心资产|0.00|0.00%| |减:带息债务(账面价值)|63,022.00|17.01%| |减:少数股东权益|19,992.00|5.40%| |股权价值|287,437.39|77.59%| |除:总股本(股)|2,750,167,168.00| - | |每股价值(港元)|95.15| - | [9] 百度萝卜UE模型预测 |项目|2025E|2026E|2027E|2028E|2029E|2030E| | ---- | ---- | ---- | ---- | ---- | ---- | ---- | |单车年均收入(元)|87,600|104,430|131,387|159,158|208,507|260,172| |单车年均成本(元)|130,199|134,603|138,616|117,593|107,450|98,409| |单车年均毛利润(元)|-42,599|-30,173|-7,229|41,565|101,057|161,763| [10] 百度集团三大财务预测表 |项目|2024A|2025E|2026E|2027E| | ---- | ---- | ---- | ---- | ---- | |销售收入(百万元)|133,125|126,265|131,853|138,172| |销售成本(百万元)|66,102|65,405|67,904|70,468| |销售和管理费用(百万元)|22,133|18,940|19,778|21,279| |财务费用(百万元)|-6,214|-2,496|-2,491|-2,596| |净利润(百万元)|24,175|18,644|20,553|22,559| |归母公司股东的净利润(百万元)|23,760|18,324|20,200|22,172| |EBITDA(百万元)|42,929|29,857|36,362|43,697| |NOPLAT(百万元)|42,502|41,408|39,004|40,917| |Non - Gaap净利润(百万元)|27,002|19,741|22,037|24,033| |每股收益(元)|8.64|6.66|7.35|8.06| |每股净资产(元)|95.86|102.52|109.86|117.93| |每股经营现金流|7.72|17.62|18.08|20.54| |ROIC(%)|12.43|11.25|11.27|11.06| |ROE(%)|9.01|6.50|6.69|6.84| |毛利率(%)|50.35|48.20|48.50|49.00| |销售净利率(%)|18.16|14.77|15.59|16.33| |资产负债率(%)|33.70|31.22|31.05|29.81| |收入增长率(%)|-1.09|-5.15|4.43|4.79| |净利润增长率(%)|12.19|-22.88|10.24|9.76| | P/E|10.88|14.11|12.80|11.66| | P/B|0.98|0.92|0.86|0.80| [12]
大历史中的超能力|荐书
腾讯研究院· 2025-07-18 16:18
生物智能演化历程 - 犬齿兽作为哺乳动物祖先在2.6亿年前出现,凭借温血特性获得夜间活动优势,但面临食物短缺挑战[1] - 哺乳动物在1亿年前演化出新皮质,具备想象力和短期计划能力,形成"谋定后动"的生存策略[2][3] - 6600万年前小行星撞击事件导致恐龙灭绝,哺乳动物凭借体型优势和洞穴庇护实现生态位跃升[3] 大脑智能五次突破 - 第一次突破是5.5亿年前原始大脑的条件反射功能,仅需数百神经元即可实现利弊权衡和情感判断[4] - 第二次突破是脊椎动物强化学习系统,通过多巴胺机制量化目标价值并激发好奇心[4] - 第三次突破是哺乳动物新皮质带来的想象力和慢思考能力,实现系统2思维[5] - 第四次突破是灵长类心智理论能力,可模拟他人意图并发展政治行为,附带模仿学习和长期计划能力[6] - 第五次突破是人类语言系统,实现复杂知识传承和文明爆发[6] AI技术对应发展 - 强化学习使AI具备过程奖励机制,如AlphaZero通过棋步评估提升决策质量[5] - 大语言模型实现文本生成相当于想象功能,推理模型则体现系统2思维[5] - 截至2025年初AI在心智理论方面尚未成熟,智能体自我计划能力有待突破[6] - AI语言理解已超越简单语料背诵,能编码解码人类抽象规则[7] 家用机器人进化案例 - K1仅具备反射反应,K2通过强化学习实现试错优化[9] - K3搭载新皮质芯片获得数字孪生能力,可预判物理路径[9] - K4发展心智理论,能解读情感动机并调整行为策略[9] - K5将掌握语言沟通和抽象知识理解能力[9] 未来突破方向 - 第六次突破可能涉及人机结合,AI或率先实现跨模态感知和自我迭代[11] - 历史表明突变常引发链式反应,如光合作用导致大氧化事件和生物灭绝[12][13] - 陆地植物繁盛引发全球变冷,推动动物登陆进化[14] - 气候变迁促使人类大脑体积增大和社会协作强化[15]
为什么能落地?目标导航是怎么识别目标并导航的?
具身智能之心· 2025-07-18 11:21
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] - 技术依赖计算机视觉、强化学习与3D语义理解的交叉突破,典型场景如"去厨房拿可乐"需识别空间特征、构建拓扑地图并避开动态障碍[2] 产业化落地现状 - 终端配送领域:美团无人配送车采用动态路径重规划技术,Starship Technologies的机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用机器人实现药品、文件、餐食自主配送,美国Aethon公司TUG系列提升服务效率[3] - 人形机器人适配:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成工业场景导航模块,特斯拉Optimus展示端到端操作能力[3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代,从2020年CVPR点导航基准扩展至图像导航、目标导航及移动抓取任务,形成闭环评测体系[4] - 关键技术突破包括:视觉预训练模型提升特征泛化,分布式强化学习框架DDPPO使PointNav任务SPL指标显著提升,LLM解决开放词汇导航难题[4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍场景仍存挑战,Sim2Real迁移框架推动实际部署[4] 三代技术路线迭代 - 第一代端到端方法:基于强化学习与模仿学习,在点导航和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,零样本目标导航中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,重点开发场景表征接口[7] 技术挑战与学习路径 - 具身导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文碎片化且实战指导缺乏,Habitat生态文档不足提高入门门槛[9] - 解决方案包括构建领域框架、理论结合实践、系统化课程设计,覆盖语义导航核心框架、Habitat仿真生态、端到端/模块化/LLM-VLM导航方法及实战部署[10][11][12] 课程体系与目标 - 课程大纲分12周,涵盖Habitat仿真开发、端到端/模块化/LLM-VLM方法理论与实践,最终完成VLFM算法复现与真实场景部署[16][17][19][21][23][25] - 面向机器人抓取从业人员、具身智能研究者、CV/自动驾驶转行者,培养独立开展算法改进与工程优化的能力,掌握Sim2Real部署流程[33]
ICCV2025 | One image is all you need,多模态指令数据合成,你只管给图,剩下的交给Oasis
机器之心· 2025-07-18 11:14
多模态指令数据合成方法Oasis - 核心观点:提出一种新型多模态指令数据合成方法Oasis,仅需用户提供图片即可自动完成指令合成、质量控制和回复生成,显著降低人工成本并提升数据多样性[1][6][21] - 方法优势:打破依赖预设文本提示词的传统模式,利用图像输入诱导MLLM自主生成多样化指令,完全无需人工前置文本提示[6][14][15] - 质量控制:设计四维度筛选标准(可解性/清晰度/幻觉程度/无意义性),高质量指令接受率为50.9%[19][49][50] 技术流程 - 三步法:构造钩子提示词诱导自回归采样→LLM分类保留指令型数据→质量控制与回复生成[11][16][18] - 分类机制:采样结果分为指令型(保留)和描述型(舍弃),通过率为49.9%[15][16][46] - 垂域合成:基于OCR相关图片合成70k垂域数据,在OCR任务benchmark上提升显著[43] 数据特性 - 规模与扩展性:基于Cambrian-10M图片合成500k训练数据(Oasis-500k),数据量可线性增长[21] - 语言多样性:覆盖英文(78.52%)、中文(18.66%)及多种小语种[27] - 任务多样性:指令平均长度76.8(LLaVA-NeXT为55.03),动词-名词组合覆盖更广[24][28][33] 性能验证 - 基准测试:在14个benchmark上平均提升Vicuna1.5/Qwen2.5/Llama3模型性能3.1%/1.8%/3.2%[36][38] - 增量实验:500k Oasis数据使LLaVA-100k模型性能提升5.2%,300k→500k阶段增益达4.0%[40][41] - 消融结果:指令质量控制使模型整体性能提升1%,DocVQA/InfoVQA任务提升超7%[45][50] 开源生态 - 代码库MM-INF:集成Oasis及常用多模态数据合成方法,支持模块化数据合成流程[2][52] - 资源开放:提供论文、代码及数据集链接,涵盖Qwen2-VL等模型实现细节[4][12][52]
明天,围观学习ACL2025论文分享会,最后报名了
机器之心· 2025-07-18 11:14
AI领域发展动态 - 2025年AI领域持续高速发展,科技公司和机构发布大量研究成果,技术更新节奏极快,每隔几周甚至几天就有突破性进展出现[1][3][4] - DeepSeek和视频生成模型Veo 3等代表性技术推动行业进步,从业者需频繁跟踪arXiv、GitHub等平台以保持技术前沿性[2][5] ACL 2025会议概况 - ACL 2025总投稿数突破8000篇创历史新高,会议将于7月27日-8月1日在维也纳举行[6] - 国内配套活动7月19日在北京举办,包含Keynote演讲、论文分享、圆桌对话等环节,设置企业展位交流[6][7][14] 学术研究热点 - 上午Keynote聚焦ACL趋势与NLP研究热潮,车万翔教授将分析2025年研究重点与演化方向[18][20][21] - 下午Keynote由刘鹏飞教授主讲大模型强化学习与复杂推理,探讨认知工程范式转变及测试时扩展技术[22][24] - 论文分享涵盖大语言模型自校正、分布式长上下文推理加速、token回收等前沿课题[11][12][14] 行业专家阵容 - 圆桌讨论主题为"上下文工程价值",嘉宾来自阿里巴巴、腾讯、上海交大,涵盖大模型强化学习、游戏AI等方向[16][31][33][35] - 腾讯AI Lab专家研究员王琰曾获ACL 2021杰出论文奖,开发过Temp-Lora、Block-Attention等业界知名技术[35] 活动合作生态 - 活动由机器之心联合黄大年茶思屋科技网站举办,后者是聚焦前沿科技交流的开放平台[39][41] - 设置论文Poster展示环节,并通过双平台直播扩大影响力[37][41]
中金 | AI十年展望(二十四):AI Agent元年已至,应用拐点或将到来
中金点睛· 2025-07-18 07:49
AI Agent行业核心观点 - 2025年被定位为AI Agent"元年",技术基础和产品路线逐步成熟,产业期待应用端拐点形成商业闭环[1][4] - 基础大模型能力决定Agent上限,Coding与Agentic能力成为厂商竞争焦点[12][21][23] - C端注重通用性,B端强调场景化,商业化路径呈现差异化特征[4][5][36] - 海外商业化进度领先国内,但国内需求拐点渐近[5][43][73] 技术架构与产品形态 - 形成底层大模型+工具+Agent Infra的三层架构,大模型提供核心推理能力,工具赋予场景能力[12] - Agent Infra包含环境、记忆、工具接口等组件,生态仍处早期阶段[13] - 主流开发框架包括AutoGen、Dify、LangChain等,降低开发者门槛[16] - 产品能力分级L1-L5,从规则执行到具备情感协作的通用智能体[18][19] 商业化进展 C端市场 - 大厂和创业公司主导,OpenAI、Google、字节、阿里等积极布局[4][37] - 产品形态包括通用型(Manus、Flowith)和垂直型(Cursor、Harvey)[61][62] - 海外单任务定价0.5-2美元,国内扣子空间低至0.008元/任务[67] B端市场 - 海外Microsoft、Salesforce等形成完整产品矩阵,Oracle、Workday等企业服务商推动落地[37][69] - 国内厂商在开放场景中灵活尝试,DeepSeek加速短期渗透[72][74] - 头部厂商2025年订单可达过亿元级别[74] 关键趋势 - 从Workflow Agent向端到端自主Agent演进[24] - 单Agent架构向多Agent协作系统升级[26][27][29] - 工程化优化降低Tokens消耗,提升性价比[30][32] - Agent任务长度呈现Scaling-Law指数增长,已达小时级[32][33] 区域差异 - 海外模型即应用趋势显著,OpenAI年化收入超100亿美元[52][53] - 国内付费意愿边际改善,产品化基因局部领先[73] - AI+代码成为最成熟场景,海外收入体量领先国内一个数量级[43][44]
微软AI CEO:曾在谷歌主导开发类ChatGPT,因公司顾虑错失先机
搜狐财经· 2025-07-17 20:26
IT之家 7 月 17 日消息,微软 AI 部门 CEO 穆斯塔法・苏莱曼上周(7 月 11 日)出席了《CatGPT》播客,畅聊 AI 的多个话题,其中他在谷歌 DeepMind 时 错过的机会引人注目。 他表示:"因为无法发布 LaMDA,所以我在谷歌的时候感觉非常沮丧。LaMDA 实际上就是'ChatGPT 推出之前的 ChatGPT'。它是第一个能真正进行对话的 大语言模型,表现极其出色。谷歌内部几乎所有人都试用过它,也都见识过它的能力"。 但苏莱曼表示,当时谷歌内部有很严重的意见分歧:"大概一半的人都非常怀疑,觉得这个东西不怎么安全。它总会产生'幻觉'(生成虚假内容),而且如 果推出的话肯定会破坏谷歌现有的搜索服务,肯定会存在各种安全隐患"。 播客中,他特别提到了在谷歌 DeepMind 任职期间(2010-2022)的一段经历 —— 在离职并创立 Inflection AI 前曾主导开发谷歌内部的大语言模型 LaMDA,但无疾而终。 尽管如此,当时谷歌还有一群人认为该产品潜力巨大,甚至预见它将成为搜索引擎的未来。 苏莱曼接着表示,他在谷歌时真的很想把它发布出来,但行不通。谷歌就是无法理解这个产品的 ...
全球产业趋势跟踪周报:Grok-4大模型正式发布,多行业聚焦整治“内卷式”竞争-20250717
招商证券· 2025-07-17 20:02
核心观点 本周产业趋势集中在大模型和AI芯片,政策端关注整治“内卷式”竞争及险企长周期考核新规,短期关注五大赛道,中长期关注新科技、国产替代、“双碳”周期及电动智能汽车趋势,全球股市涨多于跌[2][5]。 核心关注与投资建议 本周重要事项前瞻 无具体内容提及[9]。 市场交易热点 上周A股涨跌幅居前的重要主题指数为稀土、炒股软件、稀土永磁[11][12]。 主题与产业趋势变化 - Grok - 4大模型正式发布,xAI确立AI新标杆:当地时间7月9日发布,架构基于全新MoE系统,专家模型数量提升,推理能力提升10倍,在多项测试中超越竞品;采用多代理推理与算力飞跃技术,训练策略升级;性能表现亮眼,在多领域测试中刷新纪录;商业定价高,应用覆盖多领域,未来有望实现科学新发现,产品进化路线明确[15][23][32]。 - 英伟达、AMD芯片供应相继解禁,美方批准H20与MI308X芯片对华销售:7月15日英伟达H20芯片获批销往中国,16日AMD宣布重启对华出口AI芯片;回顾中美贸易争端缓和及技术封锁解除进程;海外AI及算力链带动国内CPO厂家上涨;此前美国限制销售使相关公司受损;H20、MI308芯片是应对出口管制产物,性能有管控限制[42][43][49]。 投资建议 7月关注固态电池、国产算力、非银金融、国防军工、创新药五大具备边际改善的赛道;中长期关注新科技周期下全社会智能化进展、国产替代周期下产业链自主可控、“双碳”周期下碳中和全产业链降本增效以及电动智能汽车渗透率增加[53]。 政策端 整治内卷式竞争 市场监管总局召开企业公平竞争座谈会,建筑行业发出“反内卷”倡议,炼焦行业达成提价共识并坚持预付款交易;回顾整治“内卷式”竞争相关表态及近期各行业举措[55][56][60]。 引导保险资金长期稳健投资 7月11日财政部发布通知,升级国有商业保险公司绩效评价标准,建立三年以上长周期考核机制,要求保险公司提高资产负债管理水平、注重稳健经营、增强投资管理能力[61]。 7.7 - 7.13重要政策梳理 涵盖重要会议、总量政策、资本市场、房地产、营商环境、产业政策、其他政策等多方面政策,包括循环经济促进法执法检查、北京提振消费方案、沪深股通投资者程序化交易报告等[64][66][67]。 全球观察 全球股市行业表现 上周全球股市整体涨多于跌,能源、工业、医疗保健和房地产表现较好,公共事业表现欠佳;美股、欧股、英股、日股、港股、A股各有涨跌表现[68]。 全球强势股与异动股简析 过去一周领涨的200亿美元以上市值公司中运输、半导体与半导体生产设备较多,领跌的公司中软件与服务最多;分析阳光电源异动上涨和FAIR ISAAC股价暴跌原因[74][75][77]。 重要资讯速递 国内重要资讯与产业政策 包括CPI与PPI数据、港股南向通政策、稳定币学习会、市场监管抽查、电子信息规划编制、电网充电设施通知、建筑“反内卷”倡议、绿电供应模式、医疗器械采购措施、软信业发展措施等[80][82][84]。 国外重要资讯与产业政策 涉及关税计划、关税反制、中美贸易磋商、美联储降息、美债收益率、铜关税、俄乌冲突、人工智能浏览器、绿色能源补贴、自动化医疗等[88][90][93]。 全球重点科技公司跟踪 涵盖互联网科技、消费电子、新能源汽车、半导体芯片、人工智能、传媒和游戏等领域公司动态,如苹果高管变动、三星折叠屏手机发布、特斯拉无人驾驶出租车服务扩展等[96][98][99]。