Workflow
AGI(通用人工智能)
icon
搜索文档
没有共识又如何?头部企业抢夺标准定义权 机器人“暗战”升级
第一财经· 2025-08-15 03:31
具身智能大模型技术发展 - 机器人通过数据驱动的闭环大模型具备感知失败并自主尝试新解法的能力,这种能力被视为AGI发展的重要标志[1][2] - 星海图发布的G0模型搭载端到端双系统全身VLA架构,能在任务失败后通过模仿学习和强化学习持续优化动作[2][3] - 传统机器人依赖预设程序执行,而新型具身大模型通过传感器实时反馈与环境交互,实现"评估-学习-优化"的闭环[3] 行业技术路线分歧 - 模型架构存在"统一直出"(如自变量WALL-A)与分层设计的对立,前者可减少误差扩散但算力消耗巨大[5][6] - 自变量选择全模型直出架构以提升效率,但面临高训练成本与工业场景延迟问题,目前聚焦商业服务领域[5][6] - 宇树科技等企业认为模型架构优化比数据规模更重要,当前VLA模型定义宽泛但缺乏统一标准[4][9] 商业化与生态竞争 - 企业通过自研核心零部件(如自变量"量子2号"机器人)和开源数据集(星海图Galaxea 500小时数据集)构建生态壁垒[7][8] - 行业头部公司正争夺性能测评标准与数据集主导权,星海图开源数据集旨在建立算法比较基准并吸引开发者[7][8] - 首程控股管理的100亿元机器人基金已投资多家技术路径迥异的企业,认为架构设计将决定未来规模化成本优势[9] 技术迭代与行业格局 - 具身智能企业持续迭代模型架构,优秀架构可降低数据需求并提升泛化能力,成为核心竞争力[9] - 行业短期目标为击穿酒店、养老院等标杆场景,验证技术商业价值以撬动千亿级市场[6][8] - 当前竞争焦点从单点技术转向全生态布局,包括数据、零部件、本体及模型的全链条能力[8][9]
对话王小川:换个身位,做一家「医疗突出」的模型公司
Founder Park· 2025-08-14 15:48
公司战略调整 - 百川智能从450人精简至不足200人 管理层级从3.6级压缩至2.4级 团队更加扁平化和专注 [7][8] - 公司明确战略重心为"为人类造医生 为生命建模型" 放弃金融等快速变现方向 回归医疗初心 [7][8][29] - 调整后公司资金可支撑120个月运营 属于主动战略聚焦而非被动收缩 [30][31] 技术突破 - 发布医疗大模型Baichuan-M2 性能超越OpenAI两个开源模型 闭源领域仅次于GPT-5 [2][32] - 在Health-Bench评测中 Baichuan-M2在Hard模式得34分(OpenAI 32分) 标准版突破60分与GPT-5并列 [32] - 选择开源Baichuan-M2 旨在提升中国AI生态实力 同时展示公司在医疗领域的专注成果 [33] 医疗AI发展路径 - 医疗AI将比无人驾驶更早落地 因医疗需求更刚性且人机协同更易实现 [42][43] - 医疗AI发展需考虑场景(院内/院外)和关系(医患/家属)两个新维度 [45][46] - 计划2026年推出重大版本迭代 先进入医院体系再推向C端用户 [37][48] 行业观察 - 2023年资本狂热期后 行业进入调整期 国内外发展阶段出现"时间差" [57][58] - 美国公司已进入ARR收获期 国内仍处Benchmark内卷阶段 差距被重新拉大 [58][59] - 长期有抱负的公司仍需自研模型 但轻量级公司可通过调用第三方模型快速变现 [60] 技术路线思考 - 认为代码是通向AGI的核心路径 代码的自我运行将标志AGI到来 [53][55] - 医疗AI需解决"提问能力"和"减少幻觉"等通用模型未专注的问题 [39][40] - 医疗知识体系融合逻辑推理与医学认知 需叠加厚重应用层开发 [38][39]
免费+广告,AI行业终究也走上了互联网圈的老路
36氪· 2025-08-14 07:46
多亏各路互联网厂商孜孜不倦的教育,"免费的才是最贵的"、"天下没有免费的午餐"这类说法早已深入 人心。"免费+广告"这套组合拳更堪称是互联网厂商最有创造力的发明,也将互联网行业的网络效应和 商业公司的盈利需求有机地统一在了一起。 | Elon Musk 2 @ @elonmusk . 54分钟 | | | --- | --- | | Grok 4 is now free for all users. | | | The free tier allows a small number of queries per day. Beyond that requires | subscription. | | axai · 10小时 | | | ok 4 is now free for all users worldwide! | | | Simply use Auto mode, and Grok will route complex queries to Grok 4. | Prefer control? Choose "Expert" anytime to always use Grok 4. | | 显示更多 ...
别再空谈“模型即产品”了,AI 已经把产品经理逼到了悬崖边
AI科技大本营· 2025-08-12 17:25
行业现状与挑战 - AI产品领域存在宏大叙事与落地现实之间的巨大鸿沟,表现为技术理想与用户留存率低下的矛盾[1] - 行业呈现两极分化:部分从业者聚焦AGI终极形态,另一部分则面临不稳定API和用户高期待的实际挑战[2] - 当前AI浪潮类比"淘金热",多数参与者难以找到可持续商业模式,部分产品如AI Pin和Rabbit R1已遭遇市场困境[3] 行业活动与解决方案 - 全球产品经理大会将于8月15-16日在北京举行,汇集12大专题分享,覆盖互联网大厂和AI创业公司实战经验[14][16] - 活动将发布可能影响行业格局的重要产品,并通过深度探展和街采捕捉从业者真实困惑[8] - 多位行业领袖将分享实战经验,包括久痕科技CEO汪源、YouMind创始人王保平等,内容涵盖技术路径与商业化方法论[4][5] 产品经理职业转型 - 传统产品技能如原型设计正被AI快速替代,未来需具备战略判断、人机协作编排和用户心理洞察等复合能力[9] - 行业处于关键转折点,从业者需重新定位核心价值,把握技术浪潮方向与情感需求挖掘的双重机遇[9][10] 行业趋势与机会 - 技术演进迅速,GPT-5、Kimi K2长文本处理、Genie 3等多模态生成技术不断突破现实边界[1] - 商业模式探索从"提示词工程"向"上下文工程"进化,部分已验证路径可为行业提供参考[3] - 直播活动将揭示最新行业动态,包括腾讯混元大模型、百度秒哒等头部企业的应用实践[4][5]
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
量子位· 2025-08-08 15:23
AI验证能力发展现状 - 大模型训练能力突飞猛进但验证答案能力成为发展短板[1] - AI在规则明确领域超越人类但在需要主观鉴赏的领域进展缓慢[11] - 当前大模型验证领域缺乏合理的迭代体系[15] AI发展范式转变 - AI下半场将从解决问题转向定义问题 评估变得比训练更重要[6] - 训练AI解决任务的难易程度与任务可验证性成正比[8] - AI进化边界被结果验证的速度和客观性锁定[9] 验证技术瓶颈 - 传统方法依赖人工定制规则 面对多步骤问题和复杂公式时容易失效[18] - 使用通用大模型作为验证器存在幻觉问题 不同模型判罚尺度不一致[18] - 社区缺乏针对可验证答案的标准化高难度基准[30] CompassVerifier技术方案 - 基于OpenCompass框架从50多个大模型在15个数据集上的100余万份回复中筛选数据[21] - 采用多模型投票机制筛选简单样本 借助DeepSeek-V3进行多提示词验证[22] - 通过错误驱动对抗性增强 复杂公式增强和泛化性增强三种方式提升验证能力[23][24][25][27] 模型性能表现 - CompassVerifier-32B在VerifierBench上平均准确率达90.8% F1分数87.7%[35] - 3B轻量版本超越大规模通用模型 展现极高参数效率[36] - 在数学推理任务中作为奖励模型使Qwen3-4B-Base在AIME24数据集性能提升18.5分[40] 应用前景 - 为数学 知识问答 科学推理等多领域强化学习训练提供技术支撑[44] - 未来可能实现模型自我验证和自我改进的循环迭代[45] - 验证器能力直接影响大模型发展速度 是AGI道路上的关键环节[14]
GPT-5王者降临,免费博士级AI全面屠榜,百万程序员不眠之夜,7亿人沸腾
36氪· 2025-08-08 15:16
产品发布与定位 - GPT-5作为GPT-4的重大升级正式发布,是公司在实现通用人工智能道路上的一个重要里程碑[3] - 公司推出包含GPT-5、GPT-5-mini、GPT-5-nano在内的多版本分层模型,旨在构建以GPT-5为底层核心的通用智能操作系统[5] - 该模型现已成为ChatGPT中的默认模型,取代了GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5等先前版本[5] 性能表现与技术优势 - 在LMArena的基准测试中,GPT-5在文本、Web开发和视觉领域排名第一,持有最高的竞技场分数[6][7] - 在SWEBench编码基准测试中创下74.9%的高分,在Aider Polyglot多语种编码测试中达到88%的准确率,表现优于其他模型[10][67] - 模型在真实性方面有显著提升,通过专门评估机制验证其为最可靠、最真实、最可信的模型,显著减少错误与幻觉[12] - 支持400k token的上下文窗口,是之前o3模型200k token的两倍,在上下文检索能力上处于领先[72] 商业模式与市场应用 - 所有Plus、Pro、Team和Free用户均可使用GPT-5,付费订阅用户可无限制访问GPT-5和GPT-5 Pro[6] - 面向开发者开放GPT-5 API,提供三款模型选择:GPT-5输入价格为1.25美元/百万token,GPT-5 mini为0.25美元/百万token,GPT-5 nano为0.05美元/百万token[65][67] - 模型在智能体工具调用方面表现卓越,在T²-bench上取得97%的高分,远超两个月前不超过49%的行业水平[67] - 在健康领域表现突出,在250名医生参与设计的临床场景评估中成为最值得信赖的健康顾问级模型[12] 核心技术突破 - 训练方法采用合成教学数据,通过递归式自我改进循环,利用上一代模型生成的教学内容使GPT-5学会推理、规划及分解任务的能力[51][54] - 模型结合了标准模型的快速响应和推理模型的深度思考,能自动决定思考深度以提供恰当回答[30] - 为API引入名为“Minimal”的推理强度新参数,适用于对延迟敏感的应用,并新增自定义工具、工具调用前言和详细度参数等新功能[74][76][78] 行业影响与开发者工具 - 模型在结对编程中展现出10倍生产力,能够理解软件工程最佳实践并具备协作能力,通过元提示词修改自身提示词[80][82][84] - 在前端编码任务中,能在5分钟内完成公司数据可视化仪表盘的设计与开发,并自主修复bug[85][87] - 能够快速生成复杂的交互式应用,例如在演示中短时间内创建了包含3D城堡、可交互角色和音效的游戏[89][91][93]
【对谈"硅谷精神之父"凯文凯利】问了凯文·凯利17个问题,我终于悟了!
老徐抓AI趋势· 2025-08-07 09:05
教育 - AI时代下未来工作岗位可能尚未出现 难以用现有职业规划孩子未来发展方向 [6] - 培养底层能力比知识积累更重要 包括好奇心 批判性思维 自驱力和学习能力 [6] - 差异化竞争是关键 成为"唯一"比成为"第一"更具抗AI替代性 [7] 人工智能 - AGI实现难度极高 几十年内难以达成 AI将长期保持专业领域分工形态 [8] - 现有技术架构存在瓶颈 投入成本与收益呈递减关系 从1亿刀到100亿刀突破有限 [9] - AlphaEvolve仅优化特定算法 无法全领域突破 AI本质是工具而非主宰 [11] 医疗健康 - 药物研发最大瓶颈在于临床实验流程 而非药物发现环节 AI难以短期内改变现状 [11] - 基因编辑和脑机接口将率先被富人采用 但技术成熟后普及速度极快 [12] - 科技普惠性特征明显 历史表明高端技术最终会降低使用门槛 如大哥大到智能手机 [13] 自动驾驶与机器人 - 技术落地进度慢于预期 马斯克等企业家的乐观预测常与现实存在偏差 [17] - 需持续观察技术拐点 盲目All-in风险高 动态调整策略更有效 [17] 中国AI发展 - 数据优势显著 互联网人口基数大 电子支付 短视频等场景产生海量训练数据 [18] - 人才储备占优 全球50%AI研究员现居中国 算法创新能力突出 [18] - 基础设施完善 医疗健康 基因测序等领域具备世界级样本体量 [18] 未来方法论 - 技术演进具有不确定性 预测不如应对 需保持观察力与快速反应能力 [19] - 底层能力构建是关键 包括好奇心 学习力和适应变化的能力 [19] - 细分领域差异化机会增多 社会分工将随技术发展进一步细化 [7]
京东成为2025世界机器人大会“独家全球战略合作伙伴”,科技大厂积极布局机器人产业
每日经济新闻· 2025-08-06 11:04
港股市场表现 - 8月6日早盘港股三大指数集体低开 科网股跌多涨少 苹果概念股局部活跃 [1] - 恒生科技指数ETF(513180)震荡 比亚迪电子、地平线机器人、舜宇光学科技领涨 理想汽车、美团、金蝶国际、比亚迪股份领跌 [1] 京东机器人产业布局 - 京东成为2025世界机器人大会独家全球战略合作伙伴 将携手宇树科技、智元、天工等全球顶尖机器人品牌打造沉浸式黑科技展区 [1] - 京东将发布推动机器人产业发展的重大战略计划 公布行业扶持政策 深化与智能机器人品牌的战略合作 [1] - 京东已投资三家具身智能领域头部企业 加速布局具身智能产业链 [1] 人形机器人产业发展 - 人形机器人成为AGI落地核心应用场景 产业化进入技术突破与生态协同加速阶段 [1] - 中国在硬件制造与软件算法方面产业链完整 下游应用场景丰富 具备率先推动商业化落地的基础 [1] - 人形机器人有望在未来数年内实现规模化商业化 成为AGI落地重要增量方向 [1] 恒生科技指数ETF投资价值 - 恒生科技指数ETF(513180)跟踪恒生科技指数 指数成分股腾讯、阿里、小米、小鹏、京东均通过投资或自研布局机器人产业 [2] - 该ETF可一键布局中国AI核心资产 场外联接代码为013402/013403 [2]
北美教授:未来三至五年是中国发展人形机器人的黄金窗口期
南方都市报· 2025-08-05 20:54
行业竞争格局 - 具身智能机器人成为中美AI竞赛新战线 中国凭借低成本高性能产业链和供应链优势抢占发展窗口[1] - 中国人形机器人零部件出口市场空间大于整机 因发达国家担忧整机安全风险[1] - 中国具身智能初创公司数量和政策扶持力度显著多于其他国家 摩根士丹利预测中国将逐步拉开与美国的差距[1] 产业发展阶段 - 未来三至五年是中国抢占人形机器人赛道的黄金窗口期 当前市场热潮可提供资金人才和经验积累[1] - 行业处于发展初期阶段 泡沫程度远未饱和 即使破灭也可能像互联网浪潮一样诞生行业巨头[1] 全球供应链影响 - 机器人技术与制造业融合将推动发达国家制造业回流 打破传统全球供应链格局[2] - 发展中国家面临双重劣势:难以竞争机器人驱动的制造业且缺乏资金自主投资技术 可能加剧全球发展不平衡和贸易摩擦[2] 社会就业影响 - 机器人替代重复性/危险性/高精度任务将导致部分岗位消失 失业风险预计在10-20年后技术成熟阶段出现[3] - 建议通过向自动化受益企业征收专项税建立社会保障制度 用于失业人群技能再培训[3] 安全与伦理挑战 - 机器人配备传感器摄像头麦克风会收集大量数据 引发数据安全隐私保护和心理不适担忧[4] - AI决策需确保透明度和建立问责机制 阿西莫夫三定律要求机器人不伤害人类服从命令并保护自身[4][5] - 李向明提出人际共存五项准则:具同理心 行为透明 赋能人类生活 保护生态环境 进化需经人类允许[4][5] - 伦理设计应内嵌于开发流程而非事后考虑 宇树科技案例显示近距离交互中伦理安全问题比技术问题更复杂[3][5]
拥抱 AGI 时代的中间层⼒量:AI 中间件的机遇与挑战
36氪· 2025-08-05 17:52
大模型发展趋势 - 模型能力持续跃迁 从文本生成到多模态理解与推理 语言能力显著增强 GPT-4在复杂问题处理和文本生成方面远超GPT-3[1] 多模态能力突破 GPT-4o支持文本、音频、图像和视频的任意组合输入输出[2] 推理能力深化 o1模型通过强化学习生成内部思维链 在编程和数学推理领域表现出色[2] 工具使用能力拓展 o3模型具备自主调用和整合外部工具的能力[2] - 其他领先模型展现强大能力 Google的Gemini模型在多模态推理和复杂编码方面表现出色 Anthropic的Claude Sonnet 4在编程和推理方面表现优异[3] - 模型生态日益开放 开源模型兴起 Meta发布LLaMA系列 国内外团队推出QWen、DeepSeek、Kimi、Mistral等高质量开源模型[4] 开源模型能力赶超 部分开源模型在特定任务上逼近或超越专有模型 如DeepSeek R1和Kimi K2在推理和代码生成方面表现突出[4] AI应用演进路径 - 应用形态变革 从聊天机器人到组织级智能体 分为五个层级 Level 1具备对话语言能力 如早期ChatGPT[5] Level 2具备人类水平问题解决能力 如DeepSeek R1[5] Level 3能够代表用户采取行动 如Manus、Claude Code[6] Level 4能够辅助发明和发现[6] Level 5能够执行整个组织工作[6] - AI Agent爆发式增长 通用Agent如Manus、Genspark、ChatGPT Agent 通过集成工具提供一站式服务[8] 专业Agent如Claude Code、Gemini CLI、Qwen Code等Coding Agent 以及Cursor、Trae、Kiro等AI Coding IDE 提升开发效率[9] - 通用Agent与垂直Agent并存互补 垂直Agent需要深度集成领域知识、专有数据和特定工具 如企业智能客服需精准理解产品手册和服务条款[10] 基础模型无法快速适应业务变化 垂直Agent成为必然选择[11] AI中间件机遇 - Agent研发提效 提供一站式研发框架 抽象封装底层LLM 支持ReAct模板 集成RAG、记忆库和外部工具插件[13] 引入无服务器架构作为运行时 弹性扩展且降低运维成本[14] 提供Agent评估框架 模拟环境验证决策和输出质量[14] - 上下文工程 提供上下文模板和编排工具 自动拼接最优提示组合[15] 结合模型注意力机制特点 对上下文进行缓存和裁剪优化 如保持Prompt前缀稳定利用KV-Cache提速[15] 实现上下文压缩策略 如对话摘要、索引引用和分层内存[18] - 记忆管理 提供短期和长期记忆功能 短期记忆如多轮对话内容和工具结果 长期记忆如用户偏好和业务知识库[19] 统一管理不同层次记忆 提供API读写外部数据 实现记忆压缩和更新策略[19] - 工具使用与扩展 建立标准化工具接入机制 如Model Context Protocol (MCP) 封装外部数据源或API[20] 提供工具聚合产品 按需调用行业常用工具[20] 引入工具调度优化算法 提升工具使用准确率[21] - 沙箱环境与安全 提供受控的沙箱运行环境 隔离代码执行和网络访问[22] 制定工具权限和调用限制 设置人工审批流程[22] 支持强化学习微调[23] - 多智能体协作 提供多Agent管理和编排功能 提升任务并行处理能力和专业性[24] 设计通信协议和共享内存 避免重复或冲突操作[24] - 多模态支持 集成图像识别、语音合成、OCR、视频理解等模块[25] 提供多模态数据处理管道 实现流式、多模态的人机交互[25] AI中间件挑战 - 复杂上下文构建与优化 管理不断膨胀的上下文 制定合理的组装策略[27] 实现上下文裁剪和压缩机制 平衡准确性和效率[28] - 持久记忆更新与利用 持续更新记忆并确保正确利用 如用户资料变化[29] 攻克记忆组织索引、演化和冲突消解难题[29] - RAG效果优化 提升检索质量和速度 避免错误信息误导[30] 支持大规模知识库的快速语义搜索[30] - Agent行为评估测试 缺乏成熟测试方法 输出具有概率性和多样性[31] 构建模拟环境或沙盒测试框架 判断决策对错[32] - 工具使用风险与管控 提供权限控制 设定工具权限边界[34] 记录详细日志供审计和追溯[35] 设置人类复核流程 确保符合法律规范[35] - 沙箱环境性能与成本权衡 部署沙箱带来性能开销和成本负担[37] 权衡任务执行方式 采用轻量隔离技术[37] 解决跨平台支持问题[38] 未来发展方向 - 短期使命 解决AI应用规模化的最后一公里问题 提供高层次抽象、自动化优化和托管平台[39] - 长期潜力 成为组织智能的神经中枢 连接模型、数据和业务系统[39] - 技术范式更替 从聊天机器人到组织级智能体 工程化与规模化落地成为核心挑战[40]