Workflow
长短期记忆网络(LSTM)
icon
搜索文档
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 20:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
告别机器人“手残”!中国团队研发六自由度机械臂 GL-Robot ,能捏鸡蛋还能举哑铃!
机器人大讲堂· 2025-11-06 17:47
文章核心观点 - 浙江大学机器人研究所研发的GL-Robot双指机械臂,通过创新的机械结构与人工智能算法深度融合,解决了机器人抓取技术中力控范围与精度之间的核心矛盾 [3] - 该机械臂具备高适应性、高稳定性和高负载的抓取能力,实现了从精细操作到重载作业的宽范围力控制,且无需依赖昂贵的力传感器,展现出突出的商业化潜力 [3][9][19] 机械设计创新 - 每根手指拥有三个指节,提供更大接触面积,更容易形成稳定牢固的“力闭合”抓取,类似于人手握持 [4] - 内部采用“堆叠四连杆机构”,使三个指节能根据接触物体的不同,智能地在平行抓取和包络抓取两种模式间自适应切换 [6][8] - 仅凭一个电机驱动就实现了高适应性、高稳定性和高负载的抓取 [8] 力感知技术 - 采用“无传感器”的力感知方案,通过分析驱动电机的电流信号来感知外部环境,避免了使用力传感器带来的成本、耐用性和复杂性等问题 [9] - 引入长短期记忆网络(LSTM)AI模型处理电流时间序列数据,以高于传统方法的精度和速度预测抓取模式切换时机及关节角度 [10][12] - 整个“电流感知—AI解析—姿态重构—力学计算”流程,使GL-Robot在不依赖专用力传感器的条件下实现精确力感知 [12] 抓取性能与控制策略 - 设计分层控制策略,包含精细操作(位置-力)模式和重载作业(电流-力)模式 [13][17] - 精细操作模式力精度控制低至0.1 N,可抓取鸡蛋、芯片等易碎物品 [17] - 重载作业模式能轻松应对高达350 N的负载,足以提起装满水的大水桶 [17] - 抓取范围广泛,从轻薄硬币到边长超过十厘米的立方体均可稳定握持,并能自适应贴合电钻、眼镜、酒瓶等不同形状物体 [17] 商业化潜力与行业意义 - 由于无需使用昂贵的力传感器,预估成本显著降低,展现出突出的商业化潜力,有望在未来工业与物流领域发挥重要作用 [19] - 展示了一种机器人研发的新思路,即机械设计与人工智能的深度融合,系统智能不再依赖昂贵硬件堆砌,而是部分转移至算法与模型 [20] - 标志着“AI-机械协同”成为可行的技术路径,为未来机器人发展打开全新可能 [20]
中国团队利用AI提升南山射电望远镜大气修正精度
环球网资讯· 2025-10-22 10:51
研究背景与问题 - 宇宙电磁波穿越地球大气时传播速度减慢产生对流层延迟,这是甚长基线干涉测量和全球导航卫星系统定位中的主要误差来源[1] - 精确建模与预报这种延迟是当前天文观测与大地测量领域亟需攻克的重要课题[1] 研究方法与技术 - 中国科学院新疆天文台团队利用南山26米射电望远镜台址的多年GNSS和气象观测数据,构建了一种融合门控循环单元与长短期记忆网络的混合深度学习模型[1] - 该人工智能技术可自动从大量观测数据中学习大气延迟变化规律,实现对天顶对流层延迟的高精度短期预测[1] - 团队对南山台站多年的GNSS观测进行频谱分析,发现天顶对流层延迟变化具有明显的年周期与半年度周期,夏季偏高、冬季偏低,这种变化与气温和水汽含量密切相关[3] - 研究引入深度学习架构,将门控循环单元用于提取短期变化特征,长短期记忆网络用于记忆长期趋势,形成混合神经网络以捕捉大气延迟的短时波动和长期规律[3] 研究成果与性能 - 该模型的预测误差仅约为8毫米,相关系数达96%,显著优于传统统计模型和单一神经网络[3] 应用前景与意义 - 高精度的对流层延迟预测结果可有效提升甚长基线干涉测量观测的大气相位修正精度,改善射电源定位与基线解算结果[3] - 该技术为毫米波天文观测提供更准确的气象支撑,在可降水量反演与天气预报中具有广泛的应用前景[3] - 研究展示了人工智能在射电望远镜大气校正中的应用潜力,为未来奇台110米望远镜及多站干涉观测的高频段运行奠定了技术基础[3]