Large Language Model (LLM)
搜索文档
ClearBridge Emerging Markets Strategy Q3 2025 Commentary (undefined:MCEIX)
Seeking Alpha· 2025-11-06 02:00
primeimages/E+ via Getty Images Asian AI Exposure Drives Outperformance Market and Performance Overview Emerging markets were up 10.6% in the third quarter of 2025 as measured by the MSCI Emerging Markets Index, outpacing developed markets. One of the strongest regions was China, which rose 20.4% spurred by excitement around artificial intelligence (AI) opportunities and increasing investor interest due to the market’s valuation. Taiwan advanced 14.3% and Korea climbed 12.7%, driven by AI demand, with T ...
Former Meta exec: See 'prominent features' of what looks like AI bubble
Youtube· 2025-10-16 20:05
市场估值与交易活动 - 市场正出现难以置信的疯狂估值,几乎每天每小时都有交易活动,呈现绝对的痉挛状态 [1] - 存在市场出现回调的可能性 [1] 大型科技公司投资与商业模式 - 超大规模云服务商正投入数百亿美元建设数据中心 [1] - 若这些公司无法证明其拥有可持续的商业模式来回收投资,将引发问题 [1] 人工智能技术范式与局限性 - 当前行业建立在大型语言模型这一AI范式之上 [1] - 该概率性技术存在某些局限性,可能无法达到人们预期的全能水平 [1][3][7] - 大型语言模型的基本架构是概率性的,依赖于被强制输入的数据来建立联系和推断 [7] - 该技术可能无法带来能赢得诺贝尔奖的突破性科学发现 [3] - 技术本身笨重且非常消耗数据,输出结果由输入内容决定 [7][8] 技术前景与应用价值 - 尽管存在回调风险,但AI技术本身将持续存在、蓬勃发展并产生巨大影响 [1] - 不应将AI视为轻浮或短暂的时尚,其价值远超于此 [5] - 大型语言模型系统能生成非凡的类人内容,这将带来相当重大的创新 [5] - 当前建设的基础设施可能被重新用于其他用途,类似于电信运营商在互联网泡沫时期建设的基础设施 [1] 行业宣传与市场预期 - 硅谷行业存在炒作周期,从一开始就可能略微过度炒作该技术 [6] - 行业有时会夸大其词,特别是融资时需要,但认为LLM是过时范式并不明智 [8] - 该技术可能并非行业近年来所宣称的万能解决方案 [8]
读万卷书,大模型就能「看」懂视觉世界?Meta揭秘LLM视觉先验的起源
机器之心· 2025-10-11 12:18
研究核心发现 - 仅通过文本预训练的大语言模型能够学到可迁移到视觉任务的先验能力,该研究通过超过100组受控实验和耗费50万GPU小时完成 [2] - LLM的视觉先验可分解为两种独立能力:推理先验和感知先验 [4] - 推理先验是一种更抽象、跨模态的通用能力,主要通过预训练以推理为中心的数据(如代码、数学、学术论文)获得 [4] - 感知先验侧重于对具体视觉概念的认知(如物体颜色、形状),从广泛、多样的通用语料中弥散式地浮现出来 [6] 实验设计与关键结论 - 实验采用adapter-style多模态适配流程,预训练多种尺度的解码器式LLM(从340M到13B,核心对比以3B/7B模型为主) [9] - 在代码、数学和学术数据上训练的模型,在需要抽象推理的视觉任务上表现最好 [9] - 增加推理密集型文本(如代码)的比例至75%左右,模型的下游视觉推理能力会持续显著提升;而视觉描述文本的效果会迅速饱和,少量即可 [11] - 推理先验是独立于视觉编码器的通用能力,而感知先验更依赖于后期的视觉微调数据和视觉编码器特性 [13] 数据配方与应用前景 - 研究提出一套预训练数据混合配方,通过富含推理内容并配以适量视觉知识的“平衡配方”训练模型 [16][17] - 采用该配方训练的7B模型在语言能力上更优,同时在所有视觉基准测试中实现全面超越:语言困惑度从8.72降至7.49,视觉总体准确率从37.32%提升至38.64% [19] - 该研究将多模态模型能力培养从下游微调提前至语言预训练阶段,为构建更强大的跨模态智能基础铺平道路 [21]
通往AGI的快车道?大模型驱动的具身智能革命 | Jinqiu Select
锦秋集· 2025-09-01 23:29
具身智能与大模型融合综述 文章核心观点 - 具身智能被视为实现通用人工智能(AGI)的关键路径,通过"感知-决策-行动"闭环在真实世界中学习并执行复杂任务 [1] - 大模型(如LLM、LVM、LVLM、MLM、VLA)在多模态推理与生成能力上的突破,显著推动了具身智能的演进 [1][7][25] - 世界模型为智能体提供内部环境模拟能力,支持在虚拟空间中演练与优化策略 [1][2][116] - 分层决策与端到端决策成为自主决策的两大核心范式,分别适用于结构化环境与开放动态环境 [6][55][74] Embodied AI系统构成与运行流程 - 系统由物理实体(如人形机器人、智能车辆)和智能体(认知核心)构成,物理实体负责执行动作并接收反馈 [4] - 运行流程包括:从语言指令解读人类意图→主动探索环境→感知多模态元素→执行动作,模仿人类学习范式 [4] - 智能体通过模仿学习从人类演示或视频数据获取技能,通过强化学习整合外部反馈优化策略 [4] 具身智能核心:决策与学习 - 自主决策通过分层范式(分离感知、规划、执行模块)或端到端范式(统一框架集成功能)实现 [6] - 具身学习通过模仿学习(从演示获取技能)和强化学习(迭代优化提升技能)实现持续改进 [6] - 世界模型通过模拟真实世界推理空间,为智能体提供试验和经验积累机会 [6][116] 主流大型模型概览 - Large Language Model (LLM):包括BERT(2018年)、GPT系列(GPT-3参数量达1750亿)、PaLM等,突破zero-shot/few-shot学习能力 [9][10] - Large Vision Model (LVM):ViT将Transformer应用于计算机视觉,DINOv2通过自监督学习提升图像表示质量,SAM支持1100万图像预训练的分割任务 [11] - Large Vision Language Model (LVLM):CLIP通过图文对比学习对齐特征,BLIP-2引入QFormer实现跨模态融合,GPT-4V具备强大多模态推理能力 [12][13] - Multimodal Large Model (MLM):Gemini高效处理文本/图像/音频,DALL·E3通过增强文本编码器改善图像-提示对齐,Sora可生成60秒高质量视频 [14][15] - Vision-Language-Action Model (VLA):RT-2将动作空间离散化为256区间,开源模型(如Octo、TinyVLA)提升计算效率与泛化能力 [16][71] 大型模型通用能力增强技术 - In-Context Learning (ICL):通过精心设计提示实现zero-shot泛化,无需额外训练 [19] - X of Thoughts (XoT):CoT融入中间推理步骤,ToT探索多推理路径,GoT采用图结构实现非线性推理 [20] - Retrieval Augmented Generation (RAG):从外部知识库检索信息,确保响应准确性 [21] - Reinforcement Learning from Human Feedback (RLHF):整合人类偏好优化模型输出 [23] - Model Context Protocol (MCP):提供标准化接口增强模型与外部系统互操作性 [24] 分层自主决策 - 高层规划分为三类:基于结构化语言(LLM生成PDDL或直接作为规划器)、基于自然语言(LLM分解计划)、基于编程语言(指令转可执行代码) [31][33][38] - 底层执行通过传统控制算法(PID、MPC)、LLM驱动学习控制(模仿学习+强化学习)、模块化控制(调用预训练模型如CLIP/SAM)实现 [42][43][45] - 反馈机制包括:大模型自我反思(Re-Prompting重新生成计划)、人类反馈(交互式纠正)、环境反馈(多模态输入转化为语言调整计划) [49][52][54] 端到端自主决策 - VLA模型集成感知、语言理解、规划、动作执行与反馈优化,包含token化与表示、多模态信息融合、动作去token化三个组件 [58][60][62] - RT-2利用ViT进行视觉处理,PaLM集成多模态信息,动作空间离散化为8维度(含256区间) [63] - VLA增强方向:感知能力增强(BYO-VLA滤除视觉噪声)、轨迹动作优化(Octo结合扩散模型)、训练成本降低(π0利用流匹配提升实时性能) [65][70][71] 分层与端到端决策对比 - 分层架构优势:高可解释性、易集成领域知识、模块化设计;劣势:模块协调可能导致次优解、适应性受限 [74] - 端到端架构优势:最小化误差累积、强泛化能力、高效复杂任务处理;劣势:黑箱性质、高计算成本、依赖训练数据 [75] Embodied Learning方法 - 模仿学习:通过最小化专家动作负对数似然学习策略,依赖高质量演示数据 [83][84] - 强化学习:最大化长期累积奖励,PPO/SAC等算法提升稳定性,但需海量探索 [87][89] - 迁移学习:通过KL散度约束迁移源任务策略至目标任务,加速学习但需避免负迁移 [90][91] - 元学习:MAML框架通过少量样本快速适应新任务,但需多样任务预训练数据 [93][94] 大模型赋能的模仿学习 - Diffusion models增强策略:Diffusion Policy通过U-Net生成动作序列,3D-Diffusion利用3D输入提升空间感知 [100][101] - Transformer架构策略:RT-1结合大规模数据集提升泛化,ALOHA实现低成本硬件精确操作,RoboCat实现跨任务快速泛化 [102][103] 大模型赋能的强化学习 - 奖励函数设计:Text2Reward生成可解释Python代码,Eureka利用GPT-4实现全自动优化 [109] - 策略网络构建:Diffusion-QL增强多模态动作分布,Decision Transformer将问题重构为序列建模,LLM(如GLAM)直接生成动作序列 [113][114][115] 世界模型设计与应用 - 设计类型:隐空间世界模型(RSSM)、基于Transformer(IRIS/Genie)、基于扩散(Sora/UniPi)、联合嵌入预测架构(JEPA) [119][122][125][128] - 决策应用:模拟验证(NeBula构建概率信念空间)、知识增强(WKM提供全局先验知识) [133][134] - 具身学习应用:基于模型的强化学习通过模拟状态转换和生成数据提升学习效率 [135]
Orangekloud Signs MOU for Development of Specialized LLM for Software Engineering and Application Development
Globenewswire· 2025-06-30 20:30
文章核心观点 - 新加坡科技公司Orangekloud与Evvo Labs签署谅解备忘录,合作开发适用于软件工程和应用开发的大语言模型,预计2026年第一季度进入试点测试 [1][4] 合作信息 - 2025年6月18日Orangekloud与Evvo Labs签署谅解备忘录,合作开发适用于软件工程和应用开发的大语言模型 [1] - 大语言模型将集成到Orangekloud的eMOBIQ平台及其他解决方案中,提供智能建议、代码生成等支持,还能通过自动化文档等增强ERP实施和软件开发周期 [2] - 项目预计2026年第一季度进入试点测试 [4] 公司背景 - Orangekloud是新加坡科技公司,提供eMOBIQ无代码平台,专为中小企业和企业开发移动应用,涵盖仓储、销售等多个领域 [5] - Evvo Labs是新加坡屡获殊荣的以网络为中心的ITMS科技公司,专注于数字化转型和技术开发集成,自2010年以来多次获得新加坡政府网络安全和数字媒体批量招标奖 [6] 公司观点 - Orangekloud首席执行官Alex Goh认为企业软件的未来在于智能自动化,通过与合作伙伴开发大语言模型,可实现更快、更智能、更易访问的软件和应用开发 [4]