Workflow
Large language model
icon
搜索文档
OSS to Attend NVIDIA GTC Paris 2025
Globenewswire· 2025-05-27 21:00
ESCONDIDO, Calif., May 27, 2025 (GLOBE NEWSWIRE) -- One Stop Systems, Inc. (OSS or the Company) (Nasdaq: OSS), a leading provider of rugged, enterprise-class compute solutions for AI, machine learning (ML), and sensor processing at the edge, and an NVIDIA TIER 2 OEM and a NPN Elite Partner, today announced its participation in the upcoming NVIDIA GTC Paris Conference. The event takes place at the Paris Expo Porte de Versailles in Paris, France, on June 11–12, 2025. “NVIDIA is a valued long-time partner,” st ...
平衡创新与严谨:人工智能评估的深思熟虑整合指南(指导说明)(英)2025
世界银行· 2025-05-26 14:35
报告行业投资评级 未提及相关内容 报告的核心观点 在人工智能不断发展的背景下大语言模型(LLMs)作为生成式人工智能的一种在评估中处理文本数据方面具有显著潜力,但使用时需验证其响应的准确性和可靠性;报告基于实验给出利用LLMs的关键经验和良好实践,旨在为评估部门多学科团队将LLMs负责任地融入工作流程提供实用资源 [2][17] 根据相关目录分别进行总结 关键要点 - 识别相关用例,确保实验与能有效发挥LLMs能力的用例相契合 [9] - 规划用例内的工作流程,将用例分解为详细步骤和任务,便于有效应用LLMs并实现组件复用 [10] - 明确资源分配和预期结果,团队需就实验所需资源和成功标准达成共识 [11] - 制定合适的抽样策略,将数据集划分为训练、验证、测试和预测集,以促进有效提示开发和模型评估 [12] - 选择合适的模型评估指标,针对不同任务选择相应指标衡量LLMs性能 [13] - 迭代开发和验证提示,通过不断测试和改进提示,提高LLMs响应质量 [14] 实验关键考虑因素 识别用例 - 实验应从识别LLMs能为文本数据分析带来显著附加值的领域开始,确保实验有目的且相关 [23] - 用例通常需满足文献表明有高价值应用,且当前评估实践效率低、分析浅或因文本量大无法进行的条件 [24] - 报告聚焦结构化文献综述(SLR)和评估综合两个用例,期望LLMs能改进其实施方式 [25] 识别用例内的机会 - 对于复杂用例需详细拆解分析步骤,了解LLMs的应用场景和方式 [26] - 创建详细工作流程,发现不同用例工作流程相似,且存在可重复使用LLMs能力的组件 [27] - SLR工作流程中有五个可利用LLMs的时机,包括筛选文档、提取信息、标注文本、总结文本和综合文本 [32] 就资源和结果达成共识 - 团队成员需就实验所需资源和预期结果达成一致,避免对LLMs应用产生不切实际的期望 [33] - 资源包括全职员工、技术和预算等,需明确LLMs应用的成功标准 [34] - 以SLR识别步骤为例,使用LLMs提高了效率和全面性,减少了人力投入 [35] 选择合适的指标衡量LLMs性能 - 需考虑明确维度来衡量LLMs在特定任务上的性能,不同评估对成功的指标要求可能不同 [36][37] - 文本分类任务使用标准机器学习指标,如召回率、精确率和F1分数等,并划分数据集以计算无偏估计 [38] - 文本总结、合成和信息提取任务使用忠实性、相关性和连贯性等标准评估,需根据具体情况确定可接受的指标值 [39][41][42] 实验及结果 - 实验未对完整SLR或评估综合工作流程进行测试,而是聚焦SLR文献识别步骤的组件,并对文本总结、合成和信息提取进行实验 [49] - 文本分类任务在多次迭代改进提示后取得较好结果,召回率为0.75,精确率为0.60 [53][55] - 文本总结任务中模型响应的相关性、连贯性和忠实性较高,信息提取任务忠实性好但相关性有待提高,文本合成任务忠实性好但有相关信息遗漏 [56] 新兴良好实践 代表性抽样 - 开发提示前将数据集划分为四个不同集合,有助于提高提示在预测集上的泛化能力 [67] - 了解输入数据分布,识别并纳入代表性观察,采用聚类等方法选择样本 [68][70] - 该抽样策略可确保样本语义多样性,增强解释性并支持提示改进,避免重复采样 [74] 开发初始提示 - 好的提示通常包含模型角色、任务说明、相关文本和响应要求等组件 [75] - 检查模型提示模板,将任务分解为具体步骤,尝试不同提示格式,包含请求理由、代表性示例、参考文献等内容 [76][77][79] - 提供“未知”或“不适用”选项,明确响应格式,检查边缘情况 [83][85][86] 评估模型性能 - 使用LLMs时需手动审查模型响应,评估响应的忠实性,设置特定上下文的指标阈值 [88][89][90] - 使用注释和验证指南,检查编码者间的可靠性,使用混淆矩阵总结分类模型性能 [91][92][93] 改进提示 - 根据验证结果分析不准确原因,改进提示,避免创建复杂提示导致过拟合 [95][96] 未来展望 - 世界银行和国际农业发展基金独立评估部门将继续探索AI在评估中的应用,注重风险承担、持续学习和跨专业对话 [97] - 需进一步研究、实验和合作,标准化和扩展评估LLMs性能的框架,分享实验经验和成果 [98]
NVIDIA's Q1 Earnings Coming Up: Time to Buy, Sell or Hold the Stock?
ZACKS· 2025-05-22 19:26
NVIDIA Corporation (NVDA) is set to report first-quarter fiscal 2026 results on May 28.The company expects revenues of $43 billion (+/-2%) for the quarter. The Zacks Consensus Estimate is pegged at $42.71 billion, which indicates a whopping 64% increase from the year-ago reported figure.The Zacks Consensus Estimate for quarterly earnings has moved down a penny to 87 cents per share over the past 30 days. This suggests year-over-year growth of 42.6% from the year-ago quarter’s earnings of 61 cents per share. ...
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 09:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]
外媒:OpenAI最大数据中心获116亿美元融资
快讯· 2025-05-21 17:48
融资与项目扩建 - Crusoe为OpenAI建设的得克萨斯州数据中心获得116亿美元新融资承诺 [1] - 融资采用债务和股权混合形式 将数据中心从两栋楼扩建到八栋 [1] - 项目担保总额增加至150亿美元 Crusoe和Blue Owl Capital参与本轮融资 [1] 数据中心规划 - 数据中心计划于明年完工 预计成为OpenAI使用的最大数据中心 [1] - 每座建筑将运行多达50,000个英伟达Blackwell芯片 用于训练大型语言模型 [1] 技术基础设施 - 数据中心扩建将显著提升OpenAI的长期计算能力 [1] - 英伟达Blackwell芯片部署规模显示对AI算力需求的快速增长 [1]
Did Elon Musk Just Give Nvidia Investors 40 Billion Reasons to Cheer?
The Motley Fool· 2025-05-17 05:00
Elon Musk's AI start-up appears to be eyeing more Nvidia GPUs.When it comes to training generative AI models, Nvidia's (NVDA 0.28%) graphics processing units (GPUs) are hailed as the gold standard among industry experts. That's not exactly a novel conclusion considering the semiconductor powerhouse has amassed an estimated 90% or more of the GPU market.The more subtle idea here is how exactly Nvidia built such a gigantic lead over the competition. While it does not explicitly specify which companies buy its ...
BERNSTEIN:科技的未来 - 具身智能与大语言模型会议要点总结
2025-05-16 13:29
纪要涉及的行业和公司 - **行业**:印度科技、媒体和互联网行业,重点涉及IT服务和SaaS行业 [1][4][8] - **公司**:AI Rudder、Straive、TCS.IN(Tata Consultancy Services Ltd)、INFO.IN(Infosys Ltd)、COFORGE.IN(Coforge Limited)、PSYS.IN(Persistent Systems Limited)、Salesforce、Microsoft、Amazon、OpenAI、Google等 [1][7][42] 纪要提到的核心观点和论据 Agentic AI和LLMs的发展趋势 - **Agentic AI将变革科技栈**:Agentic AI预计利用LLMs快速提升的能力改变科技栈,推动从“AI驱动的企业工作流”转变,重新定义生产力,将范式从静态API和僵化的UX/UI转向动态、目标驱动的系统 [2] - **LLMs采用率增加**:LLMs和AI的采用路径与云计算类似,最初的怀疑逐渐被更好的接受度取代,已证实的ROI、灵活的部署方式(云、本地、边缘)和成熟的LLM生态系统增强了信心,语音AI代理将推动多模态交互,增强呼叫中心代理的能力 [2][16] - **AI采用将遵循云的轨迹**:AI采用将像云一样,起初缓慢,随着工具、信任和人才的契合而加速,文化转变和监管清晰度的提高正在加速信任和企业准备度 [16] 不同类型LLMs的比较 - **开源与专有LLMs各有优劣**:开源LLMs提供更大的控制、定制和成本效率,但需要大量内部专业知识,且存在安全和支持风险;专有LLMs如GPT - 4或Claude提供最先进的性能、可扩展性和托管安全功能,但成本较高,定制有限,可能存在供应商锁定 [32] - **多模型多供应商的未来**:未来可能是多模型、多供应商的,由社区驱动的创新和特定领域的需求塑造,开源LLMs正在推动一个开放、模块化、竞争的空间 [35] - **顶级LLMs的评估**:GPT - 4o和Claude 3 Opus在企业级性能方面领先,具有强大的代理和多模态能力,但成本较高;Gemini 1.5适合生产力用例;开源模型如Mistral和LLaMA 3提供经济高效、可定制的选项,但需要更多努力来实现代理工作流;Cohere在RAG相关企业任务中表现出色,但缺乏完整的多模态或自主代理能力 [39][40] 对IT服务和SaaS模型的影响 - **IT服务劳动密集型模型面临风险**:IT行业的软件开发方式将改变,大量基本编码将转向AI,AI不仅能编写代码,还能为功能开发提供精确估计,设定新的生产力和质量基准,劳动密集型行业如BPM和传统IT服务在技术栈中风险最大 [4][41] - **SaaS用户增长可能停滞或下降**:随着AI代理接管人类任务,用户数量可能下降,但使用和自动化程度将增加,这将打破按席位定价的模式,推动SaaS提供商转向基于价值、使用或结果的计费 [4][30][31] LLMs的演变方向 - **从成本削减到创收**:早期企业采用LLMs主要集中在成本削减用例,随着发展,LLMs将从成本削减工具演变为增长引擎,通过超个性化、对话式商务和AI原生产品体验实现创收,自主代理正在重塑商业模式 [5][43][44] 投资建议 - **印度IT服务行业中期受益**:印度IT服务行业中期将受益于Agentic AI,但短期内会受到效率驱动的增长影响,IT服务公司可以结合AI知识和客户行业经验,帮助企业决定如何采用AI,填补客户在构建有吸引力的AI应用程序时面临的技能、数据和基础设施差距 [8] - **具体公司评级**:对大型印度IT服务公司Infosys和TCS给予“Outperform”评级,对中型IT服务公司Coforge和Persistent给予“Outperform”评级 [8] 其他重要但可能被忽略的内容 - **工作任务自动化比例变化**:目前47%的工作任务主要由人类单独完成,22%主要由技术完成,30%由两者结合完成;到2030年,雇主预计这三个类别/方法的比例将接近平均分配 [9] - **AI代理集成方式**:添加AI代理通常是叠加而非重建,如果应用程序有稳定的API和清晰的用户流程,可以在几周内部署一个有效的AI代理层;对于较旧或更封闭的系统,可能需要一些工程努力来创建桥梁 [24] - **AI平台支持多渠道客户交互**:AI平台展示了语音机器人和聊天机器人等AI代理如何通过统一的AI交互式机器人层部署在多个渠道(电话、短信、电子邮件、WhatsApp、Facebook等),这些代理通过预先存在的通信和后端API与现有系统交互 [29] - **新应用构建**:包括垂直代理、代理托管与服务、可观测性、代理框架、内存、工具库、沙箱、模型服务和存储等多个类别,涉及Sierra、Replit、Dosu等众多公司和平台 [45] - **公司估值和风险**:对TCS、Infosys、Coforge和Persistent Systems进行了估值,并指出了各公司的下行风险,如TCS可能面临大订单势头放缓、数字业务增长放缓等风险 [49][50][51][52][53] - **评级定义和分布**:介绍了Bernstein和Autonomous品牌的评级定义、基准和评级分布情况 [55][56][57][59][60][61] - **利益冲突和合规信息**:报告中提及了分析师的利益冲突、公司的合规政策、不同地区的分发规定以及报告的法律声明等内容 [71][72][76][80][84][85][86][88][89][90][94][97][99][100][101][102][103][104][105][106][107][108][109][110][111]
Meta delays release of flagship ‘Behemoth' AI model as engineers struggle: report
New York Post· 2025-05-16 07:15
Meta Platforms延迟发布Behemoth AI模型 - 公司因技术能力问题推迟旗舰AI模型Behemoth的发布,工程师难以显著提升其性能[1] - 内部员工质疑该模型相比早期版本的改进是否足以支持公开发布[1] Behemoth模型发布时间线 - 最初计划在4月Meta首届AI开发者大会期间发布[2] - 后内部目标推迟至6月,现进一步延迟至秋季或更晚[2][3] 模型技术定位 - 公司称Behemoth为"全球最智能的LLM之一"及"迄今最强大模型"[3][5] - 该模型被设计用于指导公司新一代AI模型的训练[3] 同期其他模型发布 - 4月已发布Llama系列新版本Llama 4 Scout和Llama 4 Maverick[5]
Meta Reportedly Delays 'Behemoth' AI Model: What This Could Mean for Its AI Tools
CNET· 2025-05-16 06:18
Meta reportedly has pushed back the release of its Behemoth large language model for its artificial intelligence tools, delaying it until the fall. Behemoth was originally planned to release in April to coincide with Meta's first AI conference, LlamaCon, but it was delayed until June before this latest delay, according to a report by The Wall Street Journal on Thursday.Meta released Llama 4 in April. Llama -- Large Language Model Meta AI -- is Meta's family of LLMs. But Meta AI engineers are concerned the c ...
AlphaEvolve: A coding agent for scientific and algorithmic discovery
Google DeepMind· 2025-05-16 00:00
报告行业投资评级 未提及相关内容 报告的核心观点 - AlphaEvolve结合了最先进的大语言模型和自动化评估指标,在进化框架内展现出强大能力,能在数学问题上取得新发现,并对计算堆栈进行实际改进 [88] - AlphaEvolve可通过不同方式处理同一问题,且能作为测试时计算代理,增强基础大语言模型的能力,未来可考虑将其增强性能融入下一代基础模型 [89][90] 根据相关目录分别进行总结 1. 引言 - 发现新知识通常是个漫长过程,虽大语言模型和智能体的发展推动了自动化,但实现全新科学或实际发现仍具挑战 [2] - AlphaEvolve是基于进化计算和大语言模型代码生成的优化代理,专注于可自动评估的科学和工程发现问题,能进化复杂代码,超越以往系统 [3][7] - 因自动化评估指标的限制,AlphaEvolve主要聚焦于数学、计算机科学和系统优化领域 [9] 2. AlphaEvolve 2.1 任务规范 - 用户需提供自动评估生成解决方案的机制,以函数形式将解决方案映射到一组标量评估指标,且这些指标通常需最大化 [13] - 用户可通过在代码中添加特殊注释标记进化块,块内代码作为初始解决方案,其余代码构成骨架 [19][20] - AlphaEvolve可通过多种方式应用于同一问题,不同抽象级别适用于不同问题 [21][22] 2.2 提示采样 - AlphaEvolve支持多种定制和提供长上下文的提示,包括显式上下文、随机格式化、渲染评估结果和元提示进化等 [23][25] 2.3 创造性生成 - AlphaEvolve利用大语言模型的能力,消化先前解决方案信息并提出改进方案,且模型性能越好,结果越佳 [24] - 要求大语言模型以特定格式提供代码修改,短代码或需完全重写时可直接输出代码块 [29][30] - AlphaEvolve采用Gemini 2.0 Flash和Gemini 2.0 Pro的组合,平衡计算吞吐量和解决方案质量 [31] 2.4 评估 - 新解决方案通过执行用户提供的评估函数进行自动评估,支持评估级联、大语言模型生成反馈和并行化评估等机制 [32] - AlphaEvolve允许优化多个用户提供的分数,有助于提高单一目标指标的结果 [33] 2.5 进化 - AlphaEvolve在进化过程中生成的解决方案存储在进化数据库中,该数据库结合了MAP elites算法和基于岛屿的种群模型 [34] 2.6 分布式管道 - AlphaEvolve是异步计算管道,由控制器、大语言模型采样器和评估节点组成,优化吞吐量以提高计算效率 [35] 3. 结果 3.1 更快的矩阵乘法 - 矩阵乘法是计算机科学的基础操作,找到低秩张量分解可开发更快的算法,但该问题极具挑战性 [38] - AlphaEvolve能开发出优于现有方法的张量分解算法,通过评估级联和特定评估方法衡量性能,改进了14种不同矩阵乘法目标的现有技术 [39][40] 3.2 解决数学问题 - AlphaEvolve可作为强大工具探索数学问题的搜索空间,在超50个数学问题中,约75%的情况重现了已知最佳构造,约20%的情况发现了更好的构造 [42][43] - AlphaEvolve通过进化启发式搜索算法而非直接进化构造本身,实现了高效的大规模探索 [50] 3.3 优化谷歌计算生态系统 - **数据中心调度**:将在线作业调度问题建模为向量装箱问题,AlphaEvolve发现的启发式函数优于生产中的函数,平均可回收0.7%的计算资源,且具有可解释性等优势 [60][61] - **Gemini内核工程**:AlphaEvolve优化矩阵乘法操作的平铺启发式,使内核平均加速23%,减少了Gemini训练时间,加速了内核优化过程 [64][67] - **硬件电路设计**:AlphaEvolve优化TPU算术电路,减少面积和功耗,其建议以Verilog语言呈现,便于硬件工程师采用 [69][70] - **直接优化编译器生成的代码**:AlphaEvolve优化了FlashAttention内核及前后处理代码,分别加速32%和15%,展示了优化编译器生成代码的能力 [73] 4. 消融实验 - 对矩阵乘法和接吻数问题进行消融实验,结果表明进化方法和提示中的上下文对AlphaEvolve的结果有显著提升作用 [74][75] 5. 相关工作 - AlphaEvolve扩展了进化或遗传编程的研究传统,与FunSearch等系统相比,具有可进化整个代码库、多目标优化和使用前沿大语言模型等优势 [76][80] - 其他相关工作包括使用大语言模型引导进化的各种方法,但AlphaEvolve在规模、灵活性和通用性方面有所不同 [81] 6. 讨论 - AlphaEvolve结合大语言模型和自动化评估指标的进化框架具有强大能力,但主要处理可自动评估的问题,未来可与其他方法结合处理更广泛的问题 [88][92]