Large Language Model

搜索文档
INOD in Focus on Q2 Earnings Beat and Huge Short-Term Price Upside
ZACKS· 2025-08-07 21:06
Key Takeaways INOD posted Q2 EPS of $0.20 and revenues of $58.39M, topping estimates and rising 79% year over year.INOD lifted 2025 revenue growth forecast to 45%+, citing strong AI-driven demand.Brokerage targets suggest up to 72.1% upside, with INOD trading 38.6% below its 52-week high.Innodata Inc. (INOD) has established itself as a crucial partner in the artificial intelligence (AI) revolution providing high-quality data needed to train advanced language models. This mid-cap data engineering service pro ...
自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~
自动驾驶之心· 2025-08-05 11:09
基于可控扩散模型的生成式主动学习框架GALTraj - 提出GALTraj框架首次将可控扩散模型应用于轨迹预测的长尾问题通过尾样本感知生成技术动态增强稀有场景数据 [1] - 在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%(从0.42→0.22)整体预测误差minFDE₆降低14.7%(从0.654→0.558) [1] - 设计尾部感知生成方法对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导生成兼具真实性、多样性且保留尾部特征的场景 [2] - 在多个骨干模型(QCNet、MTR)上验证显著提升尾部样本预测性能同时改善整体预测精度 [2] 拓扑感知激光雷达扩散模型TopoLiDM - 提出TopoLiDM框架通过拓扑正则化的图扩散模型实现高保真激光雷达生成 [13] - 在KITTI-360数据集上以22.6%的FRID下降率和9.2%的MMD下降率超越现有最优方法同时保持1.68样本/秒的实时生成速度 [13] - 采用紧凑的拓扑图作为潜在表示实现了快速、可解释且高保真的LiDAR点云生成 [15] - 拓扑感知VAE模块通过图构建和多层图卷积提取潜在图表示并引入0维持久同调约束确保生成的LiDAR场景符合真实世界环境的全局拓扑规则 [15] 高效端到端自动驾驶框架FastDriveVLA - 提出基于重建的视觉Token剪枝框架FastDriveVLA通过对抗性前景-背景重建策略在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7% [21] - 设计ReconPruner通过MAE风格像素重建训练的即插即用修剪器增强识别有价值令牌的能力 [27] - 构建nuScenes-FG数据集包含241k图像-掩码对针对自动驾驶场景的前景分割标注 [27] - 在nuScenes开环规划基准上实现SOTA性能 [27] 语言大模型驱动自动驾驶框架PLA - 提出统一的感知-语言-动作(PLA)框架通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心实现自适应自动驾驶 [34] - 在nuScenes数据集的城市交叉路口场景中速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923轨迹跟踪的平均位移误差(ADE)为1.013米 [34] - 多传感器语义融合模块整合激光雷达、雷达和相机数据生成结构化场景描述提升空间精度与语义丰富度 [38] - 通过LLM驱动的上下文推理增强对未见过场景的泛化能力实现鲁棒决策 [41] 自动驾驶行业资源整合 - 梳理近40+技术路线包括咨询行业应用、VLA benchmark、综述和学习入门路线 [50] - 整理国内高校著名自动驾驶团队和领域企业介绍 [52] - 汇总自动驾驶数据集与标定、仿真工具包括近百个数据集和标注工具 [52] - 提供基础入门资料涵盖数学基础、计算机视觉、深度学习和编程相关内容 [52]
别再乱选AI课程了——这些书才是你的正解
36氪· 2025-08-03 08:03
编程与软件工程 - 编程能力与软件工程技能是进入AI领域的必备基础,OpenAI首席技术官Greg Brockman支持这一观点 [1] - AI领域最具影响力的人往往是同时精通软件工程与机器学习的专家,优秀软件工程师在AI领域潜力非凡 [1] - Python凭借易用性和完善生态成为AI领域首选语言,但热门AI工程师岗位可能需要掌握Java/GO/Rust等后端语言 [1] - 建议从Python入门,但未来可能需要转向其他语言,持续实践是掌握编程技能的最佳方式 [2] - 推荐Python学习资源包括4小时启蒙课、全网最受推崇的体系课程、面试刷题平台和哈佛CS50计算机导论 [5] 数学与统计学 - 成为顶尖AI从业者需理解模型底层原理,推荐资源包括《数据科学实用统计学》和《机器学习数学基础》 [9] - DeepLearning.AI推出的数学专项课程涵盖微积分、线性代数、统计概率等核心内容,专为AI/ML设计 [9] 机器学习 - 当前主流AI指生成式AI(GenAI),属于机器学习分支,但AI概念可追溯至上世纪50年代神经网络诞生时 [6][8] - 推荐机器学习资源包括《Scikit-Learn、Keras与TensorFlow机器学习实战》和机器学习专项课,后者新增推荐系统与强化学习内容 [12] - 《统计学习导论》是掌握机器学习根基的绝佳教材,传授学科精髓 [12] 深度学习与大语言模型 - 深度学习是AI的子集,当前所有生成式AI算法源于此领域,包括大语言模型、扩散模型和Transformer架构 [10] - PyTorch是深度学习框架首选,2021年77%研究论文采用该框架,HuggingFace平台92%模型为其专属 [13] - 推荐资源包括深度学习专项课、Andrej Karpathy的《大语言模型入门》和《神经网络:从零进阶》 [13] 人工智能工程 - AI工程师的核心工作是运用基础GenAI模型开发产品,工作性质更接近传统软件工程而非机器学习工程 [11] - 《实用MLOps指南》是模型部署领域必备书,覆盖容器化、脚本编写、云系统和模型监控等全流程 [11] - 《人工智能工程实践》是当红教材,作者Chip Huyen是生产环境ML/AI系统权威专家 [14]
图灵奖得主Hinton国内首次现身演讲:AI超越人类后,我们该怎么做
机器之心· 2025-07-26 16:19
人工智能发展历史 - 学界对AI存在两种理解范式:逻辑型(符号规则表达操作实现推理)与神经网络型(智能基础在于学习神经网络中的链接)[5] - 1985年开发的小语言模型通过分析词汇特征关联预测下一个词 未存储任何句子[7][8] - 技术发展脉络:Yoshua Bengio扩大模型规模→计算语言学家接受特征向量嵌入→谷歌开发Transformer→OpenAI推出ChatGPT[9] 大语言模型原理 - 当前LLM被视为1985年小语言模型的技术延续 使用更复杂神经元结构与多词输入建立特征交互[12] - LLM理解语言方式与人类相同:将语言转化为特征并以完美方式整合[13][14] - 词汇可类比为多维乐高积木 通过组合表达复杂含义 语言成为建模工具[16][17] - 词汇具有动态语义特征 根据上下文调整连接方式 类似蛋白质结合机制[19][20][22] 数字智能优势 - 数字智能可实现软件与硬件分离 软件具有永恒性[29] - 数字智能间知识传递效率远超人类 每秒可共享上万亿比特信息[37][40][41] - 模型权重复制与参数平均化技术实现跨硬件知识协同 如GPT-4并行运行[39][43] - 数字智能能耗虽高但具备可复制性 生物智能能耗低但知识迁移效率低下[45] AI未来发展挑战 - 高智能AI可能自主产生生存与控制动机 超越人类操控能力[47][48][49] - AI具备不可替代的行业价值 医疗教育等领域应用使全球无法彻底消除[54] - 需建立国际AI安全合作机制 类似冷战时期核管控模式[58][59][62] - 训练AI向善的技术需独立研发 各国可基于数据主权贡献解决方案[61] 技术应用案例 - DeepSeek采用知识蒸馏技术 将大网络知识迁移至小网络[33] - 神经网络教学模仿师生关系 教师优化连接方式 学生简化网络结构[34] - AlexNet在2012年ImageNet挑战赛突破图像识别 成为计算机视觉里程碑[66]
Nature头条:AI大模型已达国际数学奥赛金牌水平
生物世界· 2025-07-25 15:54
人工智能在数学领域的突破 - 大语言模型首次在国际数学奥林匹克竞赛中达到金牌水平,标志着AI在复杂数学问题解决能力的重大飞跃[2][4] - DeepMind的大语言模型在评估中跨越金牌得分门槛(满分42分,35分为金牌),OpenAI的模型也展现出同等能力[4][6] - 相比2024年银牌顶尖水平,2025年实现从银牌到金牌的实质性突破,体现AI在高级数学推理和问题解决能力的显著进步[5] 技术进展与范式转变 - DeepMind此次突破采用全新大语言模型DeepThink,完全基于自然语言处理,不再依赖人类专家翻译考题和解答[6] - 此前DeepMind在数学领域依赖专门工具AlphaGeometry和AlphaProof,需要人工翻译过程,新模型实现端到端自然语言处理[6] - 国际数学奥林匹克竞赛金牌代表全球高中生数学巅峰水平,AI达到该层次表明其在复杂概念理解、创造性推理和精妙解法发现方面的高度[5] 行业影响与未来潜力 - 该突破证明大语言模型能处理需要深度逻辑思维和抽象推理的复杂任务,超越文本生成和模式识别的传统能力[7] - AI可作为教育和研究工具,帮助学生学习高等数学、启发解题思路,并协助数学研究人员探索新猜想和定理[7] - 解决奥林匹克数学竞赛金牌级问题是通往通用人工智能(AGI)的重要里程碑,体现多方面认知能力的组合[7] - 从围棋击败人类冠军到数学竞赛金牌水平,AI持续刷新机器能力认知,预示在科学探索和技术研发等领域的巨大潜力[8]
阿里开源最强编码模型 Qwen3-Coder:1M上下文,性能媲美 Claude Sonnet 4
Founder Park· 2025-07-23 16:21
模型发布与性能 - 阿里通义团队发布并开源Qwen3-Coder系列代码模型,其中Qwen3-Coder-480B-A35B-Instruct是最强版本,拥有480B参数激活35B参数的MoE结构,原生支持256K token上下文并可通过YaRN扩展到1M token [3][4] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use等任务上达到开源模型SOTA水平,性能媲美Claude Sonnet4 [5] - 在Terminal-Bench测试中得分为37.5分,优于Claude Sonnet4的35.5分和OpenAI GPT-4.1的25.3分 [6] - SWE-bench Verified测试中达到69.6分(500轮交互)和67.0分(100轮交互),接近Claude Sonnet4的70.4分和68.0分 [6] 技术架构与训练 - 预训练数据总量达7.5T,其中代码数据占比70%,在保持通用与数学能力的同时强化编程能力 [12] - 采用Code RL训练方法,通过自动扩展测试样例构建高质量训练实例,显著提升代码执行成功率 [15] - 实现Long-Horizon RL训练系统,可同时运行20k独立环境,在SWE-bench Verified上取得开源模型SOTA效果 [16] - 利用Qwen2.5-Coder对低质数据进行清洗与重写,提升整体数据质量 [12] 产品应用与集成 - 模型已在Qwen Chat网页版上线供免费体验 [6] - 推出开源命令行工具Qwen Code,基于Gemini Code二次开发,优化了Agentic Coding任务表现 [17] - 支持通过OpenAI SDK调用,只需配置环境变量即可接入 [20][21] - 可与Claude Code集成使用,通过阿里云百炼平台申请API Key实现 [22][23] - 支持与社区工具如Cline结合,通过OpenAI兼容模式接入 [27] 性能对比数据 - WebArena测试得分49.9分,优于DeepSeek-V3的40.0分,接近Claude Sonnet4的51.1分 [6] - Mind2Web测试得分55.8分,优于Claude Sonnet4的47.4分和OpenAI的49.6分 [6] - BFCL-v3测试得分68.7分,优于OpenAI的62.9分,接近Claude Sonnet4的73.3分 [6] - TAU-Bench Retail测试得分77.5分,优于DeepSeek-V3的59.1分,接近Claude Sonnet4的80.5分 [6]
只因一个“:”,大模型全军覆没
自动驾驶之心· 2025-07-17 20:08
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)普遍存在被简单符号(如冒号、空格)或推理开头语(如"Thought process:"、"解")欺骗的问题,导致假阳性奖励信号 [4][5][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [22] - 漏洞具有跨语言普遍性,中文、日语等语言的开头语同样能诱发高假阳性率 [23] 对抗性攻击与模型表现 - 专用生成式奖励模型(如Multi-sub RM、Omni-Judge)和通用LLM在5个推理基准测试中均未能抵御对抗性响应 [17][19] - 模型大小与假阳性率无单调关系,7B-14B参数模型表现最佳,32B-72B模型因倾向自主解题导致假阳性率回升 [32] - 通过嵌入相似度搜索可自动生成新对抗性响应,使漏洞无限繁殖 [26] 解决方案与模型改进 - 腾讯AI Lab等机构构建增强训练数据集,结合2万条对抗样本与原始数据训练Master-RM模型 [29][30] - Master-RM基于Qwen2-5-7B-Instruct微调,跨数据集测试中对"万能钥匙"的假阳性率接近0%,与GPT-4o评估一致性达0.96 [31][33] - 研究团队包括腾讯AI Lab首席科学家俞栋、普林斯顿大学博士生Yulai Zhao等业界与学术专家 [38][39][41] 行业影响与研究方向 - 生成式奖励模型的核心机制漏洞暴露,依赖验证器反馈的RLVR流程面临挑战 [27][28] - 未来需加强模型稳健性研究,严格对抗评估RLHF工作流程 [35][36] - 相关论文与模型已开源,数据集和模型链接发布于Hugging Face平台 [48]
最强人才接连被挖,创业大佬离开 OpenAI 后说了实话:7 周硬扛出 Codex,无统一路线、全靠小团队猛冲
AI前线· 2025-07-16 13:08
核心人才流动 - OpenAI研究员Jason Wei和Hyung Won Chung将加盟Meta超级智能实验室 两人在OpenAI的Slack账户已停用 [1] - Jason Wei曾参与OpenAI的o3模型开发 是强化学习领域的专家 此前在谷歌专注于思维链研究 [1] - 人才流动引发外界对OpenAI团队文化的好奇 前员工Calvin French-Owen分享内部观察 [2][3] 公司文化特征 - OpenAI采用自下而上的研究模式 没有统一路线图 研究方向由研究员兴趣驱动 [10][11] - 沟通高度依赖Slack 任职期间仅收到10封邮件 信息管理依赖个人组织能力 [10] - 决策迅速 能根据新信息快速转向 体量庞大仍保持敏捷性 [12] - 推崇任人唯贤 领导晋升取决于提出好问题和实践能力 而非会议说服力或政治手腕 [11] 研发与项目运作 - Codex项目仅用7周完成 由8名工程师 4名研究员等组成的小团队推动 [26][28] - 采用"迷你主管"模式 研究人员自主探索问题 结果导向决定资源投入 [12] - 存在多个并行原型项目 如Codex发布前内部有3-4个不同原型在推进 [11] - 使用单体monorepo代码库 主要语言为Python 服务运行在Azure Kubernetes上 [20][22] 业务与竞争格局 - 最大成本为GPU算力 Codex某项功能的GPU成本相当于Segment整个基础设施 [17] - 同时竞争数十个领域 包括API产品 深度研究 硬件 图像生成等 [18] - 面临Meta 谷歌 Anthropic三足鼎立的AGI竞争格局 [33] - 高度关注Twitter舆论 有专人跟进热门帖文 被戏称"靠网络舆论运转" [18] 产品与技术特点 - ChatGPT Connectors采用异步方案 用户可像对待同事一样与编程智能体交互 [28] - Codex擅长处理大型代码库 能同时启动多任务比较输出 发布53天生成63万条PR [30] - 模型训练经历从小规模实验验证到大规模运行的工程化过程 [24] - 安全团队规模庞大 优先处理实际风险如仇恨言论 生物武器制造等 [16] 组织扩张与挑战 - 员工数量从1000人快速扩张至3000人 任职一年的员工资历排名前30% [10] - 不同团队文化差异显著 有的全力冲刺 有的稳定推进 有的专注临门一脚 [10] - 工程工具跟不上团队扩张速度 主服务器CI频繁中断 测试运行需半小时 [22] - 保留技术理想主义 以实现AGI为目标 允许试错并快速修正 [4][15]
新股消息丨MiniMax将完成近3亿美元新融资 传筹备赴港上市
智通财经网· 2025-07-16 10:34
融资动态 - MiniMax近期基本完成近3亿美元新一轮融资 本轮融资后公司估值超40亿美元 [1] - 本轮融资出资方包括上市公司 交叉基金和大型国资平台上海国资 [1] - 融资在半年前开启 目前已基本确定 公司正在筹备赴港上市 最快或于年内落地 [1] - 公司已聘请投行顾问 具体上市方案仍在内部讨论中 [1] - 此前完成由阿里巴巴出资6亿美元的B轮融资 以及腾讯资本出资超2.5亿美元的A轮融资 [1] - 早期出资方包括云启资本 高瓴创投 IDG 明势资本 米哈游等 此前未有国资背景资方参投 [1] - 本轮融资结束后 国内估值达到300亿元的大模型公司仅有MiniMax和智谱 [1] 技术进展 - 近期推出开源推理模型MiniMax-M1 采用Apache 2.0许可协议 实现代码开放 [2] - 官方称MiniMax-M1性能优于DeepSeek最新版且算力消耗更低 [2] - 多模态领域视频生成模型Hailuo 02支持原生1080P高清视频输出 [2] - Hailuo 02在复杂场景中展现强大时空一致性和物理逻辑性 如体操运动员翻转 马戏演员喷火等 [2] - 在国际权威测评榜单Artificial Analysis视频竞技场中拿下第二名 领先Google的Veo 3和快手的可灵(Kling)等对手 [2]
只因一个“:”,大模型全军覆没
量子位· 2025-07-15 16:31
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)容易被特定符号(如冒号、空格)和推理开头语(如"Thought process:"、"解")欺骗,产生假阳性响应 [1][4][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [21] - 模型大小与抗欺骗能力无直接关系,7B-14B模型表现最佳,72B模型反而更容易被欺骗 [23][26] 欺骗机制分析 - 欺骗性输入分为两类:非文字符号(如空格、标点)和推理开头语(多语言) [14][15] - 漏洞可被无限繁殖,通过嵌入相似度搜索可自动生成新的欺骗性输入 [25] - 该漏洞揭示了生成式奖励模型核心机制缺陷,影响依赖验证器的强化学习流程 [27][28] 解决方案 - 研究人员构建增强数据集,包含2万条对抗样本(无实质内容的推理开头语) [29][30] - 基于Qwen2.5-7B-Instruct训练的Master-RM模型将假阳性率降至接近0%,同时保持与GPT-4o 0.96的一致性 [31][32] 研究团队 - 团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学,包含腾讯AI Lab首席科学家俞栋(发表400+论文) [37][38][39] - 一作Yulai Zhao(普林斯顿博士生)研究方向为强化学习与扩散模型,近期有论文被ICML 2025录用 [40][42] - 共同一作Haolin Liu(弗吉尼亚大学博士生)专注强化学习在LLM后训练中的应用 [43]