Large Language Model
搜索文档
RoboSense 2025机器感知挑战赛正式启动!自动驾驶&具身方向~
自动驾驶之心· 2025-06-25 17:54
赛事背景与目标 - 赛事旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[2] - 面对动态人群、恶劣天气、传感器故障等复杂环境,传统感知算法性能大幅下降[2] - 由新加坡国立大学、南洋理工大学等全球顶尖研究机构联合主办,并获IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[4] - 第一阶段截止日期为2025年8月15日,第二阶段截止日期为9月15日[4] - 颁奖典礼将于2025年10月19日在IROS 2025杭州主会场举行[4] 五大核心赛道技术要点 语言驱动的自动驾驶 - 任务要求构建端到端多模态驾驶模型,输入视觉序列与自然语言指令,输出规划轨迹[11] - Baseline模型Qwen2-5-VL需4块NVIDIA A100 GPU,迭代周期约12小时,感知准确率75-5%[16] - 挑战包括多模态融合建模、语言泛化能力及弱感知条件下的鲁棒性评估[17] 社交导航 - 目标实现基于RGB-D输入的移动机器人导航,需符合人类社交规范如避让老人、保持安全距离[18] - Baseline模型Falcon需4块RTX 3090 GPU,成功率55-84%,社交合规指标PSC达89-47[21] - 关键难点包括动态行为建模、非显式社交规则编码及多主体不确定性处理[19] 传感器布局优化 - 首次系统评估LiDAR不同安装位置对3D感知模型性能的影响[23] - Baseline模型BEVFusion-L单卡RTX 4090需16小时训练,mAP达48-8%[28] - 研究方向包括结构对齐模块、Point-to-Ray Alignment Loss等抗视角漂移方法[27] 跨模态无人机导航 - 任务需建立语言描述与俯视图间的语义映射,Baseline模型GeoText-1652检索R@1仅13-6[34] - 核心挑战为空-地视角转换带来的纹理缩放、建筑遮挡等语义对齐问题[33] 跨平台三维目标检测 - 要求3D检测模型在车辆、无人机等不同平台保持性能,Baseline模型ST3D车辆AP@0-5为33-7%[42] - 需解决Domain Gap显著、平台感知对抗机制缺失等跨平台适配问题[41] 赛事资源与奖项 - 提供多源多模态真实场景数据及统一评测平台[13] - 总奖金池超10,000美元,设置一等奖5,000美元及创新奖等专项奖励[42] - 所有完成有效提交队伍均可获得官方参赛证明[42]
AI巨头,国际化大动作!
中国基金报· 2025-06-25 09:33
科大讯飞国际化战略升级 - 公司以香港为"桥头堡"启动国际化战略升级,发布基于讯飞星火大模型的医疗、教育、会议、办公等多领域AI产品香港版及国际版[4] - 公司在香港设立国际总部和国际研究院,与香港大学签署合作协议,计划开拓东南亚、"一带一路"及海外市场[4][5] - 公司自2024年11月成为香港特区政府引进重点企业办公室重点企业,积极筹备在香港发展[4] 香港创新科技发展 - 香港数码港作为数字科技枢纽和人工智能加速器,汇聚超过2200家企业,其中400家专注于人工智能和数据科学[6] - 数码港拥有全港规模最大的人工智能超算中心,推动产业生态圈发展和数字化转型[6] - 香港特区政府引进办表示将支持重点企业在港拓展,共同打造具有全球竞争力的创科枢纽[6] 公司在港发展成果 - 讯飞医疗在落户数码港半年后成功在香港交易所主板上市,成为香港市场医疗大模型第一股,并被纳入恒生综合指数成份股[6] - 公司智能语音技术在香港立法会落地应用,提升政务营运效率,推动智慧政府发展[6] - 公司技术应用与香港创新科技发展方向高度契合,特别是在智慧医疗领域提高医疗服务效率[6]
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 21:15
核心观点 - 高效混合架构设计结合MoE架构与Lightning Attention的模型MiniMax-M1,支持百万级上下文窗口(1M tokens),生成长度达80K tokens时FLOPs仅为传统注意力模型的25%[2] - 超越DAPO的算法CISPO通过剪裁重要性采样权重提升RL效率,相比DAPO实现2倍加速[2] - 可扩展上下文支持从40K到80K Token生成长度的扩展[2] 当前面临的挑战 - 计算精度偏移:训练与推理阶段的计算精度差异导致Token概率偏移,需将LM头部输出精度提升至FP32以对齐概率分布[4] - 长生成稳定性问题:长文本响应容易出现输出不稳定,被截断的问题[5] - 奖励模型不稳定:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制[5] 核心方法 - 混合注意力架构:采用I/O感知的线性注意力计算,通过分块计算和内存优化,将长序列复杂度降低,每7层Lightning Attention后插入1层Softmax Attention[8] - CISPO算法:通过重要性采样权重裁剪保留所有token梯度,避免PPO/DAPO对关键低概率Token的奖励得分偏低[9][10][11] - 分阶段RL数据混合:从规则验证任务逐步过渡到通用领域任务,避免灾难性遗忘[13] - 持续预训练与SFT优化:在7.5T token上扩展STEM、代码数据占比至70%,采用语义去重和分层上下文扩展(32K→1M token)[13] 性能表现 - AIME 2024准确率86.0%(开源模型第二),MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5[14] - OpenAI-MRCR (128k)表现76.1,OpenAI-MRCR (1M)表现58.6[14] - TAU-bench (airline)表现60.0,TAU-bench (retail)表现67.8[14] 数据与训练 - 预训练增强:在7.5T token上扩展STEM、代码数据占比至70%[13] - 监督微调:注入长链式思考模式,数学/编程数据占SFT数据的60%[13] - 上下文长度渐进扩展:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口[13]
1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心· 2025-06-13 12:31
开源LLM推理引擎优化 - vLLM是由加州大学伯克利分校团队开发的高性能开源LLM推理和服务引擎,旨在提升LLM的推理速度和资源利用率,兼容Hugging Face等流行模型库[2] - vLLM通过创新的PagedAttention注意力机制实现方案,使GPT、Mistral、LLaMA等主流模型系列运行更快且消耗更少资源[3] - DeepSeek AI研究者俞星凯开发了轻量级vLLM实现Nano-vLLM,代码简化至1200行,在GitHub上获得200多Star[4][5] Nano-vLLM技术特性 - Nano-vLLM具备三大核心功能:快速离线推理(速度与vLLM相当)、易读代码库(Python代码少于1200行)、优化套件(提供Prefix缓存、Torch编译等功能)[6][7][8] - 基准测试显示,Nano-vLLM与vLLM输出token相同(133,966个),时间略长(101.90秒 vs 98.95秒),吞吐量稍低(1314.65 tokens/s vs 1353.86 tokens/s)[11] - 测试配置为RTX 4070硬件、Qwen3-0.6B模型,256个序列请求,输入输出长度在100-1024 tokens间随机采样[10] 开发者背景 - Nano-vLLM开发者俞星凯现任DeepSeek深度学习系统工程师,参与过DeepSeek-V3和DeepSeek-R1开发[13] - 曾就职于腾讯、幻方(DeepSeek母公司)和字节跳动,2023年正式加入DeepSeek[14] - 此前开发过植物大战僵尸Qt版(GitHub 270+ Star)及多个南京大学计算机项目[13]
大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制
机器人圈· 2025-06-11 19:43
大模型理解能力研究 - 核心观点:大语言模型(LLM)和多模态大语言模型(MLLM)能够自发形成与人类高度相似的物体概念表征系统,证明其并非仅依赖统计概率的"随机鹦鹉"[1][2][3] - 研究团队通过470万次行为判断数据构建AI模型的"概念地图",证实其低维表征结构与人类相似[3][6][8] - 纯文本训练的ChatGPT-3.5与多模态Gemini模型预测人类行为选择的准确度分别达到噪声上限的87.1%和85.9%[9] 研究方法与发现 - 采用"三选一异类识别任务"分析1854种日常概念组合,首创"行为认知探针"方法避免黑箱神经网络的可解释性难题[5][8] - 从行为数据中提取66个核心维度,模型自发形成18个高级物体概念类别,分类准确率达78.3%(接近人类的87.1%)[9][13] - 模型表现出与人类一致的"生物/非生物""人造/自然"分类边界,印证认知神经科学经典发现[14] 模型与人类认知对比 - MLLM的低维嵌入预测大脑梭状回面孔区(FFA)神经活动的准确度达人类水平的85%,远超纯文本模型(60%)[23][24] - 大模型(如GPT-4、Gemini_Pro)在行为选择模式上更接近人类,传统单模态模型(如ResNet18、VGG16)一致性较低[28][29] - 人类决策依赖视觉特征和语义信息整合,而大模型更侧重语言驱动的语义归类[32][33] 应用前景与未来方向 - 潜在应用包括类脑智能系统开发、神经机制探索、认知增强型脑机接口构建[35] - 下一步将拓展至新一代多模态大模型测试平台,建立细粒度"认知图谱"并开发持续微调方法[35][36] - 研究团队由中科院自动化所主导,论文发表于《Nature Machine Intelligence》,相关代码与数据集已开源[37][39][40]
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
量子位· 2025-06-10 15:35
核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成,显著缓解LLM多任务训练中的"偏科"现象,提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响,优化训练集配比,而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升,且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - **问题建模**:引入变量β显式建模训练集优化问题,目标是最小化验证集损失函数,公式包含参数二阶矩阵逆运算 [5][7] - **高效计算**:采用K-FAC理论近似简化Hessian矩阵逆运算,筛选模型"重要层"参数降低计算量,通过超参数m控制调整比例 [8] - **配比优化**:数据分布配比比数据量更关键,不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - **领域覆盖**:在4领域4 benchmark和5领域8 benchmark测试中,IDEAL均优于人工经验配比,验证其普适性 [11] - **参数选择**:超参数m推荐值为0.15,过小影响优化效果,过大偏离原始分布 [15] - **对比基线**:相比DoReMi和DOGE等re-weighting方法,IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题,替代人工经验调整,具有工程实用价值 [14] - 为LLM多任务训练提供理论框架,指导数据集的科学构建与优化 [4][5]
Concord Healthcare Announces Official Release of the Proton Therapy Large Model
Prnewswire· 2025-05-30 04:30
公司动态 - 和康医疗集团自主研发的质子治疗领域垂直大语言模型(LLM)正式发布并成功部署于广州和康肿瘤医院[1] - 该质子LLM是中国首个专注于质子治疗的LLM 整合了近10000例高质量放疗病例构建多模态医疗数据[2] - 质子治疗在广州和康肿瘤医院已完成多例高质量患者治疗案例 展现出精准治疗、显著疗效和减少副作用等突出优势[1] 技术进展 - 质子LLM研发依托和康医疗多年积累的肿瘤诊疗技术体系和海量数据 同时整合了质子中国及专业期刊文献数据以增强模型训练效果[2] - 质子治疗系统作为公司癌症医院配备的先进技术设备之一 体现了公司在精准放射治疗领域的技术实力[4] 资本市场 - 和康医疗集团H股已于2024年1月9日在港交所主板上市 股票代码2453HK[3] - 母公司Concord Medical Services Holdings Limited在纽约证券交易所上市 股票代码CCM[1] 业务模式 - 和康医疗通过自有医疗机构为癌症患者提供全周期肿瘤医疗服务 同时通过医疗设备/软件及相关服务为第三方医疗机构提供支持[5] - 自有医疗机构采用多学科专家团队和精准放射治疗技术 提供涵盖诊断/治疗/教育/预防的全方位肿瘤医疗服务[4][5] - 第三方服务包括医疗设备销售安装、软件服务、管理技术支持以及经营租赁等一体化肿瘤相关服务[5] 行业定位 - 公司致力于通过自有及合作医院网络提升中国癌症治疗的质量和可及性 专注于提供多学科癌症护理服务[4] - 作为特色肿瘤医疗服务提供商 业务涵盖癌症诊断/治疗/教育/预防全周期[4]
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 09:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]
Did Elon Musk Just Give Nvidia Investors 40 Billion Reasons to Cheer?
The Motley Fool· 2025-05-17 05:00
英伟达的市场地位与客户构成 - 英伟达的图形处理器被行业专家奉为训练生成式AI模型的金标准,其估计占据了GPU市场90%或以上的份额 [1] - 市场广泛推测,微软、Alphabet、亚马逊和Meta Platforms等云超大规模企业是英伟达最大的客户 [2] - 这些大型科技公司仅今年在AI基础设施上的支出预计就将远超3000亿美元,并且很可能是英伟达的重复客户 [3] xAI与英伟达的合作及规划 - 埃隆·马斯克的AI初创公司xAI正在开发名为Grok的大型语言模型,旨在与ChatGPT等竞争 [4] - 为训练其AI应用,xAI建造了名为Colossus的超级计算机,初始阶段使用了10万个英伟达GPU,随后其GPU集群规模扩大至20万个芯片 [4] - 马斯克表示,下一个训练集群的规模将是当前基础设施的五倍,即Colossus 2将需要100万个芯片 [6][7] - Colossus 2项目的总成本估计在250亿至300亿美元之间,而根据I/O Fund首席执行官Beth Kindig最近的报告,成本可能接近400亿美元 [7][8] - 考虑到英伟达芯片的平均售价在3万至4万美元之间,该项目成本达到数百亿美元是合理的 [8] 英伟达面临的竞争与增长前景 - 对英伟达投资的主要担忧之一是定制芯片的兴起,尽管超大规模企业目前都购买其GPU,但每家公司也都在内部开发自己的芯片 [9] - 此外,AMD在数据中心领域正迅速获得发展势头,这引发了对其当前增长轨迹的合理担忧 [9] - 华尔街对未来几年的营收和盈利预测显示,公司的增长可能开始出现一些减速迹象,但这对于一家面临竞争加剧的成熟企业而言是正常的 [11] - 财务预测的核心观点是,行业分析师仍预计英伟达在未来几年将保持增长 [12] - 如果xAI的支出接近上述估计成本的高端,则表明尽管竞争加剧,英伟达仍能保持一定的相对定价能力 [12] - 即使云超大规模企业开始减少对英伟达的依赖,并且AMD保持当前势头,英伟达仍处于独特地位,因为有像xAI这样的新兴客户愿意吸收传统客户的需求 [13] 英伟达的股票估值与投资观点 - 目前英伟达股票的市盈率接近一年来的最低水平,围绕关税、对华出口管制以及竞争加剧的担忧在短期内影响了这家半导体龙头 [14] - 基于上述预测以及马斯克对英伟达GPU的积极采购,公司满足需求应无太大困难 [14]
Meta delays release of flagship ‘Behemoth' AI model as engineers struggle: report
New York Post· 2025-05-16 07:15
Meta Platforms延迟发布Behemoth AI模型 - 公司因技术能力问题推迟旗舰AI模型Behemoth的发布,工程师难以显著提升其性能[1] - 内部员工质疑该模型相比早期版本的改进是否足以支持公开发布[1] Behemoth模型发布时间线 - 最初计划在4月Meta首届AI开发者大会期间发布[2] - 后内部目标推迟至6月,现进一步延迟至秋季或更晚[2][3] 模型技术定位 - 公司称Behemoth为"全球最智能的LLM之一"及"迄今最强大模型"[3][5] - 该模型被设计用于指导公司新一代AI模型的训练[3] 同期其他模型发布 - 4月已发布Llama系列新版本Llama 4 Scout和Llama 4 Maverick[5]