Workflow
Large Language Model
icon
搜索文档
清华最新ADRD:自动驾驶决策树模型实现可解释性与性能双突破!
自动驾驶之心· 2025-07-04 18:27
自动驾驶决策系统发展现状 - 自动驾驶决策模块对可解释性要求日益提高,深度学习虽为主流方法但存在非分布场景性能下降、决策逻辑难解释等问题[1] - 基于规则的系统具备透明性优势,但依赖专家知识且对复杂环境适应性有限[1] ADRD框架核心创新 - 结合大语言模型(LLM)与规则决策系统,通过自然语言处理实现驾驶策略生成[2] - 框架包含信息模块(场景/规则转换)、代理模块(决策树构建)、测试模块(闭环验证)三部分[5][7] - 采用规划器-编码器-汇总器协作机制,支持策略生成、代码转换及迭代优化[7][13] 技术实现细节 - 规划器通过系统提示、驾驶目标、历史记录生成策略,示例显示变道决策优先考虑左车道安全性[8][9][10] - 编码器将文本策略转为可执行代码,决策树可视化便于专家调试[16] - 汇总器分析碰撞报告定位策略或代码问题,实现闭环改进[19] 实验验证结果 - 在Highway-v0场景测试中,ADRD平均安全驾驶时间达25.15秒(普通密度),显著优于PPO(10.9秒)和DiLu(23秒)[21][22] - 极端密度(3.0)下仍保持13.55秒安全驾驶时间,控制效率达<1.0×10^-6秒/指令[22] - 激进风格决策树深度比保守风格增加37%,反映不同驾驶偏好对策略复杂度的影响[23] 行业应用价值 - 框架同时解决传统方法在性能、响应速度(推理效率提升1000倍)和可解释性上的缺陷[26] - 决策树结构支持人工干预,为自动驾驶系统调试提供新范式[12][16]
自研大模型遥遥无期,苹果 Siri 正考虑转向 OpenAI 技术合作
环球网· 2025-07-01 14:08
人工智能策略调整 - 苹果正考虑放弃自研内部AI模型,转而与Anthropic及OpenAI合作,评估将这两家公司的大语言模型应用于Siri语音助手的可能性 [1] - 苹果要求合作方训练适配苹果云基础设施的专用模型版本,以强化用户隐私保护 [1] - 若合作达成,苹果将放弃原定2026年基于自研"Apple Foundation Models"升级Siri的计划 [1] 外部模型测试与谈判进展 - Siri负责人麦克・洛克威尔主导外部模型测试,结果显示Anthropic的Claude模型表现优于ChatGPT [4] - 苹果企业发展副总裁阿德里安・佩里卡已启动与Anthropic的谈判,但Anthropic提出每年数十亿美元且逐年激增的授权费要求 [4] - 若谈判未达成一致,苹果可能转向OpenAI或其他合作商 [4] 内部研发与团队动态 - 苹果AI负责人约翰・詹南德雷亚主导的"LLM Siri"项目仍在推进,但进度缓慢,基础模型团队约有100人 [4] - 苹果软件工程主管克雷格・费德里吉与洛克威尔支持外部合作,认为在自有模型劣势下不应排斥第三方技术 [4] - 策略调整已导致苹果顶级工程师汤姆・冈特离职,开源AI框架MLX背后的团队也有辞职想法 [4] - 苹果内部编码模型已终止,Xcode转向使用ChatGPT或Claude [4] 人才竞争与未来展望 - Meta和OpenAI为AI开发人员提供的薪水可能是苹果的两倍多,加剧人才竞争压力 [5] - 若Siri合作顺利落地,未来苹果更多功能可能转向第三方合作,AI团队处境或将更加艰难 [5]
生物学专属ChatGPT来了:对话式AI智能体——ChatNT,能够理解DNA、RNA和蛋白质语言
生物世界· 2025-06-27 15:36
核心观点 - ChatGPT 掀起大语言模型浪潮后,InstaDeep 公司开发了 ChatNT,一款能理解 DNA、RNA 和蛋白质序列信息并用自然语言对话的多模态对话智能体 [2] - ChatNT 解决了生物学研究中的两大痛点:模型过多和编程门槛高 [6] - ChatNT 在多项生物信息学基准测试中表现优异,创造了新的 State-of-the-Art [17][19] - 这项研究标志着生物学 AI 研究进入新阶段,提供了革命性的交互范式 [22][24] 生物学研究痛点 - 模型海:每个任务需单独训练和维护模型,效率低下且阻碍知识共享 [6] - 编程墙:专业模型需要编程技能,限制了没有计算机背景的生物学家的使用 [6] ChatNT 技术架构 - 由 DNA 编码器和英语解码器两部分组成 [8] - DNA 编码器:Nucleotide Transformer v2 模型,5 亿参数,在 850 个物种基因组上预训练 [8] - 英语解码器:Vicuna-7B 模型,70 亿参数,基于 LLaMA [8] - 通过英语感知投影层实现关键连接,能动态筛选和提炼最相关信息 [9][10] 工作原理 1. 用户用英语提问并标记序列文件 [11] 2. DNA 编码器分析序列生成深度特征 [12] 3. 英语感知投影提取相关信息并转换格式 [12] 4. 英语解码器生成自然语言答案 [13] 5. 返回答案给用户 [14] 性能表现 - 在 Nucleotide Transformer Benchmark 上平均 MCC 达 0.77,比之前最佳专用模型提高 8 个百分点 [17] - 一个模型同时处理 18 项不同任务,解决"一任务一模型"困境 [19] - 在基因组指令数据集 27 项任务中多数表现优异: - 预测 RNA 多聚腺苷酸化位点比例 PCC 达 0.91,优于 APARENT2(0.90) [19] - 预测蛋白质熔点 PCC 达 0.89,优于 ESM2(0.85) [19] - 能识别关键生物学特征,如剪接供体位点的"GT"二核苷酸和启动子的"TATA-box"基序 [20] 行业意义 - 实现"对话式"生物信息学,大幅降低 AI 工具使用门槛 [22] - 证明统一模型处理多种生物序列任务的可行性,迈向通用型生物学 AI 模型 [22] - 模块化架构允许未来集成更强大的编码器和对话模型 [22] - 为解读基因突变提供新途径,可能直接分析突变对疾病的影响 [22] - 将加速生命科学探索进程,使生物信息学分析更直观高效 [24]
RoboSense 2025机器感知挑战赛正式启动!自动驾驶&具身方向~
自动驾驶之心· 2025-06-25 17:54
赛事背景与目标 - 赛事旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[2] - 面对动态人群、恶劣天气、传感器故障等复杂环境,传统感知算法性能大幅下降[2] - 由新加坡国立大学、南洋理工大学等全球顶尖研究机构联合主办,并获IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[4] - 第一阶段截止日期为2025年8月15日,第二阶段截止日期为9月15日[4] - 颁奖典礼将于2025年10月19日在IROS 2025杭州主会场举行[4] 五大核心赛道技术要点 语言驱动的自动驾驶 - 任务要求构建端到端多模态驾驶模型,输入视觉序列与自然语言指令,输出规划轨迹[11] - Baseline模型Qwen2-5-VL需4块NVIDIA A100 GPU,迭代周期约12小时,感知准确率75-5%[16] - 挑战包括多模态融合建模、语言泛化能力及弱感知条件下的鲁棒性评估[17] 社交导航 - 目标实现基于RGB-D输入的移动机器人导航,需符合人类社交规范如避让老人、保持安全距离[18] - Baseline模型Falcon需4块RTX 3090 GPU,成功率55-84%,社交合规指标PSC达89-47[21] - 关键难点包括动态行为建模、非显式社交规则编码及多主体不确定性处理[19] 传感器布局优化 - 首次系统评估LiDAR不同安装位置对3D感知模型性能的影响[23] - Baseline模型BEVFusion-L单卡RTX 4090需16小时训练,mAP达48-8%[28] - 研究方向包括结构对齐模块、Point-to-Ray Alignment Loss等抗视角漂移方法[27] 跨模态无人机导航 - 任务需建立语言描述与俯视图间的语义映射,Baseline模型GeoText-1652检索R@1仅13-6[34] - 核心挑战为空-地视角转换带来的纹理缩放、建筑遮挡等语义对齐问题[33] 跨平台三维目标检测 - 要求3D检测模型在车辆、无人机等不同平台保持性能,Baseline模型ST3D车辆AP@0-5为33-7%[42] - 需解决Domain Gap显著、平台感知对抗机制缺失等跨平台适配问题[41] 赛事资源与奖项 - 提供多源多模态真实场景数据及统一评测平台[13] - 总奖金池超10,000美元,设置一等奖5,000美元及创新奖等专项奖励[42] - 所有完成有效提交队伍均可获得官方参赛证明[42]
AI巨头,国际化大动作!
中国基金报· 2025-06-25 09:33
科大讯飞国际化战略升级 - 公司以香港为"桥头堡"启动国际化战略升级,发布基于讯飞星火大模型的医疗、教育、会议、办公等多领域AI产品香港版及国际版[4] - 公司在香港设立国际总部和国际研究院,与香港大学签署合作协议,计划开拓东南亚、"一带一路"及海外市场[4][5] - 公司自2024年11月成为香港特区政府引进重点企业办公室重点企业,积极筹备在香港发展[4] 香港创新科技发展 - 香港数码港作为数字科技枢纽和人工智能加速器,汇聚超过2200家企业,其中400家专注于人工智能和数据科学[6] - 数码港拥有全港规模最大的人工智能超算中心,推动产业生态圈发展和数字化转型[6] - 香港特区政府引进办表示将支持重点企业在港拓展,共同打造具有全球竞争力的创科枢纽[6] 公司在港发展成果 - 讯飞医疗在落户数码港半年后成功在香港交易所主板上市,成为香港市场医疗大模型第一股,并被纳入恒生综合指数成份股[6] - 公司智能语音技术在香港立法会落地应用,提升政务营运效率,推动智慧政府发展[6] - 公司技术应用与香港创新科技发展方向高度契合,特别是在智慧医疗领域提高医疗服务效率[6]
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 21:15
核心观点 - 高效混合架构设计结合MoE架构与Lightning Attention的模型MiniMax-M1,支持百万级上下文窗口(1M tokens),生成长度达80K tokens时FLOPs仅为传统注意力模型的25%[2] - 超越DAPO的算法CISPO通过剪裁重要性采样权重提升RL效率,相比DAPO实现2倍加速[2] - 可扩展上下文支持从40K到80K Token生成长度的扩展[2] 当前面临的挑战 - 计算精度偏移:训练与推理阶段的计算精度差异导致Token概率偏移,需将LM头部输出精度提升至FP32以对齐概率分布[4] - 长生成稳定性问题:长文本响应容易出现输出不稳定,被截断的问题[5] - 奖励模型不稳定:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制[5] 核心方法 - 混合注意力架构:采用I/O感知的线性注意力计算,通过分块计算和内存优化,将长序列复杂度降低,每7层Lightning Attention后插入1层Softmax Attention[8] - CISPO算法:通过重要性采样权重裁剪保留所有token梯度,避免PPO/DAPO对关键低概率Token的奖励得分偏低[9][10][11] - 分阶段RL数据混合:从规则验证任务逐步过渡到通用领域任务,避免灾难性遗忘[13] - 持续预训练与SFT优化:在7.5T token上扩展STEM、代码数据占比至70%,采用语义去重和分层上下文扩展(32K→1M token)[13] 性能表现 - AIME 2024准确率86.0%(开源模型第二),MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5[14] - OpenAI-MRCR (128k)表现76.1,OpenAI-MRCR (1M)表现58.6[14] - TAU-bench (airline)表现60.0,TAU-bench (retail)表现67.8[14] 数据与训练 - 预训练增强:在7.5T token上扩展STEM、代码数据占比至70%[13] - 监督微调:注入长链式思考模式,数学/编程数据占SFT数据的60%[13] - 上下文长度渐进扩展:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口[13]
1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心· 2025-06-13 12:31
开源LLM推理引擎优化 - vLLM是由加州大学伯克利分校团队开发的高性能开源LLM推理和服务引擎,旨在提升LLM的推理速度和资源利用率,兼容Hugging Face等流行模型库[2] - vLLM通过创新的PagedAttention注意力机制实现方案,使GPT、Mistral、LLaMA等主流模型系列运行更快且消耗更少资源[3] - DeepSeek AI研究者俞星凯开发了轻量级vLLM实现Nano-vLLM,代码简化至1200行,在GitHub上获得200多Star[4][5] Nano-vLLM技术特性 - Nano-vLLM具备三大核心功能:快速离线推理(速度与vLLM相当)、易读代码库(Python代码少于1200行)、优化套件(提供Prefix缓存、Torch编译等功能)[6][7][8] - 基准测试显示,Nano-vLLM与vLLM输出token相同(133,966个),时间略长(101.90秒 vs 98.95秒),吞吐量稍低(1314.65 tokens/s vs 1353.86 tokens/s)[11] - 测试配置为RTX 4070硬件、Qwen3-0.6B模型,256个序列请求,输入输出长度在100-1024 tokens间随机采样[10] 开发者背景 - Nano-vLLM开发者俞星凯现任DeepSeek深度学习系统工程师,参与过DeepSeek-V3和DeepSeek-R1开发[13] - 曾就职于腾讯、幻方(DeepSeek母公司)和字节跳动,2023年正式加入DeepSeek[14] - 此前开发过植物大战僵尸Qt版(GitHub 270+ Star)及多个南京大学计算机项目[13]
大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制
机器人圈· 2025-06-11 19:43
大模型理解能力研究 - 核心观点:大语言模型(LLM)和多模态大语言模型(MLLM)能够自发形成与人类高度相似的物体概念表征系统,证明其并非仅依赖统计概率的"随机鹦鹉"[1][2][3] - 研究团队通过470万次行为判断数据构建AI模型的"概念地图",证实其低维表征结构与人类相似[3][6][8] - 纯文本训练的ChatGPT-3.5与多模态Gemini模型预测人类行为选择的准确度分别达到噪声上限的87.1%和85.9%[9] 研究方法与发现 - 采用"三选一异类识别任务"分析1854种日常概念组合,首创"行为认知探针"方法避免黑箱神经网络的可解释性难题[5][8] - 从行为数据中提取66个核心维度,模型自发形成18个高级物体概念类别,分类准确率达78.3%(接近人类的87.1%)[9][13] - 模型表现出与人类一致的"生物/非生物""人造/自然"分类边界,印证认知神经科学经典发现[14] 模型与人类认知对比 - MLLM的低维嵌入预测大脑梭状回面孔区(FFA)神经活动的准确度达人类水平的85%,远超纯文本模型(60%)[23][24] - 大模型(如GPT-4、Gemini_Pro)在行为选择模式上更接近人类,传统单模态模型(如ResNet18、VGG16)一致性较低[28][29] - 人类决策依赖视觉特征和语义信息整合,而大模型更侧重语言驱动的语义归类[32][33] 应用前景与未来方向 - 潜在应用包括类脑智能系统开发、神经机制探索、认知增强型脑机接口构建[35] - 下一步将拓展至新一代多模态大模型测试平台,建立细粒度"认知图谱"并开发持续微调方法[35][36] - 研究团队由中科院自动化所主导,论文发表于《Nature Machine Intelligence》,相关代码与数据集已开源[37][39][40]
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
量子位· 2025-06-10 15:35
核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成,显著缓解LLM多任务训练中的"偏科"现象,提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响,优化训练集配比,而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升,且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - **问题建模**:引入变量β显式建模训练集优化问题,目标是最小化验证集损失函数,公式包含参数二阶矩阵逆运算 [5][7] - **高效计算**:采用K-FAC理论近似简化Hessian矩阵逆运算,筛选模型"重要层"参数降低计算量,通过超参数m控制调整比例 [8] - **配比优化**:数据分布配比比数据量更关键,不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - **领域覆盖**:在4领域4 benchmark和5领域8 benchmark测试中,IDEAL均优于人工经验配比,验证其普适性 [11] - **参数选择**:超参数m推荐值为0.15,过小影响优化效果,过大偏离原始分布 [15] - **对比基线**:相比DoReMi和DOGE等re-weighting方法,IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题,替代人工经验调整,具有工程实用价值 [14] - 为LLM多任务训练提供理论框架,指导数据集的科学构建与优化 [4][5]
Concord Healthcare Announces Official Release of the Proton Therapy Large Model
Prnewswire· 2025-05-30 04:30
公司动态 - 和康医疗集团自主研发的质子治疗领域垂直大语言模型(LLM)正式发布并成功部署于广州和康肿瘤医院[1] - 该质子LLM是中国首个专注于质子治疗的LLM 整合了近10000例高质量放疗病例构建多模态医疗数据[2] - 质子治疗在广州和康肿瘤医院已完成多例高质量患者治疗案例 展现出精准治疗、显著疗效和减少副作用等突出优势[1] 技术进展 - 质子LLM研发依托和康医疗多年积累的肿瘤诊疗技术体系和海量数据 同时整合了质子中国及专业期刊文献数据以增强模型训练效果[2] - 质子治疗系统作为公司癌症医院配备的先进技术设备之一 体现了公司在精准放射治疗领域的技术实力[4] 资本市场 - 和康医疗集团H股已于2024年1月9日在港交所主板上市 股票代码2453HK[3] - 母公司Concord Medical Services Holdings Limited在纽约证券交易所上市 股票代码CCM[1] 业务模式 - 和康医疗通过自有医疗机构为癌症患者提供全周期肿瘤医疗服务 同时通过医疗设备/软件及相关服务为第三方医疗机构提供支持[5] - 自有医疗机构采用多学科专家团队和精准放射治疗技术 提供涵盖诊断/治疗/教育/预防的全方位肿瘤医疗服务[4][5] - 第三方服务包括医疗设备销售安装、软件服务、管理技术支持以及经营租赁等一体化肿瘤相关服务[5] 行业定位 - 公司致力于通过自有及合作医院网络提升中国癌症治疗的质量和可及性 专注于提供多学科癌症护理服务[4] - 作为特色肿瘤医疗服务提供商 业务涵盖癌症诊断/治疗/教育/预防全周期[4]