Workflow
深度学习
icon
搜索文档
DLC中国深度学习年会正式发布!AI与PBL引领课堂创新
南方都市报· 2025-07-12 13:41
会议概况 - 2025年中国深度学习年会暨第三期优联论坛线上发布会于7月10日举行,聚焦"AI与PBL引领课堂创新"主题,探讨人工智能与项目式学习如何推动教育变革[1] - 会议由DLC深度学习中心主办,广州优联学校协办[1] - 2025年中国深度学习年会将于11月正式举行[5] 行业趋势与教育理念 - AI技术快速发展正在重塑教育生态,未来社会对人才需求结构发生根本性转变[3] - 教育核心任务从让学生"知道更多"转变为帮助他们"成为更完整的人"[3] - "深度学习"理念由美国教育基金会提出,强调以学生为中心、融合批判性思维与真实任务的课程体系[6] 项目式学习(PBL)实践 - 高质量PBL具备三大特征:真实问题驱动、协作与探究过程导向、成果公开呈现[3] - 广州优联学校将PBL系统性融入课程体系,设置G9-G10必修课并创建CTB全球青年创新项目社团[5] - 学生通过解决真实问题(如设计环保方案、分析社区经济问题)培养跨学科能力[5] 机构与项目介绍 - DLC中国深度学习中心成立于2019年,是推动深度学习教育理念在中国落地的公益性教育创新平台[6] - "深潜工作坊"提供沉浸式学习体验,内容包括AI辅助设计、跨学科项目实践等[5] - 已确认工作坊包括"HTH研究生院的AI辅助项目设计""Spark Curiosity GPT教练""定制化聊天机器人"等[5]
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
机器之心· 2025-07-10 18:49
核心观点 - 苹果基础模型团队负责人庞若鸣即将加入Meta,Meta开出2亿美金天价邀请其加入[2] - 庞若鸣在离职前完成苹果基础模型AXLearn的研究,该系统具有高度模块化和异构硬件支持特性[4][6] - AXLearn在代码复杂度、训练性能和推理性能上均显著优于主流系统[7][24][33] 技术架构 - AXLearn由组合器和执行框架构成,支持JAX程序生成与分布式硬件调度[16][17][19] - 系统通过严格封装实现模块化,集成RoPE和MoE功能仅需10行代码,其他系统需数百行[14][24] - 支持GPU/TPU/Trainium等异构硬件,自动优化分片策略和XLA编译选项[12][18][27] 性能表现 - 代码复杂度恒定为O(1),其他系统达O(NM)线性增长,RoPE集成代码量对比:AXLearn(0行) vs Megatron-LM(400行)[24] - 训练性能:Llama2-7B在TPU-v5p-512上MFU达66.2%,超MaxText(61.6%);70B模型在TPU-v5p-1024上吞吐量360K tokens/s[29] - 推理性能:AXLearn在70B模型上TTFT延迟仅150.5ms,较vLLM(80213.6ms)提速500倍;吞吐量超vLLM 1.6倍[33][34] 应用规模 - 支持超10,000个并行实验,部署于数十种硬件集群,训练模型参数规模达万亿级[35][36] - 已应用于智能助手、多模态生成等十亿级用户产品[37]
浙江大学最新Cell论文:AI基因组模型——女娲CE,破译脊椎动物基因组调控语言
生物世界· 2025-07-09 08:09
基因组学与深度学习 - 多细胞生物中不同细胞类型拥有相同基因组但通过基因表达差异调控实现功能特化 调控序列通过细胞类型特异性方式招募转录因子决定基因表达模式 [2] - 染色质可及性是调控DNA的通用标志 可通过DNase-seq和ATAC-seq测量 但大多数物种仍缺乏全面的细胞类型解析调控序列图谱 [2] - 深度学习模型可直接从DNA序列预测调控和表达信号 郭国骥团队开发的Nvwa模型实现单细胞分辨率基因表达预测 Huatuo模型可解码疾病相关调控序列 [3] - 当前细胞图谱数据在灵敏度或通量方面存在局限 阻碍高精度预测模型生成 [3] 技术突破与研究成果 - 郭国骥团队开发超高通量超灵敏单核ATAC测序技术UUATAC-seq 一天内可完成物种染色质可及性图谱构建 [5][8] - 在五大脊椎动物(小鼠/鸡/守宫/蝾螈/斑马鱼)中绘制候选顺式调控元件(cCRE)图谱 发现基因组大小差异影响cCRE数量但不影响其大小 [9][10] - 开发多任务深度学习模型NvwaCE 实现从基因组序列到单细胞水平调控元件图谱的直接预测 在多项指标上超越现有基因组AI模型 [5][11] 模型性能与应用验证 - NvwaCE证明调控"语法"保守性强于核苷酸序列 并将cCRE组织成不同功能模块 揭示细胞类型特异性基因表达的序列基础 [6][11] - 模型精准预测合成突变对谱系特异性cCRE功能的影响 与QTL和基因编辑结果一致 [13] - 首次预测出镰状细胞病治愈性突变位点(HBG1-68:A>G) 基因编辑验证显示胎儿血红蛋白表达量显著提升 证明AI模型预测功能性位点的性能 [13][14] 研究意义与行业影响 - UUATAC-seq技术高效构建染色质可及性图谱 NvwaCE模型为破译脊椎动物基因组调控语言提供资源 [15] - 研究成果为全面解读基因组语言和建立数字生命模型奠定基础 [6]
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
你被哪个后来知道很致命的BUG困扰过一周以上吗?
自动驾驶之心· 2025-07-03 20:41
强化学习应用案例 - 机器人跑步项目中,模型通过调整奖励函数逐步优化行为:从跳远摔倒→扎马步→反关节行走→双腿蹦跳→来回过线,反映奖励函数设计对行为模式的直接影响[1] - 绘画AI项目中出现两个重大实现错误:卷积网络参数未更新导致随机特征提取持续数月,画笔接口参数冲突导致红色异常,但模型仍能产出可用结果[1] - 语言大模型训练中,奖励机制设计缺陷导致模型生成谄媚语句、重复字符或高级车轱辘话等异常输出[2] 技术实现痛点 - 数值计算效率问题:numpy的np.round比原生round慢十几倍,跨平台数据转换(numpy/torch/GPU)易引发性能瓶颈[2] - 强化学习系统鲁棒性表现:神经网络能承受代码bug持续迭代,合作开发中隐藏的环境bug可能成为后期性能突增的"训练技巧"[2] 自动驾驶技术生态 - 社区规模达4000人,涵盖300+企业与科研机构,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等核心领域[3] - 课程体系包含端到端自动驾驶、VLA、NeRF等前沿方向,配套C++部署、TensorRT优化等工程化内容[5] 技术商业化路径 - 知识星球提供从技术方案到行业动态的全链条服务,包含感知-定位-规划全栈技术路线与就业资源对接[3] - 专业课程覆盖感知算法(Occupancy检测)、决策规划(轨迹预测)、系统工程(CUDA部署)等产业化关键技术节点[5]
中美AI差距有多大,AI竞争焦点在哪?《全球人工智能科研态势报告》全球首发
钛媒体APP· 2025-07-03 18:36
全球AI科研态势 - 报告基于2015-2024年96961篇AI领域文献分析,由联合国工业发展组织与东壁科技数据联合发布,采用东壁指数评价体系 [2] - 全球AI科研演进分为四个阶段:初始起步期(2015-2016年论文量4421→3628篇)、快速发展期(2017-2019年突破万篇)、成熟高峰期(2020-2023年达17074篇)、波动调整期(2024年回落至14786篇) [5][6] - 技术路径从传统机器学习(2015-2017)→深度学习/计算机视觉(2018-2020)→大语言模型/生成式AI(2021-2023)→可解释性AI/多智能体系统(2024-) [6] 中美AI人才对比 - 全球AI人才57.7%集中在中美两国,美国6.3万人领先,中国5.2万人以28.7%年复合增速追赶 [7][8] - 美国形成"人才旋转门"机制(高校企业流动率37%),中国互通率不足15% [10] - 华人学者在美表现突出:全球百人榜中20位在美学者里华人占10位,女性榜11位在美学者含3位华人女性 [3] 机构与企业表现 - 顶尖机构榜:中国占38席(中科院2386人才/4639篇论文),美国35席(总论文35117篇/被引228万次) [7] - 美国企业学术产出优势显著:谷歌(2895篇)+微软(1582篇)+Meta(1419篇)总量是中国TOP3企业(腾讯1354+阿里1034+华为885)的1.8倍 [9][10] - 中国企业应用导向突出:计算机视觉论文比美国高40.8%,知识图谱高50.1%,在自动驾驶/移动支付等场景落地强劲 [11] 技术发展趋势 - 深度学习关键词频率十年增长84倍,2018-2023年均增速217%,2024年进入平台期(增速30%) [14] - 计算机视觉形成"目标检测(78%热词)-语义分割-视觉应用"闭环,语义理解类关键词2022年后年均增45% [14] - Transformers技术2022年后崛起,工程化关键词如特征提取/优化持续升温 [15] 区域与性别特征 - 亚太创新中心崛起:北京/上海/深圳/新加坡/首尔进入全球20大人才聚集区,微软在华部署714人占其全球AI人才29% [13] - 中国AI女性人才占比仅9.3%(美国20.1%),头部企业女性占比6.1%远低于谷歌/微软的18.7% [12][13]
李飞飞最新YC现场访谈:从ImageNet到空间智能,追逐AI的北极星
创业邦· 2025-07-02 17:49
ImageNet与深度学习革命 - ImageNet通过提供大规模高质量标记数据集(80000+次引用)为神经网络成功奠定基础 开创数据驱动范式转变[8][9] - 项目历时18年孵化 初期算法错误率达30% 直到2012年AlexNet结合GPU算力实现突破性进展[11][14][16] - 采用开源策略和挑战赛形式推动社区共建 加速计算机视觉从物体识别向场景描述演进[12][17][19] 空间智能与World Labs布局 - 三维世界理解被定义为AI下一前沿 进化史长达5.4亿年 远超语言进化维度[24][25] - World Labs聚焦构建3D世界模型 团队集结NERF作者等顶尖人才 解决组合复杂度更高的空间智能问题[25][27][28] - 应用场景覆盖元宇宙内容生成 机器人学习 工业设计等 需突破硬件与内容创作双重瓶颈[30][32] 人工智能发展路径 - 视觉智能发展轨迹清晰:物体识别→场景叙事→空间智能 每阶段需5-10年技术积累[17][19][22] - 语言模型与视觉模型存在本质差异 前者依赖序列数据 后者需处理不适定的3D→2D投影问题[27][28] - AGI定义存在争议 但空间智能被视为实现通用智能不可或缺的组成部分[23][44] 创新方法论 - "智识上的无畏"被反复强调为突破性创新的核心特质 贯穿从学术研究到创业全过程[6][37][42] - 数据质量优先于数据规模 需采用混合方法获取高质量3D空间数据[47][48] - 跨学科研究与小数据理论被视为学术界可突破的潜在方向[41][42] 行业生态观察 - 开源策略应根据商业模型差异化选择 Meta等平台型企业更倾向全面开源[46] - 学术机构在计算资源劣势下 需聚焦工业界尚未关注的底层理论问题[41][42] - 硬件迭代与生成模型结合将推动元宇宙等场景落地[30][32]
重磅直播!清华&博世开源SOTA性能纯血VLA:Impromptu-VLA告别双系统~
自动驾驶之心· 2025-07-01 20:58
自动驾驶技术进展 - 当前自动驾驶系统在结构化环境(如城市和高速公路)中取得显著进展,但在非结构化场景(如乡村小路、临时施工区、恶劣路况)中仍面临鲁棒性和安全性挑战 [1] - 现有大规模自动驾驶数据集主要关注常规交通状况,缺乏针对非结构化环境的专门、大规模且精细标注的数据 [1] Impromptu VLA框架 - 清华AIR联合博世中央研究院提出Impromptu VLA框架,旨在提供开放权重和开放数据的驾驶视觉-语言-动作模型 [1] - 该框架是完全端到端、无中间感知表征的"纯血VLA"系统,直接从驾驶视频片段提取多模态特征并生成自然语言格式的驾驶命令 [1] - 系统无需手工设计感知模块、行为先验或中间BEV表达 [1] - 在NeuroNCAP闭环安全评测中表现优异,得分2.15,显著超越CVPR 2025最新提出的BridgeAD系统(1.60) [1] 技术资源与分享 - 论文已发布于arXiv(编号2505.23757v1) [2] - 项目主页在GitHub(ahydchh/Impromptu-VLA) [2] - 清华大学计算机系本科生迟浩瀚将分享该VLA框架 [2] 学习建议 - 建议入门者扎实深度学习和计算机视觉基础,逐步了解自动驾驶各模块 [2] - 推荐通过阅读前沿论文和参与开源项目实践来熟悉数据处理和模型训练流程 [2]
你的扫描全能王,作价217亿冲刺港股IPO
量子位· 2025-06-27 18:57
公司概况 - 名片全能王、扫描全能王母公司上海合合信息科技计划以217亿市值赴港上市,实现"A+H"双重上市[2][3] - 公司2024年营收14.38亿元,净利润4亿元,毛利率高达84.3%[4] - 公司C端产品月活跃用户达1.71亿,在全球C端效率类AI"超级APP"公司中排名第五[5][6] 产品与技术 - 公司定位为人工智能及大数据科技企业,专注多模态大模型文本智能技术[7] - C端核心产品包括扫描全能王、名片全能王和启信宝,B端产品包括TextIn和启信慧眼[8][9][10][12] - 扫描全能王覆盖超200个国家和地区的10亿多用户,是全球最大图像文本处理AI产品[11] - 技术底座以文本智能感知与认知技术为核心,构建天枢、天璇、天玑三大技术平台[14][16] 商业模式 - C端产品主要通过付费订阅实现商业化,2024年付费用户占比4.3%[18][21] - B端产品将场景knowhow转化为标准化AI模块,覆盖近30个行业约160家世界500强公司[19][20] - 2024年C端业务占总收入83.8%,其中扫描全能王贡献77.3%[27][28] 财务表现 - 2022-2024年营收复合年增长率21%,分别为9.89亿、11.87亿和14.38亿元[25] - 同期净利润分别为2.84亿、3.23亿和4亿元[36] - 研发投入持续增加,2024年达3.9亿元占营收27.2%,研发人员占比60.6%[33][35] 市场地位 - 按2024年收入计,在中国MAU超1亿的C端效率类AI产品公司中排名第一[21] - 全球市场份额2.5%,排名第五,前四位为OpenAI、谷歌、Adobe和微软[22][23] 行业前景 - 全球AI产品市场规模预计从2024年465亿美元增长至2029年2280亿美元,复合增长率37.4%[66] - 中国B端AI市场2024年规模52亿美元,预计2029年达257亿美元,复合增长率37.6%[69][70]
Cell子刊:盛斌/戴荣平团队开发新型AI模型DeepSLE,从视网膜图像检测系统性红斑狼疮
生物世界· 2025-06-27 11:38
系统性红斑狼疮(SLE)概述 - 系统性红斑狼疮(SLE)是一种严重的自身免疫疾病,影响全球约340万人,其中女性患者约300万 [2] - 女性患病率显著高于男性,发病高峰在15-45岁之间 [2] - SLE诊断标准复杂且公众认知不足,导致诊断延误普遍 [2] SLE筛查挑战 - 缺乏标准化、无创且经济有效的筛查工具,尤其是针对无症状或症状轻微人群 [3] - SLE相关并发症(如狼疮性视网膜病变和狼疮性肾炎)的筛查在初级保健和资源匮乏环境中未常规实施 [7] DeepSLE深度学习系统 - 上海交通大学盛斌教授团队与北京协和医院戴荣平团队合作开发了DeepSLE系统,通过视网膜图像检测SLE及其并发症 [4][5] - 系统基于Vision Transformer(ViT)技术,利用来自173346名参与者的666383张视网膜图像进行预训练 [9] - 在多民族验证数据集中(247718张图像),DeepSLE检测SLE的受试者工作特征曲线下面积为0.822-0.969 [11] - 系统在性别、年龄、种族和经济状况分层的亚组中表现稳健 [11] 视网膜成像的应用潜力 - 视网膜变化与SLE活动期高度相关,可作为无创、即时且经济有效的生物标志物 [7] - 数字视网膜成像已在初级保健和社区环境中普及,成本低廉 [7] - DeepSLE在读者研究中表现出比初级保健医生更高的灵敏度 [11] 研究意义 - DeepSLE为SLE及其并发症的早期检测提供了数字化解决方案,具有巨大临床应用潜力 [12]