Workflow
大语言模型
icon
搜索文档
猫王音响创始人再回应怼雷军:我惹了一家我惹不起的公司;钟睒睒打新“椰子水”!上市首日赚300万港元;阿里赞助3支苏超球队丨邦早报
创业邦· 2025-07-01 07:47
阿里赞助苏超球队 - 淘宝闪购冠名苏超常州队,并发布5条支持理由:常州队是全国网友淘到的宝、阿里动物园想添恐龙、常州队像优惠券、助常州拿回失去的笔画、支持输过但没怕过的普通人 [2] - 支付宝冠名苏超徐州队,花呗赞助无锡队并喊出"花呗有41天无息期,支持无锡"口号 [2] OpenAI薪酬调整 - OpenAI首席研究官表示公司正在重新调整薪酬并寻找创造性方式奖励顶尖人才,以应对Meta挖角 [2] - 过去一周8名研究人员离开OpenAI加盟Meta,Meta提供1亿美元签约奖金 [2] 英伟达人才招募 - 英伟达CEO黄仁勋亲自招募两位中国AI专家朱邦华和焦剑涛,两人将围绕模型后训练等四大领域展开合作 [3][4] - 朱邦华毕业于清华和伯克利,焦剑涛为清华特奖获得者并获斯坦福博士学位 [3][4] 格力钛与格力电器 - 董明珠表示格力钛未转移债务且不影响格力分红,呼吁投资者再给三五年时间 [5] - 格力钛目前由格力电器副总裁方祥建操盘 [5] 小鹏汽车账期管理 - 何小鹏表示车企支付账期不超60天,认为下半年至明年行业风向会变好 [5][6] - 强调科技造车企业应有社会责任感,不应靠现金流压款 [5][6] 京东稳定币声明 - 京东澄清未开始发行稳定币,也未设立相关社区,所有获取京东稳定币信息均涉嫌欺诈 [6] 恒大汽车运营状况 - 恒大汽车以有限资金维持基本运营,通过削减员工和开支维持生产 [8] - 因资金不足无法确定2024年业绩刊发日期,股票继续停牌 [8] Meta人工智能布局 - Meta成立超级智能实验室,由Scale AI前CEO领导,新增11名AI研究人员 [9] - 团队将开发最先进模型和AI助手,成员来自OpenAI等公司 [9] 小米汽车动态 - 雷军回应何小鹏下单小米YU7,表示将加速生产力争早点交车 [9] - 小米YU7锁单超预期,雷军将于7月2日直播回答用户问题 [9] 大疆无人机电池 - 大疆回应民航局新规,称无人机电池不受影响且无需CCC认证 [11] - 新规仅针对充电宝,相机锂电池安检要求不变 [11] 腾讯游戏限玩政策 - 腾讯游戏暑期未成年人每周五、六、日20-21时可登录,7-8月共可玩27小时 [11][12] 苹果Siri改进计划 - 苹果考虑使用Anthropic或OpenAI技术改进Siri,可能搁置自研模型 [13] - 原计划2026年推出基于自研模型的全新Siri版本 [13] 微软AI芯片延期 - 微软AI芯片Braga量产推迟至2026年,因设计变更和团队人手不足 [14] - 五分之一工程师离职,芯片模拟测试不稳定需数月修复 [14] 日产汽车资金压力 - 日产寻求延迟付款给供应商以释放短期资金,曾在3月提出类似要求 [14] - 此举旨在增加4-6月季末现金储备 [14] 本田燃料电池计划 - 本田推迟日本下一代燃料电池模块工厂投产时间,降低初始产能 [14] - 原计划2028财年开始运营,年产量3万台 [14] LG电子收购扩张 - LG电子收购挪威热水储能公司OSO集团,拓展水加热业务 [16] - OSO以智能不锈钢热水储罐闻名 [16] 百度大模型开源 - 百度开源文心大模型4.5系列,含47B、3B等10款模型 [19] - 模型已在飞桨星河社区等平台开放下载 [19] 德国电动自行车电机 - 德国TQ推出全球最轻电动自行车电机HPR40,重1.17kg输出200W [19] - 采用谐波销环传动技术,强调效率和自然骑乘体验 [19] 昆明网约车新规 - 昆明要求网约车司机通过资格考试上岗,新能源车需满足价格要求 [20] - 纯电动车购置税计税价格10万元以上,燃油车15万元以上 [20]
云鼎科技:推进“人工智能+”行动 助力矿山企业智能化建设
齐鲁晚报· 2025-06-30 17:22
政府政策与行业趋势 - 政府工作报告提出持续推进"人工智能+"行动,强调数字技术与制造业、市场优势结合,支持大模型广泛应用 [1] - 公司积极响应政策,将"少人则安、高效可靠、实用实效"理念融入矿山智能化建设,为煤炭行业新质生产力发展提供解决方案 [1] 技术研发与合作 - 公司与山东能源集团、华为公司成立联合创新中心,建成人工智能训练中心,构建具备视觉、预测、NLP和多模态四大能力的盘古工业大模型 [1] - 基于百万张图片样本数据完成业界首个行业大模型训练迭代,模型准确率提升9%,召回率提升15% [1] - 累计研发126个典型应用场景,覆盖矿山、化工、油气、电力等行业,沉淀52项专利、38项软著、15篇论文 [1] - "矿山人工智能大模型研发及应用"成果经鉴定达到国际领先水平 [1] 应用场景与成效 视觉能力应用 - 对采掘工作面生产、胶带运输等关键流程实施智能监控,降低事故发生率 [2] - 实时监测人员不安全行为、设备运行缺陷、环境风险状态及施工质量指标,推动安全管理由被动防范向主动治理转变 [2] - 在兴隆庄煤矿部署10多个场景,每班减少18人以上现场岗位人员,实现从"人盯"到"技防"的跨越 [2] 预测能力应用 - 在煤炭洗选工艺环节分析建模,将经验沉淀为AI模型,实时预测最优工艺参数 [3] - 重介密控模型使精煤产率提升0.2%,济宁二号井煤矿实现精煤增产8000吨,增收400万元 [3] - 甲醇精馏装置工艺智能优化场景预计吨甲醇耗蒸汽量降低2%,年节约蒸汽成本200万元 [3] NLP技术应用 - 融合行业顶尖大模型,打造智能安全生产、智慧运营办公等核心业务应用 [4] - 实现业务知识问答、数据问询、文书生成等功能,企业整体办公效率提升20%以上 [4] 商业模式与推广 - 形成"试点单位建场景、内部企业验效果、标准复制促规模"的三步走战略 [4] - 在73家单位实现百余类视觉、预测场景落地应用,建成5000余个人工智能应用场景 [4] - 新场景开发周期由1-2月缩短为1-2周,大幅提升研发效率 [6] 行业转型方向 - 推动传统行业实现三大转变:从被动监管向本质安全转变、从传统管理向精益化管理转变、从分散重复向集约高效转变 [5] - 采用"工厂式"开发路径,以大模型为基础快速适应多样化应用场景 [6] 未来发展规划 - 纵向深耕矿山领域,按照"点、线、面"方向持续融合演进,提升智能化水平 [6] - 横向拓展化工、电力新能源、油气、制造等产业板块,开发高价值场景 [6] - 将AI技术应用到工业领域核心环节,为能源产业绿色高效发展注入新动力 [6]
百度文心大模型4.5系列正式开源,同步开放API服务
量子位· 2025-06-30 12:39
百度文心大模型4.5系列开源 - 公司正式宣布文心大模型4.5系列开源,同步提供API服务,涵盖10款模型,参数范围从0.3B到47B,覆盖文本和多模态任务[2] - 开源模型权重与代码完全开放,开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台下载使用[2] - 开源协议采用Apache 2.0,支持学术研究和产业应用[3][14] 模型技术特点 - 创新性提出多模态异构模型结构,适用于从大语言模型向多模态模型的持续预训练,提升多模态理解能力[5] - 使用飞桨深度学习框架进行高效训练和推理,模型FLOPs利用率达到47%[6][7] - 包含混合专家(MoE)模型和稠密型模型,参数丰富度高[4] 性能表现 - 文本模型在C-Eval、CMMLU、MMLU等基准测试中超越DeepSeek-V3、Qwen3等竞品,例如300B参数模型在C-Eval得分91.5,CMMLU得分91.2[8][10] - 多模态模型在视觉常识、多模态推理等评测中优于OpenAI o1,如VL-424B-A47B模型在MMBench-cn得分90.9,OCRBench得分872[12][13] - 轻量级21B文本模型效果与Qwen3相当,28B多模态模型达到同量级SOTA水平[13] 开发者支持 - 提供开箱即用的工具链,包括ERNIEKit开发套件和FastDeploy部署套件[17] - 飞桨平台广泛兼容多种芯片,降低后训练和部署门槛[15] - 实现框架层(飞桨)与模型层(文心)的"双层开源"[18] 公司AI战略布局 - 构建算力、框架、模型、应用四层全栈技术优势,飞桨为中国首个产业级开源深度学习平台[16][17] - 此次开源强化了公司在AI开源生态的领先地位,覆盖从学术到产业的完整链条[14][18]
港股AGI第一股,云知声今日IPO
36氪· 2025-06-30 10:07
公司概况 - 国内AGI龙头云知声历经13年发展,完成10轮融资累计超20亿元,投资方包括中网投、启明创投等知名机构 [1] - 公司于2024年成功登陆港交所,发行价205港元,净筹资2.06亿港元 [1] - 2012年成立时正值AI技术从科研转向商用,公司差异化布局AI语音赛道,覆盖物联网、医疗等领域 [1] - 技术研发领先:2017年突破Transformer算法,自研UniCore大语言模型,2023年推出600亿参数的"山海"大模型 [1] 财务表现 - 2022-2024年营收分别为6.01亿、7.27亿、9.39亿元,年复合增长率25% [2] - 同期亏损持续扩大:3.75亿、3.76亿、4.54亿元,三年累计亏损近12亿元 [2] - 研发投入居高不下:2024年研发开支达3.7亿元,占营收39.4% [2] - 销售成本增速快于营收:2024年销售及服务成本5.75亿元,同比增长32.7% [2] 业务结构 智慧生活板块 - 2024年营收7.4亿元,占总营收78.8%,同比增长27.8% [3][4] - 核心产品为个性化解决方案与AI能力API,覆盖智慧家居、交通、车载场景 [4] - 白色家电语音交互市场占有率70%,合作美的、格力等头部企业,覆盖700类家电产品 [5] - 语音AI芯片销量快速增长:2022-2024年分别销售1280万、2450万、3600万颗,年增速达91.4%、46.9% [6] 智慧医疗板块 - 2024年营收1.99亿元,市场份额2.1%,位列行业第四 [7][8] - 主要产品包括病历语音输入、质控系统等,客户留存率持续下降至53.3% [9] - 采取聚焦战略:2024年主要客户增至35家,单客户收入提升至120万元 [9] - 面临同质化竞争困境,头部企业市场份额分别为5.1%、4.5%、4.3% [7][8] 行业竞争 - 医疗AI行业存在产品同质化问题,技术壁垒难以建立 [11] - 医院信息化进入总包时代,千万级项目需系统性解决方案能力 [8] - 支付方缺失制约行业发展,DRG改革下医院IT预算收缩 [12][13] - 智慧家居与车载语音成为大模型时代产业热点,市场天花板较高 [6] 战略方向 - 资源向智慧生活板块倾斜,强化AGI和芯片业务推广 [15] - 医疗业务转向高客单价策略,但客户数量从242个降至232个 [9] - 面临赎回负债压力,IPO成为关键融资手段 [15]
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 12:23
软件3.0与AI范式变革 - Andrej Karpathy提出「软件3.0」概念,自然语言成为新编程接口,AI模型直接执行任务,标志着计算范式的根本转变[1][2] - 自2017年Transformer架构问世后,LLM领域快速发展,GPT系列和多模态应用迅速崛起[3] - 技术演进从传统编程转向自然语言交互,关键论文揭示了这一转变的内在逻辑[5] 奠基性论文与技术突破 Transformer架构 - 《Attention Is All You Need》提出Transformer架构,完全摒弃循环和卷积网络,依靠自注意力机制高效处理序列数据,成为现代AI基石[8][10] - Transformer的并行计算和位置编码能力使其在机器翻译等任务中表现优异,并广泛应用于NLP和计算机视觉领域[11] GPT系列与缩放定律 - GPT-3拥有1750亿参数,通过少样本学习在翻译、问答等任务中表现优异,确立了「大模型+大数据」的缩放定律[12][13] - GPT-3开创提示工程新范式,降低AI开发门槛,引领生成式AI浪潮[13] 强化学习与人类反馈 - 《Deep Reinforcement Learning from Human Preferences》提出RLHF技术,通过人类偏好训练奖励模型,成为对齐ChatGPT等LLM的关键[14][15] - InstructGPT结合RLHF技术,即使参数更小也能更好遵循指令,催生ChatGPT并确立行业标准[16][17][18] 高效训练与推理技术 计算优化 - Chinchilla论文挑战「模型越大越好」认知,提出计算最优缩放法则,模型参数与训练数据应同步增长[22][23] - LLaMA证明小模型通过更长时间训练可超越大模型,推动开源生态繁荣[27] 注意力与内存优化 - FlashAttention通过融合计算内核和优化内存使用,提升长序列处理效率,成为行业标准[29][30] - PagedAttention借鉴操作系统分页思想,提升LLM服务内存利用率,显著增加吞吐量[51][52] 多模态与开源生态 - LAION-5B提供58.5亿图文对数据集,推动多模态模型发展并降低研发门槛[56][58] - Mistral 7B通过GQA和SWA架构实现高效推理,成为开源社区标杆[55] 新兴趋势与前沿探索 - Mamba架构通过选择性状态空间实现线性时间序列建模,挑战Transformer地位[44][45] - QLoRA技术使消费级GPU可微调数十亿参数模型,推动社区创新[47][49][50] - 思想树(ToT)框架增强LLM复杂问题解决能力,推动推理技术发展[60][61] 行业影响与未来方向 - LLM能力随规模「涌现」,不可预测的新能力推动模型持续扩大[62][63] - 稀疏门控专家混合层(MoE)实现万亿参数模型训练,成为顶尖LLM核心技术[70][71][72] - 开源框架如DeepSpeed和Megatron-LM突破硬件限制,支撑超大规模模型训练[65][67][68]
深圳首个完全由高校独立研发的人形机器人,“南科盘古”亮相;Meta寻求290亿美元融资,全力押注AI数据中心建设丨AIGC日报
创业邦· 2025-06-28 17:04
Meta AI数据中心融资计划 - Meta计划筹集290亿美元资金用于AI数据中心建设 其中30亿美元为股权融资 260亿美元为债务融资 [1] - 融资合作方包括阿波罗全球管理 KKR Brookfield 凯雷和太平洋投资管理公司等顶级私募机构 [1] - 该融资可能成为规模最大的私人融资项目之一 目前正在讨论债务结构设计方案 [1] DeepSeek应用下架事件 - 德国数据保护专员要求苹果和谷歌下架中国AI公司DeepSeek的应用 理由是数据安全担忧 [2] - 德方指控DeepSeek存在非法传输用户数据至中国的情况 但未设定具体处理时限 [2] - 谷歌已收到通知正在评估 苹果暂未回应 中方此前已反对将科技问题政治化的做法 [2] 南科大人形机器人研发突破 - 南方科技大学推出完全自主研制的"南科盘古"人形机器人 实现从设计到系统的全链条自主研发 [3] - 该机器人具备拟人仿生机械臂 集成多模态大模型技术 支持双臂协同操作 导航 物体识别等复杂功能 [3] - 这是深圳地区首个由高校独立完成的人形机器人项目 具备智能拍照和类人社交行为等交互能力 [3] Runway拓展游戏AI业务 - AI视频公司Runway正在开发支持生成视频游戏的交互式AI工具 正式进军游戏行业 [4] - 该工具定位为面向消费者的产品 标志着公司业务范围从视频生成向游戏开发领域扩展 [4] 产业信息服务 - 提供人形机器人 商业航天 AGI等热门赛道的行业图谱和研究报告等深度内容 [2] - 会员服务包含公司查询 项目检索等功能 活动期间赠送产业日报订阅 [2]
ChatGPT,救了我的命
虎嗅· 2025-06-28 13:51
ChatGPT在户外导航中的应用 - ChatGPT成功引导迷路的ATV骑行者安全返回,通过接收GPS坐标提供清晰的指南针指示、道路名称和地形信息 [2][3] - 多模态大语言模型(如ChatGPT 4o)能够解读户外场景图片并回答指路问题,例如通过识别地标和空间关系准确描述目标位置 [7][9] - 在GeoGuessr游戏中,AI仅凭图片细节推理就能实现准确的地点辨识,但存在被用户上下文信息误导的幻觉问题 [10][11] 技术优化与研究成果 - 通过设计提示词(如让模型回答"我不知道")可减少AI在导航任务中的幻觉现象,提高可靠性 [12] - 大语言模型结合语义地形成本网格和经典路径规划算法(如A*、RRT),能将路径规划效率提高66%到87% [18] - 发表在arXiv的研究表明,优化后的提示词可帮助大语言模型在复杂地形中生成更可靠的导航路径 [13][15] 技术局限性 - AI导航依赖大量训练数据和地图数据库,在无人区或数据不完备区域可能失效或产生错误判断 [16] - 真实复杂环境下AI的幻觉问题可能导致严重误判,需谨慎依赖 [17][19] - 当前技术仅支持简单的户外微型导航任务(如方向指引),无法完全替代专业导航工具 [15][19]
航空发动机用上大模型:解决复杂时序问题,性能超越ChatGPT-4o实现SOTA|上交创智复旦
量子位· 2025-06-28 12:42
核心观点 - ITFormer是一种高效、可迁移的时序-语言桥接架构,将专家诊断过程抽象为"理解、感知、推理、决策"四个认知层次,并首次系统性地定义为"时序问答"任务范式[3] - ITFormer以模块化设计实现了时序数据与大语言模型的高效融合,仅需训练不足1%的额外参数,便可在通用时序问答数据集上表现出优越的性能和良好的迁移能力[3] - ITFormer在EngineMT-QA数据集上预训练后性能大幅提升,在全部五项任务上均达到SOTA水平,其中"因果分析"准确率高达0.83[4] - ITFormer展现了卓越的"即插即用"特性,可无缝适配多种时序编码器和大语言模型[3][28] 技术难点 - 高维数据的语义提取:单个时序样本可包含数万个数值(如32通道×600时间步),如何从中提取出有效的语义特征是首要难题[6] - 抽象语义的对齐建模:时序信号的模式变化与物理系统的状态转换之间的对应关系高度抽象,难以直接建模[6] - 多尺度时间依赖的处理:时序数据中的关键信息可能分布在不同的时间尺度上,模型必须具备处理多尺度依赖的能力[7] ITFormer架构与关键模块 - 时间令牌位置编码(TPE):在时间步、通道和时序片段三个层次上进行位置编码,确保模型能区分不同时间点、不同传感器以及不同数据段的语义信息[12] - 可学习指令令牌(LIT):在文本查询前添加一组可学习的令牌,通过自注意力机制从自然语言查询中自动捕获并浓缩任务相关的语义信息[13] - 指令时间注意力(ITA):通过通道指令融合和时间指令注意力两阶段过程实现跨模态对齐,显著提升计算效率[14][16] - 时间令牌即语言(TAL):将ITA融合后的时序特征向量直接视为语言令牌,无缝嵌入到LLM的输入序列中[15] EngineMT-QA数据集设计 - 基于真实的工业应用场景设计,任务层次反映了专家处理时序数据的认知过程,包含理解、感知、推理、决策四个层次[19][20] - 数据规模:包含超过11万对高质量问答数据,源于NASA N-CMAPSS标准数据集[20] - 数据维度:覆盖32个传感器通道,每个样本包含600个时间步[20] 性能表现 - 在EngineMT-QA数据集上,ITFormer-7B在"推理"任务上的准确率达到88.69,在"决策"任务上的BLEU得分为38.68,全面超越ChatGPT-4o、Gemini等基线[22][23] - 消融实验表明,TPE对模型性能的提升最为关键,ITA与TPE的结合能够产生显著的协同效应[24][25] - 在TimeSeriesExam基准测试中,ITFormer在"因果分析"任务上的准确率达到0.83,优于GPT-4o和Gemini-Pro[29][30][31] 应用前景 - ITFormer及EngineMT-QA为时序AI社区提供了新的研究范式和宝贵资源,在工程和科学领域均具有广阔的应用前景[33] - ITFormer的架构设计兼顾了高性能与高效率,为大规模实时应用提供了可能[32]
DeepSeek-R2为什么还没发?
量子位· 2025-06-27 16:09
DeepSeek-R2项目延期原因 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺导致多次延期[1][2] - 研发受阻主因包括:英伟达H20芯片供应不足(R1训练消耗3万块H20、1万块H800和1万块H100)[3][4] 技术迭代与市场预期 - V3-0324版本升级被实测证实性能显著提升,引发市场对R2的早期预期(2023年12月V3发布后即开始酝酿)[5][6][7] - R1模型基于V3-Base架构开发,强化了V3与R系列的技术关联性[8][9] - 4月DeepSeek联合清华发布SPCT论文,提出通过在线RL优化奖励模型的方法,但未直接推动R2发布[12][13][14] 时间线与关键事件 - 原预期节奏:参照R1在V3发布1个月后上线,市场推测R2将于2024年4月面世[11] - 实际进展:4月仅泄露参数(传1.2T参数、5.2PB数据),5月发布解决硬件瓶颈的论文及R1-0528版本(LiveCodeBench表现接近OpenAI o3-high)[17][20][21][23][24] 行业反馈与技术推测 - 用户对延期态度分化:部分认为"值得等待",部分推测需等待V4版本发布[28][30] - 当前技术瓶颈:V3可能已达性能极限,需新一代基础模型支撑R2开发[31][32]
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 22:19
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] 产业化落地现状 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon的TUG系列实现药品、文件和餐食自主配送[3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成目标导航模块,特斯拉Optimus展示端到端操作能力[3] 技术发展代际 - 第一代端到端方法:基于强化学习与模仿学习,在PointNav和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,在零样本ObjectNav任务中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,当前重点为设计场景表征接口[7] Habitat仿真生态 - 2020年CVPR提出PointNav基准后,评测体系扩展至ImageNav、ObjectNav及移动抓取任务,形成技术闭环[4] - 视觉预训练模型提升特征泛化能力,DDPPO框架使PointNav任务SPL指标显著提升,LLM解决部分开放词汇导航难题[4] - Meta AI的Sim2Real迁移框架为仿真到真实部署提供方法论,CMU与Stanford推动动态环境语义地图更新技术[4] 技术挑战与课程设计 - 学习路径需整合自然语言处理、计算机视觉、强化学习和场景图知识,面临论文碎片化与实战闭环缺失的挑战[9] - 课程覆盖三代技术演进路径(端到端/模块化/LLM融合),包含Habitat仿真生态解析及VLFM算法复现等实战环节[15][16][24] - 学员将掌握零样本导航、开放词汇识别等关键技术,理解Sim2Real部署流程,具备论文级算法改进能力[31]