Workflow
Transformer架构
icon
搜索文档
告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
机器之心· 2025-08-13 17:29
本文一作赵海,上海交通大学计算机学院长聘教授、博士生导师,上海交通大学通用人工智能(AGI)研究所所长。研究兴趣:自然语言处理、人工智能和大模 型。据 MIT 主办的世界大学计算机学科排行榜 csrankings 数据统计,上海交通大学计算机学科排名国内第三,赵海教授在其中的 AI 和 NLP 方向的论文贡献度第 一,占整个交大标准发表总量 1/4。Google Scholar 引用 11900 次。2022、2023、2024 年,连续入选爱思唯尔高被引学者。 本文二作伍鸿秋,赵海教授 2020 级博士生;本文三作杨东杰,赵海教授 2022 级博士生;本文四作邹安妮,赵海教授 2022 级硕士生;本文五作洪家乐,赵海教授 2024 级硕士生。 当前 GPT 类大语言模型的表征和处理机制,仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下,人类大脑直接在分布式的皮层区域中编码语 义,如果将其视为一个语言处理系统,它本身就是一个在全局上可解释的「超大模型」。 因此,为了解决现有基于 Transformer 大模型的三个主要缺陷:算力需求高、不可解释性的黑箱、上下文规模受限,上海交通大学团队刚刚发布 ...
深聊GPT-5发布:过度营销的反噬与AI技术突破的困局
虎嗅· 2025-08-12 17:05
GPT-5终于来了,但似乎我们并没有距离AGI更近一步。在8月7日发布会上,除了PPT图表错误、代码 bug、用已被"证伪"的理论解释物理现象,OpenAI口中的"最强AI模型"不仅没有颠覆性的技术突破,反 而让Transformer架构的弱点进一步被验证。但有一说一,GPT-5依然是有进步的合格AI产品,接下来 OpenAI将用更激进的商业化战略稳住市场,在教育、健康医疗和编程三大应用场景快速布局。这期视 频,我们将深度剖析GPT-5开发的技术逻辑与商业策略。GPT-5的开发过程遭遇了哪些技术瓶颈,最后 又选择了什么架构来破局?更重要的是,GPT-5会是AI泡沫破灭的开始吗?Scaling law已经碰壁,人类 突破AI发展瓶颈还能依靠何种技术路径? ...
国泰海通|产业:AI Agent的技术演进与产业洞察
AI Agent技术演进与产业洞察 核心观点 - AI Agent的未来发展核心在于以大语言模型(LLM)为"大脑"的范式革命,其商业价值通过解决行业痛点的垂直应用和开发平台体现 [1] - AI Agent正在重塑软件开发与人机交互范式,从传统架构演进为以LLM为核心的现代范式,具备自主规划、环境感知与工具调用能力 [1] - 多智能体协作时代开启,多个专业Agent协同解决宏大问题,驱动从上游基础模型到下游应用的完整产业链形成 [1] 技术架构演进 - 传统Agent架构(如审议式和反应式)受限于硬件和预编程规则,自主性与适应性有限 [2] - 2017年Transformer架构的出现为LLM崛起奠定基础,彻底重塑AI Agent设计理念 [2] - 现代LLM-based Agent核心架构由三大模块构成:大脑(LLM)、感知和行动 [2] - LLM-MAS(大语言模型多智能体系统)通过多个专业Agent协作/竞争,解决单个Agent处理超复杂任务的局限性 [2] 产业链格局 - 上游由少数科技巨头掌控,提供基础大模型和算力,主导交互协议制定,抢占生态话语权 [3] - 中游涌现开源开发框架和商业平台,通过低/无代码界面显著降低开发门槛 [3] - 下游应用分为两类: - 通用型Agent:自主完成复杂多步任务 - 垂直型Agent:深度融合行业知识(软件开发/法律/金融/医疗等),展现巨大商业价值 [3] 发展挑战与未来方向 - 当前面临LLM规划推理能力不足、上下文窗口受限、记忆瓶颈、多Agent协同及评估困境等挑战 [3] - 未来依赖基础LLM持续进化、多模态感知能力普及、软硬件生态重构,向AGI迈进 [3]
明显感觉程序员的面试已经变了。。
猿大侠· 2025-07-23 11:25
行业趋势与职业发展 - 传统技术岗位(如Java、C++、前端)从业者面临AI大模型技术冲击,需将现有技术与大模型结合以提升竞争力 [1] - AI应用落地是未来趋势,大模型方向成为职业升级和薪资提升的关键机遇 [1] - 行业出现裁员、降薪现象,但掌握AI能力的工程师更受市场青睐 [1] 课程内容与结构 - 课程采用「代码逐行解构+实战项目操练」双轨模式,覆盖大模型微调、RAG、AI Agent、Transformer架构等核心技术 [9][11] - 五大学习模块:基础→工具→进阶→竞赛→实战,构建完整学习路径 [9] - 案例拆解包括金融行业支小助、知乎直答等商业化应用,提供一手数据资源和项目复现机会 [16] 技术应用与实战 - 聚焦主流大模型(如DeepSeek、Qwen)的微调技术,优化特定场景(制造、医药、金融)的模型性能 [11] - RAG技术应用于垂类场景(法律文档分析、医疗诊断辅助、金融报告生成),提升信息提取精准度 [11] - AI Agent开发涵盖多任务协同与自主决策,如制造业设备故障诊断、金融投资分析等场景 [11] 学员成果与就业支持 - 课程已服务20000+学员,部分学员通过内推获得高薪offer [11][20] - 提供大厂内推+直聘权益,简历直达面试官,加速职业跃迁 [15][20] - 完课赠送《大模型应用案例集》《AI商业落地白皮书》,助力技术迭代与职业发展 [1][20] 课程附加价值 - AI领域大佬授课,揭秘大厂真实案例(如知乎直答底层原理)并分享商业化项目经验 [18] - 剖析大模型招聘行情(岗位、薪资、技术迭代),规划职业发展路径 [20] - 限时免费预约,名额仅限100-200人,强调紧迫性以吸引潜在学员 [13][20]
最近,程序员的招聘市场已经疯掉了。。。
程序员的那些事· 2025-07-22 11:48
行业趋势与职业发展 - 传统Java、C++、前端等技术开发者面临职业转型压力,大模型技术兴起引发行业焦虑 [1] - AI与传统技术结合成为关键趋势,掌握AI能力的Java工程师更具市场竞争力 [1] - 大模型方向是实现职业升级和薪资提升的重要机遇,AI应用落地是未来趋势 [1] 课程内容与结构 - 课程采用「代码逐行解构+实战项目操练」双轨模式,覆盖从0到1的AI应用开发全流程 [1] - 五大模块构建完整学习路径:基础→工具→进阶→竞赛→实战 [8] - 核心技术包括RAG、AI Agent、Transformer架构、Fine-tuning等 [8] - 热门项目拆解涵盖金融行业支小助、知乎直答等商业化案例 [15] 技术应用与实战 - 主流大模型微调技术(如DeepSeek、Qwen)针对制造、医药、金融等领域优化 [10] - RAG技术应用于法律文档分析、医疗诊断辅助、金融报告生成等垂类场景 [10] - AI Agent开发实现多任务协同与自主决策,案例包括制造业故障诊断、金融投资分析 [10] 学员成果与资源 - 课程已开班58期,服务20000+学员,多人获得高薪offer [10] - 提供一手数据资源和项目资料,学员可复现全流程积累实战经验 [15] - 完课赠送《大模型应用案例集》《AI商业落地白皮书》等资料 [19] 职业支持与机会 - 行业大佬深度解析大厂招聘行情、薪资水平及技术迭代方向 [17][19] - 提供企业内推+直聘权益,简历直达大厂面试官 [14][19] - 课程限时免费预约,名额仅限200人,24小时后关闭通道 [12][19]
就业市场跌爆了。。
菜鸟教程· 2025-07-21 11:09
行业趋势与职业发展 - 传统技术岗位(如Java、C++、前端等)从业者因大模型技术兴起(如GPT、DeepSeek)面临职业转型压力,需将现有技术与AI结合以提升竞争力[1][2] - AI应用落地是未来趋势,掌握大模型技术的开发者更易实现职业升级与薪资提升[3] - 行业普遍存在裁员、降薪现象,但大模型方向仍被视为职业发展的关键机遇[3] 课程内容与结构 - 课程采用「代码逐行解构+实战项目操练」双轨模式,覆盖从0到1的AI应用开发流程[4] - 五大模块包括基础、工具、进阶、竞赛、实战,构建完整学习路径[7] - 核心技术涵盖RAG、AI Agent、Transformer架构、Fine-tuning等,并聚焦主流模型(如DeepSeek、Qwen)的微调技术[7][9] - 实战项目涉及垂类场景优化(如金融、医疗、制造业),提升任务准确性与效率[9] 课程附加价值 - 提供大厂真实案例拆解(如知乎直答、金融行业支小助),学员可复现项目并积累实战经验[14] - 赠送《大模型应用案例集》《AI商业落地白皮书》等资源,助力技术商业化应用[4][14] - 包含内推机会与直聘权益,简历直达大厂面试官,已帮助部分学员实现高薪offer[16][18] 市场反馈与招生 - 课程已开班58期,服务20000+学员,口碑良好且部分学员成功获得高薪岗位[11] - 本期招生限200人(后调整为100人),24小时后关闭报名通道,强调紧迫性[13][18] 目标人群与诉求 - 面向希望参与前沿项目、构建技术壁垒、避开裁员风险或延长职业生命周期的开发者[13] - 课程解决技术迭代、职业规划等需求,帮助学员从竞争者中脱颖而出[13][18]
AI三问③模型之问 | 直面模型之问,以大爱共塑 AI 未来 ——WAIC 2025 大模型论坛以问题破局引领技术革新
36氪· 2025-07-17 11:21
2025世界人工智能大会(WAIC)核心内容 - 2025年7月26日至28日在上海世博中心等地举办 聚焦"AI三问"框架:数学之问(公理推演)、科学之问(实证研究)、模型之问(技术落地) 三者协同推动跨领域创新 [3] - 商汤科技承办7月27日"大爱无疆・模塑未来"大模型论坛 贯穿"模型之问"主题 聚集全球专家探讨模型本质难题 [3] 跨国界技术交流亮点 - 活动打造跨国界跨架构交流平台 聚焦"泛化性瓶颈与模型底层范式关联"问题 分析架构设计固有局限 探索技术突破路径 [4] - 汇集全球顶尖企业技术专家与高校学者 促进不同技术路线智慧碰撞 为解决大模型技术瓶颈提供多元视角 [4] 架构革新与产业应用 - 探索Transformer与非Transformer架构融合路径 研究跨模态智能的语义鸿沟问题 优化文本/图像等多模态融合技术 [5] - 直击"性能-开销曲线优化"痛点 研究降低训练能耗同时保持性能的方案 重点关注轻量化架构与非Transformer可能性 [5] - 学术界探讨推理时扩展架构性能边界 产业界展示工程化优化方案 促进理论研究与产业实践互动 [5] 全球技术共识与发展方向 - 产学研领袖共同探讨高阶智能实现障碍 分析复杂推理/自主决策等认知短板成因 形成包含中国智慧的技术方案 [6] - 海内外专家围绕算力优化/跨模态语义破解等议题凝聚共识 推动AI从技术竞争转向协同破题的新模式 [6] 大会配套内容 - 推出首份刊物《WAIC UP!》定位为"AI时代进化指南" 汇集跨领域先锋力量探讨技术跃迁与未来文明 [7][8][10]
特斯拉、英伟达机器人背后的“卖水人”
虎嗅APP· 2025-07-06 11:31
具身智能行业现状 - 具身智能行业目前处于"乱世"阶段,尚未形成稳定格局 [3][45] - 数据成为具身智能军备竞赛的核心资源,被比喻为"石油" [5][23] - 珠三角地区是全球机器人供应链核心,也是数据采集的重要基地 [3][5] Transformer架构的技术突破 - Transformer架构实现了从专用AI向通用AI的转变,使机器人具备环境理解和适应能力 [12][14] - 该架构通过大规模数据训练出现"涌现"效应,实现空间理解能力的质变 [12][13] - 特斯拉率先将Transformer应用于自动驾驶,验证了纯视觉方案的可行性 [15][16] - 架构支持多任务学习和在线学习,使机器人能处理复杂时空序列数据 [13][17] 机器人模型技术路线 - 世界模型路线(如谷歌PaLM)收敛快但泛化能力弱,适合特定场景 [18] - 分层混合架构(如Figure.AI)分工明确,适合复杂环境和高精度操作 [19] - 中美技术路线差异:美国擅长模型开发,中国强于硬件快速迭代 [20] 机器人数据业务模式 - 公司专注真实场景数据采集,已积累十万小时数据,目标百万小时级 [26][29] - 采用"人穿戴设备"方式采集,每小时可获500-1000条高密度数据 [28] - 商业模式类似Scale AI,但增加了数据采集和验证环节 [25] - 数据业务可能成为具身智能领域最快实现商业闭环的环节 [22][23] 创业策略与团队建设 - 创始人采用"第一性原理"思维,借鉴马斯克和黄仁勋的商业逻辑 [47][49] - 团队搭建注重长期信任关系和成员适应能力,耗时半年 [42] - 短期目标以季度为单位迭代,通过细化实现长期愿景 [46] - 创业面临从学术思维向商业思维转变的挑战 [31][39] 行业未来挑战 - 行业进入者增多导致竞争加剧,出现重复造轮子现象 [51] - 客户需求不断变化,需要快速调整业务方向 [51] - 需在"乱世"中找到独特定位,坚持数据核心战略 [45][51]
特斯拉、英伟达机器人背后的“卖水人”
虎嗅· 2025-07-06 07:01
具身智能行业现状 - 具身智能行业目前处于早期发展阶段,被称为"乱世"阶段[1] - 珠三角地区是全球机器人供应链的核心区域,聚集了大量硬件供应链和数据提供商[1] - 数据类"卖水人"正在崛起,专注于提供机器人与真实物理交互的数据[1] - 真实物理交互数据成为具身智能军备竞赛的核心资源,被比喻为"机器人是引擎,数据是石油"[3] 赛源公司概况 - 赛源是特斯拉、英伟达等公司在人形机器人领域的合作商之一[1] - 公司专注于提供机器人与真实物理交互的数据服务[1] - 客户包括英伟达、特斯拉、OpenAI的人形机器人项目,以及谷歌和斯坦福李飞飞的机器人模型训练实验室[1] - 公司计划成为特斯拉最大的数据端供应商[3] - 目前拥有约十万小时的真实场景数据,计划扩大到100万小时量级[29] 技术路线分析 - Transformer架构实现了具身智能的质变,主要体现在空间理解能力、泛化能力和范式转变等方面[10][11] - 特斯拉率先将Transformer架构应用于自动驾驶,为具身智能提供了重要借鉴[14][15] - 当前机器人模型主要分为两类:世界模型和分层混合架构模型,各有优劣[18][19] - 中国在硬件制造和快速迭代方面具有优势,美国更擅长大脑模型开发,两者可形成互补[20] 数据采集策略 - 公司专注于真实场景数据采集,而非仿真数据[25][26] - 通过开源社区和设备供应商合作建立数据采集共享平台[26] - 在工厂等真实生产环境中采集高密度数据,每小时可采集500-1000条有价值数据[28] - 已建立包含几十家合作公司的生态网络,包括工厂和小作坊等[29] 商业模式与竞争 - 数据可能是具身智能中最快完成商业闭环的环节[21][22] - 公司定位为具身智能界的Scale AI,但更注重数据采集和验证[24] - 商业模式包括数据采集、标注、清洗和模型初期验证等环节[24] - 面对大公司竞争,采取与头部机器人公司建立友好合作关系的策略[22][23] 创业历程与团队 - 创始人具有学术背景,曾参与NASA火星登陆项目和DARPA挑战赛[4] - 创业动机是获取更快速真实的业界反馈,推动具身智能发展[30] - 获得香港科技大学教授高秉强的天使投资[33] - 团队搭建耗时半年,注重成员适应能力和内驱力[40] - 采用"创始人模式",强调对行业的深入理解和清晰战略方向[34] 行业发展趋势 - 具身智能行业正在经历从"专用AI"向"通用AI"的转变[13] - 数据的重要性已成为行业共识,吸引更多公司进入该领域[48] - 行业仍处于早期阶段,存在大量机会和挑战[1][48] - 需要找到独特定位,专注于核心优势领域才能在竞争中脱颖而出[48]
华尔街嗅到量子投资机遇 热门“量子计算概念股”Rigetti Computing喜获“增持”
智通财经· 2025-07-02 22:20
量子计算行业动态 - 华尔街顶级投资机构Cantor Fitzgerald首次覆盖Rigetti Computing并给予"增持"评级 目标价定为15美元 盘初股价涨幅一度达6%至12美元 [1] - 全球量子计算仍处于萌芽阶段 但被视为最具潜力的技术里程碑之一 未来将产生巨大经济影响 [1] - 英伟达 微软 IBM等科技巨头已斥巨资布局量子计算赛道 相关公司股价与市值出现显著扩张 但当前估值处于"高企"模式 [1] - Rigetti Computing近期完成3 5亿美元按市价增发的新股发行 以增强资产负债表基本面 [2] 量子计算技术进展 - 谷歌Willow量子芯片在基准测试中展示惊人性能 5分钟内完成传统超级计算机需10^25年完成的任务 [3] - 目前尚未实现可精准控制量子态且能大规模商业化的量子计算 距离"最终形态"仍有很大差距 [3] - 量子纠缠是实现海量并行计算的关键 但当前技术无法实现大规模 长期稳定的量子纠缠 [4] - 英伟达CEO黄仁勋预测量子计算机处理能力将每5年增加10倍 每10年增加100倍 [4] - 思科推出用于量子计算机互联的芯片原型 并设立新实验室探索量子计算领域 [6] 科技巨头布局 - 英伟达宣布举办"量子日"活动 并计划与全球量子计算公司深度合作 [5] - 微软预测2025年为"量子就绪之年" IBM则致力于融合量子比特与传统算力硬件 [5] - 谷歌 IBM 微软 亚马逊等科技巨头持续深耕量子计算底层理论与硬件体系 [8] - IonQ新任CEO表示希望成为量子计算领域的英伟达 推动整个生态系统发展 [8] 商业化前景 - 量子计算领域可能出现类似AI领域Transformer架构的范式转变 从理论走向商业化应用 [7] - 离子阱技术 量子退火计算机等领域取得突破性进展 为商业化奠定基础 [7] - 科技巨头的人才储备 资金实力及政府支持或将加速量子计算商业化进程 [8]