Workflow
速递|AI编程争夺战,GPT-4.1用32KToken输出上限碾压前代,却藏50%准确率滑坡
Z Potentials· 2025-04-15 12:57
图片来源: Unsplash OpenAI 于 4月 14 日, 推出了名为 GPT-4.1 的新模型系列,新 AI 模型专注于编码。 GPT-4.1 面世之际,正值 OpenAI 的竞争对手如谷歌和 Anthropic 加紧研发高级编程模型。 谷歌最新发布的 Gemini 2.5 Pro 同样具备 100 万 token 上下文窗口,在主流编程基准测试中名列前 茅。 Anthropic 的 Claude 3.7 Sonnet 与中国 AI 初创公司深度求索升级的 V3 模型亦表现不俗。 包括 OpenAI 在内的许多科技巨头的目标,是训练能够执行复杂软件工程任务的人工智能编码模型。 正如首席财务官 Sarah Friar 上个月在伦敦的一次科技峰会上所言, OpenAI 的宏伟抱负是创造一 个"自主软件工程师"。该公司宣称,其未来的模型将能够端到端地编程整个应用程序,处理质量保 证、错误测试和文档编写等方面。 GPT-4.1 是朝着这个方向迈出的一步。 "我们根据直接反馈优化了 GPT-4.1 ,以在实际应用中改进开发者最关心的领域:前端编码、减少无 关的编辑、可靠地遵循格式、遵守响应结构和顺序、一致的工具 ...
Z Event|字节、阿里、腾讯、大疆同学下班一起吃个饭?上海深圳线下AI饭局报名中
Z Potentials· 2025-04-15 12:57
时间:4月14日周一晚7点 地点:北京(具体地点报名后通知) 人数:6-7人 人群:大厂、创业公司产品/技术、创业者 主题:AI Agent 时间:4月18日周五晚7点 地点:上海(具体地点报名后通知) 人数:6-7人 人群:大厂、创业公司产品/技术、创业者 主题:AI 内容娱乐 时间:4月21日周一晚7点 地点:深圳(具体地点报名后通知) 人数:6-7人 人群:大厂、创业公司产品/技术、创业者 主题:AI 硬件 让我们来一场小而美的聚餐吧! 这是一个交流想法、分享经验、拓展人脉的绝佳机会。 报名截止:活动前一日晚8点,名额有限,先到先得。 我们会根据大家的背景和诉求,进行合理的组合,确保每个人都能有所收获。 期待与你共度一个愉快而有意义的夜晚! E設:Al Agent 4月18日晚7点:上海场 主题:AI 内容娱乐 -----------END----------- 我们正在招募新一期的实习生 扫码报名: 欢迎大厂、创业公司产品/算法、《潜在)创业者 帶着你最近的收获、新的想法 起吃饭聊聊天! 注:每场不超过8人,根据报名背景进行合理组合 4月14日晚7点:北京场 我们正在寻找有创造力的00后创业 关于 Z ...
独家|AI员工主导PH产品发布,00后团队如何14天内斩获近百万美金订单?
Z Potentials· 2025-04-15 12:57
我们中的许多人已经在 Product Hunt 上发布了一段时间,越来越多的人开始质疑那里的受众是否真实, toB 的产品是否仍然值得在他们的平台上发布。 上个月,我们刚刚发布了自己的最新产品,因此我想在这里分享我们的第一手经验,主要包括以下三点: | Launch tags: § Marketing · Artificial Intelligence · Influencer marketing | | 2 | | Ch | | --- | --- | --- | --- | --- | | 00 | Meet the team | | Show more V | | 关 于 Ah a.Inc 世界上第一个全天候致力于达人营销的 multi-agent team ,其内置扩展功能适用于任何行业。无论是提高品牌知名度、推动销售还是促进业务增长,我们的 人工智能团队都能提供超出预期的效果。 在 Product Hunt 上获得了 日榜第一,周榜第二以及 Marketing 月榜第一 团队成员 我是 Luvian , Aha 的市场负责人,我和团队一起策划并执行了 Aha 在 Product Hunt 上的发布活 ...
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位· 2025-04-15 11:54
STI-Bench团队 投稿 量子位 | 公众号 QbitAI 多模态大语言模型(MLLM)在具身智能和自动驾驶"端到端"方案中的应用日益增多,但它们真的准备好理解复杂的物理世界了吗? 上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型(MLLM)时空智能评测基准 STI-Bench(Spatial-Temporal Intelligence Benchmark),向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。 结果显示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型,在需要定量分析真实世界空 间关系和动态变化的任务上,表现并不尽人意。 从语义理解到时空智能 MLLM在视觉语言理解上成就斐然,并被寄望于成为具身智能和自动驾驶的"端到端"解决方案。但这要求模型超越传统的语义理解,具备精准 的时空智能。 试想AI应用场景中的需求: 自动驾驶: 需知晓与前车的精确距离(米)、行人过马路的速度(米/秒)、安全过弯的车速限制等。 机器人操作: 需判断目标物体的尺寸位 ...
英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
量子位· 2025-04-15 11:54
文章核心观点 华为用纯昇腾集群训练出的盘古Ultra,参数量135B,训练零英伟达含量且无损失尖峰,性能优异,能与DeepSeek - R1竞争,采用关键技术并经多阶段训练实现高效训练 [1][2][5] 分组1:盘古Ultra性能表现 - 作为135B密集模型,达到同尺度最优,可与参数量更大的MoE模型竞争 [5] - 预训练评测中,在绝大部分英文基准任务和全部中文任务上性能最佳,优于Llama 405B、DeepSeek - V3等模型 [5] - 在MMLU、TriviaQA、GSM8K等数据集上展现卓越语言理解和推理能力 [6] - 指令调优后,在AIME 2024、MATH - 500等数学推理任务和LiveCodeBench等编程竞赛题上达SOTA水平 [7] - 综合超越GPT - 4o、Mistral - Large 2等模型,与DeepSeek - R1竞争激烈 [8] - 在Arena Hard、MMLU - pro等评测中表现优异 [9] 分组2:盘古Ultra关键技术 - 采用分组查询注意力(GQA)机制,含96个查询头和8个键值头 [12] - 模型架构改进采用深度缩放的Sandwich - Norm层归一化,消除训练loss尖峰,使训练平稳 [12][13] - 引入深度缩放机制,对Post - Norm中的放缩参数γ进行深度相关初始化 [16] - 采用TinyInit参数初始化策略,依据模型深度和宽度缩放初始化权重标准差,避免梯度问题,加速收敛 [18] - 针对Tokenizer优化,得到153376个token的平衡词表 [18] 分组3:盘古Ultra训练流程 - 训练分预训练、长上下文扩展和指令调优三个阶段 [20] - 预训练分通用、推理、退火三个子阶段,使用大量中英文通用语料,采用数据清洗和curriculum learning策略,用AdamW优化器并动态调参 [21][22] - 预训练后在最长128K的长上下文数据上训练,扩大RoPE基频实现长序列建模 [25] - 指令调优阶段用监督微调(SFT)和强化学习(RL)使模型适应下游任务 [26] 分组4:盘古Ultra训练设施与优化 - 使用8192个昇腾AI处理器组成的大规模计算集群,节点通过HCCS和RoCE网络互联 [27] - 采用数据并行、张量并行、序列并行和流水线并行等并行策略组合 [28] - 使用ZeRO分布式优化器,降低单个设备内存占用 [32] - 通过算子融合、通信计算重叠等技术,最小化通信开销,提升计算效率,实现52%以上算力利用率 [33][36]
北京队再上大分:新AI一句话就能搞开发,代码实时可见 | 免费可用
量子位· 2025-04-15 11:54
金磊 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 什么?! 现在随便一个 完全不懂编程 的人,都可以开发完整网站了??? 你没看错,现在搞开发啊,真的就是 一句话的事儿 。 例如你想做一个fashion一点的 电商网站 ,那么你只需要来上一句: 我想开发一个完整的电商网站,风格要fashion一点的。 然后啊,这个AI就开始思考你需求的意图了。 但毕竟咱们Prompt过于简单了,于是乎,这个AI还贴心地基于需求,给出了诸多 细节选项 ,包括: 响应式设计,适配不同设备 商品分类和搜索功能 购物车和结算功能 用户评价和评分系统 你只需要根据你想要的功能"点点点",并 提交选定的方案 即可。 接下来的工作, 统统交给这个AI 就可以了——"唰唰唰"的自己就开始编程: 嗯,完整,着实是有点完整:一口气直接输出5个页面。 而且从刚才操作的整个过程来看,我们需要做的就真的只有 提需求+点点点 。 那么这到底是何方AI是也? 不卖关子,它正是北京初创企业 海新智能 最新发布的AI零代码开发平台—— 响指 。 (最出乎意料的地方在于,它它它竟然是个国企!) 或许这时候,你已经发现了这个AI与其它零代码、低代码产品 ...
设计不确定时代的“防御工事”,富国基金蒲世林:红利策略可增加一些成长锦上添花
聪明投资者· 2025-04-15 11:21
"现在正处于判断最困难的阶段,不管你的预测是什么,你都必须承认:自己预测正确的可能性比以往任何时候 都更低 ", 在当前高度不确定的市场环境中,霍华德·马克斯如此提醒道。 这套投资框架在 2017 、 2018 年才逐渐完善,摊开来看,很有工程师的"设计感";他也坦言如果自己没有进 入金融行业,可能就是去做房屋、桥梁的结构设计了。 第一,不利于危墙之下,即规避强周期陷阱;第二,有可验证的数据,选择护城河深厚、 ROE 稳定的企业;第 三,材料清晰,以 3-5 年维度,隐含回报率达到 15% 为目标,自下而上精选个股。 2018 年 9 月,蒲世林加入富国基金,面对 2019 、 2020 年的大行情,蒲世林先感知到的是变化——核心资 产变贵了,从而迅速反应。 从其代表产品在管的另一产品富国城镇发展的持仓来看,前十大重仓股持股集中度从2021年初的43%,截止 2021年中报一路下降到30%,并且换仓到了机械、银行等行业。在沪深300下跌5.2%的2021年,蒲世林的富 国城镇发展收益率17.03%。 (数据来源:富国城镇发展定期报告,持仓集中度、行业分布等数据仅为时点数据,不代表基金当前 或未来持仓。) 随后 ...
达利欧围绕关税再三发声,他为何担心比衰退更糟糕的事情……
聪明投资者· 2025-04-15 11:21
"我更担心的是比经济衰退还严重的事情。如果政策处理不当,后果会远超衰退。" 如果要理解达利欧这些观点背后的整体逻辑和思考框架,其实看 2月以来的三次对话就好,包括 2月初 的 All-In播客 , 4月8日 CNBC 对话以及 4月13日 NBC 采访。 尤其是All-In播客交流,呈现其完整的底层逻辑和政策主张。 (点击阅读: 达利欧携新书《国家如何 破产》最新对话,谈及 DeepSeek以及黄金、AI、美国债务危机等 ) 他反复强调同一件事:美国正目睹的不只是经济放缓,而是一场典型的 "系统性秩序崩溃"。 "这次的不同在于:我们正面临的是货币秩序的崩塌……我们无法继续像过去那样随意花钱,我们必须 重新构建货币体系。" 在谈到特朗普的关税政策时,达利欧并未陷入任何意识形态争论。他只是冷静地说:关税不是问题的根 源,而是失衡系统下的表面症状。如果处理不当,后果将远不止一场经济衰退。 达利欧指出, 现在 美国 正处在一个关键的十字路口。如果什么都不改变,预算赤字将会维持在 GDP 的7%左右 ; 但如果能将其降到 3%,再把贸易赤字等问题合理管控,那这一切是有可能被很好处理 的 ; 如果做不到,就会在债务市场上 ...
2025彭博市场快评之关税专题:宏观经济迎来风暴,各类资产如何破局?
彭博Bloomberg· 2025-04-15 11:12
美国关税政策在全球范围内掀起一波又一波风暴,使宏观经济格局巨变,各类资产亟需破局之道。 未来两周,彭博中国市场快评系列活动将迎来 关税专题网络研讨会 (共两期),彭博首席经济学 家及业内专家将围绕关税相关热点议题,向大家分享最新研究成果与洞见,助您在复杂多变的宏观 环境中保持高瞻视角,破局远航! 活动时间 第一期: 2025年4月17日(星期四)| 16:30 - 17:15 第二期: 关税系列主题 宏观经济迎来风暴,各类资产如何破局? 2025年4月24日(星期四)| 16:30 - 17:15 * 注册即同时报名两期活动,第二期话题将在活动前一周公布。 主讲嘉宾 曲天石 彭博亚太区高级经济学家 扫码立即报名 * 报名需要时间审核,敬请耐心等待。审核通过将在微信收到报名成功提醒,活动开始前将会收到具体参会提醒,请注意查收! * 彭博Bloomberg保留活动的最终解释权。 Jennifer Welch 彭博首席地缘经济分析师 舒畅 彭博亚太区首席经济学家 ...
关税时代的财报季,分析师如何保持前瞻、提升盈利分析效率?
彭博Bloomberg· 2025-04-15 11:12
财报季来临,市场波动不断,加之美国关税引发不确定性,分析师若要打造成功的投资理念, 亟需驾驭复杂信息的能力以及领先市场的前瞻洞察。为帮助您更好地完成盈利分析任务,彭博 准备了一系列专业工具,助您制胜财报季。 核心要点 EVTS :公司事件全掌握,同步日历不错过 在财报季,捕捉公司动向对盈利分析十分关键。仅去年一年,彭博终端就收录了超过4 6 , 0 0 0 场盈利电话会议。 终端EVTS 功能可帮助您实时掌握特定公司、投资组合、观察名单或指数的重要事件 详情及相关资料。 在彭博终端关联您的投资组合或观察名单,即可实时获取公司公告。您还 能获取实时及最终版会议记录、公司演示材料、针对财报事件和非财报事件的财务模型及预 测数据。所有事件均可按日期/证券进行分组和筛选,最重要的是,可与您的Mi c r o s o ft Ou tl o o k日历实现集成,以确保您不错过任何关键事件。如需同步Ou tl o o k日历,您只需点击 红色工具栏中的"与Ou tl o o k同步"按钮。再次点击,即可将搜索结果直接同步至Ou tl o o k日 历。 MODL :对比关键指标,解锁盈利详情 在财报季快速消化、分析并解读公 ...