Workflow
LLMs
icon
搜索文档
硅谷抢人大战!OpenAI连抢特斯拉等巨头四名大将
21世纪经济报道· 2025-07-09 11:10
硅谷对AI人才的争夺战还在继续上演,OpenAI连挖特斯拉、xAI、Meta四名AI大将。 据 澎 湃 新 闻 报 道 , 扎 克 伯 格 已 在 人 工 智 能 领 域 新 招 聘 了 11 人 , 其 中 包 括 来 自 OpenAI 、 Anthropic和谷歌的研究人员。他希望新实验室能够加速通用人工智能(AGI)的研发,并助 力Meta的AI应用程序、智能眼镜等业务创造新的现金流。 为了构建这个新实验室,过去一个月里,扎克伯格亲自牵头了一场激进的人才抢夺战:除了通 过WhatsApp直接联系潜在人才,开出数百万美元的薪酬方案外,他向多家初创公司发出收购 邀约。 这也深刻反映出顶尖AI人才的稀缺性。据北京商报援引《福布斯》杂志报道,自2019年以 来,在全球范围内,AI技能职位的招聘数量每年增长21%,远远超过AI人才的供应速度。 《财富》杂志更是指出,"全球顶尖AI专家属于稀缺资源,目前全世界加起来总数还不到1000 人"。全球顶尖管理咨询公司贝恩(Bain& Company)预测,AI人才缺口预计到2027年仍将持 续,短期内难以弥补。 知情人士表示,当前,即便在硅谷,人工智能领域的优秀人才也极度 ...
Jefferies:解读中国产业政策
2025-07-01 08:40
纪要涉及的行业或者公司 涉及中国各行业,包括农业、制造业(新兴、高技能)、服务业(高技能)、生产相关服务、技术相关服务、生活服务等,还特别提及芯片、EV、太阳能等行业 纪要提到的核心观点和论据 - **政策制定主体与分布** - 中央政府仅发布30%的产业政策文件,省级(26%)和市级(23%)政府发挥更大作用 [3] - 产业政策文件按政府层级分布:中央101,250份(占比13.18%)、省级344,321份(占比44.81%)、市级295,698份(占比38.48%)、区/县级27,040份(占比3.52%)、乡镇级78份(占比0.00%) [27] - **政策目标** - 促进社会公平和福利(26%)、促进战略产业(21%)、支持绿色产业(23%)和技术研发与应用是关键目标 [4] - 不同层级政府政策目标有差异,如市级政府在促进新兴产业、支持绿色产业、促进创新等方面占比相对较高 [38] - **政策工具** - 仅41%的政策提及财政补贴,还采用股权支持、土地供应、市场准入、监管等工具,需求侧措施也发挥重要作用 [4] - 不同层级政府使用政策工具存在差异,如市级政府在信贷和金融、税收激励、财政补贴等方面占比相对较高 [40] - **政策实施方法** - 超过50%的政策采用目标设定,激励方案包括KPI、监督检查、正负激励等 [44] - 65%的政策促进群体间协调,36%创建整体制度支持,市级政府在政策实施上与上级政府有一定相关性 [5] - **行业选择因素** - 地方政府选择目标行业与区域优势相关,包括相对比较优势(RCA)和绝对优势(AA) [49] - 市级政府在政策目标行业选择上跟随上级政府,但存在异质性,如发达地区跟随程度较低 [57] - **政策工具选择动态** - 地方政府更早采用新政策工具,中央政府更多使用传统工具,趋势随时间收敛 [68] - 发达地区更早采用新工具,且更多使用财政成本高的传统工具,新工具在高技能和新兴制造业中使用更多 [68] - **政策扩散与产能过剩** - 政策部门选择相似性与城市内交易呈正相关,存在地方保护主义 [78] - 政策扩散到更多城市时,效果可能减弱,追随者企业表现不如领导者 [83] - **政策有效性** - 政策在减税、提供补贴和增加企业长期融资渠道方面有效,对大企业更有利 [93] - 政策能促进新企业进入,但效果因工具而异,对生产率有积极但短暂的影响 [93] 其他重要但是可能被忽略的内容 - **数据来源**:政策文件(2000 - 2022年)、政治家数据库(2003 - 2019年)、企业数据(2000 - 2022年),文件从政府网站和PKULaw获取 [23][25] - **LLM使用**:使用Gemini - 1.5 - flash模型,采用多阶段查询流程,确保质量并解决幻觉问题 [106][108] - **政策目标行业分布**:不同层级政府对农业、制造业、服务业等行业的政策目标占比不同 [135] - **政策实施工具时间趋势**:新政策工具(如产业基金、产业促进等)增长,传统工具(如市场准入和监管、税收等)有不同变化趋势 [150] - **分析师相关信息**:分析师认证、非美国分析师注册情况、投资建议记录、评级解释、估值方法等 [216][224][228]
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 11:18
核心观点 - 大型语言模型(LLMs)和视觉-语言模型(VLMs)在处理数小时长视频时仍存在局限性[1] - 提出新型智能体Deep Video Discovery(DVD),通过分段处理视频并利用LLM推理能力实现自主规划,在LVBench上达到74.2%准确率,超越现有技术[3] - DVD采用多粒度视频数据库和搜索工具集,通过LLM协调实现自主搜索和回答[7][9] 技术架构 多粒度视频数据库构建 - 将超长视频分割为5秒片段,提取全局/片段/帧三级信息,包括摘要、字幕、嵌入向量等[10] 智能体搜索工具集 - 全局浏览工具:获取高层上下文和视频全局摘要[11] - 片段搜索工具:通过语义检索返回相关片段及其时间范围[12] - 帧检查工具:从像素级信息提取细节并提供视觉问答[13] 性能表现 - 在LVBench上:DVD(74.2%)显著超越MR Video(60.8%)和VCA(41.3%)[16] - 辅助转录后准确率提升至76.0%[17] - 各维度表现:事件推理(73.4%)、知识推理(80.4%)、时序理解(72.3%)等[16] 比较分析 - 商业VLM对比:OpenAI o3(57.1%)优于GPT-4o(48.9%)和Gemini-2.0(48.6%)[16] - 开源VLM对比:Qwen2.5-VL-72B(47.7%)低于DVD[16] - 行为分析显示GPT-4o存在过早结束推理的问题[18]
ChatGPT越用人越傻?
虎嗅APP· 2025-06-25 23:06
实验设计与参与者 - 实验由麻省理工学院媒体实验室研究科学家Nataliya Kosmyna团队统筹,共有54名来自哈佛、MIT、塔夫茨的大学生参与[3] - 参与者被分为三组:AI组(仅使用GPT-4o)、搜索引擎组(仅使用Google搜索)、大脑组(完全自主写作)[6] - 每人需完成三轮写作,每轮20分钟,题目包括SAT写作真题如"成就必须惠及他人才能带来幸福吗?"等[6] 脑电波监测结果 - EEG数据显示大脑组在所有波段(Alpha、Theta、Beta、Delta)活跃度最高,反映主动构思和组织能力[10] - 搜索引擎组脑电波活跃度中等,集中于视觉区和任务切换时的调动[10] - AI组脑电波整体偏弱,Alpha波(信息抑制)和Theta波(工作记忆)最低,反映认知参与度下降[10][11] 写作质量评估 - 真人英语教师评价AI辅助完成的文章语法完美但观点"空洞",更青睐有个性、思辨性的文章[8] - 搜索引擎组学生能清楚标注引用来源,文章结构清晰且融入个人经历,满意度最高[14] - 大脑组学生虽写作过程较慢,但拥有最扎实的写作体验,对内容记忆最清晰[15][16][17] 第四轮分组交换结果 - 从AI组切换到大脑组的学生普遍出现大脑反应变慢、认知能力下降的情况[21] - 其文本呈现高度模板化特征,对文章记忆准确率和归属感评分最低[22] - 原大脑组学生首次使用GPT-4o后,Theta/Alpha/Beta波全线飙升,文章信息密度提升且评分最高[24] 研究核心发现 - 实验首次量化了AI辅助写作对认知能力的影响,提出"认知负债"概念:长期依赖AI可能导致批判性思维退化[8] - 研究强调AI工具的使用方式决定影响:被动依赖会降低神经活跃度,而主动整合能增强认知能力[24] - 论文《Your Brain on ChatGPT》发表于arXiv平台,引发关于LLM对人类认知影响的广泛讨论[24][25]
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 20:41
核心观点 - RoboTwin 2.0是一个可扩展的仿真框架,旨在解决双臂机器人操作中数据生成和仿真环境简化两大挑战,通过自动生成多样化且逼真的数据提升策略鲁棒性[2] - 该框架引入五个维度的结构化域随机化(杂乱程度、光照、背景、桌面高度和语言指令),显著增强数据多样性和策略泛化能力[4] - 在50个双臂任务中预收集超过10万条域随机化专家轨迹,覆盖五种机器人实体,实证显示代码生成成功率提高10.9%,真实任务性能提升367%[4] 方法创新 自动专家代码生成 - 结合多模态大语言模型(MLLMs)与仿真闭环优化,通过代码生成agent和视觉-语言模型观察者的双AI agent架构实现迭代优化[10] - 在10项任务评估中,RoboTwin 2.0+MM FB配置达到71.3%的成功率,较基础版本提升23.9个百分点[27] 域随机化设计 - 场景杂乱:基于147类别731个标注物体的RoboTwin-OD库生成语义丰富的干扰场景[12] - 光照变化:随机化色温、光源类型(点光源/区域光源)等参数模拟现实光照条件[13] - 语言指令:通过MLLMs自动生成多样化任务指令和物体描述,覆盖几何/外观/部件级属性[13] 实体感知适应 - 为不同自由度机器人(7-DoF/6-DoF)定制抓取策略,使低自由度平台成功率提升13.5%-22.7%[29] - 通过标注物体关键点轴信息(抓取点/功能点)支持跨实体部署,平均任务成功率提高8.3%[16][31] 数据集与基准 RoboTwin-OD物体库 - 包含147类别731个实例,其中534个通过RGB到3D重建生成,均标注语义和操作相关标签(放置点/抓取轴)[18] 预收集数据集 - 覆盖50项双臂任务和5种机器人实体,包含10万+轨迹(每任务100条干净轨迹+400条随机化轨迹)[24] 性能验证 - 仿真到现实迁移:添加1,000条RoboTwin 2.0合成轨迹使现实任务成功率最高提升33个百分点[36] - 基准测试显示预训练模型(如RDT)在Hard条件下保持优势,非预训练模型性能下降显著[37]
Karpathy 最新演讲精华:软件3.0时代,每个人都是程序员
歸藏的AI工具箱· 2025-06-19 16:20
软件开发范式演变 - 软件1 0定义为传统代码编程 程序员使用Python C++等语言编写明确指令 源代码编译为二进制文件 典型例子包括特斯拉自动驾驶早期C++代码 [5][6] - 软件2 0以神经网络权重为核心 通过数据集训练生成参数 优势包括计算同质性 硬件易实现性 超人性能等 代表案例有AlexNet和AlphaGo Zero [7][10] - 软件3 0由大型语言模型驱动 自然语言提示成为编程方式 LLMs被视为新型计算机 类比1960年代操作系统 具有自然语言接口和用户普及特性 [11][12][14] LLM技术特性与类比 - 公用事业特性:LLMs需要高资本支出训练 通过API提供服务 OpenRouter实现供应商切换 服务中断会导致"智能断电" [16] - 晶圆厂特性:训练需巨额投入 NVIDIA GPU类似"无晶圆厂"模式 Google TPU则像自建晶圆厂 但软件防御性弱于物理设施 [17] - 操作系统特性:LLMs形成复杂软件生态系统 应用可跨后端运行 当前处于类似1960年代的分时计算阶段 个人计算革命尚未到来 [18] LLM认知模型与缺陷 - 超能力:具备百科全书级知识记忆 远超人类个体能力 [22] - 认知缺陷:包括幻觉 锯齿状智能 顺行性遗忘和易受骗性 需要人类监督验证 [23] - 人机协作:需保持AI在"牵引绳"上 通过生成-验证循环和GUI加速审计 [26] 行业应用机遇 - 部分自主应用:应具备上下文管理 多模型编排 专用GUI和自主性滑块 类似Cursor和Perplexity的交互设计 [26][28] - Vibe Coding:降低编程门槛实现"人人都是程序员" 但产品化面临非代码操作挑战 [30] - Agent基础设施:需构建lm.txt文件 LLM优化文档 上下文工具等支持Agent交互的新范式 [33][34] 技术扩散特征 - 逆向扩散路径:LLMs首先惠及普通消费者 ChatGPT成增长最快应用 企业政府应用滞后于组织惯性和合规障碍 [19][20] - 钢铁侠战甲策略:优先开发增强工具而非完全自主Agent 通过自主性滑块渐进升级 [2][28] - 长期发展预期:2025-2035年为Agent十年 需克服演示到产品的可靠性鸿沟 [27]
Andrej Karpathy 爆火演讲刷屏技术圈:AI 开启软件 3.0,重写一切的时代来了!
AI前线· 2025-06-19 16:10
编程范式演进 - 软件1 0时代以传统代码为主 需要人工编写精确指令 [16] - 软件2 0时代以神经网络权重为核心 通过数据集训练生成参数 [8][16] - 软件3 0时代以自然语言编程为特征 大模型直接理解语义指令 [17][19][21] 技术栈变革趋势 - 特斯拉自动驾驶系统中软件2 0逐步替代1 0代码 删除大量C++逻辑模块 [24] - 开发者需掌握三种编程范式混合应用能力 根据场景选择最佳实现方式 [25] - GitHub等平台正在演变为新型代码托管形态 Hugging Face成为软件2 0时代的GitHub [11] LLM基础设施特性 - LLM具备公共事业属性 实验室通过API按token计费提供服务 类似电力网络 [31] - 训练LLM需要巨额资本支出 技术壁垒快速集中 类似半导体晶圆厂模式 [38] - 开源与闭源生态并行发展 LLaMA可能成为LLM时代的Linux系统 [42] 人机交互革命 - 自然语言编程彻底降低技术门槛 实现全民可编程 [136][140] - Vibe Coding成为新一代开发者的入门方式 通过自然语言快速构建应用 [141][146] - 文档体系需适配LLM阅读 如Vercel将操作指南改为curl命令格式 [152][157] 应用开发新范式 - 部分自主应用成为主流 需设计自主滑块调节AI参与度 [98][137] - Cursor等工具展示典型特征:上下文管理 多模型编排 专用GUI界面 [96][97] - 生成-验证循环效率是关键 需优化可视化审阅与操作范围控制 [110][112] 行业发展阶段 - 当前LLM发展相当于1960年代计算水平 集中式云端服务为主 [51][56] - 技术扩散路径反转 个人用户早于政府企业采用创新技术 [63][64] - Agent发展需长期演进 激进的全自动化方案存在风险 [131][135]
速递|红杉押注“AI实体律所”:Crosby获种子轮580万美金,用1小时合同审查颠覆3000亿美元法律市场
Z Potentials· 2025-06-18 11:49
图片来源: Clay 科技行业经常讨论人工智能将如何改变工作方式。由红杉资本领投、刚刚完成 580 万美元种子轮融资 并走出隐秘模式的律所初创公司 Crosby ,或许是我们迄今为止所见最具代表性的未来图景。 红杉资本的陈嘉欣和林君叡与贝恩资本风险投资公司共同领投了种子轮融资,参与投资的还有众多天 使投资人,包括 Ramp 联合创始人埃里克·格利曼和卡里姆·阿提耶、 Opendoor 联合创始人吴晓波、 Casetext 联合创始人杰克·海勒、 Instacart 联合创始人马克斯·马伦,以及 Flatiron Health 的联合创始 人扎克·温伯格和吉尔·什克拉尔斯基。 Crosby 不仅仅是在为律师开发人工智能软件——尽管它确实在做这件事。Crosby 是一家真正的律师 事务所,利用人工智能以前所未有的速度提供法律服务。 与向律师出售技术不同,克罗斯比直接雇佣律师使用其内部开发的人工智能软件。该公司主要向初创 企业提供合同审查法律服务,目前承诺其由人工监督的 AI 软件能在不到一小时内完成新客户合同审 查。 据联合创始人兼首席技术官约翰·萨里汉( John Sarihan )向 TechCrunch 透 ...
陈岱孙经济学纪念讲座报名丨熊伟:结构化信念与基金投资
搜狐财经· 2025-06-17 16:25
讲座背景 - 陈岱孙经济学系列纪念讲座设立于2011年,旨在纪念著名经济学家陈岱孙先生并推动经济学术研究与中外交流 [1] 讲座安排 - 主题:结构化信念与基金投资(Structured Beliefs and Fund Investment) [2] - 时间:2025年6月20日14:00-15:30 [2] - 地点:清华大学建华楼A503 [2] - 主办单位:清华大学经济管理学院金融系、清华大学全球共同发展研究院 [2] - 讲座语言:英文PPT配合中文讲解 [11] 主讲嘉宾 - 熊伟现任普林斯顿大学经济系及本德海姆金融中心金融学兼经济学讲席教授 [4][6] - 兼任香港中文大学(深圳)经管学院学术院长及美国国家经济研究局研究员 [4][6] - 研究领域:资本市场不完全性、行为金融学、数字经济及中国经济 [4][6] - 学术荣誉:2018年中国经济学奖、2014年孙冶方金融创新奖、2023年计量经济学会会士等 [4][6] - 教育背景:杜克大学金融学博士、哥伦比亚大学物理学硕士、中国科学技术大学物理学学士 [5][6] 研究内容 - 基于中国公募基金强制披露的季度展望报告,利用大语言模型(LLMs)分析基金经理对政府政策缓解经济冲击的认知 [7][9] - 构建"逆周期政策信念"指标(CCP),量化基金对政策抵消经济冲击的预期 [7][9] - 实证发现:基金经理的市场信念对市场收益率具有正向预测能力,CCP信念可增强预测效果并提升基金业绩 [8][9] 参与方式 - 面向清华师生开放,经管学生通过教学项目报名,其他院系需邮件提交个人信息至指定邮箱 [10] - 报名截止日期:2025年6月19日12:00 [10]
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]