Artificial Intelligence
搜索文档
图像地理定位新突破,缅因大学/谷歌/OpenAI等提出LocDiff框架,实现无需网格与参考库的全球级精准定位
36氪· 2025-11-19 18:14
技术突破 - 联合团队提出“球面谐波狄里克函数”及集成框架LocDiff,通过构建适配球面几何的编码方式与扩散架构,实现了不依赖预设网格或外部图像库的精准定位 [1][2] - 该技术解决了传统方法因地理坐标位于嵌入式黎曼流形而非欧几里得空间所导致的投影畸变问题,以及原始坐标缺乏多尺度空间信息难以支撑复杂分布建模的挑战 [2] - LocDiff模型的核心是SHDD编码-解码框架与条件Siren-UNet架构,其设计的理想位置编码空间需具备单射性和满射性,并满足连续差异度量与稳定性的核心属性 [5][6] 模型性能 - 在Im2GPS3k数据集上,LocDiff在街道级、城市级、区域级、国家级和大陆级的定位准确率分别达到10.9%、34.0%、53.3%、72.5%和85.2% [15] - 在YFCC26k数据集上,LocDiff的对应准确率分别为9.6%、22.8%、37.5%、58.6%和76.8% [15] - 在GWS15k数据集上,LocDiff表现出更强的泛化能力,其大陆级准确率达85.0%,尤其在街道级准确率(2.1%)显著优于GeoCLIP(0.6%)等其他模型 [15] 方法创新 - SHDD编码方案将球面点转化为球面谐波狄拉克函数,再编码为球谐函数系数向量,通过设定最大阶数L可形成(L+1)²维的紧凑表征,为多尺度定位提供灵活支撑 [6] - 该编码空间天然具备密集特性,其差异度量通过反向KL散度量化,并与Wasserstein-2距离存在明确约束关系,从数学上保证了解码稳定性 [7] - 模态搜索解码器利用反向KL散度的模态搜索本质,通过寻找球面函数概率质量最集中的区域完成坐标反推,无需预设球面划分或外部参考图像库 [9] 实验设置 - 训练使用MP16数据集,包含472万张带有精确地理标注的图像 [3] - 测试选用三个全球尺度典型图像地理定位数据集:Im2GPS3k、YFCC26k和GWS15k [3] - 评估设定5个层级:街道级(1公里)、城市级(25公里)、区域级(200公里)、国家级(750公里)和大陆级(2,500公里) [4] 计算效率 - SHDD编码/解码作为确定性闭式操作,时间复杂度接近常数级,空间复杂度为线性 [19] - 训练时SHDD编码可预计算为嵌入查找表,解码通过高效的矩阵乘法和argmax操作实现 [19] - LocDiff在YFCC数据集上仅需约200万步即可收敛,而同类最佳模型需要1,000万步,显著加速了扩散过程收敛 [19] 产业应用 - Google Earth团队利用全球海量街景数据训练的生成模型,实现了图像引导下的精准位置预测,并使街景更新效率提升3倍,覆盖范围扩展至更多偏远地区 [22] - NASA创业者挑战赛获胜者PRISM Intelligence公司开发的地理空间智能平台,运用辐射场技术将二维遥感图像转化为高保真三维数字环境,结合AI驱动算法实现自然语言交互 [21]
从全民玩梗到带货爆单,谁吃到了Sora2的AI视频营销红利?
36氪· 2025-11-19 18:09
今年10月1日面世的Sora2,毫无疑问,又一次将AI视频的热度推到高峰。 其母公司OpenAI将2024年2月上线的初代Sora比作"视频的GPT-1时刻",Sora2则被认为"直接跳到了GPT-3.5时刻"。凭借对物理世界超强的模拟能力、音画 生成的同步性和多镜头的叙事能力,Sora2坐稳视频模型"顶流"的位置。 从说着"我爱妈妈"的AI小猫,到"毒液"模板、"吉卜力画风"、"AI宝宝播客",在Sora2之前,AI视频已经在海内外的社交平台上创造过一轮又一轮的全民 热点。而Sora2应用程序的"Cameo(客串)"功能(用户可以创建自己的数字分身并植入任何AI生成的场景中)功能,再次引爆了大众用AI玩梗的热情。 OpenAI CEO萨姆·奥特曼开放了个人肖像权,一时间,他说着中文带货、在商店偷GPU被抓包、与李小龙对打等各种短视频在网上疯传。 玩梗之外, AI视频的商业化进程也在加快。不少服务中国出海商家的数字营销企业已率先接入Sora2的API。多家服务商告诉亿邦动力,从模拟摄影棚拍 摄广告创意视频,到一键拆解爆款,生成数字人带货视频,甚至改变商家和达人的合作方式,Sora2给出海营销领域带来的影响已渗 ...
AI日报丨谷歌推出最新一代AI模型Gemini 3,摩根大通警告AI估值可能出现“调整”
美股研究社· 2025-11-19 18:08
AI行业估值与市场动态 - 摩根大通副董事长警告人工智能行业估值亟待重新评估,可能出现调整并引发股市连锁反应[5] - 华尔街高管日益担忧AI领域巨额投资热潮导致估值泡沫风险上升[5] 谷歌AI模型进展 - 谷歌推出最新一代AI模型Gemini 3,强调新功能将立即投入盈利产品如搜索引擎[6] - 高管宣称Gemini 3在多个行业性能排行榜处于领先地位,被CEO称为"最智能的模型"[6][7] 华为数据存储战略升级 - 华为提出AI时代数据存储将升级为AI Data Platform,集成推理加速与多模知识库功能[8] - 公司预告明年初发布AI Data Platform实体产品,改变传统存储范式[8] 特斯拉自动驾驶与估值展望 - 特斯拉在亚利桑那州获自动驾驶共享出行服务许可证,允许配备人工监控员运营车辆[10] - 马斯克称特斯拉估值重大变化需满足无监督自动驾驶大规模出现及擎天柱机器人量产条件[10] 科技巨头投资与合作 - 英伟达和微软向AI初创公司Anthropic合计投资最多150亿美元(英伟达100亿,微软50亿)[10] - Anthropic承诺购买300亿美元Azure计算容量,Claude模型将成为全球三大云服务中唯一可用前沿大语言模型[10]
The stock market is barrelling toward a ‘show me the money’ moment for AI—and a possible global crash
Yahoo Finance· 2025-11-19 18:00
The back-of-the-envelope math is harsh: AI capex coming from tech companies listed in the S&P 500 is $400 billion or more per year, going forward. The biggest AI company—OpenAI, the maker of ChatGPT—has disclosed revenues of just $13 billion for 2025. Altman recently said revenues were “well more” than that , hinting they may hit $100 billion in 2027. But that’s still nowhere near the level of capex it’s committing to.On one level, that’s normal: Most industries feature a collection of companies that do bus ...
脉脉高聘人才智库:美国AI从业者加班严重,每周工作80-100小时!2/3的中国AI从业者周工作时长低于60小时
搜狐财经· 2025-11-19 17:56
新浪讯 11月19日下午消息,据脉脉高聘人才智库研究披露,中国AI工程师与美国同行的薪资差距已缩 短至2倍,但美国AI从业者周工作时长高达80-100小时,2/3的中国AI从业者周工作时长低于60小时。 2025年9月,中国AI相关新发岗位数量同比增长超过11倍。 中美AI工程师薪资差距仅2倍,显著低于汇率差7:1。对比脉脉与美国Levels.fyi网站的岗位薪酬,脉脉 高聘人才智库发现,中国与美国普通程序员的薪酬差距约为7倍,但在AI工程师岗位上,这一差距缩小 至约2倍,显著低于人民币兑美元的汇率差。 在脉脉上,华为、字节跳动等科技巨头以及MiniMax等AI领域头部企业发布了大量AI工程师相关岗位, 比如AI软件开发、AI应用研发专家、AI算法工程师等,年薪最高可达140万元。2025年9月,中国AI相 关新发岗位数量同比增长11倍,1000多家AI公司在脉脉上发布的AI岗位超过7.2万个,多家企业高管亲 自下场招聘,HR、猎头分钟级活跃,快速捕捉AI人才动态。 来源:新浪网 【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不 对所包含内容的准确性、可靠性或完整性提 ...
Blip, dip, pullback or the beginning of the end? Global investors weigh in on equities sell-off
CNBC· 2025-11-19 17:49
全球AI投资者情绪与市场表现 - 尽管全球股市出现抛售,但投资者对人工智能行业的整体情绪依然保持乐观 [1] - 欧洲和亚洲市场连续多日下跌,跟随美国市场走低,AI相关股票及其估值面临压力 [1] - 泛欧斯托克600指数周二触及一个月低点,主要交易所周三低开,亚太市场亦出现下跌 [1] AI相关个股及市场观点 - 美国主要股指延续跌势后,股指期货隔夜几无变动,英伟达、Palantir和微软等AI相关股票承压 [2] - 专业观点认为当前是AI领域的特定回调,并非熊市开端,也不意味着AI周期的结束 [2][3] - 此次回调被视为行业特定现象,而非全球市场大调整的开始,因美国以外许多地区的估值已计入负面消息 [2] 市场调整与投资策略 - 市场在过去六周一直处于调整之中 [3] - 此次调整为投资组合再平衡提供了机会,考虑到即使计入本周跌幅,多数投资者(包括AI股票投资者)此前已获得可观收益 [2]
2025年Q3 AI应用价值榜:豆包登顶“双冠王”,“四小强”集体失守
犀牛财经· 2025-11-19 17:17
市场格局变化 - 通用AI助手市场在2025年第三季度形成“一超多强”格局 字节跳动旗下豆包以1.59亿月活跃用户首次超越DeepSeek的1.46亿月活 差距拉大至1300万用户 [2][3] - 豆包月活跃用户环比增长22.2%至1.59亿 月均下载量达3447万 环比增长15.6% 稳居市场第一 [3] - DeepSeek月活跃用户环比下滑14% 下载量下降7.9%至2080万 呈现“失血”态势 [3] 头部公司表现 - 字节跳动通过“生态碾压”战略取得成功 豆包深度嵌入抖音、剪映、飞书等国民级应用 实现“通用平台+垂直爆款”产品矩阵 覆盖内容生产到办公协作全场景 [3] - 腾讯元宝凭借微信生态加持 以3092万月活跃用户和23.6%的环比增速稳居市场第三 [4] - 曾被寄予厚望的“AI四小强”(Kimi、MiniMax、智谱清言)及字节系即梦、快手系可灵集体陷入增长困境 Kimi月活跌至967万 较巅峰期大幅回落 [2][3] 垂直领域发展 - “AI+医疗”和“AI+教育”等垂直领域异军突起 支付宝AI健康顾问“AQ”月活达785万 快对AI在教育场景月活突破1044万 豆包爱学以876万月活成为黑马 [4] - 垂直场景入口被大厂牢牢掌控 通过主APP流量池精准喂养AI应用 形成“垂直深耕-数据回流-模型优化-体验提升”的正向循环 [4] - 独立AI企业面临技术壁垒、渠道成本和用户心智的双重封锁 [4] 行业趋势分析 - 中国AI应用市场正式迈入“下半场”淘汰赛 大厂生态的“飞轮效应”全面碾压单纯技术路线 [3][4] - 陷入下滑的企业需要尽快找到巨头生态的“缝隙”并成功卡位 或在垂直场景构建不可替代的价值链条 [5] - 行业核心逻辑是“生态即护城河” 单纯模型技术迭代不足以建立用户留存、场景深耕和商业闭环的竞争壁垒 [4]
圣母大学团队打造分子设计新利器:让AI像写文章一样创造分子
仪器信息网· 2025-11-19 17:08
核心观点 - DemoDiff是一种基于上下文学习的AI分子设计系统,能够通过少量示例分子快速生成全新分子结构,显著提升药物和材料研发效率[6][7][8] - 该系统采用创新的节点对编码方法将分子描述效率提升5.5倍,原本需要38个原子描述的分子现仅需4个分子积木即可准确表达[9] - 在33个不同设计任务测试中表现优异,与比其大100-1000倍的大型语言模型相媲美,某些任务甚至更优[19][20] AI分子设计原理 - 模仿人类化学家思维过程,通过分析一组标记为正面、中等和负面示例的分子来理解功能与结构关系[10][11] - 基于扩散模型技术,采用渐进式生成方式,从随机分子结构开始经过数百步骤逐步优化至目标结构[16][17] - 具备独特负面学习能力,仅通过效果不佳分子示例就能反向推理设计出高质量分子,在新药开发早期阶段特别有价值[21][22] 技术创新点 - 开发节点对编码方法,类似汉字偏旁部首概念,用分子基团组合描述复杂结构,大幅提升计算效率[12][13] - 采用图注意力机制处理分子三维空间结构,保持全局理解同时确保化学合理性[23] - 模型规模经过优化测试,在7.39亿参数时达到性价比平衡点,性能随参数增加稳步提升[24] 数据基础 - 构建包含超过100万个分子结构和155万种分子属性记录的综合性数据库,涵盖药物和材料领域[9][14] - 数据来源包括ChEMBL药物数据库和各种材料科学数据库,组织成164万个设计任务[14][15] - 分子属性分布遵循齐普夫定律,既保证学习常见设计模式又接触多样化特殊案例[15] 性能表现 - 在六大类33个设计任务测试中表现全面,包括药物重发现、多目标优化、材料设计等[19] - 生成分子多样性优秀,提供多种解决方案,传统方法需数万次试验而DemoDiff仅需少量示例[19][20] - 在属性驱动设计任务中表现突出,能根据期望分子性质而非简单模仿结构进行创新设计[20] 应用前景 - 有望将药物研发周期从10-15年大幅缩短,降低数十亿美元开发成本[25] - 推动材料科学领域突破,在相互制约性能指标间找到平衡,如高强度轻量化航空材料[25] - 可能催生分子设计民主化,让不同背景研究人员参与创新,类似个人电脑普及对软件开发的影响[26] 发展展望 - 当前模型在处理精确控制分子结构细节任务时仍有局限性,未来需开发专业化模型变种[27] - 计划通过增加模型规模、扩展训练数据和优化方法提升处理复杂挑战能力[27] - 正与多家制药公司和材料研发机构合作,在实际项目中验证技术价值[28]
达摩院八观气象大模型落地浙江,台风强度预测误差减少50%
环球网· 2025-11-19 16:43
【环球网科技综合报道】巴西当地时间11月18日,在第30届联合国气候变化大会(COP30)上,阿里巴巴达摩院应邀分享应对气候挑战的先进AI技术和实践 经验,其自研的"八观"气象大模型已在浙江、山东、北京等地应用,将台风强度预测误差减少50%以上。面向长期气候预警,达摩院还在会场宣布了八观大 模型全面升级,最早可提前12个月预测世界重大气象事件,如厄尔尼诺、寒潮等,助力全球防灾救灾和社会经济规划。 本次大会是《巴黎协定》签署十周年后的首次气候治理多边会议,吸引来自190多个国家和地区的政府代表、国际组织代表、科学家、企业代表等齐聚一 堂,聚焦多项重要气候议题,呼吁全球携手为应对气候危机寻找共同解决方案。AI正在极端天气预警方面发挥重大价值。达摩院研发出新一代高精度气象 大模型"八观",受到国际社会关注,曾入选联合国AI for Good创新影响力案例集并获评杰出案例奖。 达摩院决策智能实验室资深算法专家孙亮介绍,基于八观气象大模型,今年达摩院联合浙江省气象台研发"浙江八观"台风预测模型,并参加了中国气象局台 风预报示范计划。经统一检验评估,针对2025年影响我国的所有台风,八观的路径预测与强度预测能力均居第一梯 ...
独家 | 通义核心人才相继“叛逃”,阿里双管齐下:砸天价年薪揽才+竞业锁喉
钛媒体APP· 2025-11-19 16:37
公司战略转向 - 阿里巴巴于2024年底启动AI战略重大转向,从长期深耕B端企业服务转向聚焦C端大众市场布局[2] - 公司宣布未来三年将投入至少3800亿元用于云计算与AI基础设施建设,该金额超过过去十年在相关领域的投入总和,覆盖算力部署、模型研发及AI云计算全链条[2] - 2025年9月云栖大会期间,公司CEO吴泳铭明确推进该投资计划并披露追加后续投入规划,进一步聚焦AI驱动的业务增长路径[2] 核心产品与技术 - 2025年11月17日,公司正式宣布“千问”项目全力进军AI to C市场,千问App公测版同步上线,基于全球性能领先的开源模型Qwen3,凭借免费策略及与阿里生态生活场景深度绑定,与ChatGPT展开全面竞争[1] - 千问App的核心竞争力聚焦“世界模型”,目标是构建“理解生成一体化”的模型,让AI同时实现“交互”与“创造”,既能理解信息,也能生成内容、理解世界规则并预测变化[4] - 技术路线上探索Autoregressive LLM、Diffusion及两者结合的路线,同时攻关多模态训练数据、自动化评估等,向AGI推进[4] - 2025年9月云栖大会发布的通义千问旗舰模型Qwen3-Max综合性能跻身全球前三,总参数超万亿,预训练数据量达36T tokens,其Instruct版本在SWE-Bench Verified编程测试中获69.6分,位列全球第一梯队;Tau2-Bench智能体工具调用测试中取得74.8分,超越Claude Opus4和DeepSeek-V3.1;推理增强版本在AIME 25和HMMT高难度数学测试中斩获满分[6] - AI智能体生态已形成规模,通过打通淘宝、天猫、高德、饿了么等内部核心业务数据与授权能力,千问App已具备解决用户多元生活需求的服务能力[6] 研发体系与架构 - 通义千问实验室与阿里达摩院形成“基础研究 + 应用攻坚”的协同模式,通义千问实验室承接达摩院在机器智能、多模态融合等领域的基础研究成果,专项负责模型迭代优化与场景落地应用[7] - 相较于OpenAI“研究实验室 + 产品部门”的一体化架构,阿里的协同体系更侧重技术产业化效率[7] - 通义大模型研发体系由阿里云CTO、达摩院副院长、通义实验室负责人周靖人统筹管理,下设自然语言智能实验室、语音实验室、应用视觉实验室、智能计算等二级部门[8] 人才战略与流动 - 公司通义团队正以显著高于市场平均水平的薪资力度大规模招募AI人才,部分岗位薪资翻倍,整体溢价超50%,核心专家岗位薪酬较百度文心、字节火山大模型同级别岗位具有30%-50%的竞争力优势[25] - 薪资结构采用“基础薪资 + 高额期权 + 专项奖金”组合模式,资深技术专家可获得极具竞争力的基础年薪与长期期权激励,特别优秀的应届博士人才年薪可突破百万级[27] - 核心招募方向聚焦多语言大模型和世界模型两大赛道,多语言大模型赛道重点突破低资源语言处理、跨文化语义理解等,千问系列模型已支持119种语言和方言,全球累计下载量突破6亿次[27] - 世界模型研发被视为向AGI进军的战略支点,重点探索Autoregressive LLM与Diffusion模型结合的创新架构[28] - 招聘筛选标准极为严苛,候选人需具备计算机/人工智能相关专业硕士及以上学历,在顶级学术会议发表至少2篇一作论文,且至少1篇聚焦多语言或跨文化语义理解方向[29] - 公司同步启动“全球揽才计划”,面向斯坦福、MIT、剑桥等国际顶尖高校精准招募,侧重具备跨文化背景的“双语 + AI”复合型人才[30] 关键人才变动 - 语言技术实验室前任负责人司罗已离职,现任斑马智行CTO,目前该实验室自然语言处理方向由黄非领衔[13] - 应用视觉团队负责人薄列峰于2025年6月前离职,其主导研发了人物动作生成框架Animate Anyone、一键换装技术Outfit Anyone等爆款技术,离职后加入腾讯混元大模型团队[14][16] - 语音团队负责人鄢志杰于2025年2月15日离职,后加入京东探索研究院出任语音实验室负责人,该岗位空缺后,公司于6月初引入原零一万物联创兼VP李先刚出任通义语音实验室负责人[17][19] - 智能计算实验室技术骨干周畅于2024年7月从阿里离职,后加入字节跳动,公司以其“违反竞业协议”为由提起劳动争议仲裁[23] - 2025年5月,32岁的通义千问开源负责人林俊旸晋升,成为公司最年轻P10级专家,同步统筹多模态与具身智能研究[23] 竞业限制策略 - 公司通过严苛的竞业限制协议构建技术壁垒,绝大多数算法工程师岗位需签署竞业限制协议,限制期限为离职后1至2年,覆盖百度、腾讯、字节跳动等国内互联网AI巨头及商汤、旷视等AI企业[31] - 作为竞业限制对应补偿,公司按员工离职前12个月平均工资的30%-50%按月支付补偿金,向资深算法专家盖坤支付的月补偿金达47500元,对应年度补偿金超57万元[31] - 对于违反竞业协议的行为采取“零容忍”追责态度,除对周畅提起超千万元索赔外,盖坤离职后化名加入快手,被法院判决返还已领取的补偿金33万余元,并支付违约金207万余元[31]