Workflow
生成对抗网络(GAN)
icon
搜索文档
从千问变动到 “AI 英雄传”,与 DINQ 高岱恒聊传奇 AI 研究员们丨晚点播客
晚点LatePost· 2026-03-16 21:32
通义千问团队人事变动后的市场反应 - 阿里通义千问团队人事震动后,在AI人才平台DINQ上的相关搜索量直接翻了3倍,大约有2000到3000条查询在搜索千问候选人[5][7] - 搜索方主要为HR和猎头群体,甚至包括Meta的高管搜寻负责人也在搜索千问候选人[7] - 搜索方向主要集中在大语言模型、强化学习和Agent等热门方向[7] 通义千问在开源领域的地位与影响力 - 通义千问在开源模型托管平台Hugging Face和ModelScope上的模型下载量远超法国公司Mistral的开源模型,已成为开源模型领域的霸主[10] - 通义千问模型的总下载量比国内其他开源模型(如DeepSeek、Kimi、MiniMax)加起来的还要多[11] - 其模型家族生态完善,拥有从0.6B、1B等各种尺寸的小模型,以及图像、视频、推理、Embedding等多种模型,推动了AI学术界和工业界发展[10][11] - 自2023年下半年起,学术界许多团队在论文中将Qwen模型作为标准实践,行业心智占据重要[11] AI人才市场的趋势与特点 - 顶尖AI人才流动频繁,预计千问离职人员会被Meta、OpenAI、xAI等公司疯抢,xAI与SpaceX合并后可能在2026年进行大规模IPO,财富效应极强[12] - AI研究员的核心特质是追求代表作(如顶会论文、开源项目),而非传统的工作经历或学历,学历和工作经历贬值速度非常快[16][20] - 公司招聘越来越看重具体作品(论文、代码、项目),并倾向于在GitHub或顶会论文中直接寻找人才,呈现“英雄不问出处”的趋势[16][21] - 这一波AI浪潮的核心推动者大多是30岁以下的年轻人,例如CLIP的作者Alec Radford、旋转位置编码提出者苏剑林、MoE的Albert Jiang等在做出重要成果时均未满30岁[23] AI行业的生产关系与组织形态演变 - AI顶尖人才与大型商业组织的关系,近期类似文艺复兴时期的工作室与金主的关系,研究员的目标是做出自己的作品[14] - 行业正从公司“体内”建立组织,转向出现更多“体外”组织,这些组织在大模型产业链中专注于特定环节(如代工Agent RL训练),未来可能出现完全独立的模型公司[15] - 全球AI领域的PhD和教授大部分是华人,人才供给越来越多,他们将自己视为“演艺圈”人士,目标是用顶会论文建立个人门槛[16] - 大模型公司和团队的核心工作常由实习生完成,在厂工作几年的经验已无优势,技术迭代迅速(如从GAN/VAE到扩散模型)[17] AI基础设施与平台的战略价值 - ModelScope(魔搭社区)和Hugging Face类似AI时代的GitHub,其战略意义在于汇聚模型、数据集和应用,形成Hub,通过积累“学习信号”反向指导公司行为,战略价值远大于直接收入[12] - 魔搭社区的成长证明了华人AI从业者和开发者的数量在快速增长[11] AI技术发展对人才需求与招聘的影响 - 行业进入“收敛状态”,公司可能减少开源投入,更关注提升模型表现和Agent的工具调用能力,并招募更多有后训练和强化学习经验的人才[13] - 新的细分行业正在诞生,例如对强化学习环境、第三方数据提供商或强化学习提供商的需求增加[14] - 国内外招聘差异明显:国外企业按具体论文精准搜索作者;国内企业偏好按范围(如特定会议、热门项目)并附加年龄(如95后、00后)和名校标签进行筛选[42] - 未来招聘将更快、更零散,忠诚度和长期雇佣关系减弱,可能出现“智力劳动的外卖化”,匹配指标将收敛于代码工具token消耗量、AI交互频率等具体数据[46] AI时代对个人职业发展的启示 - 在AI能直接写代码的时代,传统靠读书、学历带来的安全感正在消失,核心价值转向创造力、沟通与协作能力[44][47] - “Build in Public”(公开构建)模式上限高,但下限低,适合极少数高能动性者;对大多数人而言,走升学、进名校的稳健路线仍是主流选择[43][44] - 保持身心健康、情绪稳定,享受与AI共同创造的过程变得尤为重要,因为人的核心价值将更回归于人本来的价值[47]
GAN之父Ian Goodfellow病后归来,剑指高效世界模型
机器之心· 2026-03-07 19:20
文章核心观点 - 文章提出,构建具备动作条件能力的多模态世界模型,是实现高级AI(如具身AGI)的关键路径,而利用符号化表示(如代码、自然语言)和游戏虚拟世界的数据,是构建此类模型在数据效率和计算效率上更具优势的最佳方法[5][19][20] 世界模型的定义与重要性 - **世界模型的概念**:世界模型是一种能够表示环境动态变化和因果结构的模型,在强化学习框架中,它用于近似环境的状态转移函数,预测在特定状态下执行动作后的下一个世界状态[8] - **世界模型的作用**:借助世界模型,AI可以进行预测、规划、推理和行动,而无需每次都通过与真实世界直接交互来观察后果[9] - **构建世界模型的目标**:是为了实现能够释放巨大经济价值的AI能力,帮助人们摆脱不受欢迎的工作,其核心在于获得在多模态环境中进行因果推理的能力,这是通向具身AGI最重要的核心能力之一[12] 当前模型的局限与新的路径 - **纯像素世界模型的局限**:以生成式视频模型(如Sora)为代表的基于像素的世界模型,虽然能生成高质量视觉内容,但未必能真正捕捉世界的因果结构,且在速度和成本上效率较低,可能出现物理理解错误[13] - **人类认知的启示**:人类依赖认知工具(如自然语言、数学符号)对世界进行高效抽象和因果表达,这比通过原始感官数据完整重建世界更高效[15] - **新路径的优势**:利用符号化表示(如代码、自然语言)作为抽象层,可以让模型将表示能力集中在真正影响决策的世界要素上,在数据和计算效率上都更具优势,并能有效支持对长时间跨度任务的预测与推理[15][16] 数据来源与可扩展性 - **现有数据的不足**:互联网上虽有海量视频数据,但记录行动本身及其结果、能帮助模型理解行动后果的数据非常稀缺[18] - **更具效率的数据来源**:利用软件抽象构建多样化的合成世界(如游戏虚拟世界)是更具数据效率和计算效率的训练路径,这些环境通过键盘、鼠标等接口,能自然积累同时包含行动与观测的数据[18][19] - **商业化驱动的飞轮效应**:从数字世界(如游戏)开始构建世界模型,能够形成商业自我持续发展的路径,明确的参与激励(如娱乐)和可扩展的数据采集接口能让数据自然积累,持续推动模型能力提升[19][20] 模型设计的关键原则 - **设计应围绕策略展开**:世界模型的设计应当围绕希望从中学习到的策略来展开,而非追求单一的世界表示形式[22] - **需满足的关键属性**:无论用于虚拟还是现实世界,一个优秀的世界模型需要优先满足在长时间尺度上保持空间和物理状态的一致性,并能真实反映行动带来的后果等关键属性[22] - **最终愿景**:目标是构建一种在完全成熟形态下,不仅能够生成环境,还能用于训练和控制任何具身智能体(无论在虚拟还是现实世界中)的模型[20]
图生视频工具在跨境电商中的应用与技术解析
搜狐财经· 2026-01-23 00:22
行业概述 - 图生视频工具是一种利用人工智能技术将静态图像转换为动态视频的软件 在跨境电商快速发展的背景下 成为商家提升商品展示效果的重要辅助[1] - 该技术通过降低视频制作成本和提高内容产出效率 帮助商家适应多平台、多地区的营销需求[1] - 技术核心在于自动化处理图像并生成流畅视频内容 通常运用生成对抗网络、深度学习模型和自然语言处理技术 可智能添加运动效果、过渡动画、背景音乐及多语言口播[1] - 技术实现多基于云端处理 用户上传图片和简单设置即可快速输出适用于不同场景的视频格式[1] - 总体而言 图生视频工具通过技术创新降低了跨境电商的视频制作门槛 提高了营销效率 并有助于通过本土化和个性化内容增强用户互动[6] 主要工具与应用 - **Keevx**:专注于为跨境电商提供高效视频生成服务 能快速生成虚拟模特展示视频 用于产品详情页、平台广告和社交媒体营销 以替代传统实景拍摄[2] - **Keevx**:支持广告服务商制作真人质感的视频内容 满足信息流广告和品牌宣传的高频需求 同时适用于企业内部视频制作及教育机构的标准化内容生成 其优势在于集成多场景应用并提升内容生产速度[2] - **Runway ML**:是一款知名的图生视频工具 基于强大的机器学习模型 允许用户将静态图像转换为动态视频[2] - **Runway ML**:提供多种预训练模型并支持高级编辑功能 如运动跟踪和风格迁移 适合有一定技术背景的用户 其优势在于灵活性和高质量输出 能生成专业级视频内容[2] - **Canva**:作为流行的图形设计工具 集成了图生视频功能 用户可通过上传图片和文本快速创建视频[4] - **Canva**:提供大量模板和直观的编辑界面 使得即使没有设计经验的商家也能轻松制作简单视频内容 其优势在于用户友好性和低成本 特别适合中小型跨境电商商家快速生成社交媒体视频[4] 发展趋势 - 随着AI技术的不断进步 未来这类工具将更加智能化和集成化 为全球电商生态带来更多可能性[6]
购物车托付给AI的时代,已经到了
36氪· 2025-11-26 19:24
行业趋势与市场预期 - 2025年秋冬购物季,全球电商平台期待AI带来销量爆发式增长 [1][3] - 仅在美国市场,AI驱动的购物流量同比预计增长520%,并在感恩节前10天达到峰值 [3] - AI辅助购物在9月全面爆发,互联网、支付、浏览器等多领域厂商集中推出产品,核心突破是实现从选品到支付的全流程自动化 [6] 主要参与者及产品动态 - 淘宝天猫于10月16日同步推出“AI万能搜”、“AI帮我挑”等多款AI导购应用,平台通过AI对20亿件商品进行精准理解,实现流量匹配效率双位数增长 [1] - OpenAI在2025年初推出Operator智能体,可为付费用户(每月200美元)在2分钟内筛选符合预算(如低于100美元)和特定需求的商品 [4] - 支付宝推出国内首个“AI付”功能,美团“小美”AI Agent开启内部测试,谷歌发布“代理支付协议(AP2)”并整合AI购物功能至Chrome浏览器 [6] - OpenAI宣布推出“即时结账”功能,计划接入超百万家电商平台,沃尔玛在10月引入该体系,允许用户直接在ChatGPT内选购商品 [8] 技术实现与运作机制 - AI网购需理解用户自然语言指令,读取个性化数据(如地理位置、账户金额、购物偏好),对比不同商家价格与政策,最终做出购物决策 [9] - 以淘宝“AI万能搜”为例,AI通过思维链方式,从商品大类概况逐步细化到具体用途,最终给出购买推荐,展示不同品牌和价位的产品 [13] 对电商生态的影响 - 对买家而言,AI代劳网购可避免手动比价、减少决策时间,缓解选择困难症,生活效率显著提升 [13] - 对卖家而言,AI购物模式降低广告投放成本,推动营销方式变革,卖家需将店铺数据与AI决策参数对齐以吸引AI推荐 [13] - 传统电商营销手段(如购买搜索引擎排位、硬广告)对AI无效,卖家需适应新的获客方式 [13] 支付与金融领域的机遇 - 金融机构(如万事达、维萨、支付宝)积极开发AI购物支付智能体,以填补支付环节空白,实现全流程自动化 [6][14] - 若AI获得支配用户账户资金与信用的授权,将盘活用户个人资金与信用的流动性,扩大金融机构的获利空间 [15] - 互联网大厂持有金融牌照,欢迎消费者通过网贷消费,AI代购可直接将账单计入用户未领取的权益额度,刺激消费信贷业务 [17] 潜在挑战与纠纷 - AI代购可能引发售后争端,例如消费者对商品性价比不满产生“买家懊悔”,或遗忘指令后对交易提出异议 [18] - 若AI被商家使用AI生成的夸大图像误导,导致推荐订单不符预期,责任归属难以界定,可能涉及用户、平台和商家多方 [18][22] - 当前用户需手动分辨AI生成图,这种“真人GAN”模式体验不佳,但尚有申诉空间 [22]
ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
机器之心· 2025-08-09 11:59
联邦学习安全漏洞 - Scaffold联邦学习通过控制变元校正客户端梯度偏移,显著提升非IID数据下的模型收敛性,但引入新的安全攻击面[7][8] - 控制变元机制可能被恶意篡改,引导良性客户端梯度朝中毒方向更新,放大后门攻击效果[8][9] - BadSFL攻击利用GAN生成对抗样本补充非IID数据知识,结合控制变元操控实现高隐蔽性后门植入[11][19] BadSFL攻击技术 - 采用三阶段攻击流程:GAN数据补全→隐蔽触发器设计→控制变元优化,使后门模型更接近全局最优解[21][22] - 创新性使用控制变元预测全局模型收敛方向,通过公式(3)优化后门持久性,攻击效果可持续60轮以上[25][28][30] - 基于特征的后门触发器(如CIFAR-10中绿色汽车)攻击成功率超80%,主要任务准确率保持60%[29][34] 实验验证结果 - 在CIFAR-10/100和MNIST数据集上,BadSFL后门准确率超90%,比基准方法持久性提升3倍[33][37] - 攻击停止后仍能维持5倍于基准的攻击持续时间,标签翻转攻击中后门准确率衰减速度降低10%[37] - GAN数据增强使攻击者本地模型更接近全局最优解,减少因非IID分布导致的性能偏差[21][22] 行业影响 - 揭示Scaffold聚合算法的设计缺陷,控制变元机制可能成为联邦学习系统的新攻击向量[8][12] - 非IID场景下的安全威胁需重新评估,传统IID防御方案对控制变元操控类攻击无效[16][18] - 该研究已入选ICCV 2025,可能推动联邦学习安全防御技术的迭代升级[3][39]
杭州ai图像识别的重点技术
搜狐财经· 2025-05-13 20:54
核心技术优势 - 深度学习和神经网络构成AI图像识别技术核心 通过多层网络实现图像逐层抽象和特征提取 [3] - 卷积神经网络(CNN)通过卷积层 池化层和全连接层组合有效提取图像空间特征和层次结构信息 [4] - 生成对抗网络(GAN)通过生成器与判别器对抗训练生成逼真图像数据 应用于数据增强和图像修复领域 [5] 技术应用成效 - CNN技术广泛应用于人脸识别和物体检测领域并取得优异表现 [4] - GAN技术显著提升模型泛化能力和鲁棒性 [5] - 迁移学习利用已有知识迁移至新任务 弱监督学习通过少量标签数据训练模型 共同解决数据不足和标签稀缺问题 [6] 产学研协同创新 - 浙江大学与阿里安全联合研发基于深度学习的AI细粒度图像识别技术 [3] - 研究机构与企业在深度学习领域取得显著成果 [3] - 技术创新应用为杭州AI图像识别领域未来发展奠定坚实基础 [7]