Workflow
Stable Diffusion
icon
搜索文档
从OpenClaw传播,看中美差异性
虎嗅APP· 2026-03-09 08:30
AI技术扩散的两种模式:美国与中国对比 - 以OpenClaw为代表的AI新技术,在美国和中国的扩散路径完全相反,这反映了两国社会、文化和政治底层逻辑的差异[4] - 美国模式是“自下而上”:由个体开发者或小团队发起,在开源社区(如GitHub)引发病毒式传播,获得数万至数十万的“星星”关注,待热度爆发后,大型科技公司才跟进投资、收购或整合[5] - 中国模式是“自上而下”:由阿里、腾讯、字节、百度、华为等大型平台率先嗅到风向,将技术吃透、优化并降本,以极低价格或免费打包成傻瓜式工具,通过云服务、API等形式推给开发者,再渗透至中小企业及个人用户[6] 美国模式:个体创新与市场驱动 - 美国AI生态根植于“个人主义”文化,由黑客、初创公司和风险投资家主导,私人资本动辄投入数十亿美元支持创业者[7] - 硅谷文化崇尚自由、冒险与“快速行动、打破常规”,GitHub等平台将开发权力彻底下放,允许任何个体贡献代码,促进了想法的多样性和原始创新[8] - 政治上的去中心化结构(联邦制)强化了此模式,政府角色主要是通过NSF、DARPA等机构资助基础研究,但基本不插手具体方向,2025年的“美国AI行动计划”强调“放松管制、释放繁荣”[8] - 截至2025年,全球顶尖AI研究者有57%在美国,但该模式可能导致技术扩散不均匀,在应用落地的便捷性上存在短板[9] 中国模式:平台整合与规模效应 - 中国的模式根植于集体主义文化,强调稳定、效率与整体利益,创新旨在快速服务大多数人而非个人英雄主义[9] - 文化上更注重“从1到100”的快速放大和高效迭代,字节跳动、拼多多等公司是典型代表,其成功依赖于平台集中力量打磨算法并推向海量用户[9] - 政治上的中央集权体制是最大推手,通过五年规划、国家基金和“AI G3”战略等,政府定方向、给资源、定规则,平台负责落地,开发者负责接入,形成“集中力量办大事”的合力[10] - 这种模式在规模应用上极具效率,创造了全球最大的AI落地场景、最多的用户数据和最快的迭代速度,但在原创性上可能受到限制[10] 行业影响与生态特征 - 在美国,类似GitHub Copilot的工具可从实验性项目发展为行业标配,Stable Diffusion在2022年开源后,几周内全球开发者就创建了数千个衍生工具[5] - 在中国,开发者无需从零开始,可直接在微信小程序、钉钉、阿里云、腾讯云等平台调用已整合好的API,许多中小企业首次使用AI(如写文案、做客服、生成图片)均是直接调用平台能力[6] - 两种模式各有利弊:美国擅长“从0到1”的原始创新但易碎片化;中国擅长“从1到100”的规模落地但原创力有待提升[10]
AI情色工厂
虎嗅APP· 2026-03-06 22:26
AI情色工厂的运作模式与技术应用 - AI技术被用于批量生成完美无瑕的虚拟女性形象,替代了传统的真人盗图或重度美颜 诈骗团伙利用Stable Diffusion、Midjourney等扩散模型,通过输入关键词(如“性感、高跟鞋、长发”)即可在几秒钟内生成皮肤纹理、眼神、服饰均无懈可击的“女神”图像[8] - AI生成的美女扮演多种精心设计的人设,如金融女强人、家庭主妇、背包客,其社交动态内容精致,旨在表达社交渴望[8] - 核心技术支持包括深度学习中的扩散模型,该模型通过在海量真实照片中学习“美”的概率分布来生成图像 LORA模型(低秩自适应模型)可精准控制虚拟人的发丝颤动、瞳孔缩放及皮肤表层微血管分布等细节[8] - 大语言模型的接入为虚拟形象赋予“大脑”,使其能够自动生成并发布符合人设的社交内容,并在与受害者聊天时,通过自然语言处理技术敏锐捕捉对方文字中的情绪波动,进行情感计算并生成安抚文字[9] - 最终诈骗手段包括诱导下载病毒软件进行裸聊勒索,或通过假装恋爱骗取大额转账[10] AI技术如何降低诈骗门槛并提升成功率 - 结合语音克隆和Deepfake实时换脸技术,诈骗的逼真度大幅提升 案例显示,诈骗者通过带有细微呼吸声和方言尾音的关怀语音,以及毫无破绽的实时视频通话,使受害者在三个月内深信不疑并转账280万元[12] - 利用AI技术实施的诈骗案件在近两年电信诈骗中占比显著提升,其中AI虚假人像带动的“虚假恋爱”案件涉案金额年均增长超过40%[12] - 黑产市场已形成完整的AI素材产业链,一套包含数千张同一虚拟人物不同生活场景的照片、视频及配套AI变声包,在暗网上的售价仅为几百元,这极大降低了诈骗的进入门槛[12] - 诈骗门槛的无限拉低与成功概率的暴涨,给受害者带来了巨大的经济损失和深重的心理创伤,后者甚至远超金钱损失带来的痛苦[13] AI情色工厂的生态化发展与社会影响 - 该“工业化”收割模式高效利用了现代人的孤独感,通过算法推荐机制精准筛选高净值、低社交、情感匮乏的目标群体[15] - AI美女已进化成一种定制化的情感供应,可根据受害者喜好随时调整形象和互动方式,集成了千万级审美大数据且不知疲倦的算法在与受害者博弈中占据绝对优势[15] - AI色情工厂形成了从AI生成引流、自动化话术脚本配合到实时换脸视频诈骗的完整生态,每个环节都在去人工化 一个人可同时操控上百个社交账号,所有聊天话术由大语言模型实时生成并自动识别受害者情绪状态以给出最具诱惑力的回应[15] - 这种现象导致真实与虚幻的界限日益模糊,屏幕上的面容、声音和温情都可能是虚构产物,从而推高整个社会的交流与信任成本,动摇人类社会的信任根基[15]
速递 | 冯骥24小时反转:前吹Seedance地表最强,后劝大家看个乐?
文章核心观点 - 游戏科学等领先的内容创作公司通过“AI+人工”的黄金配比,在内部深度应用AI工具以大幅降低成本和提升效率,但在对外宣传中刻意淡化AI角色以维护品牌形象和迎合用户偏好[6][7][8][10][11][12][13][14] - 这一模式揭示了AI在内容产业(如游戏、短视频、广告、电商、教育)的普遍应用趋势,即“嘴上说不用,身体很诚实”,AI已成为应对成本压力和激烈竞争的关键破局点[22][23] - 从该案例中可洞察到三个潜在的AI商业化机会:游戏行业专属AI工具箱、AI辅助+人工精修外包服务、AI生成内容质量检测工具[16][17][18][19][20] 根据相关目录分别进行总结 事件回顾:冯骥24小时内对AI态度的转变 - 2月9日,游戏科学制作人冯骥在微博盛赞字节的Seedance 2.0为“当前地表最强的文章生成模型,没有之一”,并称“AIGC的童年时代结束了”[6] - 2月10日,游戏科学发布《黑神话:钟馗》6分钟实机预告,因画面质量过高,引发网友猜测为AI生成[6] - 冯骥随即发微博降温,表示“看个乐就行,别太严肃,差不多得了”,态度在24小时内从狂吹转为降温[6] 游戏科学的AI应用策略 - 公司对外不喊“AI驱动”口号,未发表AI论文或投资AI公司,官方宣传强调“匠心打磨六年”、“手工调整每一帧”[7][8] - 内部却是AI工具的重度使用者,例如使用Stable Diffusion做角色原画,Midjourney跑场景概念图,在《悟空》开发中AI生成的概念图素材达上千张[7] - 公司通过“AI+人工”的黄金配比实现降本增效:AI负责前期快速生成大量方案(如分镜、概念设计),人工则专注于核心环节的精修(如角色表情、打击感)[12][13] - 在《钟馗》预告片的制作流程中,AI的工作量占比估计在四五成左右,但最终画面能看出AI痕迹的可能不到一成[12] AI在游戏行业降本增效的核心逻辑 - 传统3A游戏开发成本高昂,例如育碧需要三千人团队、五到七年周期、成本几个亿美金[11] - 游戏科学仅几百人团队能做出同级别画质游戏,关键在于利用AI大幅降低成本和周期[11] - 以预告片制作为例,传统方式成本在几百万到两千万人民币,周期三到六个月,需三四十人团队;而AI辅助可节省一大半时间和成本[12] - 游戏玩家普遍对“AI制作”持负面态度(如认为“没灵魂”、“流水线产品”),因此公司需在品牌宣传上规避AI标签[10] 公司管理层的角色与行业启示 - 公司内部存在技术拥抱与艺术坚守的平衡:CEO冯骥角色是“踩油门”,负责拥抱技术、探索边界;主美杨奇角色是“踩刹车”,负责守住艺术底线、保证品质[15] - 这种“踩油门+踩刹车”的组合被视为成熟公司的组织架构,既能利用技术进化,又能防止产品失去灵魂或被成本压垮[15] - 冯骥态度反转的深层原因包括保护团队过年氛围、维护公司品牌形象,同时也想向行业同行提示技术已迭代到新阶段[14] 从案例衍生的AI商业化机会 - **方向1:游戏行业专属AI工具箱**:开发针对游戏行业的AI中台,预设赛博朋克、中式奇幻等风格模板,实现角色、场景、特效的一键生成,解决通用模型生成内容不专业的问题,国内已有“触站AI”、“Nolibox”等团队尝试[17] - **方向2:AI辅助+人工精修外包服务**:以“AI快速生成+人工筛选精修”的模式承接游戏美术外包,交付速度比传统外包快好几倍且价格更优,对外则强调“人工精修、匠心品质”,已有深圳团队低调实践[18] - **方向3:AI生成内容质量检测工具**:开发能自动检测AI生成内容“成熟度”的工具,识别需要人工再修的部分,这将成为游戏公司使用AI的刚需,类似代码检测或论文查重工具[19][20] AI在更广泛内容行业的应用趋势 - 游戏行业是缩影,短视频、广告、电商、教育等内容行业均面临成本高、用户挑剔、竞争激烈的问题,AI是共同的破局点[22] - 所有内容行业都在学习“嘴上说不用,身体很诚实”的策略,即深度使用AI但对外隐藏,谁能将AI藏得越深、用得越好,谁就越具竞争力[23] - AI被定位为工具而非敌人或救世主,善于利用者将获得竞争优势,拒绝使用者则面临被淘汰的风险[23]
我国科研机构主导的大模型成果首次登上Nature
观察者网· 2026-02-07 09:15
核心观点 - 北京智源人工智能研究院在《Nature》上发表的Emu3模型,证明了仅使用“下一词预测”这一统一范式,即可让机器同时掌握看、听、说、写乃至行动等多模态能力,挑战了当前AI领域依赖专用模型拼接的主流技术路线 [1][21] 技术架构与突破 - **统一范式**:Emu3采用极简设计,仅通过“下一词预测”任务训练一个decoder-only Transformer模型,统一处理文本、图像、视频和机器人动作指令,无需复杂的编码器拼接或模态融合机制 [1][10] - **视觉分词器**:模型核心是一个高效的视觉分词器,能将512×512图像压缩为4096个离散符号(压缩比64:1),并将4帧视频片段同样压缩至4096个符号,使用包含32768个“词汇”的码本,通过三维卷积核原生捕捉视频时空信息 [8][9] - **性能表现**:在多项基准测试中,Emu3性能与专用模型持平或超越:图像生成人类偏好评估得分70.0,超越Stable Diffusion XL的66.9;视觉语言理解12项测试平均分62.1,与LLaVA-1.6的61.8持平;视频生成VBench评估得分81.0,超过Open-Sora-1.2的79.8 [11] - **规模定律**:研究证实多模态学习遵循可预测的规模定律,当训练数据翻倍时,文字到图像、图像到文字、文字到视频等任务的验证损失均以0.55的指数下降,基于小模型数据可高精度预测大模型性能(拟合优度>0.99,误差<3%) [12] 行业比较与定位 - **与Meta Chameleon比较**:两者均尝试统一多模态学习,但Emu3通过优化视觉分词器和训练策略,弥合了统一模型与专用模型之间的性能差距 [17] - **与OpenAI Sora比较**:Sora基于扩散模型,擅长视频生成但本质是生成器,需额外嫁接模型以实现理解;Emu3的自回归范式则天然统一生成与理解于单一模型内 [17][18] - **与Google Gemini比较**:Gemini整合多模态但仍依赖预训练视觉编码器和复杂融合机制;Emu3采用从零训练策略,虽计算成本更高,但获得了更纯粹、一致的多模态表征 [18] - **开放性优势**:团队承诺开源视觉分词器、训练代码和预训练权重,与OpenAI的封闭策略形成对比,为全球AI社区提供了可复现、可改进的新技术路线 [18] 应用潜力与商业化 - **部署效率**:模型基于标准Transformer架构,可复用大语言模型成熟的推理基础设施(如vLLM、PagedAttention),团队已开发支持无分类器引导的推理后端,实现低延迟高吞吐 [19] - **应用统一性**:单一模型架构可支撑图像生成、视觉问答、视频理解等多种能力,降低多模型部署带来的运维复杂度和资源浪费 [19] - **交互变革**:模型同时具备生成与理解能力,能处理图文视频任意组合,支持如根据产品视频生成图文说明书、描述场景生成视频并实时问答等新型交互 [20] - **垂直领域**:在教育、电商、医疗等领域有应用潜力,例如作为统一助手生成教学内容、处理电商产品图片与问答、辅助医疗影像分析与报告 [20] 行业意义与影响 - **范式挑战**:Emu3的成功是对当前主流多模态技术路线的根本性挑战,证明了一条更简洁、统一的道路可行,可能引发AI领域的范式转移 [21] - **中国AI研究标杆**:此项原创性工作为中国AI研究树立了新标杆,展示了在顶级学术期刊提出并验证不同于海外巨头的技术路线的能力 [21] - **具身智能路径**:在CALVIN机器人操控基准测试中,Emu3在“连续完成五个任务”上达到87%成功率,展示了其作为通往具身智能捷径的潜力 [14][15] - **世界模型前景**:模型能够根据烹饪视频前两秒预测后续画面,展现了“世界模型”的潜力,为整合感知、语言和行动的通用人工智能提供了有希望的道路 [15][22]
Z Product|解析Fal.ai爆炸式增长,为什么说“GPU穷人”正在赢得AI的未来?
Z Potentials· 2026-01-27 10:58
行业背景与核心问题 - 人工智能时代面临一个悖论:模型涌现速度前所未有,但将其部署到真实应用的“最后一公里”成本异常昂贵和复杂[2] - 模型训练完成后,真正的瓶颈在于推理,即模型在现实世界中响应用户请求的每次计算,它持续不断,构成长尾成本的核心[2] - 绝大多数开发者和初创公司是“GPU穷人”,高昂的推理成本和难以忍受的延迟阻碍了创新想法的实现[2] 公司定位与愿景 - Fal.ai的故事始于一个为“GPU贫民”引领效率革命的愿景[3] - 公司在被云巨头和主流模型厂商定义的市场中,通过提供数量级领先的速度和成本效益,为开发者开辟了一个“性能特区”[4] - 其核心价值主张是提供“地球上最快的推理”,旨在对开发者体验进行颠覆性重塑[4] 产品与技术优势 - 通过自研推理引擎、LoRA动态加载、冷启动优化等一系列技术创新,Fal Inference Engine对扩散模型推理速度最高可达10倍提升[4] - 平台托管了超过600个生产级模型,拥有超过200万注册开发者,每日处理超过1亿次推理请求[4] - 服务超过300家企业客户,包括Adobe、Canva、Perplexity、Quora (Poe)等[4] - 其真正的护城河是一种体系化能力:能将任何前沿开源模型在极短时间内转化为稳定、可规模化调用的生产级API[17] 商业表现与增长 - 据估算,公司在2025年7月达到约9500万美元年化收入run rate,较2024年7月约200万美元同比增长约4650%[5][14] - 增长策略复刻了Stripe的成功路径,通过为开发者提供极致体验,自下而上地占领市场[5] - 公司终局目标是成为连接所有生成式AI能力的工作流引擎,从算力供应商升维为不可或缺的应用开发平台[5][7] 团队背景 - 创始人团队来自AWS和Coinbase,深刻理解如何服务开发者并将复杂AI基础设施产品化[5] - CEO Burkay Gur曾任Coinbase机器学习开发负责人,具备将复杂技术产品化并规模化的经验[9] - CTO Gorkem Yurtseven前Amazon AWS软件开发工程师,曾构建机器学习基础设施底层架构[10] - 团队从2022年8月Stable Diffusion发布后,在仅有8块GPU的起点上开始创业,并自嘲为“GPU穷人”[10] - 不到50人的团队支撑起了突破1亿美元的年经常性收入,人效比惊人[10] 竞争壁垒 - 面对AWS、Google等巨头竞争,其壁垒在于专注与时间窗口[7] - 公司是高度专精的“特种部队”,整个技术栈都为速度服务,而云巨头是“集团军”,需兼顾通用性、安全性和合规性,技术迭代速度不及[7] - 巨头无法针对每一个新出的开源模型在24小时内完成极致的推理优化,这为Fal.ai创造了至少12-18个月的宝贵领先窗口[7] 融资情况 - 公司在短短几年内展现了惊人的资本吸引力,估值快速攀升[11] - 2025年10月有媒体称其融资对应估值超过40亿美元[12] - 融资历程包括:种子轮900万美元(a16z领投)、A轮1400万美元(Kindred Ventures领投)、B轮4900万美元(估值5亿美元)、C轮1.25亿美元(Meritech领投,估值15亿美元)[17] - 顶级投资人(如a16z、Perplexity CEO等)的注资是对其战略方向和技术护城河的强力背书[13]
一个创作者如何证明他不是AI?
36氪· 2026-01-16 11:58
文章核心观点 - AI的普及导致内容创作领域出现“作者有罪推定”现象,人类创作者需要不断自证清白,而“创作本真性”的传统观念及其三个前提(孤独天才神话、人性不可穿透、价值源于稀缺)正在崩塌[1][4][6][7][8][9] - 追求“作品是否由人创作”这一标准本身已经过时,真正的价值应转向作品是否回应了真实的人类生存困境,以及创作行为所嵌入的关系网络[10][11][13][14] - AI工具在提升效率的同时,也导致依赖创作谋生的普通创作者被迫支付“人性税”(包括时间、尊严和署名税),使得“人类手工创作”可能像“有机食品”一样成为溢价特权[16][18][19][20] - 人与AI共存的出路在于重新定义“创作者”为“混合主体”,其核心特征是创作权基于问题定义、人性被承认为创作成本、以及建立“创作血缘”溯源系统,但这面临现实困境,因为创作群体分裂且缺乏新的哲学语言来描述混合主体[21][22][23][25] 当一个人被指控"这看起来像 AI 写的",究竟发生了什么? - 创作默认来自人的前提被取消,进入“作者有罪推定”时代,创作者需要不断证明自己是人且拥有署名权[1] - 指控源于大脑难以区分AI与人类的“完美”,在信息过载环境下,读者采用“宁可错杀”的简单策略以规避受骗风险,这本质是内容信任机制崩溃后的社会自保[2] - 指控最讽刺之处在于,它通常来自最无能力辨别真伪的人,并成为一种权力倒置的手段,让无法创造完美的人通过质疑来获得道德优越感[2] - 这类指控是对创作者时间、主体性和存在感的否定,将其长期训练成果压缩为“几秒生成”,并将其声音降格为信息噪音[4] - 指控具有无法证伪的暴力特性,任何自证行为(如展示创作过程)在怀疑论者眼中都可能被视为更深层的伪装,形成指控零成本而辩护需无穷精力的权力陷阱[4] 真正泛滥的AI垃圾与指控的双标机制 - 互联网上充斥大量低质、瞎编乱造的AI生成内容(如“震惊体”标题、语法不通的SEO文章),但这些“赛博泔水”很少遭到“是否为AI创作”的指控[5] - 指控机制存在阴险的双重标准:被质疑的永远是“好到可疑”的作品,而非“烂到确定”的垃圾[5] - 在AI内容泛滥的背景下,公众形成一种模糊直觉,认为AI内容要么是低质噪音,要么是过于平滑的模板输出,这迫使人类创作被挤压到既不能太乱也不能太顺的狭窄位置[5] 追求“是不是人写的”还有意义吗?——关于创作本真性的探讨 - AI技术正在飞速迭代,通过模仿人类的口吃、笔误、情绪波动等方式进行“AI去AI化”,最终可能完美模拟一切曾被视作“人性痕迹”的不完美[6] - “创作本真性”概念建立在三个正在崩塌的前提之上:1)创作是孤独天才的神话,而AI暴露了绝大多数创作本质是模式识别、混合与优化[7];2)人性是不可穿透的黑箱,但神经科学与AI表明“灵感”可能只是大脑在噪声中寻找模式的结果[8];3)价值来源于稀缺性,当AI使高质量创作变得充足,基于稀缺性的定价逻辑面临挑战[9] - 问题的意义发生转移:重点不应再是“谁写了它”,而应是“它是否参与并回应了一个真实的问题”[10] - 真正不可数据化的并非创作行为本身,而是创作行为所嵌入的关系网络,以及作品与特定生命碰撞产生的“关系中的真实”[10][11] - 人类执着于在作品内部寻找人性证明是一场必输的战争,真正的出路是将战场转移到作品之外的创作生态、关系网络和生存实践中[13] - 对个体创作者,短期内追求“人写”仍有意义(因市场仍依此定价),但对文明而言,此概念必须被废弃,未来的创作者身份应被定义为带着个人经历、思考能力及读者关系去生成回应的“问题意识”[13] - 人性最终体现在“不得不创作”的绝望与对有限性的恐惧中,而非创作成果里[14] 内容上的人性,会变成一种特权吗?——关于“人性税”的分析 - 技术革命的“初心”是解放生产力,但历史表明,生产力红利往往首先被用于提高生产标准而非减少劳动,AI让“更快、更多、更像样”成为可能,随即被组织和市场吸收为新的KPI,填满了创作者的产能缺口[16] - 对依赖创作谋生的普通创作者(如网文作者、商业画师),AI更像是一种被迫接受的生产制度升级,他们需要支付三种“人性税”:1)时间税:不使用AI会导致产能不足和竞争力下降[18];2)尊严税:使用AI可能被贬为“提示词工人”,职业尊严被稀释[18];3)署名税:创作成果归因模糊,署名权变得脆弱[18] - 能负担“低效创作”(即保持人性化工作方式)的人,因拥有时间、资源或声誉护城河,越来越像享有特权,而“人类手工”在创作领域可能走向类似“有机食品”的溢价模式[18][19] - “人性税”的本质是效率至上的评价体系导致竞争更密集、标准更高、议价权更集中,迫使普通创作者用更少时间交付更像样的结果,从而必须额外付出才能保留原本默认属于人的工作方式与尊严[20] 人与AI在创作领域应该如何共存?——关于“混合主体”的构想与现实困境 - 需要重新发明“创作者”概念为“混合主体”,其特征包括:1)创作权基于“谁定义了问题”,而非“谁动了笔”,将创造力的核心从执行提升至认知与提问[21][22];2)承认“人性”(如不完美、情绪)是创作的一种“冗余成本”,应为其不可控性定价,而非将其作为价值来源或自证工具[23];3)建立“创作血缘”溯源系统,以贡献图谱取代单一署名,记录创意、执行、情感等多重贡献[23] - 实现这一构想需要法律承认多重主体创作、平台支持贡献度追踪、教育转向培养提问能力,并形成一种新的文化契约,将焦点从“这是谁写的”转向“这解决了什么问题”[23] - 现实实现前景悲观,因为创作群体本身分裂:顶尖创作者可依靠肉身创作生存,底层创作者已接受作为AI插件,而承受身份焦虑的中间层最为脆弱和分裂,既抵抗又利用AI,无法形成统一战线[25] - 根本困境在于缺乏哲学突破和新的概念工具来描述“既非纯粹人性,也非纯粹机器”的创作主体,导致讨论被困在“我不是AI”的否定句中,无法形成肯定的身份表述[25] - 对当前创作者的实践建议是:不要试图证明自己不是AI[25]
想成为下一个 Manus,先把这些出海合规问题处理好
Founder Park· 2025-12-31 18:11
文章核心观点 - 中国AI创业公司出海是必然趋势,利用本土产品化能力和供应链优势降维打击全球市场是绝佳策略[2][6] - AI企业出海面临复杂的合规挑战,数据、监管、存储、主体架构等问题必须前置解决,合规布局需比业务推进早半步[3][9] - 常见的“三明治架构”(资金和数据在海外,研发团队在中国)存在巨大的数据跨境传输风险,忽视了全球对数据主权的高度重视[10][12][13] - 企业需根据不同法域的监管逻辑(中国、美国、欧盟)制定合规策略,并建立覆盖至少四个节点(美国、欧盟、新加坡、中国)的全球数据存储基础布局[14][22][26] - 在AI数据训练和内容生成环节,企业需关注数据来源的合法性、生成物的权利归属与侵权风险,并通过用户协议、技术过滤和明确标识等方式管理风险[27][31][36] 根据相关目录分别进行总结 01 “三明治架构”风险很大 - AI产品出海已成为中国创业团队的必答题,是利用本土优势进行全球市场降维打击的绝佳策略[2][6] - 出海主要分为两种模式:**资本驱动型**(核心追求高估值和海外上市,需早期解决业务和团队归属地问题)和**业务驱动型**(核心在海外市场获得营收,需提前规划合规)[7][9] - **业务驱动型出海**又可分为**风险规避型**(因国内监管严格而选择海外)和**市场适配型**(因海外市场更成熟、付费意愿更强)[17] - 常见但风险极高的“三明治架构”特点是:资金和用户数据在海外,核心研发与运营团队在中国,导致数据反复跨境传输[10][12] - 该架构面临数据主权和国家安全的双重挑战,全球各国立法均明确本国产生的数据主权归本国所有,反复跨境传输带来巨大合规风险[13] 02 中国、美国和欧盟,监管逻辑有什么不同? - **美国监管**核心风险在于诉讼和市场准入,执法机构可能通过一个小违规切口引发一系列罚款和长期整改[14][15] - 案例:儿童机器人产品Apitor因违反美国《儿童在线隐私保护法》(COPPA),被处罚50万美元和解金,并面临长达十年的强制整改令,产品在北美市场几乎宣告“死刑”[15] - **欧盟监管**以《通用数据保护条例》(GDPR)为核心,执行极其严格,核心原则是数据属于用户个人[16][18] - GDPR五大“狠招”:天价罚款、被遗忘权(对AI企业尤其棘手)、数据采集的最小必要原则、知情同意的明确性要求、严格的跨境数据传输要求[19] - 监管不仅关注数据存储物理位置,更关注**数据访问权限管控**。国内工程师远程访问海外生产环境数据可能被视为数据跨境行为[20] - 案例:某消费级摄像头产品因国内工程师可通过VPN访问存储在欧盟本地的数据,被认定为等效的数据跨境传输[19] - **中国监管**基础框架为《网络安全法》、《数据安全法》和《个人信息保护法》,出海业务核心在于数据出境合规性[21] - 对AI服务有明确的算法备案要求,对具有舆论属性或内容生成能力的应用还需进行生成式AI服务的“双备案”[21] 03 一个基础的全球数据存储布局,至少要覆盖四个节点 - 多数国家要求敏感数据本地化存储,有六类数据需特别关注:金融类、医疗健康类、汽车与交通数据(尤其在中国)、生物识别数据、精确地理位置与行动轨迹信息、传统重要数据[22] - 对于一般用户数据,可根据目标市场制定灵活策略[23] - **美国市场**:建议第一时间将数据存储在美国本土,即使只有几千条用户数据也可能触发监管。一个美国节点通常可覆盖整个北美及大部分中南美洲市场[25] - **欧洲市场**:通常在法兰克福等城市设立单一数据节点,即可覆盖整个欧盟及英国[25] - **亚洲及中东市场**:通用方案是在新加坡存储(数据中立程度高),但印度、沙特、日韩等市场通常要求数据在各自境内存储[26] - 综合成本与合规,一个基础的全球数据存储布局至少需覆盖四个节点:**美国、欧盟、新加坡、中国**。若业务重点涉及日韩,需单独增加节点[26] 04 输入端:哪些数据能拿来训练,哪些不能? - AI企业训练数据主要来源有三,风险各异[27] 1. **网络公开数据爬取**:公开数据不等于可随意使用,数据内容决定风险属性[27] - 案例:纽约时报起诉OpenAI爬取其上百万篇文章侵犯著作权;Clearview AI爬取上百亿张人脸照片在欧美遭封禁[27] - 合规建议:遵守目标网站robots协议,控制爬取频率,建立清晰的数据来源清单[28] 2. **自有用户数据使用**:企业不天然拥有所收集用户数据的合法使用权,用于训练需获得用户明确同意[28] - 案例:Meta计划利用平台用户数据训练模型被欧盟叫停[28] - 解决方案:更新隐私政策与用户协议明确告知,并提供清晰的退出选项(Opt-out),如LinkedIn采用的“明确授权+退出机制”路径[28] 3. **开源数据集**:开源不等于无瑕疵,使用前需审查授权协议,并对存在争议的数据做隔离处理[29] - 案例:Stable Diffusion使用的LAION数据集含58亿张图片,后被曝出含未经授权版权作品及非法内容[29] - 必须高度警惕两类特殊数据:**生物识别数据**和**未成年人数据**,除非功能必需,否则需进行匿名化或去标识化处理[29] - 评估数据来源、权利归属和用户授权的逻辑同样适用于评估外购的第三方数据[30] 05 输出端:AI生成的内容归谁?侵权风险如何避免? - AI生成内容合规围绕三个核心维度:权利归属、侵权风险、标识规范[31] - **权利归属**:全球主流法律共识否定AI本身成为作者,著作权是为人类设计的权利[31] - 突破性可能:若用户付出足够多的智力投入(如具体提示词、细致调整),其“智力汗水”可能得到法律认可[31] - 当前可行方案:通过用户协议与使用者约定AI生成内容的权利归属与使用方式[32] - **侵权风险**:判定核心标准是生成结果与原作品是否构成“实质性相似”[32] - AI企业不必然因生成侵权内容而担责,关键在于是否尽到管理义务,适用“避风港原则”[33] - 具体措施:设置侵权举报渠道、避免诱导用户生成侵权内容、建立关键词屏蔽机制、完善下架流程、在用户协议中明确免责条款[33] - **标识与水印**:属于行政监管义务,各国监管重点要求对AI生成内容进行明确区分[34] - 两个层面:“显性标识”(如界面标注“由AI生成”)和“隐性水印”(标识信息嵌入元数据)是企业必须遵守的底线性合规要求[36] 06 主体架构优化,新加坡可能是现阶段更优的选择 - 对于“公司/创始人在美国,技术团队在中国,产品面向美国ToC用户”的典型场景,核心风险是数据存储与操作主体地理位置不一致[37] - 基础操作:用户数据必须存储在美国本地,并严格隔离生产与测试环境;国内团队远程访问需做好完整的操作日志记录[37][38] - 优化建议:可拆分部分技术人员派驻到新加坡或欧洲等地开展运维[39] - 设立海外子公司需考量成本,试图通过香港主体弱化“中国属性”效果有限,**新加坡可能是现阶段成本与效果更优的选择**[40] - 数据本地化存储的启动时机无明确用户量标准,在美欧等严格市场,一旦开始市场推广就应同步规划,而非等到用户积累到一定数量[41] 07 用户行为数据处理的合规风险在哪里? - 对于调用基础模型的应用层产品,需在用户指令输入环节设置资产合规审查机制,过滤明显侵权需求,否则应用层可能被认定为侵权责任主体[42] - 信息聚合功能需注意:爬取技术是否违反平台robots协议;整合的内容(如长博文、图片)是否侵犯著作权;大规模整合可能构成与原平台的不正当竞争[43] - ToC社交/游戏类产品使用用户行为数据训练,需做到:在用户协议和隐私政策中明确约定使用范围;对敏感数据做好匿名化、去标识化处理或直接剔除;赋予用户明确、便捷的退出数据训练的权利[44] - 抓取海外公开数据用于“内部研发”风险小于“产品化商用”。商用若与原数据权利方形成直接竞争关系,侵权风险高,监管会重点关注生成物与原数据的关联度[45][46] - IP侵权判定中,“相似度”标准是生成内容是否落入了原IP的保护范围,而非简单的外观复刻[47] - 音乐/音效侵权逻辑与图像一致,核心是“实质性相似”,但判断更主观。相关诉讼通常包含训练数据侵权和生成结果侵权的复合主张[48] - 用户上传已有IP声音作为素材风险极高,平台应优先争取商业授权,或在用户协议中要求用户承诺权属,并建立投诉通道、谨慎设计推荐功能,尝试在生成声音中加入标识[49] - 公司是否会受处罚与规模无关,关键在于是否触碰“红线”。合规“考试节点”包括:产品上架、融资尽调、监管专项行动[50][51]
人工智能生成物(AIGC)独创性判断标准——以文生图模式为例
36氪· 2025-12-16 11:11
文章核心观点 - 人工智能生成物(AIGC)在现有著作权法体系下可以获得保护,关键在于使用者是否在生成过程中投入了体现其个性化选择和智力判断的独创性贡献 [7][9][17] - 中国司法实践对AIGC独创性判断标准趋于明晰,法院通过具体案例确立了以“人类智力投入”为核心的审查路径,使用者需通过多环节介入来证明其独创性贡献 [11][14][15] - 为保障AIGC的著作权,使用者应采取保留创作记录、进行多回合筛选与调整、对最终作品进行固定等措施,以跨越独创性门槛 [16][17] 案情回放与司法判决 - “春风送来了温柔”案:北京互联网法院认定,原告通过设计提示词、调整参数及多回合筛选,对AI生成图片投入了智力与个性化表达,构成受保护的美术作品,判令被告赔礼道歉并赔偿经济损失**500元** [3] - “伴心”案:江苏省常熟市法院认定,原告通过多次修改提示词、迭代生成并使用Photoshop人工调整,其作品在场景、光影、构图等方面体现了独创性选择,构成美术作品,判令被告赔礼道歉并赔偿经济损失及合理费用共计**1万元** [4] - “幻之翼透明艺术椅”案:江苏省张家港市法院认为,原告未能提供创作过程原始记录,无法证明其对AI生成结果进行了充分的个性化选择和实质性贡献,故图片不构成作品,驳回全部诉讼请求 [5] AIGC可版权性的学术与司法争议 - 反对观点认为,AI生成内容源于算法和训练素材,使用者无法通过提示词和参数决定最终表达,生成过程具有随机性和不确定性,因此AIGC不应获得著作权保护 [6] - 支持观点认为,现有著作权法体系足以容纳AIGC,赋予其保护有利于激励创作和促进社会福利,关键在于使用者是否通过提示词设计、参数调整等环节体现了独创性智力投入 [7][11] AIGC独创性判断标准的中美比较 - 美国标准更为严苛:美国版权局在实践中对独创性审核标准更高,例如在Zarya the Dawn案中,仅对漫画书的文本及内容编排给予版权登记,拒绝了AI自动生成的图像 [10] - 中国标准相对包容:若AIGC作者能在场景、光影、构图等方面彰显独创性选择,并经过多轮修改、迭代或调整,则更可能被认定为具有独创性,但要求人类投入必须是“创造性”而非单纯“劳动性” [11] 对AIGC作者的实践建议 - 保留完整的创作过程记录,包括关键词筛选、草稿、参数设置等,以证明对生成内容的实质性控制和智力投入 [16] - 进行多回合创作与筛选:避免简单的“单回合制”操作,通过使用正向与反向提示词组合、多次迭代生成等方式,提升作者对作品的智力贡献 [14][16] - 进行后期人工调整:使用如Photoshop等工具对AI生成的初始图片进行修改和调整,以进一步表达作者独特的选择、协调和安排 [16] - 对最终作品进行权利固定:通过著作权登记、时间戳保存或在有公信力的第三方平台发表,以确立作品的形成时间 [16]
Nano Banana平替悄悄火了,马斯克、Meta争相合作
36氪· 2025-12-16 10:59
公司核心技术与市场地位 - 德国人工智能实验室Black Forest Labs开发的FLUX系列图像生成模型在权威基准测试中表现卓越 其FLUX.2[pro]在Artificial Analysis文生图榜单中排名第二 ELO得分为1,195 仅次于谷歌的Nano Banana Pro (1,223分) 其轻量版FLUX.2[flex]排名第四 (1,182分) 领先于字节跳动的Seedream 4.5 (1,170分) [1][2] - 在另一评测平台LMarena的文生图榜单中 FLUX.2[flex]与谷歌Gemini 2.5 Flash Image以1,156分并列第四 FLUX.2[pro]和FLUX.2[dev]分别以1,151分和1,149分位列第六和第七名 [3] - FLUX.2模型是开源的 在Hugging Face上的下载量已达到225,346次 在图生图模型排名中位列第二 [3] - 公司联合创始人兼首席执行官Robin Rombach是潜在扩散模型技术的核心发明者 其论文《High-resolution image synthesis with latent diffusion models》被引用超过27,039次 该技术是Stable Diffusion模型的基础 [12][13][14] 公司融资与估值 - 公司于2024年8月成立 迄今累计融资额超过4.5亿美元 [7] - 2025年12月1日 公司完成B轮融资 筹集3亿美元 投后估值达到32.5亿美元 估值在一年多时间里增长了三倍 [7][22] - B轮融资由Salesforce Ventures和Anjney Midha联合领投 参与方包括a16z 英伟达 Northzone Creandum Earlybird VC BroadLight Capital General Catalyst 淡马锡 贝恩资本风险投资公司 Air Street Capital Visionaries Club等知名机构 以及合作伙伴Canva和Figma Ventures [22] 商业合作与财务表现 - 公司与多家科技巨头达成重要商业合作 包括与Meta签署了一份价值1.4亿美元的多年度合同 其中第一年支付3,500万美元 第二年支付1.05亿美元 [16] - 公司成立之初即与马斯克旗下的xAI合作 为其Grok聊天机器人提供AI图像生成功能 [10][16] - 公司已与Adobe Canva和Snap等行业知名企业签署合作协议 若计入与Meta的协议 总合同价值约达3亿美元 [19] - 截至2025年8月 公司的年度经常性收入已达到9,630万美元 并预计在2026财年将攀升至3亿美元 [19] 产品迭代与技术创新 - 公司于2025年11月发布了最新图像生成模型FLUX.2 该模型优化了文本和图像渲染表现 支持以多达10张图像作为参考 并可生成最高4K分辨率的图像 [20] - 此前于2025年5月发布的FLUX.1 Kontext模型 首次引入文本与图像双输入机制 支持上下文感知的生成与编辑 并采用了流匹配技术 [20] - 公司的技术根基源于其创始团队在潜在扩散模型领域的开创性研究 并致力于开发更高效的算法以在消费级硬件上获得出色性能 [14] 公司战略与文化 - 公司将总部设在德国弗赖堡 旨在远离硅谷的炒作氛围以保持团队在研发上的极度专注 [24] - 公司核心战略包括:通过开源部分FLUX模型赢得开发者社区认可并保持成本优势 将新融资重点投入计算基础设施升级与商业团队扩充 以及直面谷歌和字节跳动等巨头的竞争 立志在从广告到好莱坞的颠覆性市场中占据一席之地 [24] - 公司规模已从最初的10人扩展到50名全职员工 并在旧金山设有办事处 [24] - 公司积极在创意产业建立信任 在早期投资者帮助下于好莱坞开拓人脉 并强调其目标是增强创作者能力而非取代现有事物 [25]
Nano Banana平替悄悄火了!马斯克、Meta争相合作
搜狐财经· 2025-12-15 18:57
公司技术实力与市场地位 - 在Artificial Analysis的文生图榜单中,公司旗舰模型FLUX.2[pro]以ELO评分1,195分排名第二,仅次于谷歌的Nano Banana Pro(1,223分)[2][3] - 公司轻量版模型FLUX.2[flex]在Artificial Analysis榜单排名第四(ELO 1,182分),在LMarena榜单以1,156分与谷歌Gemini 2.5 Flash Image打成平手,位列第四[2][3][4][5] - 公司模型FLUX.2[pro]和FLUX.2[dev]在LMarena榜单分别排名第六(1,151分)和第七(1,149分)[4][5] - 公司开源模型在Hugging Face上的下载量已达到225,346次,在图生图模型排名中位列第二[5] - 公司联合创始人兼首席执行官Robin Rombach是潜在扩散(latent diffusion)技术的核心发明人,其关键论文《High-resolution image synthesis with latent diffusion models》被引用27,039次,总被引量达44,880次[12][13] 公司融资与估值 - 公司于2024年8月成立,迄今累计融资超4.5亿美元(约合人民币31.8亿元)[8] - 公司于12月1日完成3亿美元(约合人民币21.2亿元)的B轮融资,估值达32.5亿美元(约合人民币229.6亿元),估值在一年多时间里增长三倍[8][22] - B轮融资由Salesforce Ventures和Anjney Midha联合领投,投资方包括a16z、英伟达、Northzone、Creandum、General Catalyst、淡马锡、贝恩资本等知名机构,以及合作伙伴Canva和Figma Ventures[22] 公司商业合作与收入 - 公司与Meta签署了一份价值1.4亿美元(约合人民币9.9亿元)的多年度合同,第一年支付3,500万美元(约合人民币2.5亿元),第二年支付1.05亿美元(约合人民币7.4亿元)[15][16] - 公司早期与马斯克旗下xAI的Grok合作推出AI图像生成功能,借此打开市场知名度[15][16][19] - 公司已与Adobe、Canva和Snap等行业知名企业签署合作协议,加上与Meta的协议,总合同价值约达3亿美元[19] - 截至今年8月,公司年度经常性收入已达9,630万美元(约合人民币6.8亿元),并预计在2026财年攀升至3亿美元(约合人民币21.2亿元)[19] 公司产品与技术发展 - 公司核心产品为FLUX系列AI图像生成模型,最新版本FLUX.2优化了文本和图像渲染,支持以多达10张图像作为参考,并可生成最高4K分辨率的图像[20][22] - FLUX.1 Kontext模型于今年5月发布,首次引入文本与图像双输入机制,采用流匹配技术改变传统扩散模型架构[20] - 公司技术根基源于潜在扩散方法,该方法是许多生成式AI技术的基础,最初在消费级硬件的超小型GPU上开发以实现高效算法[14] 公司团队与战略 - 公司创始团队来自Stable Diffusion的核心研发团队,于2024年从Stability AI离职后创立该公司[15] - 公司将总部设在德国弗赖堡,以远离硅谷喧嚣,保持团队极度专注的研发状态,团队规模已从10人扩展至50名全职员工[23][24] - 公司核心战略包括:通过开源部分FLUX模型赢得开发者社区认可且成本低于竞争对手;将新融资重点投入计算基础设施升级与商业团队扩充;立志在从广告到好莱坞的颠覆性市场中竞争[24] - 公司正积极在创意产业建立信任,在好莱坞开拓人脉,并强调严肃对待知识产权,目标是增强创作者能力而非取代现有创作[25]