即梦

搜索文档
谷歌“香蕉”爆火启示:国产垂类AI的危机还是转机?
36氪· 2025-09-26 18:44
Nano Banana的市场影响与用户增长 - Nano Banana上线两周内全球生成超2亿张图片 亚太地区用户热情最高[1] - 英伟达CEO黄仁勋公开宣称是其忠实粉丝[1] - 为Gemini App带来超1000万新用户 并助其超越ChatGPT登顶苹果应用榜[1] 行业竞争格局变化 - OpenAI以11亿美元全股票交易收购产品实验平台Statsig以应对冲击[3] - 字节跳动快速推出Seedream4.0强化豆包和即梦产品[5] - 美图股价因通用模型威胁出现巨量波动[5] 技术突破与产品特性 - 通过自然语言对话实现精准图像编辑 无需结构化提示词[8][9] - 具备Gemini大模型的"原生世界知识" 支持风格一致性/多图融合/逐步编辑等功能[9] - 成本为0.039美元每张图片(按30美元/百万token 每张消耗1290 token计算)[11] - 核心技术依赖文字渲染/交错生成/速度哲学及世界知识引入[11] 垂类应用的竞争壁垒 - 摩根士丹利认为美图核心价值在于"最后一公里"解决方案[14] - 美图优势包括垂直领域数据积累/付费功能专注/多模型整合能力[14] - C端业务依赖美颜美体精细化理解 B端业务聚焦商拍场景know-how[14] - 与阿里达成18亿元战略合作 重点推进AI试衣和AI商品图功能[17] 行业发展趋势与战略方向 - 通用模型与垂类应用的竞争焦点在于场景赋能能力[24][25] - 垂类应用需聚焦"用户付费转化" 避免与通用模型直接技术对抗[24] - AI时代演化速度是移动互联网的三倍 需寻找差异化竞争机会[25] - 终极胜负手取决于能否将通用技术转化为用户愿付费的场景服务[25]
如何正确理解Token经济学?
36氪· 2025-09-23 19:04
因此,从Tokens角度跟踪AI应用落地进展,就是一个非常深刻且切中要害的视角。 去年5月,当大模型厂商卷起价格战时,Tokens大概率是出镜率最高的英文单词。 简单来说,Tokens是大语言模型(LLM)用来切割自然语言文本的基本单位,可以直观的理解 为"字"或"词"。 就像工业时代用"千瓦时"度量电力消耗,互联网时代用"GB"度量数据流量,AI时代用"Token"来度量模 型的工作量。一个Token可以理解为一个词或词片段(中文里可能是一个字或词语)。 Tokens的调用量,本质反映了模型推理过程的计算量。而计算量的高或低,直接揭示了模型在实际应用 中的能力、成本、速度和可行性。 它意味着我们将AI从一种"黑箱魔法"或纯粹的技术概念,拉回到了一个可度量、可分析、可商业化的实 际生产要素的层面。 简单来说,这意味着我们不再只关注AI"能做什么",而是开始量化分析它"做了多少"、"效率多 高"、"成本多少"以及"价值多大"。 1 谁在消耗tokens? 模型厂商以tokens为主要定价单位的底层逻辑是:模型调用时的tokens消耗量与相应算力投入存在强关 联性。而另一条暗线则是,算力投入链接了营收与token ...
比起nano-banana,国产AI更有性价比?
虎嗅· 2025-09-12 14:03
AI手办生成市场趋势 - AI手办图像生成内容在各大平台获得广泛传播 用户热衷使用自拍或动漫截图生成实拍手办效果[1] - 部分用户愿意为AI手办生成服务支付费用 闲鱼平台出现代做服务定价6元人民币[1] - 谷歌nano-banana工具功能强大但操作复杂 国产AI工具如可灵、即梦提供一键生成功能且完全免费[1] 国产AI工具竞争优势 - 国产AI工具在用户体验方面具有显著优势 提供简化操作流程实现一键生成[1] - 国产AI工具采用免费商业模式 相比国际竞品更具市场吸引力[1] - 可灵、即梦等国产AI工具在特定垂直领域展现技术应用能力[1]
可灵VS即梦:初探“多模态”
钛媒体APP· 2025-09-11 13:33
AI视频生成平台技术路线 - 国内AI视频生成领域以可灵和即梦为主要平台 [1] - 文生图+图生视频路线具有更高可控性 而文生视频路线能提供更强动态感 [3] - 多数用户选择可控性优先的技术路径 [4] AI内容生成能力评估 - AI编剧能力表现突出 Gemini 2 5 Pro能生成专业级分镜头脚本 [7][8] - 文生图能力存在局限 腾讯混元模型部分生成结果不符合指令要求 [13][15] - 图生视频指令系统成熟 涵盖场景 动作 运镜 风格等专业要素 [9] 视频生成技术缺陷 - 指令遵循度不足 平台经常偏离用户输入的明确指令 [20][22] - 物理逻辑错误频发 包括穿模现象和不合理运动轨迹 [24][25][28] - 时间一致性差 5秒内视频主体可能出现显著变化 [32][34] 平台性能对比分析 - 可灵平台优势体现在物理模拟真实性和动态感表现 [36] - 可灵具备深度概念理解能力和艺术诠释能力 [36] - 可灵掌握复杂镜头语言 能完成推拉变焦等专业运镜 [37] - 即梦平台优势在于图像保真度和稳定性 [43][44] - 即梦对复杂构图指令执行更可靠 但物理真实感不足 [46][47] - 即梦镜头语言能力较弱 难以完成复杂电影运镜 [48] 行业技术瓶颈 - 视频时长限制显著 主流平台仅支持5-10秒视频生成 [52] - 保真度与创意性存在技术路线博弈 尚未实现兼顾 [50] - 长时长连贯视频生成仍是重大技术挑战 [53] 商业化成本结构 - 基础生成成本较高 即梦平台最低配置为1元/5秒视频 [59] - 可灵平台标准模式定价为2元/5秒视频 [59] - 高质量视频需要多次调试 实际使用成本持续增加 [60] - 本地部署和模型微调成本超出一般用户承受能力 [57]
又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
机器之心· 2025-09-04 17:33
AI视频生成技术应用 - 博主使用Midjourney将30年前的涂鸦画制作成"妈妈拿彩虹木勺大战巨龙"动画 完美还原童年想象力 [2][4] - 即梦AI工具可根据提示词框架"we crash zoom into an immersive scene [subject + action] intense cinematic action"生成沉浸式场景视频 [5] - 即梦能够将涂鸦中的三个小人活灵活现呈现 动作自然流畅无画面崩坏或卡顿现象 [7] 多模态AI生成能力 - 即梦提供AI配乐功能 可自动生成三首符合画面风格的曲子 [8] - 谷歌Veo3实现音视频同步生成 整体效果毫无违和感 具有卡通电影片头质感 [13] - 即梦能够精确捕捉角色动作轨迹 如小女孩手臂摆动和步伐配合恰到好处 无同手同脚或多胳膊少腿错误 [14] 工具功能对比 - Veo3在音频清晰度和同步性上表现更成熟 能较好处理多层次音效和画面同步 [17] - 即梦和可灵在复杂动态场景中也能实现音效与动作同步 但音效清晰度和丰富度仍有提升空间 [17] - 各工具均能在较短时间内完成视频和音频内容生成 [17] Meta动画生成工具 - Animated Drawings可将涂鸦变为动画 要求图片主角肢体不与身体重叠 画质清晰无阴影 [18][22] - 工具自动识别角色并用方框标注 提供手动微调功能 支持32种动画模板包括走跑跳等动作 [24][26][28] 行业招聘信息 - 上海人工智能实验室开启2026届全球校招 目标2025年1月-2026年10月毕业生 [35][37] - 提供算法研发产品运营等六类岗位 算法类聚焦大模型多模态等方向 研发类聚焦分布式训练框架等 [41] - 招聘流程包括2025年8月20日启动网申 6场集中笔试 3-4轮极速面试 [44][45]
字节跳动季度营收达480亿美元,连续两季超越Meta,坐上全球社交媒体收入头把交椅
搜狐财经· 2025-08-29 21:43
字节跳动财务与业务表现 - 字节跳动近期员工股份回购价格从189.90美元提升至200.41美元,公司估值超过3,300亿美元 [2] - 公司使用自有资金执行股份回购计划,反映业务具备健康利润率和充裕现金流 [2] - 营收增长源于中国本土市场深厚根基与海外市场扩张,抖音已形成内容、社交、电商与本地生活服务的超级应用生态 [2] - TikTok商业化进程在全球范围内推进,但美国业务尚未实现盈利 [3][4] Meta财务与战略布局 - 第二季度净利润达183.4亿美元,同比增长36%,广告营收达到465.6亿美元,超出华尔街预期 [3] - 公司将2025年资本支出预期上调至660亿至720亿美元,2026年预计超过1,000亿美元,主要用于人工智能基础设施建设 [3] - 通过高薪从谷歌等竞争对手挖角顶级AI科学家,组建超级智能研究团队 [5] - 当前市值约1.9万亿美元,约为字节跳动估值的5.7倍 [3] 行业发展趋势与竞争环境 - 全球社交媒体广告支出预计2025年达到2,767亿美元,未来数年保持约10%年复合增长率 [4] - 短视频成为数字信息消费主流形式,Z世代年轻人倾向于通过短视频发现新产品和品牌 [4] - TikTok用户月平均观看时长达35小时,高强度用户粘性为商业化提供基础 [4] - 字节跳动面临美国市场政治与监管风险,总统禁令截止日期曾延长至9月17日 [4] 人工智能战略差异 - Meta采取基础设施先导的长期投入策略,斥资构建大型AI集群并争夺顶尖人才 [5] - 字节跳动采用双线并行策略:一方面投入底层大模型研发,另一方面将AI技术产品化融入现有业务 [7] - 字节跳动积极采购英伟达AI芯片,在全球以竞争力薪酬招募顶尖研究员与工程师 [7] - 消费端推出"豆包"和"即梦"应用,企业端通过火山引擎向客户开放大模型能力 [7] 核心竞争维度 - 竞争焦点从用户数量与营收差异转向人工智能技术驾驭能力与商业生态韧性 [8] - Meta优势体现在庞大用户基础、成熟盈利模式和资本市场认可度 [8] - 字节跳动需在维持高增长同时解决美国市场业务出路问题 [8] - 地缘政治环境成为影响全球业务布局的关键变量 [8]
AI生成图片,哪家强?
36氪· 2025-08-29 14:26
多模态文生图模型测评概述 - AI图片生成在工作和学习中显著提升效率 支持文生图的模型数量呈指数级增长[1] - 测评涵盖6个主流模型:腾讯混元、智谱CogView-4、通义千问、即梦、可灵和Gemini 2.5 Flash Image[3] - Gemini 2.5 Flash Image为Google发布产品 此前以nano-Banana名称在LMarena平台获得极高关注度[4][5] 基础美学与真实感测试 - 测试主题为"傍晚阳光下的少女" 要求超写实照片级输出[9] - 腾讯混元存在皮肤质感过于光滑问题[16] - 智谱CogView-4出现雀斑分布均匀化的人工痕迹[16] - 通义千问出现双手比例严重失真问题 被评价为"一眼AI"[16] - 即梦和可灵在该维度表现接近完美[16] - Gemini存在皮肤质感过于光滑问题 写实感不足[18] 想象力与创意测试 - 测试主题为"星云构成的雄狮" 要求呈现宇宙元素构成的生物形态[19] - 腾讯混元误生成宇宙材质雕像而非生命体[25] - 智谱CogView-4完全偏离概念 生成实体狮子[25] - 通义千问产生半实体半星云的混合效果[25] - 即梦生成科幻感十足但实体感过强的狮子[25] - 可灵成为本轮最佳 成功实现星云融合效果[25] - Gemini保持实体不透明但神韵细节表现良好[25] 指令理解与执行力测试 - 测试主题为"水果篮里的数学题" 要求精确呈现三个红苹果和两个黄香蕉[27] - 仅智谱CogView-4、通义千问和Gemini正确完成指令[39] - 即梦和可灵出现苹果数量错误[39] - 腾讯混元存在多重执行漏洞[39] - 测试表明AI将数字视为构图特征而非精确数量要求[39] 风格模仿与驾驭力测试 - 测试主题为"水墨风的机甲" 要求融合中国传统水墨画风格[40] - Gemini成功实现山水画风格 被评价为最符合要求[44] - 通义千问生成素描风格机甲 存在形似神不似问题[44] - 即梦产生数字绘画风格 类似游戏概念设计图[47] - 可灵生成风格割裂的日式机甲与水墨背景组合[47] - 腾讯混元和智谱CogView-4完全偏离主题 生成古代武士形象[47] 文化理解与概念表达测试 - 测试主题为"中秋佳节的汉服少女" 要求呈现中国传统文化元素[48] - Gemini和可灵获得高分 展现准确汉服理解及完整文化元素呈现[57] - 即梦和通义千问在氛围塑造成功但汉服结构模糊[57] - 智谱CogView-4采用动漫风格 历史文化还原度不足[57] - 腾讯混元存在服饰结构错误和文化混淆问题[57] 综合性能排名 - Gemini以44分总分位列第一[58] - 可灵以40分总分位列第二[58] - 即梦以39分总分位列第三[58] - 通义千问以38.5分位列第四[59] - 智谱CogView-4以33.5分位列第五[59] - 腾讯混元以28.5分位列末位[59] 技术原理分析 - AI作图基于概率分布而非逻辑推理 通过降噪过程从随机噪声生成图像[63][64] - 数字指令被处理为构图特征而非精确数量要求[64] - 概念冲突时无法同时满足矛盾的概率分布[64] - 输出质量高度依赖训练数据库的标签准确性和数据质量[64]
又土又爽的AI短剧,占领抖音了?
菜鸟教程· 2025-08-28 11:29
短剧市场热度与表现 - 短剧热度轻松突破5000万 远超传统国产剧的4000万小爆标准 [7] - 短剧《当爱抵达时》以7886万热度位居榜首 《一品布衣》以7633万热度紧随其后 [8] - 短剧有效播放量让国产剧望尘莫及 国民度拉满 [8] AI短剧案例表现 - 《九尾狐男妖爱上我》仅更新28集 累计播放量已突破1.8亿次 [9][11] - 该剧全程使用AI制作 从角色到场景均由作者独自完成 [14] - 即使AI痕迹明显 观众仍持续追剧 形成"边嘲边看"现象 [14] AI短剧制作效率优势 - AI短剧最快仅需数小时即可完成 每分钟剧集耗时约2小时 [15] - 相比传统国产剧以月为制作周期 传统短剧以天为单位 AI短剧大幅压缩制作时间 [15] - 无需演员和实景拍摄 大幅降低演员、布景、沟通调度等各项成本 [15] AI短剧技术实现路径 - 使用大语言模型生成剧本和分镜说明 [27] - 采用Midjourney、即梦、可灵、豆包等文本生图工具实现人物和场景一致性 [30] - 通过三视图提示词技术保持人物特征一致性 [32][33] - 使用图转视频工具将分镜图片转换为视频片段 [44][46] - 采用即梦等AI配音工具实现对口型配音 其中大师模式效果最佳 [47][49] - 最后使用PR和剪映进行剪辑 添加特效字和台词 [50][51] AI短剧市场适应性 - 契合现代人时间碎片化生活习惯和注意力短暂特点 [23] - 满足生活压力下日益增长的消遣放松需求 [23] - 一分钟单集长度适合碎片化时间观看 提供高浓度情感体验 [22][23] - 较低审美门槛在更大范围内引起共鸣 产生"越土越上瘾"效应 [23]
硬件传闻叠出 字节的AI版图怎么样了
36氪· 2025-08-22 14:00
字节跳动AI硬件布局传闻 - 公司被传将在2024年底或2025年初推出AI手机 由中兴代工并暂命名为"豆包手机" 但公司否认有自有手机研发计划[1] - 公司被传与芯原股份合作设计AI算力芯片 但公司否认存在相关合作 2023年亦曾否认与博通合作开发AI处理器[1] - 市场对公司在AI硬件领域动向保持高度关注 尽管多次传闻均被官方否认[1] 现有AI硬件业务体系 - 公司通过2021年收购Pico进入VR硬件领域 曾发布Pico 4并占据国内VR市场领先地位 但2023年起业务收缩并转向聚焦硬件核心技术[3] - 2024年收购耳机品牌Oladance 推出AI智能体耳机Ola Friend 同时研发轻型XR眼镜对标Meta产品[3] - AI硬件由Ocean团队负责 隶属于公司AI产品大团队Flow 正在探索多款AI设备[3] AI生态全链条布局 - 模型层开源多模态智能体框架M3-Agent 在M3-Bench基准测试中表现优于GPT-4o 多项测试准确率提升[4] - 应用层拥有豆包/即梦等国内产品 海外推出AI教育应用Gauth服务全球3亿用户 另开发聊天助手Cici及智能体平台Coze[4] - 硬件布局旨在承接模型与应用生态 形成软硬一体闭环体验 覆盖手机/耳机/眼镜等多形态终端[4] 战略发展方向 - 公司硬件布局历史包括2020年推出大力智能学习灯等教育硬件 后因监管趋严而收缩业务[3] - 未来可能走向软硬一体生态布局 与国际厂商苹果/Meta路径类似 既是战略选择也是竞争必然[5] - 通过补齐硬件短板构建从云端到终端的AI闭环 强化全球化布局中硬件载体的战略地位[4][5]
36氪出海·关注|硬件传闻叠出,字节的AI版图怎么样了
36氪· 2025-08-22 10:56
字节跳动AI手机传闻 - 市场传闻字节跳动计划在2024年底或2025年初推出AI手机 暂名"豆包手机" 由中兴作为ODM厂商代工 早期主要用于内部团队测试 [2] - 公司官方回应否认推出自有手机产品 称正探索将AI能力开放给包括手机在内的硬件厂商 但不涉及自有手机研发与推出 [2] - 类似传闻并非首次出现 年初有报道称字节与努比亚合作开发AI手机 后被官方否认信息不实 [2] 芯片领域合作传闻 - 市场传闻字节跳动与芯原股份联手设计先进AI算力芯片 公司回应称并无AI芯片相关合作 [2] - 2023年曾有传闻称字节与美国博通合作开发AI处理器 由台积电制造 后亦被否认 [2] - 传闻与否认反映市场对字节在AI硬件领域的高度关注 [2] AI硬件领域现有布局 - 公司2020年通过教育品牌大力教育推出智能学习灯等教育硬件产品 后因监管趋严导致业务收缩 [3] - 2021年收购Pico成为硬件布局重要起点 曾发布Pico 4并打造内容生态 在国内VR市场占据领先地位 但2023年起面临业务收缩和人员裁减 转向聚焦硬件和核心技术长期探索 [3] - 2024年收购耳机品牌Oladance 推出AI智能体耳机Ola Friend 另据报道正在研发轻型混合现实(XR)眼镜 对标Meta同类产品 [3] - 负责AI硬件的Ocean团队正探索多款AI设备 隶属于AI产品大团队Flow [3] AI生态战略布局 - 硬件布局已形成体系 包括手机、耳机、眼镜等形态 核心是以硬件作为场景载体 承接模型、应用和内容生态 形成软硬一体闭环体验 [4] - 在AI上下游实现全面布局 包括模型、平台、应用和云服务 构建从模型到应用的丰富生态 [4] - 模型层近期开源多模态智能体框架M3-Agent 具备长期记忆和多模态推理能力 在多项测试中准确率优于GPT-4o [4] 应用层产品表现 - 国内推出豆包、即梦等多款AI应用 海外推出AI教育应用Gauth、聊天助手Cici和智能体开发平台Coze 均实现快速增长 [6] - Gauth已为全球3亿用户提供教育资源 [6] - 公司擅长产品和内容规模化打法 但硬件存在感相对薄弱 [6] 未来战略方向 - 随着AI演进 硬件将成为承载AI能力的关键接口 补齐硬件短板可帮助构建从云端到终端的AI闭环 且不局限于国内市场 [6] - 公司未来可能走向"软硬一体"生态布局 类似苹果、Meta等国际厂商 这既是战略选择也是竞争必然 [6]