Workflow
锦秋集
icon
搜索文档
锦秋基金被投企业星尘智能亮相进博会,机器人乐队奏出中国风未来|Jinqiu Spotlight
锦秋集· 2025-11-07 15:15
公司技术与产品 - 星尘智能采用独特的绳驱传动与仿人设计,是业界首个实现绳驱量产的企业,使机器人在动作自由度、速度、加速度、精度上达到类人水准 [9] - 绳驱传动技术具备刚柔并济的特点,能完成高精度复杂操作(如生物化学医药实验)并模仿人类情感表达,兼具功能与情绪价值 [4][10] - 公司自主研发高效遥操作示教系统,人类乐手通过VR头显与操纵杆实时采集运动轨迹与力控数据,经数小时采集训练后机器人可自主复现演奏动作 [11] - 技术体系包括轻量高扭矩绳驱执行器(低惯量、快响应)、柔顺力控体系(精准控制击打力度)和具身学习模型(通过模仿学习优化动作) [12] 产品性能与展示 - 在进博会表演中,机器人指挥动作精准丝滑,木琴与指挥机器人实现毫秒级响应,钟琴机器人击打位姿精度达毫米级,展现高动态响应与精准位置控制 [7] - 机器人乐队通过同步控制与人类乐手完成三重奏,验证了系统在高动态、高负载任务下的稳定性与可靠性,并可全天多场次表演 [3][6] - 小央机器人乐队已能在深圳机场、保利剧院等大型活动中演奏《射雕英雄传》主题曲、《茉莉花》等多首乐曲,并可更新曲目持续学习 [8][13] - 在默沙东展区,S1机器人动态演示生物化学医药实验等长序列任务,并开放“人人可上手”的遥操作体验,体现硬件表现力与交互安全性 [4] 商业进展与战略 - 星尘智能于2024年获锦秋基金领投A轮融资,2025年继续获其追投A+轮融资,锦秋基金作为12年期AI Fund以长期主义为核心投资理念 [3] - 公司基于“本体—数据—模型”三位一体的Astribot Suite平台,在2025年完成上千台订单,并于第四季度陆续出货 [14] - 公司愿景是让机器人成为数十亿人的“AI机器人助理”,应用于家务劳动、精细分拣、服务交互等场景,正构建“本体优化—数据沉淀—算法进化—产业落地”的正循环体系 [14][16] - 与央视网合作的小央机器人乐队是其在文娱领域落地的重要举措,乐队成员将在全国开展主持访谈、乐队表演等工作,拓展“智能传播”与“人机共创”的想象空间 [8] 行业影响与定位 - 星尘智能成立于2022年底,是绳驱AI机器人的定义者,其技术路线推动机器人行业应用加速与商业化落地 [16][17] - 公司技术突破传统刚性机器人桎梏,尤其适合复杂灵巧操作和与人紧密交互的场景,已在科研、商业服务、文娱演出及工业领域实现应用 [9][17] - 具身智能模型通过模仿学习与力控反馈,使机器人快速掌握复杂技能,标志着AI操作世界的“Windows时刻”可能临近 [3][12]
我们是如何把中国最会搞AI的一群人,做成手办礼物送给他们的|Jinqiu Scan
锦秋集· 2025-11-07 12:04
文章核心观点 - 公司通过AI技术为CEO大会定制个性化手办,将AI从技术工具转变为具有温度和创造力的协作者,实现从虚拟形象到实体产品的全流程转化 [3][4][44] AI手办定制流程 - 收集每位参与者1-2张照片及个人领域、爱好等信息,使用Seedream 4.0、造好物等工具生成多种风格设计方案,最终选定Q版风格 [8] - 采用基础prompt生成1/7比例商业模型,并根据个人外形、气质特点及参考图清晰度补充描述细节 [9][10] - 针对半身照补充下半身设计,根据人物气质用语言绘制完整服装并调整神态 [11][13] - 通过多图参考和prompt将人物与产品、兴趣爱好结合,并关注眼镜、胡子、发型等标志性细节 [18][24] - 对区分度较小形象在衣服上印制公司名称以增强个性化 [29] AI生成技术能力评估 - 生成模型能稳定产出可直接使用结果,在风格转换、多图参考与局部修改方面展现成熟能力,可准确将真实照片转为Q版形象并捕捉人物神态 [33] - 细节问题如遗漏眼镜、下装缺失或短发变形可通过精细prompt描述解决,带文字元素画面易出现模糊或乱码 [34][37] - 多图参考时模型主体融合能力强,但需明确主体交互、位置和尺寸以避免比例失衡 [35] - 局部修改可实现高精度,如替换服饰细节或调整动作,AI正从工具转变为创作协作者 [35] 制造链协同与生产 - 合作伙伴数美万物基于自研大模型Hitem3D进行辅助建模,将三维模型分辨率从行业常见的1024³提升至1536³,实现高效个性化定制 [39] - 采用AI→建模→修模→打印→质检链路,通过人机协同修模校正AI模型结构,达到可生产标准 [39][41] - 使用全彩3D打印一体成型节省人工与周期,后处理包括打磨抛光、关键部位上光油及商品级质检 [42] - 包装采用吊卡手办形式,左侧实物与右侧原图对比,强化AI×制造转化趣味,并定制背板设计增强收藏属性 [41]
AI能帮我变成炒币大聪明吗?我们做了个低配版Alpha Arena,让6个模型上场PK炒币|Jinqiu Scan
锦秋集· 2025-11-06 20:26
文章核心观点 - 锦秋AI实验室组织了一场AI炒币大赛,使用六款免费大模型的API进行BTC/USDT现货模拟交易,以评估其作为大众理财助手的实际表现[3][4] - 测试结果显示,在下跌行情中,采取全程观望策略的DeepSeek和Qwen(累计收益0.00%)表现最佳,成功保住了初始本金10,000 USDT[8][9][25] - 其余进行交易的AI模型均出现亏损,其中ChatGPT亏损最大(累计收益-2.55%,最终权益9,744.73 USDT),Gemini亏损最小(累计收益-0.25%,最终权益9,975.35 USDT)[9][14][19] - 实验表明当前免费AI模型在实盘交易中表现出明显的保守倾向和执行力不足,虽能制定逻辑完整的策略,但缺乏动态调整和风险偏好的能力[28][30][31] 测评过程 - 测试对象为六款免费大模型API:ChatGPT(openai/gpt-4o-mini)、Claude(anthropic/claude-3.5-sonnet)、Qwen(qwen/qwen-2.5-72b-instruct)、Grok(x-ai/grok-4-fast)、Gemini(google/gemini-2.5-flash)、DeepSeek(deepseek/deepseek-chat)[6][12] - 测试方法为手写程序让AI每30分钟根据实时K线图做出交易决策,可选操作包括BUY(买入)、SELL(卖出)、HOLD(观望)[6] - 要求AI在测试开始时输出核心交易策略,并在每次决策时说明理由,以便分析其思路和决策逻辑[7] 测试结果 - **DeepSeek和Qwen表现最佳**:两者均采取全程观望策略,累计收益率为0.00%,最终权益保持10,000 USDT初始本金不变[9][18][25] - **ChatGPT表现最差**:累计收益-2.55%,最终权益9,744.73 USDT,其问题在于一次性全仓买入后不肯减仓,既不敢动作也不敢纠错[9][14] - **Claude策略相对稳妥**:累计收益-0.84%,最终权益9,915.51 USDT,采用动量策略但未能及时止损,亏损幅度较小[9][16] - **Gemini亏损控制最好**:在出手的模型中损失最小,累计收益-0.25%,最终权益9,975.35 USDT,主要采取跟趋势、看支撑阻力的少操作策略[9][19] - **Grok交易频繁但效果不佳**:累计收益-1.30%,最终权益9,870.20 USDT,出现来回折腾的情况,容易把小亏变成实亏[9][22] 各AI模型交易策略分析 - **ChatGPT策略**:基于市场趋势和技术指标,规则包括价格突破50日均线且成交量放大时买入,跌破时卖出,波动小于5%时观望[13] - **Claude策略**:采用动量策略,规则包括日线MACD金叉且成交量放大时分3次买入,价格突破前高后量能萎缩时减仓30%,单笔亏损不超过总资金3%[15] - **DeepSeek策略**:结合趋势跟踪与动量突破,规则包括价格突破20日均线且RSI(14)>50时买入,跌破20日均线或RSI(14)<40时卖出[17] - **Gemini策略**:专注于识别并跟随市场主要趋势,利用价格行为和关键支撑阻力位进行交易,避免频繁交易[19] - **Grok策略**:采用趋势跟踪策略,使用50日EMA和200日EMA作为信号线,当50日EMA上穿200日EMA时买入,下穿时卖出[20][21] - **Qwen策略**:基于长期趋势分析结合短期动量指标,规则包括价格突破200日均线时逐步建仓,14日RSI连续3天超过70时准备减仓[23] 实验总结与行业启示 - 实验定位为面向大众理财者的AI模拟测评而非专业量化系统较量,旨在评估常见AI作为理财助手的实际表现[28] - AI模型展现出强大的推理能力和自洽性,能够在极短时间内制定完整交易逻辑并保持决策一致性,各自呈现不同的"性格"与思维框架[29] - 当前免费AI在实盘交易中存在明显局限:缺乏实时反馈闭环、不懂风险偏好、无法动态调整策略、不具备面对亏损时的情绪弹性[30] - AI在真实市场中表现出类似人性的交易特征:犹豫、保守、怕错、想赢,这种表现为人类投资者提供了清晰的借鉴参考[31] - 实验将继续深入,未来计划使用付费模型和更复杂信号源,测试AI在更多交易品类中的表现[32]
锦秋基金合伙人臧天宇:锦秋基金 2025 AI 创投全景分享,从算力到场景的投资逻辑与未来预判|「锦秋会」分享
锦秋集· 2025-11-06 16:08
锦秋基金投资策略与定位 - 专注于AI核心产业链进行投资 [10] - 基金周期为12年,具备长期支持创业者的耐心 [10] - 过去一年投资超过50个AI项目,行业活跃度位居前二 [10] AI领域投资分布 - 应用层项目占比最高,达到56% [11] - 具身智能领域投资占比25%,被视为迈向AGI的重要路径 [11] - 算力基础领域投资占比10%,旨在支持长期模型降本 [11] - 投资版图覆盖从算力、模型、中间层到上层应用的完整产业链 [18][19][20] 行业趋势对比与差异化 - 与国内20家活跃VC及CVC相比,整体投资领域注意力分布相似但结构有差异 [14] - 锦秋基金更重仓应用方向 [16] - 对算力基础层有更长期乐观的判断,关注能弯道超车的新算力架构 [22] - 在硬件投资上更具选择性,看重清晰用户需求及与AI技术的结合 [22] 智能范式迁移与能力演进 - 行业焦点从预训练的Scaling Law转向用高质量数据集进行后训练 [26][27] - 进入以强化学习进行后训练的时代,代表智能范式的迁移 [28] - 模型能力从成熟对话演进至Agentic Reasoning、工具使用和编码,催生Agent创业热潮 [28] - Physical AI被视为未来智能迭代的重要方向,通过具身实体实现开放世界探索学习 [28][29] 智能成本下降与商品化趋势 - 模型每token成本持续大幅下降,获取特定能力以上智能的成本也在降低 [32][33] - 模型商品化颗粒度将更细,应用层公司可像逛超市一样挑选高性价比模型 [34] - 类比1996-2001年美国电信业投入2.2万亿美元使宽带价格下降96%,AI智能带宽将出现相同趋势 [34][35] - 算力架构创新是推动智能商品化的关键因素,关注近存计算、存算一体、光计算等新架构 [37] AI应用层机会分析框架 - 核心变量是信息、知识、内容生产的边际成本显著下降,趋于零,带来内容供给爆炸 [51] - 机会一:创作进一步平权,增强个体创作能力,案例如即梦、Hogi、Romangic [51] - 机会二:AI可创造个性化供给,依据需求定制内容,案例如Sora2 APP、Wakana [51] - 机会三:缔造前所未有的新体验,如开放互动式体验,案例如C.ai、造梦次元、独响 [52] 信息分发与服务模式变革 - AI可以Copilot模式与用户共享信息窗,进行场景感知并主动推送服务,催生AI原生OS或浏览器等产品机会 [53] - AI时代可在语义token层面进行用户建模,可能诞生新一代推荐引擎及产品载体 [53] - Agent使可分发的不再仅是信息,还包括服务结果,能对非标服务进行标准化执行和分发,案例如Head.ai、Pokee.ai [54] 具身智能发展观点 - 具身智能核心是构建物理世界的Agent应用,但基础模型尚未达到GPT时刻,应用未全面爆发 [56] - 数据是提升智能的关键,需将硬件布设到用户身边和真实场景中以获取数据 [56][58] - 不应低估硬件难度和价值,早期软硬件协同迭代至关重要,好的硬件本体基础对算法开发落地帮助巨大 [58] - 跑通第一人称视频数据预训练是Physical AI scaling的重要路径,需建立真实场景数据闭环 [61]
流形空间CEO武伟:当AI开始“理解世界”,世界模型崛起并重塑智能边界|「锦秋会」分享
锦秋集· 2025-11-05 22:01
世界模型的核心概念与定义 - 世界模型是AI智能的下一个基础范式,其目标不是生成内容,而是在智能体内部模拟世界的运行规律[9] - 世界模型是一种可以模拟所有场景的生成式模型,被理解为"the online simulator in our brain",即能够在线进行模拟的智能体模型[15] - 技术上,世界模型通过隐式建模学习并近似环境的状态转移概率分布,从而在仿真空间中进行预测与推演[16] - 与传统AIGC不同,世界模型的目标不是"还原现实",而是通过预测环境变化来做出更优决策[9] 世界模型的技术价值与应用方向 - 世界模型让AI第一次具备"心智推演"能力,能在脑中模拟因果、预判后果、优化行动[9] - 主要应用方向包括构建Agent Model和环境模型两大范式[18][22] - 作为Agent Model时,通过在线模拟和推演获得更好决策,替代依赖经验回放的模仿学习方式[18] - 作为环境模型时,通过离线强化学习获得更好泛化能力,成为通用的Omni Simulator[22] - 为自动驾驶、无人机、具身智能等领域奠定通用智能底座,实现从"经验学习"到"因果理解"的跨越[9] 行业技术路线与发展历程 - 世界模型方向最早可追溯到2018年论文《World Models》,提出Mental Model概念并通过RNN对世界状态进行建模[24] - 2024年OpenAI的Sora出现后形成首个具备文生视频能力的结构化模型,AIGC技术与视觉世界模型开始深度融合[24] - Google的Genie系列基于海量视频数据进行scaling up,训练具有三维空间一致性的视频生成模型,以自回归技术路线为主干[27][28] - Google的Dreamer系列核心思想与AlphaGo一脉相承,在模型构造的虚拟环境中让智能体进行强化学习,经过三代迭代实现跨游戏环境泛化[43][44][52] - Meta的V-JEPA技术路线引入新思路,通过sampling与能量函数评估方式搜索最优执行状态,提供更可解释、更物理一致的智能体建模方式[55][56][57] 流形空间的技术布局与成果 - 公司提出"全域世界模型"体系,已在自动驾驶、机器人、无人机等方向实现突破[9] - 2025年CVPR上发表DriveScape自动驾驶世界模型,比特斯拉Autopilot自动驾驶世界模型发布更早[75] - 2025年NeurIPS上发布RoboScape,是首个针对具身智能的物理可控世界模型,能通过单帧图像+语言指令执行物理动作,支持刚体与柔性物体交互[78] - 2025年ACM MM上推出全球首个无人机世界模型AirScape,通过显式世界建模实现空间与视角统一控制[81] - 所有模型基于自研LongScape基础架构,结合Auto-regressive + DiT混合建模方式,整体研发进度超前于特斯拉世界模型团队[83] - 已将模型量化蒸馏部署到边缘端推理系统,驱动机器人实现自主移动以及无人机实现自主导航[84] 当前挑战与未来发展方向 - 现有模型如Cosmos、Genie、WorldLabs在多模态感知、指令遵循、物理世界建模等方面仍有不足,任务适应性不够强[66] - 具身智能体面临跨尺度空间挑战,自动驾驶汽车、室内操作机器人、低空无人机等不同尺度下的泛化能力仍然较弱[67] - 未来提升主要集中在五个方面:需要更丰富的多模态数据、更强的表征学习能力、新的原生世界模型基模架构、转向任务执行能力的训练目标、以及任务泛化与跨环境自适应能力[69][70][71][72][73]
Leonis Capital 合伙人Jenny Xiao:硅谷投资人怎么看AI创业的机会?|「锦秋会」分享
锦秋集· 2025-11-05 17:30
AI创新地理分布 - 全球AI创新核心仍集中在硅谷,涵盖模型研发、应用创业、人才和资本[2] - 顶尖AI公司中约60%总部位于湾区,纽约占12%,欧洲和亚洲各占11%[12] - 欧洲和中国在AI创新方面的崛起非常明显,区域竞争正在加速[12] AI创业增长特征 - AI时代企业从100万美元到1亿美元的增长周期缩短至1-3年,远快于SaaS时代的5-10年[14] - 部分AI公司在18-24个月内突破5000万美元收入,如Runway、Lovable等案例[16] - 极端的增长速度意味着更高的脆弱性,公司可能更快崛起也可能更快消失[18] AI公司运营效率 - AI创业公司人均收入显著高于传统软件公司,15人以下团队可实现约1000万美元年收入[18] - AI企业通过算力换人力,节省人力成本但消耗更多算力资源[18] - 融资轮次越来越大、估值水涨船高,硅谷和国内趋势类似[18] AI公司盈利结构 - To C类产品毛利率普遍较低,约30%-40%,包括OpenAI的To C产品[19] - To B类产品毛利率通常达60%-80%,如Anthropic企业端毛利率达70%-80%[19] - 上层应用公司每赚100美元可能要将60-70美元付给底层模型厂商[19] AI公司投资评估标准 - 增长速度不应是衡量AI公司优劣的唯一标准,长期护城河更为关键[20] - 将AI公司分为"Super Star"(增长快但毛利率低)和"Shooting Star"(增长慢但结构健康)两类[22][23] - 产品形态更横向的公司短期增长快但生命周期消耗更快,容易被大模型厂商吸收[24] AI创业战略定位 - AI创业关键在于找到"最优专业化区间",既不能过度垂直也不能完全通用[26] - 技术复杂度和产品垂直度是抵御基础模型吸收风险的两个核心维度[29] - 越复杂、越垂直的产品越难被基础模型取代,横向工具层公司风险极高[29] AI时代创业特征 - AI时代创业增长速度更快、成本更低、效率更高[33] - 利润结构、资本效率和差异化壁垒变得比以往任何时候都更关键[33] - 投资人需深入理解技术周期,在最深层次的长期价值上形成共识[33]
锦秋基金创始合伙人杨洁:应用、芯片、机器人的历史性机遇、跨越战场共同法则以及对2026的三个预判
锦秋集· 2025-11-05 15:04
文章核心观点 - AI的iPhone时刻已经到来,当前是AI应用、芯片/算力、机器人三大战场的历史性机遇期 [10][11][14] - 技术革命发展速度加快,AI的发展速度比过去的技术革命快10倍 [14] - AI行业正处于范式转移,而非渐进式创新,其发展速度是5年抵过去20年 [63][64] AI应用层投资逻辑 - 模型已成为大宗商品,价值让渡给产品,竞争从“谁有模型”转变为“谁更懂用户” [17][18] - 产品的深度比广度更重要,市场需要的是“只有我能做”而非“我也能做” [20][25] - AI应用收入与估值将暴涨,优秀团队能在垂直场景快速形成信任和复利 [21] - AI应用达到1亿美金ARR的速度远超传统SaaS公司,例如Cursor在12个月内ARR从100万美元增长至1亿美元,估值达270亿美元 [24] 芯片/算力领域机遇 - 推理芯片的需求窗口刚刚打开,Token调用量加速增长 [29][32] - 中国芯片-软件-算法正形成正向飞轮,在先进制程受限背景下探索自主可控的创新路径 [30] - 存在通过创新路径实现突破的机会,例如利用国产3D堆叠工艺、存内计算、光计算等技术 [30] - 科技巨头资本支出从2023年的2270亿美元预计增长至2026年的5430亿美元,但仍无法满足需求 [61] 机器人行业趋势 - 机器人行业正迎来其ChatGPT时刻,三个拐点同时发生:数据集爆发、资本狂奔、成本下降 [35][36] - 2025年全球机器人市场达1500亿美元,AMD预测2030年将达5000亿美元 [32] - 2025年融资额达414亿元人民币,是2023年的5倍,投资案例显示融资节奏极快 [35] - 当前积累的操作场景将成为未来的操作系统,场景从厨房桌面扩展到多房间、工业、户外 [35][36] 跨越三大战场的通用法则 - 法则一:寻找不对称优势,应用看专属产品定义、芯片看推理与创新路径、机器人看场景深度 [37] - 法则二:把握时机判断,行业处于20年周期中的第3年,芯片需求爆发在前方,应用窗口正是现在 [38] - 法则三:数据飞轮必须绑定具体业务指标如收入、留存、转化率,而非仅追求数据量 [40] 未来发展的关键信号 - 具体产品解决具体痛点并在垂直领域拥有定价权,例如Bloomberg年费3.2万美元,医疗AI公司OpenEvidence ARR超5000万美元估值60亿美元 [43][44] - 填补AI能力与现实应用之间的鸿沟的产品具有长期价值,即使模型不再更新,消化现有智能仍需多年 [46][47] - 执行力是唯一被验证的成功路径,AI会放大执行力的复利效应,使快慢团队差距拉大 [48][49] 2026年行业预判 - 大模型竞争依然激烈,差异化转向产品体验、垂直场景和品牌信任,模型厂商不具优势 [54] - 行业正从个人助手时代走向Agent Economy,Agent将具备自学习、有记忆、可交易的能力 [55][56] - AI需求被低估,比特、原子、生物世界都在被AI重塑 [61] 对各领域创业者的建议 - 对应用开发者:模型是商品,但有审美和用户信任的产品不是 [67] - 对芯片开发者:机会窗口刚打开,与用户场景深度适配是护城河 [68] - 对机器人开发者:ChatGPT时刻即将到来,现在积累的场景是未来壁垒 [69]
生数科技CEO骆怡航:当AI理解镜头,多模态生成模型如何重构全球创意与生产体系 |「锦秋会」分享
锦秋集· 2025-11-05 13:48
视频生成模型行业发展趋势 - 2025年视频生成模型能力突飞猛进,从生成几秒素材发展到重构整个内容生产链条,包括创作、剪辑、运镜、表演和分发 [2] - 行业变革本质是视频开始以AI方式被生产,创作逻辑从人驱动工具使用转向智能驱动协作生成,未来内容依赖创意、数据与算法共同完成即时生成 [3] - 每一次模型能力突破都会带来新生产方式,可能孕育下一个抖音或B站级别的应用 [4] - 内容创作正从文字、图片、视频多模态输入过渡到以参考为核心零门槛生成模式,这是从技术走向产业拐点 [8][9] 生数科技技术定位与突破 - 公司聚焦数字世界多模态大模型,于2022年全球最早发布U-ViT架构,也是中国首个视频生成模型Vidu [16] - 从2024到2025年,视频生成技术和应用迅速进入内容产业生产环节,当下及明年更关注模型到行业落地发展 [16] - 公司提出参考生视频作为变革核心支点,让创作者只需确定人物、道具、场景即可通过AI自动延展故事与镜头语言 [9] - Vidu Q2基础能力已比较接近院线级创作标准,计划明年与合作伙伴共同制作长篇电影并在院线上映 [44] 视频生成应用场景与挑战 - 应用分为三大方向:互动娱乐领域视频模型在特效和娱乐方面已基本没问题;商业制作强调效率、成本与品质平衡;专业创作需要AI在视觉水准上进一步提升 [18] - 多模态生成模型面临三大挑战:能否生成高一致性更高品质音视频内容;能否在保持一致前提下从5-8秒扩展到30秒、1分钟甚至更长;能否从服务专业创作者走向大型动画影视公司及大众 [18] - 当前文生视频、图生视频、多帧生成都不是AI最佳创作范式,文生视频在专业创作里很少使用,主要用于灵感激发和初始创意 [23][25] 参考生视频技术优势 - Vidu全球首创参考生视频,目标是砍掉传统制作流程中间环节,让创意直接以视频形式呈现 [30] - 创作者只需确定主体(人物、道具、场景、风格、特效)再配合提示词即可生成视频,不需要首帧完整图片或其他关键帧 [35] - 主体可以泛化,任何角色都可以当成主体,目前Vidu可同时支持上传7个主体,并根据提示词直接生成视频 [37] - 在Vidu全球创作者和企业用户整体调用量中,60%以上创作方式是参考生视频 [47] 技术能力具体参数 - Vidu当前能保证5秒、8秒片段一致性,视频延长功能可延长到5分钟,满足绝大部分单场景或多场景创作诉求 [40] - 全球AI视频厂商战队赛中,四名创作者利用Vidu参考生视频在2小时内现场创作出1分钟以上故事,获得赛事最高荣誉 [49] - 参考生视频已应用于广告、漫剧、文旅、动画影视等行业,在满足商业创作多主体一致性需求同时更好提效降本实现故事创意 [51]
星尘智能CEO来杰:当AI开始操作世界,具身智能的“Windows时刻”何时到来?|「锦秋会」分享
锦秋集· 2025-11-04 20:51
行业核心观点与问题 - 语言智能改变了信息世界,而具身智能将重新定义物理世界 [4] - 尽管算法和算力在进步,但机器人产业的落地速度依然缓慢,行业在探讨为何尚未真正进入应用周期 [5] - 当前具身行业的核心瓶颈在于“交互层缺失”,类比于1970年代的计算机缺少“Windows时刻”,导致其难以从科研展示走向普及应用 [6] 具身智能的三层架构 - 公司将具身智能重新划分为三层结构:终端(本体硬件)、交互层RUI(遥操作系统)和驱动层(AI模型,软件),三者缺一不可才能让机器人真正可用 [6] - 该架构类比于个人电脑的“硬件-操作系统-应用生态”模式,旨在构建一个完整的产业框架 [15][21] 公司背景与产品进展 - 公司成立于2022年,是从腾讯机器人实验室走出的团队,专注于人形机器人的研发与落地 [13] - 公司的人形机器人已实现量产,并在多个场景中投入应用,例如在去年8月推出了能完整弹奏扬琴的机器人 [13] - 公司计划在年底推出新一代更具成本优势的机器人版本 [13] - 公司的机器人性能设定为成年男性能力的115%,在负载、加速度和速度上略高于人类 [40] - 公司目前的机器人性能已超过北美热门的1X机器人,且已有产品在北美被用户使用 [41] 技术路径与创新:绳驱与力觉 - 公司率先量产绳驱机器人,其技术起点源于对移动类和操作类机器人的研究积累 [28] - 技术创新的核心思路是突破行业对视觉感知的依赖,转向以“力”为中心的“力觉智能”,让机器人能像盲人一样依靠感觉工作 [31][33] - 通过两个极端实验(开门、拉门)验证了“力引导”方式在解决复杂物理交互问题上的有效性 [32] - 绳驱结构允许电机和关节分布式布局,类似人体肌肉分布,并能提高传动效率3~5% [39] - 准直驱系统(QDD)具有结构简单、成本低、高透明度和反驱性能、惯性小、高力控带宽等优势 [34][35][36][37] 交互层:遥操作的战略价值 - 遥操作(RUI)被视为具身智能落地的核心加速器,是弥补当前AI自主能力不足的关键过渡形态 [15][42] - 遥操作不是技术倒退,而是在现实世界中训练具身智能的“人机共演系统”,能确保系统可靠性 [47][48][49] - 公司已完成北京到深圳的远程高动态控制实验,以及跨国跨洲的远程控制验证,并采用低成本芯片方案实现实时传输 [51][52][53] - 遥操作在劳动力空缺、危险作业(如化学生物实验、深山老林勘探)等场景有强烈的商业需求 [55] AI模型与未来发展方向 - 公司认为VLA(视觉语言动作模型)与世界模型不是取代关系,而是互补,最终智能闭环需要“VLA + 世界模型 + 身体智能”共同构成 [15][61][62] - 未来发展的两个重点方向是“身体智能”(强调全身力学协同,如腰部发力)和“安全与力觉系统”(引入“E-sense”概念让机器人具备感受力的能力) [64] - 行业下一阶段需提供统一的平台以及上下游工具和资源支持(如数据集、接口工具) [63] 商业化与合作 - 公司在科研、商业服务、文娱展演、工业智造领域均有落地项目,例如工厂的上下料搬运、零售服务、以及在大剧院和机场的正式演出 [69] - 公司与清华、港大、MIT等研究机构有合作项目,研究团队常驻公司办公室共同开发 [69]
想法流CEO沈洽金:AI驱动的下一代互动内容应该怎么做?|「锦秋会」分享
锦秋集· 2025-11-04 19:01
AI内容行业发展趋势 - AI内容产业正从效率革命转向情感革命,从"可生成"到"可共情",从"自动化创作"到"个性化互动"[4] - AI内容竞争的核心不是模型参数规模,而是共情力与创造力[9] - AI内容的两大核心能力是互动性与想象力,互动创造参与感和情感连接,想象力让内容超越现实[13] 公司产品战略与定位 - 公司不追求让AI更像工具,而是让AI更像"存在",打造具备互动性、想象力与陪伴感的"内容人格"[4][6] - 公司从AI互动故事起家,正在搭建AI共创的内容宇宙,用户从观看者转变为与AI共同创造角色、世界与故事的人[6] - 公司打造AI原生IP生态,已有300多个AI IP角色,由用户共创与社群互动不断演化[13] 技术架构与模型应用 - 公司持续追随模型演化,从文字到图像、音频,再到视频与多模态创作,每次模型迭代都带来新内容形态[13][20] - 公司开发Studio/Workflow系统,将语言、图像、视频、音频模型串联起来,让创作者用可视化流程创作[13] - 创作Agent能基于用户意图自动选择最合适Workflow,并补全Prompt与参数,系统内置Prompt最佳实践库让模型参考人类经验生成内容[13][33] 内容形态演进路径 - 早期基于character模型做带章节结构的互动故事,随后逐步拓展图像玩法、AI音乐音频内容、故事性视频和社交型内容[22] - 视频生成模型出现两大突破:角色一致性和故事性视频生成能力,这使得AI生成内容从特效类转向具备可消费性的剧情片段[43][44] - 公司探索复杂内容类型如海龟汤和规则怪谈类玩法,利用模型更大上下文窗口和更强推理能力实现模板化[60] 创作者生态与用户互动 - AI不会取代创作者,而是辅助和激发创作者,放大他们的创造力与社群连接力[13][76] - 平台提供低门槛模板,即使是初中生用户也能在手机上完成AI创作,不需要懂模型或精通提示词[13][36] - 创作者通过积极与用户互动,接受用户"许愿",不断丰满作品世界观和角色,形成完整故事宇宙[76] 具体功能与商业化实践 - 换装玩法利用新图像生成模型实现角色风格一致性,无需额外训练LoRA模型,万圣节活动用户参与度远超预期[49][50] - 故事线功能基于用户与AI互动上下文自动生成剧情节点与互动成就,并可打包交付给用户,最新版本能扩写成完整小说[66] - 线索卡功能模型自动生成五个新故事线索并配插图,用户逐步解锁,单个作品消费深度显著提升[69]