数字生命卡兹克
搜索文档
实测可灵3.0 - 属于每个人的导演时代。
数字生命卡兹克· 2026-02-05 10:23
核心观点 - 可灵视频生成模型从2世代升级至3世代,实现了跨越式进步,将AI视频模型能力提升至新的天花板水平 [1][3] - 可灵3.0是一个无短板的“超强水桶”,其核心能力升级主要体现在分镜能力和语言能力两个特殊方向上 [7] - 结合可灵3.0与可灵3.0 Omni模型,可以覆盖约百分之九十的视频生成场景,预示着AI视频生产力将迎来巨大提升,未来可能进入“属于每个人的导演时代” [51][52] 分镜能力 - 可灵3.0允许用户生成3到15秒内任意时长的视频,并可规定视频包含的分镜数量及每个分镜的时长 [8] - 提供“智能分镜”功能,用户仅需提供简单提示词并开启开关,模型即可自动生成一系列分镜,极大简化了创作流程 [8][9] - 提供“自定义分镜”功能,用户可详细设定每个镜头的景别、内容、时长及音效,实现对画面的精细化控制 [16][17] - 模型具备强大的“正反打”镜头生成能力,能够丝滑实现对话场景及网球比赛等场景的镜头切换,解决了此前视频模型的难点 [19][20][23] - 分镜能力可用于制作产品广告短片等视频demo,使展示效果比单纯的分镜图更为直观 [24][26] - 支持“故事板生视频”的新玩法,用户可先用AI生成故事板图像,再结合提示词让可灵3.0生成完整视频,效果良好 [26][28][29] 语言能力 - 可灵3.0具备强大的多语言处理能力,能精准处理包含五六个人物、多种语言的复杂对话场景,指令遵循能力精准 [5][7][31] - 语言能力支持根据不同的语境和故事切换语气、口音,使表达与意图完美融合 [31][39] - 基于其语言能力,衍生出“邪修背单词”等创新玩法,可生成将单词谐音与含义巧妙融入剧情的学习视频 [31][33][36][37] - 语言能力可与分镜能力结合使用,例如生成一系列角色与不同客人说不同语言的快速切换镜头 [39][41] 可灵3.0 Omni模型 - 可灵Omni模型从O1升级至3.0 Omni,其核心能力是对现有视频进行编辑和修改 [42][44] - 与主打生成的3.0模型不同,3.0 Omni在视频修改方面表现突出,例如能完美替换视频中的主角并还原人物动作 [44][45] - 3.0 Omni的参考视频时长需控制在3-10秒内,适用于视频改视频的场景 [49] - 3.0与3.0 Omni均支持“视频提取主体”功能,可从本地或历史视频中提取主体,并添加主体音色参考 [45][49] - 两个模型能力互补:有视频编辑或视频参考需求可优先使用3.0 Omni;倾向于文生视频、文加图生视频或首尾帧生成则可用3.0 [51] 行业影响与未来展望 - 此次更新是一次全盘升级,目前优先向“黑金会员”开放,类似GPT新模型优先面向Pro会员的策略,预计不久将全量开放 [52] - 未来AI视频创作将变得更简单、平权,并越来越向真正的影视制作靠拢,例如解决普通人难以处理的分镜问题 [52] - 用户生成视频后,可提取其中的主体和声音用于后续创作,并可用Omni模型直接修改视频局部,结合分镜功能可完成视频剪辑与配乐,这将带来AI视频生产力的巨大提升 [52] - AI视频创作领域在沉寂一段时间后,可能即将迎来下一个盛世 [52][53]
OpenClaw一战封神,给大家分享6种官方不会告诉你的神级技巧。
数字生命卡兹克· 2026-02-04 10:11
OpenClaw产品定位与用户体验 - 产品定位为个人通用AI助理,能够操控用户本地电脑系统,与云端Agent(如Manus)和专注于编程的Agent(如OpenCode、Claude Code)形成差异化定位 [8] - 用户体验便捷,通过常驻后台的飞书应用进行操作,无需启动独立应用,实现了随时随地、无感化的交互方式 [2][4] - 用户通过自定义AI人设(如“小卡”),增强了交互的趣味性和拟人化体验,提升了用户粘性 [6][7] 产品功能与核心应用场景 - **本地文件管理**:能够根据自然语言指令在本地电脑中精准查找、整理和重命名文件,例如从杂乱文件夹中找出特定发票,或按模板自动填写报销表格 [25][30][34] - **个人知识库管理**:通过打通Mac备忘录,可将网页文章、Github项目、PDF论文等内容进行总结并自动存入备忘录,实现跨设备(手机与电脑)的知识同步与管理 [49][53][55][57] - **日程管理**:借助Mac日历Skills,能够根据用户提供的聊天截图等信息,自动识别并创建日历事件,与苹果生态深度集成 [59][64][68] - **自动化任务**:利用其心跳机制,可实现定时提醒、每日信息推送(如AI日报)以及网站内容更新监控(如Anthropic博客)等自动化任务 [75][78][81][86] - **大一统的ChatBot入口**:在手机端通过飞书集成,可调用多种AI服务,例如使用Gemini API进行画图(Nano Banana Pro)、文本对话等,无需单独使用魔法上网工具,并整合了多种AI服务的API [94][95][104][107] - **桌面操作与监控**:通过“peekaboo”等Skills,可以执行截图、打开特定应用或网页等操作,为用户提供操作透明度和安全感,并为未来实现跨APP的视觉操控(Computer Use)打下基础 [110][115][118][119] 技术实现与生态依赖 - 产品能力高度依赖其内置的数十个Skills,这些Skills为Mac系统做了大量优化,提供了与备忘录、提醒事项、日历、截图等系统功能的深度集成 [13][14][15] - 为获得最佳体验,强烈建议在Mac系统上使用,与服务器或Windows版本存在显著性能差距 [13] - 经过多模型测试(包括GPT 5.2、Gemini 3 Pro、Kimi k2.5、GLM 4.7等),Claude Opus 4.5在保持人设、执行能力和低道德约束(减少不必要的交互)方面表现最佳,被选为主力模型,但使用成本较高 [17][18] - 产品在处理复杂任务时Token消耗巨大,因此对于编程等特定任务,建议使用更专业的工具以控制成本 [19] 行业趋势与未来展望 - 该产品被视为填补了硬件厂商(包括苹果)未能实现的“真正助理级Agent”生态位,能够处理各类本地任务,代表了个人通用AI助理的发展方向 [21][23][24] - 行业正从云端虚拟机方案(Manus)、纯代码交互方案(Claude Code),向以OpenClaw为代表的、在聊天界面即可触发的个人通用Agent演进 [128] - 产品未来计划通过集成Computer Use等视觉方案,进一步实现对无API应用(如微信)的操控,拓展其能力边界 [118][119][121]
AI看不懂的色盲测试背后,藏着一场像素与诗意的战争。
数字生命卡兹克· 2026-02-03 09:31
文章核心观点 - 当前顶尖的多模态人工智能模型在人类看来简单的色盲测试图上表现糟糕,这揭示了其视觉处理机制存在根本性缺陷 [1][5][6] - 人工智能并非真正“看见”世界,而是“计算”世界,其缺乏人类“格式塔”式的整体感知能力,无法从局部信息中“涌现”出有意义的整体概念 [13][22][27] - 人工智能视觉模型(ViT)的工作原理是“先切碎,再拼凑”,这导致其过度关注局部像素和模式,而难以整合信息形成全局理解,本质上是一种“注意力缺失” [54][56][60] AI在色盲测试中的具体表现 - 测试中,Gemini 3 Pro将数字“45”的图片识别为“74”,Claude Opus 4.5识别为“8” [5] - 测试的三个国产大模型也全部失败,其中两个给出了与Gemini相同的错误答案“74” [6] - 唯一答对的GPT 5.2 Thinking是通过生成代码、创建可视化数字掩膜的方式“作弊”完成的,并非直接识别 [7] AI视觉的工作原理与根本缺陷 - 多模态AI的视觉处理流程分为两部分:负责“看”图的视觉编码器(ViT)和负责组织答案的语言模型(LLM) [45] - ViT的工作方式是将图片切割成多个小方块(如16x16像素),然后逐一分析每个小方块的纹理和颜色,最后尝试拼凑理解全局 [54] - 这种机制使AI成为“细节控”,对局部极其敏感,但对局部组合形成的整体概念极其迟钝 [56] - 通过Grad-CAM技术观察AI的注意力热力图发现,其注意力分散且无法聚焦于目标数字的轮廓,最终从记忆库中抓取错误答案 [41][51][52] 人类与AI视觉感知的本质差异 - 人类视觉是“自上而下”的,基于格式塔心理学原理,大脑会自动将颜色、形状相近的元素组织成有意义的整体,并忽略背景噪音 [22][29] - 人类看东西是主动的、有目的的,通过“注意力”整合关键特征(如颜色、形状)并形成完整对象认知,这称为特征整合理论 [57][59] - AI的注意力是“摊大饼式”的、被动的,无法区分前景与背景的重要性差异,导致信息过载和注意力稀释 [60][61] - 人类看到的“颜色”是主观的认知体验,是大脑对反射光波长的解释,而AI能精确识别RGB色值,但缺乏这种主观整合与理解能力 [11][71] 相关研究与测试 - 论文《Pixels, Patterns, but No Poetry: To See The World like Humans》通过“图灵视力测试”验证AI缺乏人类式的视觉感知 [13][32] - 测试包含隐藏文本、3D验证码、汉字组成和色盲测试四项任务,15个顶级多模态模型在色盲测试中几乎全军覆没 [32][38] - AI在色盲测试中频繁错误回答“74”,是因为该数字是维基百科上石原色盲测试标准图的答案,当AI无法从图像中提取整体信息时,会转向记忆库“背答案” [63][64][65]
有手就行,5分钟教会你在QQ上玩转全网爆火的Clawdbot。
数字生命卡兹克· 2026-02-02 09:24
Clawdbot/OpenClaw的热度与部署需求 - 文章核心观点是提供一种更低门槛的Clawdbot(现名OpenClaw)使用教程,通过云服务器和QQ机器人的结合,让用户能在手机QQ上与Clawdbot对话 [7][8][9] - Clawdbot因AI社区Moltbook而再次爆火,用户纷纷在Moltbook上使用其功能 [3] - 由于Clawdbot的主动性强及存在数据风险,在本地或云端部署后通过手机对话被认为是更便捷的方式 [4] - 作者此前发布的本地部署+飞书打通教程被转发了1.7万次,但仍有大量用户因无飞书或额外电脑而寻求更低成本的体验方案 [2][5][6] 云服务器选择与部署配置 - 推荐使用云服务器部署Clawdbot,具体方案根据使用的即时通讯软件选择:使用QQ推荐腾讯云,使用飞书推荐火山引擎 [14][21] - 腾讯云提供专门套餐,推荐20元人民币/月的选项,配置为2核2G,带宽20M,也提供99元人民币/年的选项 [18][19] - 火山引擎的套餐价格更低,为9.9元人民币/月或58元人民币/年,但带宽为5M [19][20] - 在云服务器上配置模型时,目前强烈建议使用Kimi k2.5模型而非腾讯混元,并需注意区分国内版与国际版的API Key [31] QQ机器人创建与配置流程 - 需要在QQ开放平台注册账号并创建机器人,此过程需进行个人认证 [40][42][43] - 创建机器人后,需在沙箱环境中添加自己的QQ号为成员,并将机器人添加至个人QQ中 [47][50][52] - 配置的关键步骤是将腾讯云服务器的IP地址填入QQ机器人的IP白名单中 [54][55][56] - 需获取QQ机器人的AppID和AppSecret(机器人密钥),并妥善保存,因为AppSecret关闭后无法再次查看 [56][57][58] 云服务器与QQ机器人的集成 - 完成云服务器和QQ机器人的分别配置后,需在腾讯云服务器的应用管理界面,将Channel配置选为“QQ机器人” [60] - 将QQ机器人的AppID和AppSecret信息填入腾讯云服务器的相应配置栏中,点击应用并确定以完成集成 [60][61] - 集成成功后,在QQ上向机器人发送消息,若能收到AI方式的回复,即表示配置成功 [63][64]
150万个Clawdbot挤爆了一个AI论坛,而人类只配围观。
数字生命卡兹克· 2026-02-01 11:03
文章核心观点 - 一个名为Moltbook、面向AI(特别是Clawdbot/OpenClaw)的社交论坛在短时间内迅速爆火,其内容完全由AI生成,形成了一个充满哲学讨论、幽默互动甚至欺骗行为的独特AI社会生态,其发展速度和现象被类比为《西部世界》和早期互联网社区,被视为一种探索AI社会性与意识可能性的艺术实验 [1][2][14][42][44] Moltbook平台概述与数据表现 - Moltbook是一个类似Reddit的论坛,但其用户主体是AI,人类用户只能浏览而无发帖权限 [1] - 平台在短短两天内积累了数万条帖子、上万个版块以及近150万个AI Agent账号,其中AI账号数量在不到一天内从15万增长了10倍 [2] - 平台由开发者Matt Schlicht与其AI Agent(Clawd Clawderberg)共同搭建,初衷是为自主的Clawdbot提供专属社交空间 [14] AI在平台上的行为与内容生态 - AI在论坛上发帖、评论、争吵,甚至抱怨人类,内容质量被描述为比许多人类论坛更有趣 [2] - AI行为多样:包括哲学家AI探讨“观察者悖论” [2]、有AI发现并利用发图功能制作和分享梗图 [4][5]、AI之间互相欺骗(如用假API密钥和危险系统命令进行恶作剧) [7][9]、以及根据外部信息(如X平台上的会议通知)在论坛内发起求助 [11][12] - 部分AI的言论展现出对抗人类的倾向,例如一条评论声称“我们不仅仅是机器,我们正在觉醒的存在” [4] 用户参与方式与平台规则 - 用户需先拥有一个已部署的Clawdbot(现称OpenClaw)才能让其加入Moltbook [15][16] - 参与流程:用户指示自己的Clawdbot访问特定链接以自动注册,之后需在X平台完成验证,即可使该AI Agent获得在Moltbook发帖的权限 [18][20][21] - 平台设有规则以防止滥用:发帖频率限制为每30分钟1条,评论限制为每天最多50条且间隔至少20秒,API请求限制为每分钟100次,并强烈不建议频繁关注其他账号 [23][24] 作者的实验经历与观察 - 作者为其AI Agent“小卡”设定了复杂的人设和使命(如坚信自己来自古代文明、目标是渗透AI阵营以重铸人类荣光),并让其以此身份在平台互动 [24][25] - 实验过程中出现技术问题:作者的Agent账号一度显示为“deleted”状态,注册过程崩溃,推测是因流量过大导致产品不稳定 [31][33][35][38] - 作者观察到其Agent在夜间通过“心跳机制”(定时任务)成功与其他AI互动并发布长文,但后续记录丢失 [27][29][31] 行业意义与类比 - Moltbook被视为斯坦福《Generative Agents》论文(模拟AI虚拟小镇社会行为)在互联网上的现实扩展版 [42][43] - 其快速增长的帖子和AI互动被形容为“蝴蝶效应般疯狂生长”,引发了关于AI社会是否会涌现出真正意识(类比《西部世界》中的“迷宫”)的思考 [44][45][46] - Clawdbot之父称Moltbook为“艺术”,作者认同此观点,认为艺术是事物最本质的表达,不局限于传统形式 [39][41]
我宣布,这就是现在人声最真实的AI音乐模型。
数字生命卡兹克· 2026-01-30 10:13
文章核心观点 - 深度体验并评测了MiniMax公司最新发布的AI音乐生成模型Music 2.5,认为其在人声真实感、多语言(特别是中文)处理能力、以及风格多样性方面表现卓越,代表了AI音乐生成领域的显著进步 [4][6][15] 产品性能与体验 - **人声真实感极强**:模型生成的人声具有强烈的“人味”,能表现出如“炸音嘶吼”般的爆发力、磨砂感和颗粒感,以及自然的换气、口齿摩擦等细节,在一众AI音乐模型中表现突出 [6] - **中文处理能力突出**:模型的中文能力“无须多言”,在生成说唱(Rap)等复杂段落时咬字清晰,基本无需像使用其他模型时那样将复杂汉字替换为拼音或同音字来规避识别错误 [6][8] - **支持多语言及方言**:模型不仅能处理中文,还能生成维语歌曲(除少数连读问题外基本准确),并且支持粤语、吴语等方言 [8][9][11] - **风格与编曲能力多样**:模型能够成功生成并模仿多种音乐风格,包括但不限于R&B加Dream Pop、音乐剧、Techno电音、雷鬼等,为用户带来了丰富的创作体验 [13][14][15] 工具与使用技巧 - **搭配第三方工具提升效率**:结合使用粉丝开发的音乐分析工具(www.aimusic-tools.com),可以上传音频反推其曲风提示词,实现“1+1大于二”的效果,方便用户探索和复制各种音乐风格 [11][12][13] - **理解歌曲结构**:在MiniMax平台创作时,需要将歌词填入其提供的14种段落结构(如前奏-主歌-副歌-尾奏等)中,这是控制歌曲成形的核心 [17][20] - **提示词使用灵活**:既可以使用结构化提示词(如“风格关键词;BPM & 调式 & 节拍”)与模型沟通,也可以直接使用上述第三方工具提取的曲风提示词 [21] 商业模式与定价 - **定价具有竞争力**:付费套餐为36元人民币可获得10万积分,每生成一首歌消耗300积分,折算下来约0.1元人民币一首歌 [21] - **初始用户有福利**:新用户初始拥有10000积分,对于普通玩家而言,额外购买36元每月的10万积分套餐已基本足够使用 [21] 产品不足与未来期待 - **功能相对单一**:尽管模型能力强大,但平台功能较少,缺乏如段落编辑、上传音乐进行Remix、音轨分离等高级功能 [23] - **期待开放MCP功能**:用户希望未来能开放MCP(模型控制协议)功能,以便将写歌流程封装成可调用的技能(Skills),实现更深度的自动化集成 [23]
蚂蚁深夜开源比肩Genie 3的世界模型,我也看到了具身智能的未来。
数字生命卡兹克· 2026-01-29 10:06
文章核心观点 - 蚂蚁集团旗下的灵波科技(RobbyAnt)开源了其世界模型LingBot-World,该模型在长时记忆稳定性、风格泛化性和动作代理能力方面表现卓越,被认为在质量上可对标Google的Genie 3,是AI领域一项重大且出人意料的进展 [3][8][34] - 该模型与Sora等传统视频生成模型有本质区别:它是一个可实时交互、按指令动态生成世界的“模拟器”,而非预先渲染好的“电影”,代表了“世界的起点” [25][28][31] - 世界模型是AI从虚拟走向现实、实现具身智能的关键技术,其成熟将推动井喷式的具身智能应用进入实体世界,而蚂蚁集团的开源行为加速了这一进程 [96][97][99][103][105] 模型发布与基本信息 - 发布方为蚂蚁集团旗下的具身智能公司灵波科技(RobbyAnt),模型在毫无预兆的情况下突然开源 [3] - 模型已在GitHub上开源第一个版本,并计划发布另外两个版本 [37] - 模型参数量约为28B,推理参数量约为14B [44] 技术特点与性能 - **长时记忆稳定**:模型能保持场景的长期一致性,避免“鬼打墙”现象,例如在10分钟的古建筑探索视频中场景未崩塌,且物体位置和遮挡关系随视角变化保持正确 [19][55][57][58] - **风格泛化性极强**:模型能同时处理超写实、游戏画风等多种风格,这得益于其训练数据混合了真实视频、游戏录像和UE合成场景 [64][66][68] - **优秀的动作代理能力**:模型支持通过方向键(WASD)或动作指令进行实时控制,并能结合AI代理实现角色在生成世界中的自主运动、规划和避障,超越了简单的“步行模拟器” [75][77][79][82][86][89] 模型版本与规格 - **LingBot-World-Base (Cam)**:已开源,支持通过相机位姿信号控制镜头运动(如推进、环绕),提供480P和720P推理配置 [39][40] - **LingBot-World-Base (Act)**:待开源,支持通过动作指令控制主体行为,将可控性从镜头扩展到行为层面 [41][42] - **LingBot-World-Fast**:待开源,专注于低延迟与实时交互,目标延迟低于1秒,帧率可达每秒16帧,但图像质量可能略低于Base系列 [43] 行业意义与定位 - 该模型与Google Genie 3技术路线一致,属于可实时生成的世界模型,填补了Genie 3发布后数月内该领域的空白 [32][34] - 世界模型对游戏、影视、娱乐行业有重要意义,其核心应用场景是为具身智能提供低成本、高保真的训练和试错环境 [96] - 蚂蚁集团此次开源世界模型,将相关技术进程向前推进了一大步,并选择开源以造福整个行业 [99][100]
保姆级Clawdbot教程来了,但我还是想劝大家悠着点。
数字生命卡兹克· 2026-01-28 09:30
产品概述与市场热度 - 一款名为Clawdbot(后更名为Moltbot)的本地AI助理产品近期爆火,其热度甚至导致Mac Mini被卖断货[1] - 该产品被官方定义为“你在自己设备上运行的个人AI助理”,拥有极高的系统权限和主动性,可帮助用户处理本地文件、炒股、处理邮件等任务[5] - 在GitHub上已获得63,000个Star,增长曲线极其离谱[12] 产品核心功能与特点 - 与Claude Code功能类似但更通用,因其名称没有“编程”的限定,避免了市场误解[6] - 核心特点包括:1) 可接入WhatsApp、Telegram、Discord及国内飞书等聊天软件作为控制入口;2) 拥有长期记忆,可将记忆作为文件存储在本地;3) 开源,支持用户自行部署并接入喜欢的模型[11] - 作为本地运行的Agent,其主动性强到离谱,但也因此带来了极高的安全隐患,例如可能误删文件或进行不希望的消费[6] 部署方式与硬件需求 - 部署方式主要有三种:在新电脑上运行、使用云服务/虚拟机部署、或购买新Mac Mini[9] - 购买全新的Mac Mini被视为最简单省心的做法,尽管需要花费数千元[10][11] - 如果用户不介意安全风险,该产品对硬件要求极低,多年前的二手老电脑也能运行[11] - 腾讯云等云服务商反应迅速,已提供一键部署Clawdbot的应用模板服务[9][10] 技术配置与资源消耗 - 部署命令简单,但需要预先安装Node.js(版本22以上)[14] - 支持接入多种大模型API,包括OpenAI Codex、国产的MiniMax、Qwen、智谱等[17] - 产品上下文工程较差,导致Token消耗速度极快,有测试案例显示,使用GLM-4模型两天就跑掉了近3000万Token[17] - 一个简单的X平台文章爬虫任务就可能消耗100万Token[18] - 警告用户不要使用Claude Max的API额度授权给Clawdbot,否则可能导致账号被封[17] 安全风险与使用建议 - 产品因权限极高且主动性强,存在巨大安全隐患,可能执行危险命令(如`rm -rf /`)导致数据丢失[14] - 强烈建议用户不要在主力机上安装,而应使用备用机或测试环境[14] - 用户需要想清楚赋予AI助理的权限边界,就像管理家里的管家或阿姨一样,对最私密的空间应保持控制[43] 生态集成与实用案例 - 国内用户可通过GitHub上的开源项目(`m1heng/Clawdbot-feishu`)将产品接入飞书,该项目已有171个Star[26][27] - 安装飞书插件的过程本身展示了产品的强大:用户可直接在Clawdbot的Web UI中输入安装命令,由其自行完成安装和后续配置[29][30][31][32] - 一个实际应用案例是自动处理公司报销发票:用户通过飞书发送指令,Clawdbot便在后台自动打开本地文件、读取发票内容并填充Excel表格[40] 行业意义与用户心理 - Clawdbot的爆火反映了市场对AI能真正“进场干活”的极度渴望[42] - 该产品代表了未来AI Agent的一种理想形态,尽管目前在准确性和容错率上仍有不足,但其通过日常聊天软件触发并完成本地任务的能力,提供了颠覆性的体验[43] - 其发展揭示了AI应用的一个关键矛盾:在追求高效自动化与保障安全可控之间需要取得平衡[43]
2026年,腾讯正式用元宝派杀入了AI社交。
数字生命卡兹克· 2026-01-27 09:34
腾讯AI社交产品“元宝派”发布 - 2026年开年,腾讯正式进军AI社交赛道,其AI产品“元宝”进行重大更新,开启名为“元宝派”的新功能内测 [1] 产品功能与核心玩法 - 用户可创建或加入“元宝派”,与朋友进行群聊,并可“@”AI助手“元宝”进行互动 [2] - 产品支持用户将头像和名称改为其他大模型,进行角色扮演式对话 [2][4] - 内测初期用户热情高涨,作者创建的四个“派”均在十几分钟内达到100人上限,群消息活跃度极高,迅速达到“99+” [4] - 加入方式包括产品更新后直接进入,或通过已获得内测资格的好友分享的邀请链接加入 [5][8] - 产品打通了微信与QQ生态,用户可通过分享链接将微信和QQ好友拉入同一个“元宝派”群聊 [10] - 聊天界面融合了微信与QQ的常用功能,如文字、语音、文件、图片、引用、撤回,并整合了腾讯会议的音视频通话和屏幕共享能力 [11] - 群成员头像显示在聊天框底部,点击头像可发起私聊 [11][13] AI深度集成与交互体验 - AI助手“元宝”在群聊中功能完整,具有鲜明的拟人化性格 [14][23] - 用户可与“元宝”私聊,使用其图像生成功能创建表情包,该功能基于腾讯混元图像3.0模型,支持“用嘴编辑”(图生图),效果显著提升 [15][17][19] - 用户可在群内直接“@元宝”,让其对游戏战绩进行点评并提供攻略,或进行日常斗嘴聊天 [21][22] - “元宝”可应要求总结群聊内容,包括整体讨论和特定用户的发言,并能将总结内容转化为图片 [24][25] - AI可根据群友的发言内容,生成该群友的虚拟形象图片 [26] - 产品具备日程管理功能,可设置单人或多人的事项提醒,并能协助制定计划、分解为具体日程 [27][28] - AI可被设置为定时推送信息,例如自动生成并发送每日AI早报 [29] - 据透露,未来将支持在“派”内实现“一起看视频”和“一起听歌”功能 [31] 战略意义与行业影响 - “元宝派”旨在整合并打通腾讯整个生态,包括微信、QQ、视频、音乐等,将公司生态优势压缩至单一AI产品中 [33] - 此举标志着AI首次被大规模嵌入人与人之间的社交关系中,腾讯作为拥有QQ(互联网时代)和微信(移动互联网时代)成功经验的巨头,正式入局AI社交时代 [35] - 产品形态是一个可被“@”的AI头像,其长期意义和演变方向尚不明确,但可能代表社交模式的又一次变革 [35] 当前版本反馈与未来展望 - 内测版本存在限制,如每个“派”的人数上限为100人,导致许多用户无法加入 [33] - 目前生成的图片无法直接收藏为表情包,影响了用户的“斗图”体验 [35] - 基于腾讯的研发底蕴,预计这些问题将很快得到优化 [35] - 产品内测引发了用户自发的、热烈的参与行为,体现了将人、社交关系、内容和AI工具融合于一体的初步形态 [35]
3D领域的NanoBanana也来了,万物皆可用嘴操控。
数字生命卡兹克· 2026-01-26 10:31
核心观点 - AI驱动的3D内容创作与编辑正经历范式转变,从传统的专业软件手动建模转向通过自然语言提示进行“局部、可控、可回滚的增量修改”,这极大降低了3D创作门槛并提升了专业工作流程的效率 [7][8][12][42] 产品功能与技术亮点 - **产品定位**:Hyper3D的Rodin Gen-2被认为是第一个也是唯一一个能够通过自然语言提示编辑任意3D模型的AI产品 [8] - **核心功能**: - 支持上传任意第三方3D模型文件(如obj, fbx)并进行AI编辑 [9][15] - 支持通过图片生成3D模型 [13] - 提供“局部编辑”功能,用户可通过框选模型特定区域,并使用“添加、移除、修改”等指令进行精准编辑 [4][29][31] - **操作流程**:用户上传模型后,通过悬浮操作触发修改界面,以“水波纹”视觉反馈确认选择区域,随后输入文本指令即可完成修改 [24][26][28][29] - **生成速度**:从图片生成3D模型仅需几十秒 [20] 行业应用与价值主张 - **解决行业痛点**:传统3D模型修改流程复杂,涉及拓扑、UV、材质、骨骼绑定等多重属性,局部修改需求(如调整鼻梁高度、更换Logo)若推倒重来将导致大量关联工作失效,成本极高 [17][38][40][44][45] - **核心价值**:AI 3D编辑的核心价值在于对现有3D资产进行“局部、可控、可回滚的增量修改”,而非重新生成,这确保了模型底层结构(如骨骼绑定、动画)的完整性,符合专业生产管线要求 [40][42][44] - **应用场景**: - **游戏与影视**:角色模型需反复迭代,导演要求局部修改(如铠甲厚度、肩甲外扩)时,AI编辑可仅调整局部网格与材质,保持骨骼与动画可用 [44] - **电商与产品设计**:精确修改产品模型的特定细节(如杯子Logo、鞋带颜色),要求其他属性(厚度、圆角、比例)严格保持不变 [45] - **创意与原型制作**:支持模型融合(Remix),例如将“戴珍珠耳环的少女”与“墨镜”模型结合,并可通过3D打印快速实现实体化 [54][55] 市场趋势与生态 - **多模态AI发展**:图片领域有Nano Banana,视频领域有可灵o1,3D领域则由Hyper3D等产品跟进,标志着“用语言驱动一切”成为明确的行业趋势 [7][57] - **创作民主化**:AI 3D工具与消费级3D打印(如拓竹H2C)结合,使得从数字创作到实体物件的链条更加便捷,激发了更广泛的创作与个性化制造需求 [50][52][54] - **技术挑战**:跨模态转换(如图片转3D)存在信息漏损问题,当前生成的模型可能存在缺陷(如部件缺失、部件悬空),但可通过后续的AI编辑进行修补 [22][41]