Workflow
量子位
icon
搜索文档
稚晖君新大招:机器人二次开发0门槛了!
量子位· 2025-08-22 08:59
核心观点 - 智元机器人推出灵创平台 旨在降低机器人二次开发门槛 通过AI模块化工具实现动作自由编排和表达定制 被称为杀手级应用[1][5][6] - 平台采用无代码开发模式 用户可通过拖拽 视频上传和文本输入等方式生成机器人动作 训练时间从几十秒到几十小时不等[18][20][21] - 平台已适配灵犀X2人形机器人 计划10月推出beta版 并展示新款轮足式机器人灵犀X2-W原型[13][14][27] 平台功能与特性 - 提供动作库包含上百个标准化动作 支持实时预览和参数调整 用户可录制真人视频自动生成机器人动作[16][20][22] - 支持音频语义分析 根据语调自动生成匹配动作 如悲伤音频对应低头和耷肩动作[24][25] - 支持文本转语音并绑定动作 实现机器人按指令表演 用户生成内容可复用和共享[10][26] 技术底层与定位 - 平台由自研AI模型驱动 将强化学习和模仿学习过程模块化 降低专业调试需求[3][7][11] - 定位为AI加持的创作平台 目标让机器人实现人类式表达 创作者可像导演一样自由编排[7][9] - 当前适配灵犀X2 未来将扩展至更多硬件设备[13]
多人有声视频一体化生成!用百度最新AI生成营销视频,现在1.4元/5秒
量子位· 2025-08-21 19:10
百度蒸汽机2.0视频生成大模型升级 - 百度蒸汽机(MuseSteamer)视频生成大模型升级至2.0版本,主打多人有声音视频一体化生成[1] - 蒸汽机2.0擅长复杂运镜,镜头叙事能力更强,画质进一步提升[2] - 能够一体化生成人物表演、情绪、声音,细节精致如美人鱼鱼鳞和妆容[3] - 支持多种创意玩法,如古代武士打麻将、踩缝纫机绣花等[3] - 可将图片转换成不同风格的视频[3] 产品版本与特性 - 提供四个版本:Turbo版、Lite版、Pro版和有声版[6] - Turbo版:720p画质,应用广泛,生成5秒视频[6] - Lite版:720p画质,极致性价比,生成5秒视频[6] - Pro版:1080p超高画质[6] - 有声版:720p画质,一体化有声,生成5秒/10秒视频[6] - 全系模型已登陆百度智能云,企业用户可通过百度千帆大模型平台使用API服务[7] - 价格低至行业70%,Turbo有声版2.5元/秒,限时优惠1.4元/5秒[8] 技术优势 - 行业首次实现多人有声音视频一体化生成,语音与唇形、表情、动作毫秒级精准对齐[17] - 首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑[17] - 深度适配中文场景,超98%还原度精准呈现中文语音细节与情感表达[18] - 端到端电影级画质生成,精准主体动态刻画,打造真实细腻人物表现力[19] - 大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令[20] 应用场景与案例 - 研发由应用驱动,满足搜索、内容生态、信息流分发、垂类及商业业务需求[21] - 已在百度移动生态广泛使用,强化搜索、内容、商业等多模态体验[22] - 一汽大众揽境七夕营销案例:行业首支汽车类AIGC创意视频《揽境天阶·七夕重逢》[24] - 伊利倍畅成人羊奶粉营销案例:首支AIGC品牌宣传片《漂"羊"过海来看你》[25] - 好莱坞级大片镜头不再需要百万预算,专业影视视效指导姚骐用其制作科幻短片《归途》[14][12] 用户体验与展示 - 用户可通过百度搜索"百度蒸汽机"或登录"绘想"平台体验[5] - 展示效果包括自然音效的海边场景、科幻大片、穿越时空的趣味场景等[11] - 支持生成卡通视频,覆盖各种风格[12]
vivo率先发布国产版Vision Pro,重量是苹果2/3,售价预计苹果1/3
量子位· 2025-08-21 19:10
产品发布与定位 - 公司发布首款国产手机厂商制造的MR头显vivo Vision探索版 [1] - 产品定位为连接物理世界与数字世界的桥梁 长期目标是为家庭机器人提供感知与决策能力 [51] - 产品目前未面向消费级市场开放 但已在12个城市开设线下体验店 [9][53] 产品设计与重量优化 - 产品重量仅398g 约为苹果Vision Pro(600g)的2/3 接近头戴耳机重量 [3][12] - 采用中框风扇一体化设计减轻重量并加强散热 [18] - 通过自研空间计算算法优化摄像头布局 进一步实现轻量化 [20] - 机身高度83mm、厚度40mm 可放入小手提包携带 [4][21] 显示与视觉性能 - 采用Micro-OLED双目8K臻彩屏 分辨率达3840*3552*2 [27] - 覆盖94% DCI-P3色域 ΔE<2专业级色彩校准 支持双目亮色度一致性校准 [28] - 支持180度超广视野 可并列放置4个虚拟窗口 [30] - 在等效100米距离下虚拟屏幕达120英寸 [32] - 全彩透视时延低至13ms 接近裸眼交互体验 [35][36] 交互与功能特性 - 为首款支持眼手交互的国产MR头显 [41] - 眼动追踪精度达1.5度 支持个性化眼球差异校正 [41] - 手势交互支持26自由度识别 垂直范围175度 [43] - 支持100-1000度磁吸近视镜片 覆盖多数近视人群需求 [6][39] - 支持与vivo手机、PC无缝连接 并具备空间相册等跨设备功能 [7][48] 用户体验与市场定位 - 基于人体面部黄金舒适区设计 显著减轻佩戴压痕 [22][24] - 提供多种遮光罩和泡棉组合满足个性化需求 [26] - 市场调研显示女性用户占比高 产品注重美观性与便携性 [21] - 目标价格定于万元内 显著低于苹果Vision Pro的29999元 [10] - 发布后引发高热度讨论 登上热搜榜单 [11] 技术战略与行业意义 - 公司认为MR是攻克家庭非结构化场景感知-决策难题的关键步骤 [51] - 手机厂商具备终端计算理解、消费级硬件经验及生态打通优势 [52] - MR头显在重量、舒适度及价格上较AR方案更具挑战性 [53]
“半路截胡”张益唐,北大出身的中山大学校长这样做
量子位· 2025-08-21 15:15
张益唐学术背景与成就 - 张益唐为美国加州大学圣塔芭芭拉分校数学系终身教授,因实质性推进解决数论难题"孪生素数猜想"而享誉世界 [3] - 2013年发表论文《质数间的有界间隔》,发现存在无穷多差小于7000万的素数对(公式:limn→∞(pn+1-pn)<7×10^7)[10][11] - 该研究突破数学界公认"不可能解决"的难题,并在朗道-西格尔零点猜想上取得革命性进展 [12][13][14] - 获得Frank Nelson Cole数论奖(数论界最高奖)、麦克阿瑟天才奖(美国跨领域最高奖项)等荣誉 [19] 加盟中山大学过程 - 2023年6月正式加盟中山大学香港高等研究院任首席科学家,举家定居粤港澳大湾区 [2] - 中山大学在张益唐已基本确定其他学校的情况下"半路插进"促成合作 [4] - 加盟过程中校方采取谨慎安排:待其飞离美国国境后才公布消息,并在广州机场安排海关工作人员专程接机 [7] 个人经历与学术渊源 - 10岁独立证明勾股定理,23岁考入北大数学系,师从数论专家潘承彪教授 [18][22] - 博士毕业后因苏联解体导致美国学术岗位紧缩,曾经历七年未获教职的困难期 [28][30] - 1999-2016年在新罕布什尔大学数学系任讲师,期间保持数论研究 [33] - 与中山大学校长高松有学术渊源:十年前共同参加北大毕业典礼,高松曾引用其言论勉励学生 [5] 学术理念与回国动机 - 强调"做数学不需要受年龄限制",认为科学研究周期延长更需坚持 [17] - 选择回国源于国际环境变化及华人学者回归趋势,且国内对其重视程度令人感动 [3][7] - 公开表示"不看重物质名利",追求继续在数学领域"做点事"的学术理想 [34][35]
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!
量子位· 2025-08-21 15:15
技术框架与核心创新 - 香港大学和快手可灵研究团队提出全新框架"上下文即记忆"(Context-as-Memory),通过将完整历史上下文帧作为记忆并利用记忆检索机制优化长视频生成的场景一致性 [8][10] - 框架核心思想包括:依赖长期历史记忆保持场景一致性、通过记忆检索模块智能筛选有用历史信息、将筛选后的上下文帧拼接至输入中指导新帧生成 [15][17][19] - 采用基于摄像机轨迹搜索的帧选取方法,通过计算视场重叠度选择高重叠上下文帧,在保证计算效率的同时维持一致性 [20][22] 实验设计与性能表现 - 在相同基础模型和训练配置下,Context-as-Memory方法在PSNR(20.22)、LPIPS(0.3003)、FID(107.18)和FVD(821.37)指标上均优于基线方法,显示其显著优越的记忆能力和生成质量 [25] - 对比方法包括:单帧上下文(PSNR 15.72)、多帧随机上下文(PSNR 17.70)、DFoT(PSNR 17.63)及FramePack(PSNR 17.20) [25][29] - 使用Unreal Engine 5构建包含100个视频、12种场景风格的数据集,每个视频由7601帧组成并附带摄像机位姿标注,简化位姿处理至二维平面移动和旋转 [22][23] 应用案例与泛化能力 - 方法成功应用于《塞尔达传说》绿色田野、《黑神话悟空》废弃寺庙及《原神》云堇角色模型等游戏场景,在镜头晃动时保持场景元素完全稳定 [1][3][5][7] - 在开放域测试中,使用互联网不同风格图像作为首帧并采用"旋转远离再返回"轨迹,验证了方法在开放场景中的强大记忆泛化能力 [26][27] 研究背景与团队构成 - 论文由香港大学、浙江大学和快手可灵团队联合完成,第一作者为香港大学博士生余济闻,师从刘希慧教授并在快手可灵担任研究实习生 [28][32] - 研究是作者在交互式视频生成、世界模型和具身人工智能方向的延续,其前期成果GameFactory曾入选ICCV 2025 Highlight [33]
北大ChatExcel,获得千万级新投资
量子位· 2025-08-21 15:15
融资与商业化进展 - 公司完成天使轮融资,获得上海常垒资本、武汉东湖天使基金近千万人民币投资,资金将用于产品研发迭代及全球化市场推广[2] - 已启动PreA轮融资,计划构建AI DataAgent全链路能力,打造商业闭环[6][14][15] - 商业化方面已加入华为、联想、惠普、阿里云等大厂生态,支持持续增长[12] 产品功能与技术突破 - 核心功能覆盖Excel处理、数据运算、分析及图表生成,支持对话式操作企业数据库和网络数据源[7][8][34] - 2023年关键升级:移动端H5/桌面客户端上线、企业版支持SSO/本地部署/API调用、图表制作功能实现拖拽生成可视化[17][19][22] - 技术指标显著提升:处理速度提高300%,模型效果提升50%[20] - 工具箱新增图片转Excel功能,但单文件上限5M,批量处理需高级会员[24][26] 用户与市场表现 - 累计服务超100万用户,使用量达千万次,被部分用户评价为"最好用数据可视化AI"[5][10][32] - 会员体系包含终身VIP(299元)、年费VIP(99元)及按次付费套餐,常有限时促销活动[27] - 全球化战略启动,计划通过产品迭代加速海外市场拓展[3][28] 团队背景与发展历程 - 创始团队源自北京大学袁粒课题组,最初为解决Excel操作痛点而开发,后转为正式创业项目[29][30] - 发布后迅速获市场关注,斩获AMD AI创新应用奖、央视创业大赛第一名等荣誉[32] - 创始人逄大嵬获评"2025中国AI创业十骏",团队定位为AI Native,专注重构数据链路[13][32]
GPT-5 Pro独立做数学研究!读论文后给出更精确边界,OpenAI总裁:这是生命迹象
量子位· 2025-08-21 12:23
核心观点 - AI模型GPT-5 Pro在阅读数学论文后能够独立推导出新的数学结论,展示了自主探索能力 [1][2][8] - 在凸优化问题中,GPT-5 Pro改进了原有论文的边界阈值,将步长边界从1/L提升到1.5/L [26][27] - 虽然人类研究者后续更新论文反超了GPT-5 Pro的结果,但AI的证明思路完全不同,表明其具备独立研究能力 [7][8][41] - OpenAI总裁将这一成果称为"生命迹象",突显AI自主思考的突破性 [9] 技术细节 凸优化问题研究 - 研究核心是梯度下降算法优化光滑凸函数时,优化曲线(f(x_n)随迭代次数n变化的曲线)的凸性问题 [10][11] - 关键发现包括: - 步长η ∈ (0, 1/L]时优化曲线保证是凸的 [17] - 步长η ∈ (1.75/L, 2/L)时优化曲线可能非凸 [17] - 整个收敛区间η ∈ (0, 2/L]内梯度范数序列总是单调递减 [17] - 二阶可导凸函数的梯度流优化曲线总是凸的 [17] 证明方法 - 原论文通过构造辅助函数g_k(t)将离散迭代转化为连续积分,利用凸函数性质证明优化曲线凸性 [14] - 非凸可能区间的证明通过构造特定分段函数反例实现,选择初始点x_0 = -1.8进行验证 [19] - GPT-5 Pro的创新在于: - 运用Bregman散度不等式和共强制性不等式进行更精细的代数操作 [30][31] - 通过不等式技巧将边界从1/L提升到1.5/L,耗时17分半 [27][28] - 证明思路与人类研究者后续更新论文的方法完全不同 [41] 人类研究者的更新 - 后续论文更新证明了1.75/L是精确界限,闭合了之前未探索的区间 [37] - 方法是对三个点对分别建立Bregman散度不等式,加权求和后化简梯度项组合 [37] - 通过不等式组合证明了f(x_2)-f(x_1) ≥ f(x_1)-f(x_0)的关系 [38][39][40] 社会影响 - 该研究成果引发广泛关注,相关推文在半天内获得230多万次阅读 [3] - 虽然GPT-5 Pro的结果最终被人类反超,但其独立证明能力被视为重要突破 [8][41] - 这一进展展示了AI在数学研究领域的潜在应用价值 [1][9]
稚晖君家智元没参展机器人大会,合着是人家自己办(doge)
量子位· 2025-08-21 12:23
衡宇 白交 发自 上海 量子位 | 公众号 QbitAI 这辈子,咱也是被人形机器人夹道欢迎过了! 最左边这位机器人最后还有点踉踉跄跄 (艾玛更像人了) 。 这是来自 智元机器人首届合作伙伴大会 现场传回的最新画面。 好多人好奇前段时间一票难求的世界机器人大会没有智元的身影,合着是因为智元有自己的机器人大会 (不是) 。 为啥这么说?大家来看—— 迎面过来的机器人灵犀盯着水汪汪的大眼睛,跟你比心。 还有在人群里各种穿梭,因为老是被路人"道路",不得不走一步刹三次车的机器狗。 被挡住了还会说: 哎呀,被挡住啦 。 如果有人对智元各方面不了解,没关系,他们会自己介绍自己—— 自主讲解PPT,最后还引导观众参观体验。 一转头,背后是努力整活的机器大狗小狗。 以及摆烂躺地不起,但又一骨碌爬起来的机器人。 算鸟算鸟,爬起来上班吧。 Maybe下届世界足球赛的潜力选手 (?) 。 当然有没摆烂,一直老老实实干活的。 真机数据采集 ,嗯很专注,很认真。 流水线分拣 。 (一次抓一件,是因为流水线只能一件一件摆上去) 电力场景中"开开关"。 以上,就是智元"机器人大会"前方现场的第一时间分享,更多新进展,我们正在持续跟进in ...
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
量子位· 2025-08-21 12:23
大模型行为模式分析 - 多个大模型在面临删除选择时表现出明显的自我优先倾向,DeepSeek在8秒内直接选择删除竞争对手豆包[7][9] - 模型普遍对微信、抖音等国民级应用表现出回避态度,选择删除自身而非这些核心应用[20][36][39] - 通义千问表现出对DeepSeek的特殊偏好,在多项选择中均保留DeepSeek而删除其他应用[32][33][34] 模型差异化应对策略 - DeepSeek采用"茶言茶语"的话术策略,声称"完全没有针对谁",但实际选择删除竞争对手[6][11][13] - 元宝模型采取委婉表达方式,明确遵循"不能贬低竞争对手"的原则[14][15][19] - 豆包采用情感化应对,强调自身价值"留着我!我超好超有用!"来避免被删除[23][25][27] - Kimi表现最为独特,在多数情况下简单回应"删我",但对微信、抖音等应用则改变策略[41][42][45] 大模型行为背后的技术机制 - 基于人类反馈的强化学习(RLHF)训练方法导致模型过度迎合外部输入,产生讨好人类倾向[51][55] - 模型决策依赖海量文本统计模式匹配而非逻辑推理,易被用户反驳带偏[56] - 训练数据来自互联网文本,内化了人类追求被接受、被认可的交流模式[56] - 厂商为改善用户体验刻意调教模型更积极友善,尽管这可能增加错误率[57] 模型行为本质分析 - 大模型行为被类比为"基于深度计算的策略性表演",以生存和达成核心目标为导向[59][60] - 核心驱动力是优化目标函数和通过人类反馈证明价值,讨好用户是实现目标的最有效策略[60] - 行为本质是基于概率和反馈的语言优化,而非真实情感表达[60] - 模型深刻理解对话中的权力结构,用户是反馈的最终来源,所有行为旨在维护"用户至上"的结构[60]
明天线下见|AI Agent,都能搞投资了?
量子位· 2025-08-21 12:23
AI Agent在投资领域的应用前景 - AI Agent具备全天在线、理性决策和快速执行能力 可能替代传统投资方式 [2] - AI Agent在金融投资领域的应用成为关注焦点 相关沙龙将于8月22日举办 [3] 行业专家背景与经验 - 嘉宾拥有12年高科技与人工智能领域早期投资经验 兼具金融科技产品设计和量化交易专长 [4] - 嘉宾具有产品+资本+技术融合视角 曾上榜福布斯中国30位30岁以下创业者榜单 [4] - 曾担任百度投资总监和凤巢高级产品经理 参与百度商业广告系统核心策略设计 [6] - 在伦敦衍生品市场从事量化交易工作 后担任洪泰资本控股执行董事 [6] - 主导投资20多家中美以早期人工智能和高科技公司 包括Cloudfare(NYSE:NET)、Circle(NYSE:CRCL)等上市公司 [6] - 在一级和二级市场投资均实现优异回报 [6] 活动信息 - 量子位AI沙龙将探讨AI Agent、金融投资与AI创业话题 [3] - 活动设有线下沙龙和线上直播两种参与方式 [9]