Workflow
数字生命卡兹克
icon
搜索文档
8天涨了17万粉,5000万播放,他把AI ASMR带向了最高潮。
数字生命卡兹克· 2025-06-20 03:44
AI ASMR视频现象 - AI ASMR视频近期在X、TikTok、抖音、小红书等平台爆火,内容以高沉浸感的视听体验为主,用户需佩戴耳机收听以获得最佳效果[1][2] - TikTok账号"impossibleais"6月11日发布首个AI ASMR视频,两周内粉丝增长至17万,视频点赞量普遍达数十万,最高单条获250万点赞[2][12] 技术实现与创作方法 - 视频生成工具采用Google Veo3模型,该技术可原生生成与画面同步的ASMR音效,通过Gemini官网即可操作(需境外网络)[13] - 标准化创作模板包含4K画质、特定材质(如玻璃)与动作(如切割)等要素,示例提示词售价9.99美元,中文模板已由用户购买并公开[14][15] - 典型创作案例:刀切蓝色玻璃树莓的4K特写,生成时长约3分钟,组合3-4个片段可制成24-32秒的完整视频[15][17] 用户需求与市场反应 - 目标用户存在显著猎奇心理,AI生成的玻璃材质切割声等非自然音效提供传统ASMR无法实现的刺激感[17][18] - 核心受众包括失眠/焦虑人群,新型AI音效因其陌生化特质成为睡前助眠新选择,部分用户已形成固定使用习惯[17][18] - 该内容形态突破ASMR行业边界,首次实现视听感官的同步创新,开辟"非现实音效"创作赛道[18][19] 行业影响与趋势 - Google Veo3技术降低ASMR内容创作门槛,个人用户可快速生成专业级作品,颠覆传统ASMR依赖实体道具的生产模式[13][15] - AI视频平台流量分配机制显现,具备"材质冲突"(如金属与玻璃交互)元素的视频更易获得算法推荐[17][18] - 该案例标志AI应用从视觉领域向听觉领域扩展,预示"感官合成"将成为下一代内容创业的技术支点[19]
终于有AI视频模型,解决了体操难题。
数字生命卡兹克· 2025-06-19 03:08
视频模型技术突破 - MiniMax发布Hailuo 02视频模型,首次实现杂技动作生成能力,肢体表演和动作幅度远超Veo3等竞品[1][4] - 该模型攻克了AI视频领域的"体操难题",能生成包含两次空中旋转的高杠体操动作,且形体保持完整[6][7][21] - 在杂技类动作表现上显著领先,如小丑抛球倒立、双杠倒立等复杂动作完成度远超Runway Gen4等模型[23][24][26] 技术性能对比 - 对比一年前Luma AI生成的体操视频(四肢扭曲变形),Hailuo 02展现出质的飞跃[6] - 与主流视频模型对比测试显示:Veo3生成的运动员触垫后形体碎裂,Runway Gen4出现"面条人"变形,即梦模型产生双头怪等异常[9][11][13][15] - 在跳马测试中,Hailuo 02实现助跑、起跳、谢幕全流程动作,镜头运动自然流畅[19][21] 产品特性与商业化 - 支持原生1080P视频生成,新人赠送500免费积分,768p/6秒视频仅需25积分,1080p视频80积分[45] - 具备多动作连续生成能力,可配合镜头运动指令,如"摄影机快速摇摄并倾斜捕捉轨迹"[7][45] - 在物理效果模拟上实现突破,能准确表现玻璃破碎、物体坠落等动态场景[37][38] 行业影响 - 该模型标志着AI视频技术进入新阶段,解决了运动捕捉和物理规律模拟等核心难题[23][46] - 在表演领域延续优势,情绪表达和复杂动作结合产生"登峰造极"效果,如机甲降落、消防员破窗等场景[34][35][38] - 价格策略具有竞争力,以"便宜又大碗"形成市场差异化优势[45]
MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。
数字生命卡兹克· 2025-06-17 08:23
MiniMax M1模型发布 - 公司发布首个开源推理模型MiniMax M1,采用456B参数MoE架构,实际激活45.9B参数,支持100万字(1M)上下文长度[10] - 模型在MRCR(4-needle)测试中表现突出,准确率62.8%,与Gemini 2.5 Pro性能接近[3][6][8] - 采用Lightning Attention线性注意力机制,64K token生成时FLOPs消耗仅为DeepSeek R1的一半,100K token时仅消耗25%[9][10] 技术性能亮点 - 开源两个版本:40K和80K Extended Thinking上限版本,80K版本为40K的增强版[12] - 在TAU-bench(任务目标理解测试)表现达到开源模型领先水平[3] - 支持复杂文档处理,可准确提取并翻译技术报告中的图表、公式和表格内容[15][17][20] 应用场景展示 - 成功处理34篇刘慈欣小说合集,完成每篇的故事总结和推荐语[34][37] - 在文字冒险游戏场景中展现出优秀的上下文记忆能力[31] - 能够准确识别并提取微信群聊中特定用户的全部聊天记录[28] 行业影响 - 该模型将开源领域的上下文处理能力提升到新高度[8] - 公司预告将持续一周发布新产品,可能涉及视频、音乐等领域[42][44][46] - 此次发布标志着AI六小虎之一的MiniMax重新活跃于行业前沿[1]
谢谢你,NoFeed,谢谢你拯救我那些被"骗走"的时间。
数字生命卡兹克· 2025-06-16 04:18
产品核心功能 - 产品名为NoFeed,核心功能是屏蔽信息流干扰,直接跳转至主流平台的搜索结果页[5][9] - 通过强制手动输入APP名称(支持别名设置)避免选择干扰,目前支持小红书、知乎、微博、淘宝等28个平台[12][13] - 采用买断制收费模式:3天免费试用,永久使用权定价6元人民币[13][14] 用户痛点与市场需求 - 信息流导致时间损耗显著:用户平均单次搜索任务被干扰后时间消耗增加30-60分钟[9] - 典型场景包括:知乎搜索报告时被高赞问题吸引消耗半小时、京东购物时从1分钟延长至半小时、小红书养鱼问题搜索演变为1小时无效浏览[9] - 移动互联网时代用户主动搜索能力退化,2013-2023年主动搜索行为下降约40%[22][23] 产品差异化价值 - 界面设计极简,仅保留搜索框和振动反馈欢迎页,去除所有非必要元素[10][11] - 通过技术手段阻断平台首页跳转,直接抵达搜索结果页,实现100%任务聚焦[7][9] - 开发者采用反直觉的强制输入设计,避免任何形式的推荐干扰[12] 行业趋势洞察 - 信息过载现象加剧:2023年用户日均接收推送信息量达150条,较2018年增长300%[18][20] - 被动信息接收导致认知能力下降,深度阅读完成率从2010年的72%降至2023年的19%[20][27] - 搜索行为代际差异显著:90后用户主动搜索占比58%,00后仅31%[22][29] 商业化潜力 - 定价策略对标手游首充(6元≈1/3杯瑞幸咖啡),付费转化率预计可达25%[14] - 当前仅覆盖iOS平台,安卓版本开发中,潜在用户基数可扩大3倍[14] - 产品契合"数字极简主义"趋势,2023年全球相关工具市场规模达4.2亿美元[17][19]
很多AI人还在自嗨,外贸人已经用AI卷翻天了。
数字生命卡兹克· 2025-06-13 09:09
核心观点 - AI在外贸行业的应用已从工具升级为业务队友,实现主动决策和结果交付 [6][7][8] - 行业+AI模式通过深度行业Knowhow构建竞争壁垒,而非技术堆砌 [16][17][18] - 12年外贸SaaS数据积累形成OKKI的AI护城河,实现业务增量转化 [36][37][38] AI与业务协同 - AI角色转变:从被动执行工具(L1-L2)进化为独立处理完整流程的L3智能体,如OKKI AiReach实现从潜客挖掘到成交的全链路自动化 [11][12][15] - 效果指标重构:业务员关注点从AI功能按钮转向月度有效询盘量,深圳智能门锁公司通过AI发现民宿新渠道且转化率超传统渠道 [20][21] - 稳定性优先:B端场景要求AI输出95%可用率,远超30%的临界阈值 [19] 行业实践洞察 - 能力平权效应:AI使新人业务员3-5年经验差距被抹平,刘世奇团队转化率从9.96%提升至20%+ [24][25][26] - 管理范式迁移:企业主需率先放权AI决策,否则工具价值仅限展示层 [29][30][34] - 数据资产价值:OKKI的12年客户行为数据构建不可复制的训练素材,结构化反馈数据决定AI能力上限 [36][38][39] 商业模式变革 - 结果导向设计:AI产品直接承诺生意增量,如客户回复率/成单量等硬指标取代技术参数 [41][42][45] - 效率重新分配:传统CRM耗费80%时间完成数字化,AI将80%时间释放给价值创造 [20] - 最小单元突破:单人单机+AI流程可能穿透垂直市场,颠覆传统团队架构 [27]
不是,高考刚结束,高考报志愿的Agent也来了?
数字生命卡兹克· 2025-06-12 11:29
夸克高考志愿大模型产品分析 - 夸克在高考结束后推出高考志愿大模型产品 定位为AI时代最落地、最有社会意义的应用之一 [3][4] - 产品基于Qwen大模型基座训练 结合七年高考数据积累 覆盖2900+学校和1600+本科专业 形成行业壁垒 [18] - 通过问卷形式抽离数百位规划师经验 降低用户表达门槛 生成个性化志愿报告需5-10分钟 含11步规划流程 [27][29] 产品功能与数据 - 深度搜索功能支持多轮推理搜索 如输入省份、分数、专业偏好等条件 几十秒生成院校推荐方案 [22][23] - 志愿报告包含四部分:考生档案、策略设计、志愿表格、解读与风险提示 输出精美PDF文档 [31][33][34][38] - 策略设计模块分析分数优势、选科组合、专业适配等8个维度 制定"冲稳保"三档志愿方案 [33][35][37] 行业痛点与解决方案 - 高考志愿存在严重信息差 涉及几亿种组合、千所院校、三十多省份政策 传统咨询费用高达上万 [15][16] - 产品实现信息平权 免费提供个性化服务 解决小城市家庭资源匮乏问题 [17][54][57] - 差异化推荐能力突出 能根据考公、地域偏好等需求调整推荐策略 如山东考生优先推荐法学类和本地院校 [45][46][47] 市场竞争优势 - 数据积累形成护城河 实时更新全国院校录取线、专业设置等数据 覆盖广度与深度行业领先 [18] - 产品完成度极高 从需求收集到报告生成全流程自动化 且支持离线生成与消息推送 [30][37] - 风险控制细致 提示调剂策略、校区差异、特殊培养模式等传统渠道易忽略的细节 [40][41][42]
一手评测Seedance 1.0 pro,字节首次登顶视频大模型竞技场的大杀器来了。
数字生命卡兹克· 2025-06-11 11:36
火山引擎发布会核心内容 - 火山引擎发布多款AI模型产品线,包括豆包大模型1.6、豆包视频生成模型Seedance 1.0 pro、语音播客模型及端到端语音模型等[1] - Seedance 1.0 pro视频生成模型近期在行业榜单表现突出,技术实力获得市场关注[1][2] - 该模型已通过即梦AI视频3.0 pro形式进行内测,展现六边形战士式的全面能力[6][8] 视频生成技术突破 多镜头组合 - 支持通过"镜头切换"触发词实现分镜自动切换,完成复杂叙事结构[9][13] - 成功实现10秒视频中精确还原包含3次镜头切换的复杂Prompt指令[13][15] - 具备初级文字生成能力,能识别并生成路牌等场景文字元素[16][18] 运动质量 - 物理模拟能力突出,准确表现后坐力、火光反射等细节[20][22] - 复杂动作如骷髅跳踢踏舞、双人互动场景均保持稳定[22][24] - 运动场景处理优异,篮球运球投篮动作符合物理规律[26] 情绪表现 - 实现从微笑到恐惧的完整情绪谱系表现[32][36][38] - 宇航员缺氧场景提供两种差异化表演方案[44][46] - 角色微表情处理细腻,如战场新兵手足无措的状态[71] 技术参数与商业化 - 支持360度环绕、追车等专业级运镜技术[49][51][54] - 物理引擎覆盖陆地、水下及太空场景,保持规律一致性[55][57][59][61] - 风格化处理能力突出,保持像素风、动漫等特定风格一致性[71][73][75] - 商业化定价为每5秒1080P视频3.67元,已开放企业端接入[79] - 消费者端通过豆包App"照片动起来"功能全量上线[80] 行业影响 - 代表国产视频生成模型达到国际第一梯队水平[77] - 技术突破集中在语义理解、物理规律和风格一致性领域[77] - 行业竞争加剧推动技术快速迭代,最终利好终端用户[78][80] - 标志AI视频生成进入多维度能力比拼的新阶段[81][82]
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
数字生命卡兹克· 2025-06-10 05:20
大模型数学能力测试 核心观点 - 对多个大模型进行完整版数学高考测试(满分150分),结果显示讯飞星火和豆包以145分并列第一,Qwen3以143.3分位列第三,Gemini 2.5 pro、混元T1和文心x1分别以139.7分和137分位居第四、第五 [15][16][17][18] - 测试发现大模型在解答题表现优异(大部分正确),但单选题第6题成为所有模型的共同难点 [9] - 多模态大模型在涉及图片理解的题目中表现不佳,仅OpenAI o3在三次测试中答对两次 [10] 测试规则 - 补充测试智谱Z1、Kimi1.5、文心X1等模型,排除Claude 4 [3] - 大题按小问赋分,由高中教师估分并取严格标准(仅按结果正确性评分) [3][5] - 每道题运行模型3次,按正确比例给分 [5] - 文本题转换为LaTeX格式输入,图片题直接截图测试(无多模态能力的模型取其他多模态模型平均分) [6][7] 模型表现细节 - **讯飞星火/豆包**:除第6题外全对,展现超高稳定性 [15] - **Qwen3**:解答题全对但填空题因1次失误丢1.7分 [16] - **Gemini 2.5 pro**:解答题表现较弱,总分139.7分 [17] - **DeepSeek-R1-0528**:因推理链过长导致答案偏离,适合复杂度更高的题目 [11] 行业趋势观察 - 相比2023年测试时大模型"不识一二三四五"的窘境,当前模型已能达到优秀学生水平,体现AI技术快速迭代能力 [19][20][21] - 测试结果超出预期,反映头部模型在结构化问题解决上的显著进步 [9][15][21]
看好了,这才是7家大模型做高考数学题的真实分数。
数字生命卡兹克· 2025-06-09 06:05
AI数学能力测试 - 测试目的是公平客观评估大模型的纯数学能力,采用2025年数学全国一卷,剔除解答题和图表题,所有题目转换为LaTeX文本格式输入[1] - 测试规则严格:单选题7道每题5分,多选题3道每题6分(漏选扣分),填空题3道每题5分,每道题运行3次按正确率计分,关闭联网和代码执行功能[3][5] - 参与测试的模型包括OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、豆包1.5-thinking-pro、混元T1、千问3(235B)、讯飞星火X1等7个主流推理模型[5] 测试结果分析 - Gemini 2.5 Pro表现最佳,总分68分中无任何错误,尤其在第九多选题上唯一全对[7][10] - 豆包、混元、星火组成第二梯队,仅第九题漏选一个选项[10] - DeepSeek R1因第11题多余回答导致扣0.7分,排名第五;千问3和OpenAI o3因填空题错误垫底[7][10] - 测试发现当前大模型数学能力已显著提升,与2023年相比差距明显,主要错误源于输入格式而非推理能力[10] 测试方法论价值 - 采用LaTeX格式避免OCR识别误差,确保测试的是数学能力而非图像识别能力[1] - 多次运行取平均分的设计有效减少模型幻觉影响[3] - 该测试方法为AI能力评估提供了标准化范例,强调技术中立和流程严谨的重要性[10]
时隔500天,PixVerse终于上线国服了,但它叫拍我AI。
数字生命卡兹克· 2025-06-06 11:23
行业背景 - AI视频行业从2023年8月前的空白状态迅速发展至2025年的"千帆竞渡"格局,500天内完成从技术萌芽到商业化爆发的跨越[3][4] - 行业初期仅有Runway Gen1提供v2v基础功能,2023年7月Runway Gen2首次实现文生/图生视频技术突破[4][6] - 当前赛道聚集Runway、PIKA、Luma、Sora等超10家竞争者,成为AI领域最热门方向[20][22] 公司发展历程 - 成立于2023年4月,2023年10月内测版上线即跻身"御三家"之列[6][8] - 技术迭代速度远超同行:2024年1月V1发布至2025年5月V4.5上线,平均3-4个月更新一代模型[18][19] - 国内版"拍我AI"延迟500天上线,主因团队资源优先倾斜海外市场[11][24] 产品竞争力 - 早期凭借4K生成质量突围,当时行业普遍仅支持720P输出[8] - 独创视频模板功能降低使用门槛,实现ToC端爆发,典型案例包括"大肌肉"特效模板[14][16] - 在以色列摄影类App登顶,沙特/土耳其等中东9国进入影像类前5,美国总榜最高第4[13][14] 市场表现 - 海外营收持续快速增长,2025年实现盈利后启动国内业务[24] - 用户增长导致早期算力紧张,创作者需现场使用公司设备生成内容[8] - 全球化布局成效显著,覆盖西欧/东欧/中东三大区域市场[13][14] 技术演进 - 2024年4月实现角色一致性突破,7月新增多段视频生成功能[18] - 2024年10月V3版本上线核心的视频模板功能[18] - 2025年2月V4版本完成重大底层模型升级[18][19] 行业影响 - 推动AI视频从专业工具向大众化应用转型,降低创作门槛[16] - 验证模板化+社交传播的商业模式可行性[14][16] - 加速行业技术迭代节奏,倒逼竞争对手缩短更新周期[18][20]