Workflow
数字生命卡兹克
icon
搜索文档
用AI把一段视频变成可视化网页,Google的新模型又卷飞了。
数字生命卡兹克· 2025-05-07 05:04
模型发布与命名 - Google在I/O大会前约两周提前发布了Gemini 2.5 Pro的新版本,版本号为Gemini 2.5 Pro (I/O版),在后台模型调用中命名为Gemini 2.5 Pro Preview 05-06 [3][5][6] - 新模型虽已上线,但Google产品官网的显示仍为原来的"2.5 Pro (experimental)",暴露出产品入口和命名存在混乱的问题 [6][23] 模型性能提升 - 新版本模型在WebDev Arena盲测竞技场中登顶,Arena Score达到1419.95分,力压排名第二的Claude 3.7 Sonnet(得分1357.10)[7][9] - 相较于3月份的Gemini-2.5-Pro-Exp-03-25版本(得分1272.86),新版本的Arena Score大幅提升了147分,显示出代码能力的显著进步 [9][14][15] - 在VideoMME基准测试中,新模型的视频理解能力得分达到84.8%,并结合其多模态能力,实现了根据参考视频生成代码的全球独家功能 [7][16] 技术特点与应用场景 - 新版本专注于提升代码能力,其升级路径与DeepSeek V3 03-24版本类似,将代码能力提升作为核心优先级 [7] - 模型支持通过YouTube在线链接进行视频内容理解,并可根据视频内容生成对应的可视化网页代码,为开发和学习提供了新的范式 [19][20][21][22] - LMArena旗下的WebDev Arena是一个专为评测网页前端开发任务设立的盲测平台,采用用户盲测二选一的模式,通过Bradley-Terry模型计算Arena Score,其机制类似于国际象棋和电竞游戏中的Elo评分系统 [10][11][14] 产品现状与行业地位 - 尽管模型能力显著提升,但产品层面仍存在bug,例如在AI Studio中上传视频文件时常会报错,目前仅支持通过YouTube链接稳定使用 [16][18] - 此次更新表明Google的Gemini模型已从主要依靠论文和PPT展示阶段,进入到了实质性的能力提升和产品化阶段 [23][24]
专访刘世奇 - 他用AI设计丑拖鞋,一年卖了3000万。
数字生命卡兹克· 2025-05-05 16:33
核心观点 - 97年创业者刘世奇通过AI技术重构跨境电商工作流,实现6人团队年营收3000万,核心产品"丑拖鞋"批发价50美元/双,利润率高达92% [2][20][22] - AI应用贯穿选品、设计、客服、风控全流程,将传统40天产品周期压缩至几小时,实现"用最轻方式撬动最重产业" [15][33][67] - 商业模式创新在于"AI生成图先行上架-客户询盘付费打样-量产交付"的轻资产闭环,打破传统鞋服行业模具开发的高成本瓶颈 [31][32][35] 行业洞察 跨境电商痛点 - 传统选品依赖经验判断,单款模具成本达数万元,试错成本极高 [16] - 热点响应滞后导致"用旧节奏追新潮流",错过3-5天黄金销售窗口 [23][24] - 时差导致客服响应延迟,转化率仅9% [44][49] - 侵权风险频发,初期因随意搬运1688产品遭大量投诉 [12][53] AI解决方案 - **选品创新**:通过TikTok热点抓取+AI评论数据分析,发现"特朗普头像拖鞋"等情绪化商品机会 [26][27][28] - **设计迭代**:Midjourney生成概念图直接上架测试市场反应,省去打样成本 [29][31] - **运营提效**:阿里国际站生意助手实现5分钟完成产品上架(传统需4小时),客服转化率从9%提升至21% [42][44][49] - **风控体系**:AI自动识别侵权图案(如Nike商标相似度),生成法律抗辩文书追回拒付货款 [52][54] 公司运营 创业历程 - 2021年土木工程专业毕业生,用父母5万元启动资金在泉州创立蒂万坦斯贸易公司 [5][8][10] - 初期因侵权问题濒临倒闭,通过397工作制(每天18小时)积累行业认知 [12] - 2023年ChatGPT爆发后系统性拆解业务流程,形成57个AI自动化节点 [15][59] 核心能力 - **数据驱动**:建立"热点抓取-图像生成-询盘验证-量产优化"的敏捷开发闭环 [28][32][35] - **私域运营**:AI自动分析客户聊天记录,定制化营销邮件提升复购率 [56][57] - **风险预判**:图像识别系统提前规避98%的专利侵权风险 [54] - **人力配置**:AI替代传统运营岗位,6人团队实现3000万年营收 [2][42][47]
GPT4o生成的烂自拍,反而比我们更真实。
数字生命卡兹克· 2025-04-30 03:27
GPT4o生成图片的热度浪潮 - GPT4o通过一段简单的Prompt生成高度真实的图片,引发持续热度,各种创意不断涌现[1] - 生成的图片包括京东外卖与美团外卖的竞争场景、周杰伦等明星的自拍、中土世界角色在清华的场景等[1][2] - 小红书上一篇《45岁,离职北大》的帖子获得近12万赞,显示此类内容的爆款潜力[5] Prompt的核心特点 - 生成图片的Prompt强调"平凡无奇",包括运动模糊、曝光过度、构图混乱等元素,刻意追求不完美[12][13][23] - 这种"不完美"反而增强了真实感,因为更接近人类日常随手拍摄的照片[23][24][26] - Prompt最初来源于Reddit的ChatGPTJailbreak论坛,用户原本目的是突破OpenAI限制生成NSFW内容,但意外发现这种真实感效果[15][17][19] 真实感的本质 - 真实感来源于对生活平凡瞬间的还原,如地铁拥挤、夜市撸串、朋友聚会的模糊照片[27][28][29] - 社交媒体过度美化的内容导致用户对"未经表演的存在"产生稀缺感,而AI生成的"差劲"图片反而引发共鸣[44][45][51] - 911事件中《The Falling Man》照片的冲击力同样源于其未经修饰的真实性,与AI生成图片的原理类似[52][54] 技术应用与传播 - 使用Sora平台生成图片体验更佳,支持一次生成多张并预设比例[13] - Prompt的传播范围极广,从Reddit扩散至全球,因其生成的图片效果过于真实[22] - AI通过不完美的表现帮助用户重新认识真实的价值,找回被社交媒体滤镜掩盖的生活本质[41][43][55]
Qwen3深夜正式开源,小尺寸也能大力出奇迹。
数字生命卡兹克· 2025-04-29 08:05
小道消息一直在说,昨天深夜或者今天凌晨,阿里会发Qwen3。 然后我特意早早的睡了一两小时,凌晨1点起床,就为了等Qwen3发。 结果这一等,就是好几个小时。。。 不过,功夫不负有心人。 凌晨5点,我眼睛都睁不开的时候,终于等到了。 Qwen你赔我睡眠。。。 把报告看完,我总结一下,觉得最大的亮点有6个: 1. 模型能力登顶全球,这个没啥可说的,就是No.1。 2. 第一个开源的混合推理模型。 3. 8个不同尺寸的模型,几乎覆盖了所有场景。 4. 成本很低, 旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。 5. 支持MCP协议。 6. 居然还支持了119种语言。 一起说吧。 就像我们其实都知道,DeepSeek这个深度思考,你打开的时候,是R1模型,但是你关掉,其实用的是v3来给你回答。 但是Qwen3,是一体的。 是一个模型,只不过支持了两种模式,这个不管对于开发者还是使用者,都方便很多。 这次发了8个模型,Qwen3-0.6B、1.7B、4B、8B、14B、32B,这6个都是Dense稠密模型。 还有两个重量级MoE模型,Qwen3-30B-A3B,和旗舰版的Qwen3-235B-A2 ...
这次我们的AI活动,终于来到了杭州。
数字生命卡兹克· 2025-04-28 04:36
活动概述 - 《一起AI,交个朋友》线下活动已举办第六站,2024年覆盖北京、上海、深圳、昆明四地 [1][2] - 2025年3月北京站作为年度首站,报名人数达2400人,实际参与200余人受场地限制 [4] - 2025年5月10日杭州站将作为新站点举办,场地容量提升至300人 [10][19] 活动内容设计 - 北京站活动形式包含乐队表演、主题分享、抽奖环节及调酒体验 [6] - 杭州站议程包含: - AI音乐生成与演奏开场表演 [14] - 数字生命主题演讲 [15] - AI商业应用案例分享(年销售额3000万的AI设计产品) [15] - AI创作探索历程主题演讲 [15] - 阿里巴巴AI创新生态建设分享 [15] - 神秘集体共创活动 [15] 参与方与合作资源 - 活动汇聚AI行业头部企业,合作方包括: - 腾讯混元、阿里云、MINIMAX、Kimi智能助手等技术厂商 [13] - 华创证券、腾讯研究院等研究机构 [13] - WPS AI、有道翻译等应用层企业 [13] - 阿里云提供杭州站场地资源支持 [19] 用户参与机制 - 采用审核制免费参与模式,无门票费用 [18] - 筛选机制包含轻度背景调查、社群活跃度优先及随机筛选 [19] - 报名通道通过海报二维码开放,4月30日截止,5月4日发送电子邀请函 [19]
长长长长期招聘聘聘聘。
数字生命卡兹克· 2025-04-28 04:36
招聘岗位概览 - 公司长期招聘多个岗位 包括内容编辑 运营 商务 财务 人事等 部分岗位限制城市 部分不限 [2][5][11][13][17][19] - 简历投递邮箱为hr@virxact.com 需在邮件标题注明应聘岗位和姓名 [24] 内容编辑岗位 - 负责公众号 小红书等平台内容撰写 需独立策划有传播力的内容 对AI和科技领域有强烈兴趣 [8] - 要求文字功底扎实 逻辑清晰 具备内容审美 熟悉AI/科技/青年文化/商业潮流趋势 [8] - 需接受高频内容产出 能持续打磨稿件 对作品有质量要求 [8] 运营岗位 - 负责短视频全流程制作 包括选题策划 脚本撰写 拍摄执行和成片把控 需理解公司IP调性 [13] - 需有短视频平台(如抖音 小红书)操作经验 具备剪辑思维和节奏感 能抗高频产出 [13] - 负责多平台日常运营管理 包括数据监控 粉丝互动和用户池沉淀 需熟悉平台规则和流量玩法 [13] 商务岗位 - 负责培训 广告 品牌合作等项目的谈判与落地 需从BD到执行全链路推进 [15][21] - 要求有内容行业/MCN/媒体商务经验 能独立谈判和控流程 具备IP思维和资源整合能力 [21] 财务岗位 - 负责日常账务处理 财务报表编制 资金流动管理及税务申报等基础事务 [22] - 需具备小公司全流程账务经验 熟练使用EXCEL和财务系统 责任心强 [22] 人事岗位 - 负责招聘全流程 包括岗位发布 初筛 约面 入职落地 参与团队文化搭建 [23] - 需有20-50人公司人事独立作业经验 熟悉招聘和绩效流程 性格稳定但有原则 [24] 助理岗位 - 协助处理行程安排 会议统筹 跨部门沟通及项目推进 需初步判断商务邀约并给出建议 [7] - 要求细节控 时间感强 能自主推进事务 情绪稳定且抗压 有商务判断力 [7]
终于有个不瞎编的旅游AI了。
数字生命卡兹克· 2025-04-24 00:19
飞猪"问一问"功能核心分析 产品功能设计 - 通过自然语言输入旅行需求 自动生成包含机酒、行程、预算的一站式解决方案 [20][29][30] - 采用多顾问协同模式 分别处理交通、酒店、预算等细分需求 [22][29] - 提供实时价格计算功能 预算滑块可动态调整方案总价 [32][33][38] - 支持图文版行程输出 可投射至地图导航 含景点开放时间等实用信息 [34][35] 行业差异化优势 - 整合实时行业数据 包括航班动态、酒店库存等 避免通用AI的过时信息问题 [47][48] - 实现需求到交易的闭环 用户可直接在APP内完成机酒预订 [36][50] - 深度理解旅游行业Know-how 如合理路线规划、时间分配等 [16][29][41] - 支持多维度约束条件 包括预算、偏好、天气等复杂变量 [48][49] 用户体验优化 - 行程安排精确到小时级 含交通时间、景点停留时长等细节 [31][34] - 可根据反馈实时调整方案 如增加室内活动等个性化需求 [41] - 自动规避常见陷阱 如中转航班不合理等问题 [32][33] - 内置用户评价数据 辅助酒店等选择决策 [29][31] 技术实现特点 - 依赖飞猪生态的实时结构化数据 非爬取公开信息 [47][48] - 处理多源异构数据能力 整合机票、酒店、游记等不同维度信息 [48] - 支持开放式自然语言输入 非固定选项交互 [48][49] - 强调行业闭环而非单纯对话 实现从规划到预订的全流程 [50][53] 市场时机选择 - 五一假期前上线 精准捕捉旅游攻略高峰期 [4] - 填补市场空白 现有AI旅游攻略普遍存在可用性问题 [16][20] - 差异化竞争携程等对手 提供更深度垂直服务 [20][47]
我用AI监控了奥特曼,当他一发推特AI就会自动给我打电话。
数字生命卡兹克· 2025-04-22 03:23
核心观点 - 文章描述了一个自动化监控系统开发过程,用于实时追踪特定Twitter账号动态并通过飞书电话通知用户,解决人工蹲守信息效率低下的痛点 [1][4][5][28] 技术实现方案 Twitter监控模块 - 采用Python开发Twitter监控脚本,每5分钟自动爬取目标账号新推文 [6] - 集成OpenAI API实现推文标题自动翻译功能 [6] - 利用Twitter官方API免费额度(每月100次读取)满足基本需求 [8] 通知系统模块 - 放弃传统云呼叫服务(审批周期长)转向飞书开放平台解决方案 [9][10][12] - 飞书"发送电话加急"功能提供每月50次免费呼叫额度,商业版可扩展 [14][15] - 实现消息已读状态检测机制,未读时循环拨打电话确保唤醒效果 [27][28] 系统集成优化 - 将Twitter监控、AI翻译、飞书通知三大模块整合为完整工作流 [28] - 增加内容过滤逻辑,避免非AI相关推文触发无效通知 [28] - 系统日志显示完整调用链:消息发送→电话触发→已读状态轮询 [28] 行业应用价值 - 展示企业级自动化工具开发路径:需求分析→技术选型→权限配置→系统集成 [17][18][20][22] - 体现AI与传统办公软件API的协同创新模式 [6][12][25] - 为实时信息监控领域提供可复用的技术框架 [28][29]
说个抽象的事,你现在可以在秘塔AI搜索里上课了。
数字生命卡兹克· 2025-04-21 00:30
秘塔AI新功能"今天学点啥" - 核心功能是将任意文件或网址转化为定制化课程视频 包含PPT SVG动画和个性化语音讲解 [2][6][12] - 支持多种文件格式输入 包括PDF 但不支持mobi格式 对部分网页链接抓取兼容性较差 [18][19] - 提供风格化教学模板 如"高冷御姐""拿破仑风格"等 并可调节知识深度和讲解节奏 [10][11][18] 技术实现与用户体验 - 整合交互式网页 PPT生成 TTS语音合成等技术 工程化程度较高 [13] - 采用"输入-模型-输出"架构 根据用户知识水平自动生成教学内容 [17] - 交互设计存在优化空间 部分按钮逻辑和路径规划不够清晰 [25] 教育模式创新 - 实现从被动问答到主动教学的范式转换 AI扮演主讲角色而非辅助工具 [16] - 支持课后测试功能 例如生成10道题目检验学习效果 [14] - 建立内容广场功能 允许用户共享学习链接并互动交流 [19] 应用场景扩展 - 可快速生成影视小说速读内容 如3分钟讲解《小明修仙记》 [24] - 适用于财经报告解读 例如自动转化大摩PDF为视听课程 [4][6] - 实现知识传播人格化 通过不同教学风格提升学习沉浸感 [17][25] 商业数据引用 - 摩根士丹利研报显示英伟达目标价162美元 当前市值2811亿美元 [9] - 英伟达2026年预期EPS 4 09美元 对应PE 29 4倍 [9]
腾讯元宝最终还是活成了微信的模样。
数字生命卡兹克· 2025-04-18 01:30
前天晚上人还在参加着英伟达的合作伙伴大会晚宴。 就看到,我的朋友圈里被元宝刷屏了。。。 本来想昨天发的,结果又被OpenAI偷了家。 微信,在AI上,有了大动作。 你现在,直接可以在聊天界面,对着元宝问问题了。 元宝,变成了你的一个通讯录好友,这事,太特么离谱了。 如果你也想用元宝的话,路径特别简单。 在微信里,搜索元宝,点击上方的提示条,然后添加到通讯录。 | 就这么简单的几步,元宝,就成为了你的微信通讯录里的一个好友。 | | --- | 你可以把它当人一样,直接在微信里,跟它进行对话。 回根据你问的问题的长度和复杂度不同,选择是否调用卡片详情来给回复。 比如讲个故事,它给的就是卡片,很简单的翻译任务,就是直接消息回复。 个人猜测可能是因为如果是长文的话,在消息中展示样式和阅读压力都会很大,不如就直接放到卡片里面去了。大家的阅读体验会更好一些。 元宝跟真人一样,可以直接置顶聊天。 也支持图片理解,你把图片扔进去,他都会给你反馈。 但是目前又个der比的问题就是,微信上的元宝,是你给一条信息他就处理一条信息。 我刚把图片发给他,问题的文字打完发给他以后,它根据队列给我处理了两次,只给图的话,元宝会按照"你怎 ...