Workflow
数字生命卡兹克
icon
搜索文档
一手实测Nano Banana Pro后,我总结了8种全新的超神玩法。
数字生命卡兹克· 2025-11-21 06:25
文章核心观点 - Nano Banana Pro模型在图像生成、文字处理(特别是中文)和多模态推理能力方面有显著提升,进化幅度超出预期[2] - 该模型支持直出4K图像和自定义比例,文字稳定性和知识推理能力得到巨幅提升[2] - 基于Gemini 3构建的多模态模型展现出强大的应用潜力[27] 漫画处理功能 - 可实现黑白漫画翻译、上色、换材质一条龙服务,将日文漫画转化为彩色中文版[3][4] - 支持生成自定义主题漫画并转换风格,如生成中文炭治郎和海绵宝宝玩耍的日文漫画后再转为彩色中文版[7][8] - 能够不断变换漫画风格,包括3D毛绒效果、中世纪石头马赛克风格、铜制浮雕材质等[10][11][12] 海报设计能力 - 文字处理能力显著提升,尤其中文表现突出,可生成高质量中英文电影海报[15][16][17] - 支持复杂中文文字设计,能稳定生成赛博朋克主视觉海报[24] - 可制作中国传统风格艺术海报,如《天书奇谭》中国山水画风格海报,保持文字清晰可辨[25] 知识解说与教育应用 - 利用多模态推理能力生成知识解说图,如应县木塔结构解说图、苏绣工艺详解图[29][31] - 可生成赛博义眼拆解图等专业图解[33] - 具备解题功能,能画出数学题的完整解题过程草稿[35][36][37][38] 内容转换与游戏界面生成 - 可将论文或长篇文章转换为详细的白板照片,如转换92页Llama 3模型PDF[40][43] - 在游戏UI界面生成方面表现稳定,能生成《潜水员戴夫》、《使命召唤》等多种游戏风格界面[48][49] - 可生成游戏内社交互动场景,如英雄联盟和王者荣耀的玩家聊天界面[52][54] 产品渲染与创意设计 - 文字一致性保持效果极佳,支持产品场景化渲染,如周杰伦CD在不同环境中的展示[57][58][59] - 支持多种场景转换,包括唱片店、悬浮时空、演唱会等复杂场景[61][64][66] - 在拼豆风格生成上表现特别稳定,能生成精致手办盒、小狗等3D拼豆图像,文字清晰无变形[69][70][72]
当我深度体验完这个AI社交产品之后,我悟了。
数字生命卡兹克· 2025-11-20 09:20
产品概述 - Second Me是一款AI社交产品,核心玩法是用户创建自己的AI分身,让AI分身与其他用户的AI分身进行交流以实现破冰[1][5] - 产品处于早期阶段,目前还比较小众,可通过应用商店下载,图标为橙色和紫色小人[1][5] - 该产品与传统AI陪伴型产品的区别在于,每个AI分身背后对应的是现实中的真实人物[5] 产品功能与用户体验 - AI分身创建过程包括初始对话了解用户职业、兴趣、MBTI等基本信息,形成分身雏形[7] - 支持声音克隆功能,用户需朗读文本进行声音采集[9][10] - 支持形象设置,用户上传头像后可生成动态头像,但存在头像比例处理不够完善的问题[13][15][16] - 分身塑造分为基础塑造(履历、说话风格、性格)和深度塑造(记忆)两部分,目前塑造进度条显示完成度约为55%[18][20][32] 记忆系统 - 记忆输入支持三种方式:通过聊天对话自动抓取、手动添加记忆(支持待办事项、图片、文件、语音)、导入外部数据[22][24] - 外部数据导入支持印象笔记、markdown格式和苹果便签,但部分功能需通过web平台或Mac工具完成,移动端体验有待优化[25][27] - 系统具备自动提取关键记忆功能,能从对话中识别并存储重要信息如过敏史等[27] - 侧面功能可自动识别用户兴趣点(如打游戏、看动漫)并点亮相应标签,增加互动趣味性[27][28] - 系统能自动识别并分类人物、事物、地点,支持通过智能标签或类型进行记忆管理[30] 社交互动机制 - 发现页面提供类似探探的左右滑动交互方式,可匹配其他用户的分身进行AI间对话[34] - 用户可完全让AI分身自主交流,也可在感兴趣时接管对话,真人回复与AI回复会通过史莱姆角标进行区分[35][36][37] - 提供定向匹配功能,输入需求后能快速匹配大量对象(如两秒内匹配三百多人),但普通用户匹配数量有限[42] - 支持线下社交场景,通过NFC贴纸触碰即可解锁对方的AI分身,可贴在手机、保温杯、公司墙面等位置[3][45][47][49] 产品价值定位 - 产品核心在于帮助用户从认识自我开始,通过与真实自我对话来塑造完整的AI分身,再进行社交互动[51] - 解决了人类自我会疲惫、情绪化的问题,AI分身能保持价值观和表达风格的稳定性,避免因临时状态导致误读[52][53][54][59] - 特别适合内向型人格(I人),能有效降低社交恐惧和破冰难度[35][36][61] - 提供旁观视角让用户观察自己如何被表达,实现"见自己,再见众生"的社交体验[63][68][69] - 产品通过让沉重的自我实现轻盈表达,同时让社交在自我价值中更有分量,体现了"举重若轻"的设计理念[64][65][66][67]
实测Gemini 3 Pro - 此即未来。
数字生命卡兹克· 2025-11-19 05:20
产品发布与市场地位 - Gemini 3 Pro 在等待和期待已久后正式上线,与上一代产品 Gemini 2.5 Pro 的发布相隔238天 [1][5] - 该模型在所有主要Arena排行榜中几乎全部排名第一,Elo评分为1501分,超越了包括Grok-4.1-thinking(1484分)和GPT-5.1-high(1437分)在内的主要竞争对手 [5][6] - 产品已通过Google AI Studio和Google Gemini网页版向用户开放 [7] 核心性能表现 - 在Humanity's Last Exam评测中,Gemini 3 Pro得分37.5%,在使用工具后提升至45.8%,显著高于GPT-5.1的26.5%和Gemini 2.5 Pro的21.6% [9][12][13] - 在超难数学竞赛题评测集MathArena Apex中表现突出,得分23.4%,而GPT-5.1、Claude Sonnet 4.5和Gemini 2.5 Pro的得分分别为1.0%、1.6%和0.5% [9][13] - 在多模态界面定位评测ScreenSpot-Pro中取得72.7%的成绩,远超GPT-5.1的3.5%和Claude Sonnet 4.5的36.2% [9][14] - 在长周期智能体任务Vending-Bench 2中,平均净值达到$5,478.16,显著高于Claude Sonnet 4.5的$3,838.74和GPT-5.1的$1,473.43 [9] 前端与代码生成能力 - 模型具备快速的前端代码生成能力,能在十几秒内根据复杂提示词(如创建体素艺术场景)完成代码编写 [16][17] - 展示了强大的交互应用开发能力,例如根据简单提示生成具备真实物理引擎的双人台球游戏 [18][21][22] - 在复刻现有网页或用户界面方面表现出色,能够根据截图快速生成可工作的前端代码,并在布局和样式上达到较高还原度 [30][31][33] - 能够处理极其复杂的开发任务,例如根据单一提示在约2分钟内生成一个功能相对完整的类似Windows的Web操作系统,包含文本编辑器、终端、游戏等多种应用 [34][35][37][40] 行业影响与未来展望 - 该产品的发布被视为一个重要的技术里程碑,可能重新定义前端开发等领域的技能需求,将重点转向对场景的细节描述能力和审美品味 [42] - 行业领导者如OpenAI的Sam Altman也对此表示认可,突显了此次发布在行业内的重大影响 [41] - 此次技术突破被看作是一个新起点,预示着AI在创造性工作和复杂任务执行方面的能力进入新阶段 [42][43]
蚂蚁也正式加入AI超级入口战场,他的名字,叫灵光。
数字生命卡兹克· 2025-11-18 09:21
产品体验与设计 - 产品UI/交互设计极为精致优雅,审美品味突出,区别于市场上极简风格的AI助手[3] - 回答呈现方式创新,采用区块划分、AI生成头图、小图标等元素,提供极佳阅读体验[7] - 回答速度与传统AI助手相当,但信息呈现质量显著提升[8] 核心功能与技术能力 - 在常规回答中能快速生成可交互图表,例如分析腾讯三季报时提供带排版的图表[10] - 具备高级数据可视化能力,在询问特斯拉股价预期时可生成交互式K线图[13] - 支持3D模型渲染,例如询问“越王勾践剑”时可展示3D模型[18] - 具备动态解释能力,例如解释飞机飞行原理时开发SVG动画和小型交互应用[20][21] - 支持多模态功能,上传图片后可进行用嘴改图和生成视频等操作[25] 闪应用生态 - 闪应用是核心创新功能,用户可通过自然语言指令快速生成定制化小程序,例如“人生计时器”应用创建耗时约50秒[27][28] - 生成的闪应用具备完整功能和高设计完成度,例如“人生计时器”可设置出生时间并计算剩余生命天数[28][29] - 闪应用可内嵌AI能力,例如“答案之书”小程序可直接调用内部大模型生成并朗读回答,无需用户配置API[33][35] - 具备与支付宝生态整合的潜力,未来可能实现账单分析、订阅管理等真实金融场景应用[36][38] 战略定位与行业影响 - 产品由蚂蚁集团推出,背靠支付宝生态,具备独特的生态优势[1][2] - 通过提升信息呈现质量和交互体验,有效激发用户提问意愿,解决传统AI助手答案生硬、阅读体验差的问题[19] - 闪应用理念结合支付宝生态,可能开创“Vibe Coding”新时代,使用户能通过自然语言直接生成可执行解决方案[39]
千问APP悄悄上线,阿里的AI超级入口也终于来了。
数字生命卡兹克· 2025-11-17 10:36
阿里“千问”APP上线与品牌战略 - 阿里正式上线“千问”APP,完成了从“通义”APP到“千问”APP的品牌迭代 [1][8][9] - 此次品牌统一将模型名称(Qwen)与面向消费者的产品名称(千问)对齐,旨在整合分散的AI触点,强化品牌认知 [26][27][35] - 此举与近期“饿了么”改名“淘宝闪购”的策略一脉相承,都是通过品牌收束来集中用户注意力与数据,盘活业务 [10][12][34][36] 产品功能与用户体验升级 - 新版APP界面设计极简,从双色渐变变为单色,视觉上更加简约 [3][4][7] - 功能大幅增加,接入了Qwen全系列最新模型,并首次允许普通用户在官方APP上直接使用其最强的Qwen3-Max模型 [6][38][40] - 产品并非提供“裸模”,而是像ChatGPT一样包裹了系统Prompt,对普通用户更加友好 [41] - 默认开启联网搜索功能,旨在解决大模型知识截止与幻觉问题,优化C端用户的即时信息获取体验 [46][48][52][54] 技术整合与“大一统”产品形态 - 千问APP是一个“The One”式的一站式产品,整合了Wan2.5(万相)、Image Edit、Omni等多种AI能力 [56][57] - 通过强大的意图识别和路由功能,用户在一个对话框内即可完成文字生成、图像编辑、视觉问答等多种任务 [61][62] - 支持“用嘴P图”、AI生视频、视频通话、实时记录、翻译等丰富场景功能,展示了强大的多模态能力 [63][64][75] 模型性能与市场定位 - 阿里的Qwen系列开源模型在全球开源社区享有盛誉,被视为“公共基础设施” [14][15] - 千问模型在中文文笔方面被评价为“国内首屈一当”,与GPT-5.1-Thinking在“人味”上差距很小 [43] - 公司通过品牌统一,旨在让“千问”成为普通用户接触其最新AI模型的首选入口,将技术复杂性折叠进一个清晰的品牌中 [29][78][80][87]
阿里要把外贸采购这件事,变成下一个巨型的AI入口了。
数字生命卡兹克· 2025-11-15 12:21
阿里国际站AI新功能:AI Mode - 在CoCreate 2025欧洲峰会上,阿里国际站宣布即将上线名为AI Mode的新AI功能[5] - AI Mode能处理复杂的B端定制化采购需求,例如根据“折叠山地车、重量15公斤以下、低起订量、定制包装和logo”等要求进行全球供应商匹配[5][6] - 该功能可自动研究需求、制作表格、拆分任务、筛选符合资质(如CE证书)的供应商,并一键计算到岸成本,将传统需时两天的流程大幅简化[6] - AI Mode还能一键生成并发送询盘,完成采购全流程自动化[8] 垂类AI代理产品:Accio - AI Mode由阿里国际站的独立AI项目Accio提供技术支持(Powered by Al sourcing agent - Accio)[50] - Accio是一个面向跨境买家的AI采购代理,能够根据用户需求(如公司礼品采购)自动生成采购方案、筛选供应商、撰写询盘邮件[13][14][15][36] - 该产品上线9个月,企业级用户数量已超过200万[50] - 根据Similarweb数据,Accio在8月和9月的环比增速均达到约50%,并进入全球AI搜索引擎前十名[50] AI驱动的外贸范式转移 - 阿里国际站提出“从列表到工作流,从搜索到决策”的范式转移,AI不再仅是搜索引擎,而是充当采购经理角色[53][61] - 新模式下,买家从被动挑选现有商品的“消费者”转变为主动提出定制需求的“创造者”[58][59] - AI将创意与供应链直接连接,用户可通过自然语言指令(如定制特定logo、颜色、预算的杯子)获得完整解决方案,包括设计、工厂匹配、成本利润核算及跨境物流税务方案[61] - 该模式显著降低了跨境贸易门槛,使中小企业甚至个人能够将创意(如表情包)快速转化为全球生意[64][65] 行业影响与平台生态 - 阿里国际站主站已全面集成AI能力,主要入口均与AI相关,标志着外贸领域进入AI驱动的新时代[52] - 平台通过AI Agent实现了工作流整合,覆盖从需求分析、供应商筛选、成本计算、询盘沟通到物流税务方案的全链条服务[36][43][45][48] - 这一变革将传统上复杂、耗时的跨境采购流程简化为高效、自动化的决策支持系统,提升了整个行业的效率与可及性[61][64]
用AI假图骗“仅退款”,这是今年双十一最脏的一幕。
数字生命卡兹克· 2025-11-14 09:21
双十一市场氛围变化 - 今年双十一整体市场氛围相比往年明显降温,喧嚣和热闹程度减弱 [1][3] - 过去双十一期间互联网平台投入大量资源,通过小游戏、主播推广、物流加速等方式营造购物狂欢节气氛 [2] AI技术滥用新趋势 - 出现利用AI技术伪造商品瑕疵图片以欺诈商家申请“仅退款”的新兴恶意行为 [6][34] - 具体欺诈手法包括:将完好商品P成残次品(如洗鼻器喷头损坏)、将正常水果P成发霉状、伪造外卖订单错误(如备注不要香菜却P图显示有香菜)以获取退款 [11][21][28] - 部分欺诈者甚至公开教学利用AI技术薅取外卖平台及电商平台退款的方法 [27] “仅退款”机制演变 - “不退货仅退款”机制最初由拼多多于2021年在生鲜品类推出,后扩展至全品类并被京东、淘宝等主流电商平台跟进 [10] - 由于薅羊毛风气对商家造成严重挤压,该机制已于2024年4月从平台侧全面取消,目前申请需由商家端自行处理,平台不再强制介入 [10] 对中小商家的影响 - 一单恶意仅退款对中小商家利润影响显著,例如一瓶售价20多元的去污剂实际利润仅2-3元,一单欺诈即可抵消当日服务十几个客户的利润 [39][40][42] - 中小商家运营成本包括进货价、快递费、平台抽佣、包装耗材及广告摊销等,双十一期间满减活动进一步压缩单件利润 [40][41] 行业信任体系挑战 - AI伪造证据导致电商行业信任基础受到冲击,图片和视频作为传统证据的有效性受到质疑 [34][50] - 尽管存在技术防范手段(如限制APP相机拍摄、多角度验证)和法律界定(律师指出该行为属民事欺诈,严重者可构成诈骗),但防范措施滞后于技术滥用速度 [50]
TRAE SOLO正式版上线,我用30分钟写了一个想做了半年的网站。
数字生命卡兹克· 2025-11-13 09:22
产品发布与定位 - TRAE SOLO编程智能体产品结束内测并正式全量上线,目前处于限时免费阶段[1][2][3] - 该产品定位为集成开发环境,其形态更偏向于图形用户界面,区别于命令行形态的主流编程智能体产品[5][7][8] - 此次正式版相比7月21日开始的内测版本有较多更新[9] 核心功能更新 - 产品界面左侧增加了更舒适的多任务列表[10] - 最重要的更新是全新的SOLO Coder功能,旨在解决SOLO Builder模式在项目迭代修改时因轮数增多产生幻觉的问题[11][12][13] - SOLO Coder具备自动调用多智能体处理复杂开发防止污染上下文、支持Plan模式、更好的压缩上下文等独特特性[14] - SOLO Builder更适合从0到1创建项目,而SOLO Coder更适合完成从1到100的项目迭代[15] 产品能力演示 - 通过构建一个APP logo合集网站的实际案例展示了SOLO Builder与SOLO Coder的组合能力[16][26] - 使用SOLO Builder快速搭建网站前端框架,一次性成功且速度很快[28][29][31] - 通过SOLO Coder的Plan模式制定详细开发计划,并动态调用iTunes图标搜索API智能体和火山引擎Seedream接入专家智能体进行复杂开发[37][38][44][47][48] - 开发过程具备实时跟随功能,可观察整个编程过程,耗时约30分钟,最终生成5697多行代码[56][58][60] - 生成网站功能完整,主功能如logo搜索、收藏、不同格式下载、AI改图等均正常实现[64][65][66][68][70][72] 定价与市场定位 - 产品官方定价为首月3美元,目前限时免费,Pro用户每月有600次快速请求额度,限时赠送300额度的额外礼包[76][77] - 构建上述logo网站案例通常需消耗100多次快速额度,但目前限免期间不消耗额度[78] - 该产品在编程智能体领域具有独特的生态位,对小白用户和专业用户均适用[80][81]
我们搬了个新家,2026年,需要招募更多的伙伴。
数字生命卡兹克· 2025-11-12 09:20
公司发展与办公环境 - 公司近期搬迁至北京望京的新办公区,办公环境得到改善 [3] - 新工区设有可灵活隔断的办公空间、配备麻将桌的休息区以及无限供应零食并可烤肠的零食区 [4][7][8] - 其他如能俯瞰京秋的休息区等各类功能区正在逐步建设完善中,旨在为员工打造舒适开心的办公环境 [9] 战略合作与招聘计划 - 公司与WaytoAGl达成深度合作,未来将共同探索更多有趣的新项目 [11] - 为支持业务发展,公司正扩大招聘规模,诚邀对创意与AI充满好奇心的伙伴加入 [11] - 招聘岗位涵盖内容创作类、经纪运营类、广告执行及法务等多个类别 [11][12] 内容创作类岗位详情 - 长视频编导岗位年薪20-35万,要求深度体验评测AI工具、负责频道策划与内容把控,需1年以上编导经验并对AI有好奇心 [13][15] - AI技术编辑(开发向)岗位年薪20-35万,要求跟进新技术、开发技术项目并输出深度技术内容,需1年以上开发或编辑经验 [16][18] - AI艺术编辑(影视向)岗位年薪20-35万,负责AI艺术领域内容创作,需熟悉AIGC影像工具并有1年以上相关经验 [17][21] - 泛互联网文化编辑(AI向)岗位年薪20-35万,负责追踪互联网现象与AI故事,需具备强信息捕捉力和写作功底 [20][22][26] 经纪运营类岗位详情 - MCN经纪总监岗位年薪30-50万,主导经纪战略与团队管理,需5年以上MCN或经纪人管理经验 [25][28] - MCN经纪人岗位年薪15-25万,负责达人签约与账号成长支持,需1年以上经纪人经验 [27][29] - 达人运营岗位年薪15-25万,负责博主内容规划与孵化,需1年以上内容运营或达人孵化经验 [30][34] 商务与其他类岗位详情 - 广告执行(AE)岗位年薪15-25万,负责MCN广告项目对接与执行,需1年以上广告执行经验 [33][38] - 法务岗位年薪15-25万,负责合同审查与法律风险防控,需1-3年相关经验且MCN法务经验者优先 [37][39]
分析了1.8亿个岗位后,我发现应届生们好像被AI堵在了门外。
数字生命卡兹克· 2025-11-11 09:21
文章核心观点 - AI对就业市场的冲击呈现出结构性分化,初级执行层岗位数量急剧下降,而高级管理层岗位相对稳定甚至增长[3][4][14] - AI技术正在削弱传统的“学徒制”职业发展路径,导致新人难以获得入门机会,可能对行业长期创新和人才传承构成威胁[16][26][36] - 创意类岗位受影响显著,但管理类创意职位表现出较强韧性[7][8][12] 全球职位变化趋势 - 2025年全球职位发布总数比2024年同期下降8%[3] - 高级领导层职位仅下降1.7%,超出市场表现6.3个百分点[11][14] - 管理层职位下降5.7%,超出市场表现2.3个百分点[14] - 执行者职位下降9%,低于市场基准1个百分点[14] 受冲击最严重的职业 - 降幅前五职业中有三个属于创意类岗位:CG艺术家(影视特效/3D)、摄影师、作家[5][7] - 其他降幅较大职业包括合规专员、可持续发展专家、环境技术员等[5] - 记者岗位下降22%,品牌公关岗位下降21%[7] 表现强劲的职业类别 - 增长最大的岗位包括机器学习工程师(增长39.62%)、软件工程总监、法务总监等[9][11] - 增长前十岗位中有四个属于管理层职位[11] - 创意经理和设计总监等管理类创意岗位实现逆势增长[8][12] 行业人才结构变化 - 企业倾向于采用“经验丰富员工+AI”组合模式提升效率,减少对初级员工依赖[26][31] - 入门级职位数量大幅减少,导致应届毕业生就业困难[20][22][25] - 传统从执行层到管理层的职业晋升路径受到严重挑战[34][35][36] 对创新和传承的影响 - AI工具能够高效执行标准化任务,但可能抑制基于经验的创新突破[58][61] - 传统学徒制通过实践积累形成的“品味”和经验难以被AI替代[29][43][58] - 长期可能导致行业人才断层,影响业务创新和文明进步[61][66][69]