Workflow
数字生命卡兹克
icon
搜索文档
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
数字生命卡兹克· 2025-04-17 04:34
模型发布与更新 - OpenAI发布o3和o4-mini模型,取代原有的o1、o3-mini和o3-mini-high模型,ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型,首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%,o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上,o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中,o3从20.3%提升至24.9%,o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升:o3在MMMU数据集从77.6%提升至82.9%,MathVista从71.8%提升至87.5%,CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36,但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出),比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力,能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力,可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁,可能带来行业变革[30][33]
可灵2.0正式发布 - 现实,真的不存在了。
数字生命卡兹克· 2025-04-15 15:24
可灵2.0技术突破 - 可灵2.0在运镜幅度、物理规律、人物表演、动作稳定性、语义理解等方面实现水桶式提升,将AI视频技术推向新高度[7][9][12] - 霸王龙案例展示2.0版本在环境交互、运动感和物理反馈上的显著进步,1.6版本存在树木橡胶化等缺陷[9][11][12] - 摘眼镜案例体现2.0版本对精细动作的完美还原,包括镜片光影变化和物理反馈,1.6版本出现眼镜腿抖动等穿帮[14][16][17] 多主体交互能力 - 五人篝火场景中2.0版本实现自然表情交互和火光动态映射,1.6版本存在人工感[23][25][26] - 派大星吹笛案例展示2.0强大的语义理解能力,能准确呈现停顿观察等复杂指令[27] - 多人场景下2.0版本保持各主体动作协调,1.6版本出现假动作等问题[20][21] 情感表达真实感 - 小丑妆女孩案例中2.0版本实现电影级情绪传递,包括眼神变化和嘴角抽动等微表情[14][17] - 外星人哭泣、老人敬礼等案例展示2.0版本对复杂情感的精准刻画[30][31] - 通过淋雨失恋、开车第一视角等场景建立强烈沉浸感[32][34] 技术局限性 - 群像高速运动时部分人物稳定性不足,出现分裂现象[49][50] - 投篮等需要精确物理模拟的场景仍存在轨迹失真问题[55] - 怪物猎人等复杂群像场景中小尺寸人物会出现混乱[52] 行业影响 - 技术达到"信"而非"像"的级别,首次实现观众情感共鸣[41][44][45] - 当前水平已超越其他AI视频模型,直接对标好莱坞特效标准[57] - 代表AI视频领域审美跃迁,重新定义真实感标准[38][39][46]
AI生成字体设计我有点玩明白了,用这套Prompt提效50%。
数字生命卡兹克· 2025-04-14 01:16
即梦3.0文字生成功能 - 核心功能是通过输入文字内容自动生成具有视觉设计效果的图文作品,涵盖多种风格如抽象概念、电竞动力、清逸笔迹等[2][3] - 支持中英文双语输入,并自动匹配适合的视觉风格和排版布局[3][4][6][8] - 生成效果包括文字边界溶解、字体半透明层叠、背景纹理融合等高级视觉处理技术[3][4] 风格分类与应用场景 - 抽象艺术风格:适用于哲学思考类文字,采用留白解构和意识流碎片化排版[3][14] - 电竞科技风格:适合热血竞技主题,使用尖锐俐落字体搭配深色科技背景[4][22] - 甜美可爱风格:针对轻松活泼内容,采用圆润蓬松字体和粉彩色调[8][41] - 历史文化风格:融合书法笔触与虚拟空间技术,适合国风题材[10][12] - 工业机械风格:适用于硬核科技主题,呈现金属切割感和霓虹光效[22][52] 技术实现原理 - 采用智能匹配系统分析输入文字的情感与内涵,自动选择对应风格集合[58] - 通过高频提示词反推机制优化输出效果,结合质量词提升生成稳定性[57] - 支持多模态输入,用户可上传图片辅助AI识别并生成匹配风格[59][62] 行业应用价值 - 教育培训领域可快速制作具有文化深度的视觉教材[12][35] - 娱乐产业能高效产出电竞、动漫等垂直领域宣传素材[4][45] - 文创行业可批量生成融合传统书法与现代设计的商业作品[10][12] - 营销领域适用于制作社交网络迷因和病毒式传播内容[17][67] 产品优化方向 - 当前在专业字体设计领域仍有提升空间,如书法五大书体的精确还原[51][56] - 需加强印刷字体类别的输出稳定性,如宋体、黑体等核心字体的准确生成[54][56] - 未来可拓展方向包括增强多语言支持、提升排版精细度等[69]