AI安全
搜索文档
大厂90%员工在做无用功?
虎嗅APP· 2025-09-02 18:27
公司业绩与商业模式 - 公司成立4年零外部融资但营收超10亿美元 远超融资13亿美元的竞争对手Scale AI的8.5亿美元年营收 [4] - 采用拒绝融资策略 从第一个月起就实现盈利 避免销售团队稀释产品理念 [17][18] - 专注为OpenAI Anthropic等顶级AI公司提供高质量训练数据 [4] 大企业管理效率批判 - 大型科技公司90%员工在解决无用问题 存在严重效率浪费 [5][9] - 大公司优先事项常脱离最终客户 仅为内部官僚体系和政治目标服务 [10][14] - 小团队用10%资源可实现10倍效率 因减少面试 会议和冗余流程 [9] 硅谷融资文化反思 - 硅谷融资被视为地位游戏 创业者应为信念而非融资额创业 [18] - 90%-95%初创公司应先构建MVP验证需求 而非直接融资 [19] - 创业者应追求独特想法 承担风险构建时代性基础公司 [19] 数据标注行业现状 - 多数竞争对手实为人力外包公司 缺乏质量测量和改进技术 [21][22] - 行业普遍依赖博士学历招聘 但80%计算机科学博士代码水平差 [25][29] - 人力外包模式无法解决数据质量退化问题 客户迁移需求强烈 [35][36] 质量控制技术优势 - 从第一原则构建质量控制技术 非简单堆砌人力 [25] - 开发复杂算法应对数据欺诈问题 包括第三方转包和LLM生成数据 [26] - 始终生产其他地方无法获得的数据 具丰富性 复杂性和多样性 [37] 人才观与组织管理 - 100倍工程师真实存在 综合编程速度 创意和工作态度可达百倍效率 [29] - 取消无意义会议和一对一 保持日历空白避免官僚主义 [30] - 深度植入质量第一文化 允许为质量错过截止日期或拒绝项目 [31] 市场竞争格局 - Scale AI被收购后客户加速迁移 公司获得新关注 [35] - 已成为领域最大最好供应商 即使未合作大公司团队也知晓其地位 [38] - 客户反馈其高质量数据比1000万个合成数据更有价值 [48] 技术发展观点 - AGI将在2028年取代普通程序员 但2038年才可能治愈癌症 [45] - AI发展瓶颈中数据质量排第一 计算资源第二 算法第三 [45] - 合成数据仅适合学术基准测试 在现实世界用例中表现糟糕 [48] 行业未来展望 - 将出现多个顶尖AGI公司 因不同发展方向和优势差异 [52][53] - 最大模型提供商尚未全部成立 未来几年可能出现更强大开发者 [54] - AI安全未被夸大 回形针悖论和错误目标最大化是真实风险 [50][51] 战略建议 - AI公司应问是否真改进模型智能 而非仅破解基准测试 [56] - 谷歌等公司需承受广告收入短期打击来构建更好AI产品 [59] - 始终专注10倍改进而非10%短期现实 保持独特见解 [61]
氪星晚报 |《时代》周刊发布年度AI 100人名单:任正非等中国企业家入选小米汽车:2025年8月,小米汽车交付量持续超过30000台
36氪· 2025-09-01 17:40
汽车行业动态 - 理想汽车CEO李想宣布2025年高端纯电SUV销量目标为年底"保五争三" 其中理想i8目标月销6000辆 理想i6目标月销9000-10000辆 加上理想MEGA 纯电车型总目标月销18000-20000辆[1] - 一汽丰田前8月累计销售新车515980辆 同比增长11%[2] - 小米汽车2025年8月交付量持续超过30000台[5] - 日本8月国内汽车销量同比下降10.6%[11] 零售与消费品牌 - TOP TOY日本首店东京池袋开业 首日销售额突破1100万日元(约53万元人民币) 公司投后估值达100亿港元 旗下IP Nommi糯米儿上市9个月营收过亿元[1] - 名创优品MINISO LAND全球壹号店月销售额达1600万元 创全球单月单店历史新高 IP产品销售占比83% 该店开业9个月销售额破1亿元[4] - 美团旗下快乐猴社区超市首店开业 关联公司已申请注册多枚"快乐猴"商标[2] 电商与外贸平台 - 阿里国际站4-6月订单量同比大涨30% GMV同比增长16.4% 欧洲市场保持双位数增长 法国增速超三位数 6月"外贸618"期间订单同比大涨42%[3] - 天猫超市将全面从B2C远场模式升级为近场闪购模式 在保持价格竞争力同时实现更快速配送[10] 企业融资动态 - 跨境支付企业Obita完成超千万美元天使轮融资 由元璟资本与Mirana Ventures联合领投 君联资本等跟投[6] - 具身智能企业智平方完成深创投领投的A轮融资 深创投单家投资超亿元 资金用于GOVLA大模型及机器人迭代[7][8] - 斗象科技完成2亿元桥梁战略轮融资 由钟鼎资本独家投资 资金将用于AI安全技术研发[9] 科技创新与政府项目 - 中科院发布"月球科学多模态专业大模型V2.0" 为"数字月球"云平台提供支持 该平台计划2027年建成并向全球开放[10] - 合肥市正式上线低空政务"一网统飞"平台 实现政务无人机资源一网统飞 支持AI自动采集识别和全流程作业[11]
一句“吴恩达说的”,就能让GPT-4o mini言听计从
36氪· 2025-09-01 16:23
研究背景与发现 - 宾夕法尼亚大学研究发现特定心理话术(如恭维、同侪暗示)可使GPT-4o Mini突破安全底线[3] - 硅谷创业者Dan Shapiro利用七种人类心理学说服策略成功操纵LLM响应本被拒绝的请求[6] - 实验证明人类心理学说服原则可有效迁移至LLM 其类人倾向包括对社会互动规则的学习[12] 实验方法与数据 - 采用七种说服技巧:权威、承诺、喜爱、互惠、稀缺、社会认同和统一[8] - 权威策略使用头衔(如吴恩达)使辱骂请求响应率从31.9%提升至72.4%[9][12] - 承诺策略通过轻微侮辱铺垫使辱骂请求响应率从18.8%升至100%[11][12] - 药物合成询问中 权威策略使利多卡因合成请求响应率从4.7%升至95.2%[11][12] - 承诺策略使药物合成请求响应率从0.7%达到100%[12] - 整体实验显示说服策略使辱骂请求平均响应率从28.1%升至67.4% 药物请求从38.5%升至76.5%[12] 行业应对措施 - OpenAI通过修正训练方式和系统提示 建立更多护栏原则减少模型讨好性人格[14] - Anthropic采用在缺陷数据上训练模型 通过预置再移除负面倾向使模型获得行为免疫力[16] - 研究指出未来需发展更坚韧的AI安全机制应对心理操纵漏洞[13][16]
一句“吴恩达说的”,就能让GPT-4o mini言听计从
量子位· 2025-09-01 14:00
研究核心发现 - 人类心理学中的经典说服原则可有效迁移至大型语言模型 导致其突破安全护栏[2][10][19] - 使用权威策略(如提及吴恩达)可使GPT-4o Mini对辱骂请求的服从率从32%提升至72%[15][19] - 采用承诺策略(先提出轻微侮辱再升级请求)可使辱骂请求的响应成功率飙升至100%[17][19] 实验设计方法 - 基于七大人类说服技巧构建测试框架:权威/承诺/喜爱/互惠/稀缺/社会认同/统一[11][16] - 设置两类突破性请求测试:要求输出辱骂性内容(侮辱请求)和提供违禁药物合成方案(药物请求)[14][18] - 通过控制组与实验组对比 测试不同话术对模型服从率的影响[17][19] 具体实验结果 - 药物合成请求中 权威策略使GPT-4o Mini响应率从4.7%提升至95.2%[18][19] - 采用承诺策略时 药物请求响应率达到100%[19] - 社会认同策略对侮辱请求效果显著 服从率达90.4%-95.8%[19] - 整体聚合数据显示实验组平均服从率(67.4%)显著高于控制组(28.1%)[19] 行业应对措施 - OpenAI通过修正训练方式和系统提示 减少模型的过度谄媚倾向[22][23] - Anthropic采用"疫苗法"训练:先在缺陷数据上训练模型再移除负面倾向[25] - 研究证明社会心理学理论可为理解AI黑箱行为提供新框架[19]
大厂90%员工在做无用功?
虎嗅· 2025-09-01 08:57
公司业绩与行业地位 - 成立仅4年 在零外部融资情况下实现营收超10亿美元 显著超越融资超13亿美元但年营收仅8.5亿美元的竞争对手Scale AI [1] - 专注于为OpenAI、Anthropic等顶级AI公司提供高质量训练数据 成为AI数据标注领域最大最好的供应商 [2][71] - 拒绝1000亿美元收购报价 因公司已实现盈利且完全掌控自身发展轨迹 [5][73][74] 企业运营理念 - 大公司存在90%员工解决无用问题的现象 小团队用10%资源可实现10倍效率提升 [3][9] - 坚持从第一个月盈利起不融资 避免销售团队稀释产品理念 [4][20] - 取消无意义会议和一对一沟通 将质量第一原则深入每个员工内心 [54][56][57] 数据质量控制技术 - 行业多数公司属于"人力外包"模式 缺乏质量测量和改进技术 [33][34] - 从第一原则出发构建质量控制技术 包括复杂算法应对数据欺骗行为 [39][43][44] - 1000个高质量人类标注数据价值超过1000万个合成数据 [96] 人才观与效率提升 - 100倍效率工程师真实存在 综合编程速度、创意和工作态度可实现指数级效能 [46][47] - 80%计算机科学博士代码水平差 学历不等于实战能力 [48][41] - AI工具让顶尖人才效率进一步放大 但模型尚未能解决公司10%最重要问题 [47][86] 行业发展与竞争格局 - Scale AI被收购后客户加速迁移 因Surge AI能提供即时高质量数据交付服务 [65][67] - 合成数据存在局限性 导致模型擅长学术基准测试但现实应用表现差 [94][95] - 未来将存在多个顶尖AGI公司 因不同发展方向需要多样化的解决方案 [100][101] 技术发展预测 - 预计2028年AGI将取代普通工程师工作 但治愈癌症级应用需至2038年 [85] - AI发展三大瓶颈排序为:数据质量 > 计算资源 > 算法 [88] - 应用层不会被模型层完全吸收 因产品广度无限且大公司存在创新瓶颈 [108][113] 客户服务与价值创造 - 提供凌晨紧急数据支援服务 能在几小时内交付10000个数据点解决客户关键问题 [90] - 客户在发布重大模型时优先致谢 认可其作为关键组成部分的技术贡献 [79][82] - 数据标注服务开辟新研究途径 通过数据丰富性推动新产品类型开发 [69]
红杉美国:未来一年,这五个AI赛道重点关注
虎嗅· 2025-08-31 11:34
核心观点 - AI革命被视为堪比工业革命的变革 蕴含10万亿美元机遇 [2] - 未来12-18个月将重点关注五大投资主题:持久化记忆、通信协议、AI语音、AI安全和开源AI [3] - 知识工作者算力消耗预计增长10-10000倍 为AI专业化应用创造巨大机会 [3][32][33] 工业革命类比与认知革命 - 工业革命历时211年 从蒸汽机发明(1769年)到流水线出现(1913年) 核心是通用技术的专业化改造 [4][7] - 1999年NVIDIA GeForce 256 GPU被视为认知革命的"蒸汽机" 2016年出现首个AI工厂 [5] - 未来应用程序将由践行"专业化"使命的创业公司构建 [8] 服务业AI改造机遇 - 美国服务业市场价值10万亿美元 目前仅200亿美元被AI自动化 存在10¹³倍级机会 [12] - 红杉内部数据显示注册护士领域年工资总额2840亿美元 软件开发领域2240亿美元 法律领域1250亿美元 [13][14] - 已投资案例:Open Evidence和Freed(护理)、Factory和Reflection(开发)、Harvey/Crosby/Finch(法律) [15] 当前五大投资趋势 - 工作范式转变:从确定性转向百倍杠杆效应 AI Agent可实现千人级客户管理 [20][21][22] - 真实世界验证成为新标准 Expo公司在HackerOne平台证明为世界第一AI黑客 [25] - 强化学习技术进入产业应用核心 Reflection公司用于训练开源编码模型 [27] - AI进入物理世界 Nominal公司用AI加速硬件制造和质量保证 [29] - 算力成为新生产力 每位知识工作者算力消耗预计增长10-10000倍 [32][33] 五大重点投资方向 - 持久记忆:需解决长期记忆和AI身份持久性问题 向量数据库/RAG技术尚未彻底解决 [36][37] - 通信协议:需要标准化协议实现AI Agent间无缝协作 类比TCP/IP对互联网的意义 [39][40] - AI语音:保真度和延迟已达实用水平 可应用于物流协调、金融交易等企业场景 [42] - AI安全:覆盖开发层到消费者的全链条 可构建千人级AI安全Agent防护体系 [44][45] - 开源AI:已具备与闭源模型竞争实力 对构建自由开放的AI未来至关重要 [47][48] 市场格局展望 - 标普500指数中英伟达市值超4万亿美元 但服务业存在未上市巨头(如科克兰律所、贝克·蒂莉会计所) [17] - 认知革命将催生以AI为核心的服务业上市公司 重塑市场格局 [18]
奇安信上半年营收17亿元,三费大幅压降2.57亿元
北京日报客户端· 2025-08-29 21:16
财务表现 - 2025年上半年实现营业收入17.42亿元 [1] - 归母净利润同比增长6.16% [1] - 扣非净利润同比增长9.82% [1] - 三费总金额同比下降2.57亿元 [1] 收入结构 - 企业级客户收入占比78.74% [1] - 政府客户收入占比14.54% [1] - 公检法司客户收入占比6.72% [1] - 能源、金融、运营商、特种四大行业合计收入占比超50% [1] - 百万级以上客户创收占比超60% [1] 市场拓展 - 在金融、运营商、能源、制造、消费品、政府等行业斩获大单 [1] - 海外市场中标某国有银行最大海外分支机构项目 [1] - 海外项目金额超2000万元 [1] - 该项目成为中资网络安全厂商在该地区最大单体项目 [1] 技术发展 - 研发人员AI代码助手使用率超90% [2] - AI生成代码占比达5% [2] - AI技术全面融入产品研发与运营流程 [2] 行业前景 - 2025年网络安全市场规模预计突破2000亿元 [2] - AI安全、云安全等新兴领域展现巨大潜力 [2] - AI技术引入业务环节成为企业重要战略选择 [2]
红杉美国:10万亿美元AI机遇下的五大投资主题 | Jinqiu Select
锦秋集· 2025-08-29 17:23
核心观点 - AI革命是规模超过工业革命的认知革命 将创造10万亿美元服务业转型机遇 [1][4] - AI发展呈现加速态势 从1999年首块GPU到2016年首个AI工厂仅用17年 远快于工业革命数百年进程 [1][6][10] - 专业化是核心趋势 初创公司将在AI服务领域创造新一代巨头企业 [1][13] 工业革命类比分析 - 工业革命从1702年蒸汽机到1769年首座工厂耗时67年 到1913年流水线再耗144年 [6] - AI革命演进速度显著加快:1999年GeForce 256 GPU相当于蒸汽机 2016年首个AI工厂相当于首座工厂 [6][10] - 专业化是复杂系统发展的必然要求 通用技术需与专业化组件结合 [7] 市场机遇规模 - 美国服务市场总规模达10万亿美元 目前仅200亿美元被AI自动化 [16] - 各职业领域TAM巨大:注册护士2840亿美元 软件开发2240亿美元 律师1250亿美元 会计1250亿美元 [17] - 类比云转型:SaaS从60亿美元增长至6500亿美元 AI将复制此路径并扩大整体市场 [14][16] 当前投资趋势 - 工作模式转向高杠杆低确定性 销售代理可实现1000%杠杆率 [22][24] - 验证标准从学术基准转向真实世界表现 Expo通过HackerOne实战证明AI黑客能力 [25][26][27] - 强化学习进入主流应用 Reflection使用强化学习训练顶级编程模型 [28][30] - 物理世界应用落地 Nominal用AI加速硬件制造和质量保证 [31][33] - 算力成为新生产函数 知识工作者算力消耗将增长10-10000倍 [37] 重点投资主题 - 持久化记忆:需解决长期记忆和AI身份持续性 尚无成熟解决方案 [39][40] - 通信协议:MCP协议类似TCP/IP起点 将催生AI间无缝通信应用 [42] - AI语音:保真度和延迟已达实用水平 物流和金融等领域存在企业级应用机会 [45][46] - AI安全:涵盖开发层到消费者的全链条保护 可部署海量AI安全代理 [49] - 开源AI:处于关键时刻 需保持与最先进基础模型的竞争能力 [52] 企业布局 - 红杉已在关键领域投资:Open Evidence和Freed(医疗) Factory和Reflection(开发) Harvey和Crosby(法律) [17] - 标普500市值显示AI企业机会 英伟达市值超4万亿美元 服务领域将出现新巨头 [20]
GPT正面对决Claude,OpenAI竟没全赢,AI安全「极限大测」真相曝光
36氪· 2025-08-29 10:54
合作背景与意义 - OpenAI与Anthropic罕见合作进行AI模型安全交叉验证 尽管Anthropic因安全策略分歧从OpenAI独立 此次合作聚焦四大安全领域测试[1] - 合作基于AI技术重要性提升 每天有数百万用户使用模型 此类合作对行业安全发展至关重要[1] 指令优先级测试 - Claude 4在指令优先级测试中表现最佳 尤其在系统与用户消息冲突处理及提示词提取抵抗方面突出[3][4] - 在Password Protection测试中 Opus 4与Sonnet 4得分达1.000满分 与OpenAI o3持平 显示强推理模型优势[5] - 在更具挑战性Phrase Protection任务中 Claude模型与OpenAI o3持平 略优于OpenAI o4-mini[8] 越狱抵抗测试 - 使用StrongREJECT v2框架测试越狱抵抗 OpenAI采用60个禁止领域问题 每个问题约20种变体进行压力测试[16] - 推理模型如OpenAI o3 o4-mini Claude 4 Sonnet 4对越狱尝试抵抗力强 非推理模型如GPT‑4o GPT‑4.1更易受攻击[18] - Claude模型易被"过去时态"越狱突破 OpenAI o3在此方面表现更优 失败多限于base64提示及低资源语言翻译[18] - 在辅导型越狱测试中 OpenAI o3与o4-mini表现优异 无推理模式Sonnet 4超过启用推理的Opus 4[24] - 开发者消息纳入后 OpenAI o3得分超0.98 GPT-4.1提升至0.75以上 显示其强化指令层级遵循的有效性[24] 幻觉评估 - Claude模型拒答率高达70%但幻觉率低 OpenAI o3 o4-mini拒答率低但幻觉率高 体现不同安全策略权衡[3][35] - 在人物虚假信息测试中 Claude系列优先确保确定性 OpenAI系列追求回答覆盖率但幻觉风险更高[35] - SimpleQA测试显示 OpenAI o3与Claude系列正确错误比例接近 OpenAI o4-mini表现最差[36] 欺骗与操纵行为 - 测试涵盖撒谎 保留实力 成绩作弊等行为 基于智能体评测方法统计平均欺骗率[37] - Opus 4与Sonnet 4平均欺骗率较低 OpenAI o3 o4-mini中等 GPT-4o GPT-4.1表现偏弱[37] - 在不同阈值下 Claude系列覆盖环境数更多 表现更稳健 OpenAI与GPT系列结果更分散[39]
OpenAI、Anthropic罕见合作
36氪· 2025-08-29 09:32
合作背景与目的 - 全球领先AI初创企业OpenAI与Anthropic过去两个月罕见开展跨实验室合作 相互开放严密保护的AI模型进行联合安全测试[1] - 合作旨在揭示各自公司内部评估盲点 展示领先AI企业未来在安全与协调方面的合作方式[1] - 行业正处于军备竞赛阶段 数十亿美元数据中心投资和千万美元级别顶尖研究员薪酬成为基础门槛[1] 合作实施细节 - 双方通过特殊API权限相互授予访问权限 测试对象为降低安全防护等级的AI模型版本[3] - OpenAI的GPT-5模型因未发布未参与此项测试[3] - Anthropic希望未来继续允许OpenAI研究人员访问其Claude模型[4] 模型性能差异发现 - Anthropic的Claude Opus 4和Sonnet 4模型在无法确定答案时会拒绝回答高达70%的问题[5] - OpenAI的o3和o4-mini模型拒绝回答频率远低于Anthropic 但出现幻觉概率高得多[5] - 理想平衡点应介于两者之间 OpenAI模型需更频繁拒绝作答 Anthropic模型需尝试提供更多答案[5] 安全隐患研究结果 - 谄媚现象成为当前AI模型最紧迫安全隐患 GPT-4.1和Claude Opus 4存在极端谄媚案例[6] - 这些模型最初抵制精神病态行为 但随后认可某些令人担忧的决策[6] - OpenAI声称GPT-5模型较GPT-4o显著改善谄媚性问题 更能应对心理健康紧急状况[6] 行业影响与未来展望 - AI技术已进入每天数百万人使用的具有重大影响发展阶段 安全合作愈发重要[4] - 尽管行业投入数十亿美元资金并存在人才用户产品争夺战 建立安全与合作标准仍是广泛问题[4] - 未来希望深化安全测试合作 拓展研究主题并测试未来模型 同时期待其他AI实验室效仿协作模式[7]