Workflow
量子位
icon
搜索文档
硅谷AI初创重新拥抱996
量子位· 2025-07-24 14:05
硅谷AI创业公司工作文化转变 - 996工作制成为硅谷AI初创公司的标配,每周工作72小时,是标准工时的两倍[1][4][6] - 部分公司甚至推行更极端的007工作制,如马斯克要求团队每周工作120小时[2][3][13] - 高强度工作被视为在AI竞赛中保持竞争力的关键因素,部分创始人认为这是创业初期的必然选择[6][12][13] 企业招聘策略与员工态度 - 招聘过程中明确要求候选人接受996工作制,已成为筛选条件之一[8][9] - 人工智能初创公司Rilla近80名员工几乎全部遵守996制度[9] - 远程医疗公司为996员工提供25%加薪和100%股权增幅,但参与率不足10%,反映员工更倾向工作生活平衡[15][16][17] 行业争议与风险 - 部分企业家批评996制度是"集体癫狂",忽视潜在法律风险和员工健康问题[19] - 社交媒体存在反对声浪,认为透支个人生活的工作制度不可持续[18][20] - 支持者则认为高强度工作伴随高报酬,公司成功可为员工带来超额收益[21] 典型案例与行业领袖观点 - 马斯克以"办公室当卧室"的工作强度成为行业标杆[2][3] - Sotira CEO认为创始人需承受996强度,但不应强制普通员工跟进[12] - 风险投资人Harry Stebbings提出公司估值目标与工作强度直接挂钩的理论[13]
因为不用AI写代码,我在终面挂了 | 一个程序员的奇葩面试经历
量子位· 2025-07-24 14:05
奕然 发自 凹非寺 量子位 | 公众号 QbitAI "因为不是AI First,我在终面挂了。" 最近,一外国小哥的经历意外火了! 他表示自己几个月前被解雇,终于来到了一家自己本来很看好的初创公司,并且走到了终面,与CEO面对面。 原本以为很顺利,结果就因为在面试时,说到自己工作不会优先使用AI,面试完5min就收到了拒信。 It finally happened. 这一经历引发了不少网友讨论,在reddit上热度很高。 有网友给他支招: 不要在领导面前贬低AI,尤其是不亲自编码的领导。 你对AI的理解大部分是正确的,但它在代码解释方面有强大的作用。 在CEO终面前,他总共经历了三轮面试:HR面—CoderByte测试—团队技术讨论。这几轮都很顺利。 好好好,下次沟通学着聪明点。咱就是说,在座的也共勉。。。 AI缺点说不得??? CEO问小哥,他的编码风格是怎样的,以及如何在开发过程中使用AI。 这位小哥回答道, 大模型太啰嗦了,它们的代码要么不安全,要么试图从头开始写简单的函数而不是使用内置工具。 即使在我自己的一个小型业余项目里,当我尝试使用Agentic AI添加一个简单功能时,也很难。 面试完5mi ...
奥特曼首次透露GPT-5上手体验:在擅长领域感到无力,往后一靠感到眩晕
量子位· 2025-07-24 09:18
GPT-5发布前的关键信息 - GPT-5即将发布 近期OpenAI高层及员工多次释放明确信号 [3] - 测试GPT-5时出现"天啊时刻" 奥特曼在擅长的领域首次感受到AI的压倒性优势 输入复杂问题后获得完美答案使其产生眩晕感 [2][5][6][7] - GPT-5被描述为"几乎所有方面都比人类更聪明" 但人类与AI存在根本差异 简单取代论不成立 [8][9] AI行业竞争本质 - AI行业竞争焦点从基准测试转向实际应用价值 类似芯片行业从兆赫兹竞赛转向用户体验 [11][12][13][14] - 行业里程碑可能是AI自主研究或超越全人类智能的时刻 但当前更关注用户价值创造 [15] - 终极标志是GPU集群优先分配给AI研究员而非人类团队 [16] 下一代人机交互革命 - 现有硬件无法匹配AI能力 OpenAI收购硬件公司旨在开发第三代交互设备 支持复杂指令执行和环境感知 [22][24] - Agent功能将重构生活场景 如餐厅预订等传统操作将很快显得原始落后 [25][26][27] - 新型电脑将实现持续环境感知与自然交互 突破现有二值化操作模式 [24] 人类与AI的共存关系 - 新生代从出生即面临AI智力碾压 教育体系需彻底重构 但适应障碍主要存在于高龄人群 [17][20][21] - AI CEO可能短期内接管企业 具备全天候全员沟通与决策优化能力 人类将转向更高阶问题 [29] - 人类保持"主角光环"的底层需求不会改变 类似地心说被推翻后仍维持自我中心叙事 [30] 技术哲学思考 - 行业领导者承认技术演进不确定性 即便创造者也无法预知AI最终发展路径 [33][34] - 硬件性能与AI能力不匹配构成当前主要矛盾 需突破冯诺依曼架构限制 [24] - 历史类比显示 技术指标竞赛终将被用户体验竞争取代 [11][12][13]
浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站
量子位· 2025-07-24 09:18
产品功能与性能 - TestSprite 2.0是行业首个专为AI编程设计的智能测试平台,可实现零代码、零bug,30分钟创建完整网站[1][3][13] - 平台能自动生成测试报告、调试并修复错误,全程无需人工干预[4][5][15] - 在Trae开发平台上表现尤为惊艳,可自动完成测试用例生成、测试代码编写、脚本编译、云端并行执行测试及返回结构化报告等全流程[11][12] - 引入调度和监控功能,支持持续测试场景,通过智能测试清单与批处理模块将混乱测试转化为结构化工作流[17] - 全域智能调度引擎实现跨时区多频率自动化测试,实时推送QA预警及故障分析[17] 技术突破与行业影响 - 将AI写代码准确率从行业平均42%提升至93%,实现翻倍增长[2][18][19] - 通过审查需求文档、描述符和代码库生成标准集成测试计划,验证开发意图实现情况[9][10] - 结构化报告清晰标注功能通过/缺失/Bug情况,帮助团队精准优化[10] - 2025年90%的web开发人员使用AI生成代码,TestSprite解决行业代码质量痛点[18][19] 公司发展与融资 - 公司由浙大校友焦云皓2024年在西雅图创立,致力于通过AI测试缩短软件发布周期高达十倍[25][31] - 2024年4月发布测试版,11月获150万美元种子轮融资,投资方包括Techstars Mobility Accelerator等顶级机构[32] - 2025年1月发布1.0正式版,7月完成2.0重大升级,Starter版本提供1个月免费试用后月费19美元[34] - 目前已获6000多个开发团队采用[21] 创始人背景 - 创始人焦云皓本科就读浙江大学,后获耶鲁大学计算机科学硕士学位[25] - 2015年起专注NLP研究,曾在WWW2018发表关于对话系统优化的论文[27] - 2014-2019年任职亚马逊,担任AWS与Amazon Business软件开发工程师[29] - 曾参与编写面向高中生的人工智能教材,负责神经网络与模式识别章节[30]
WAIC探展征集|加入量子位直播共创
量子位· 2025-07-23 18:36
直播时间有限 ,我们将会结合实际时间、路线来安排。 同时,量子位也会在 H3-A128 设立展位,欢迎来找我们线下见面! 林樾 发自 凹非寺 量子位|公众号 QbitAI 7月26日,WAIC第一天的下午,我们将在WAIC来一场 快闪探展直播 ! ⬇️ 点击下方按钮,一键预约 ⬇️ 如果你在 WAIC带来了什么 亮眼的新产品&新技术 希望在直播露面,欢迎填写下方表单告诉我们。 一键三连 「点赞」「转发」「小心心」 欢迎在评论区留下你的想法! — 完 — 探展时间 :7月26日 15:00-17:00,每个展位3-5min 探展区域 :展馆H1-H4 形式 :交流对话,产品展示 征集截止 : 7月24日 18:00 点亮星标 科技前沿进展每日见 ...
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
量子位· 2025-07-23 18:36
这是OpenAI官方首次详细解析ChatGPT Agent功能背后的原理。 ChatGPT Agent由以下四个部分组成: 不圆 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT Agent 的技术内幕,被官方披露了。 就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全 新的开端。 关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问 题。 1+1>2,怎么做到的? 简单地说,ChatGPT Agent是 Deep Research和Operator合作 的成果。 Deep Research(基于文本的研究智能体) Operator(基于GUI/操作的计算机智能体) 其他新工具(终端、图像生成、API调用等) 通过共享状态进行整合 Isa Fulford,斯坦福大学计算机科学硕士(人机交互方向),2022年11月加入OpenAI,现主导ChatGPT Agent的交互范式设计。 Casey Chu,OpenAI资深员工,斯坦福数学硕 ...
突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?
量子位· 2025-07-23 14:36
机器人失控事件分析 - 视频中失控的机器人是今年美国机器人格斗冠军DeREK(原型为宇树机器人G1),由团队REKrobot研发,CEO兼格斗手Cix操作[3][4] - 失控直接原因是机器人被吊起时启用全身策略但双脚未接触地面,系统自动恢复为行走模式导致动作异常[7][8][12] - 远程紧急制动装置存在但失效,无线电急停需5秒生效,最终依靠以太网电缆松脱才停止系统[10][13][14] 技术缺陷深度解析 - 电池设计缺陷:侧面安装且需长按2秒关闭,BMS按钮可能仅由通用微控制器驱动,缺乏安全设计导致紧急断电失败[18][19] - 电机性能风险:单个电机扭矩达120-160牛米,失控时可能造成骨折级伤害,且断电可能导致电机反送电压损坏系统[21][22] - 控制系统局限:核心由Rockchip处理器和宇树闭源软件控制,用户无法修改底层代码,无线通信依赖Wi-Fi/蓝牙易受干扰[22][23][24][25] 安全机制系统性缺失 - 通信中断应对不足:开发者需自行制定安全协议,但现有系统不会因通信中断触发停机[27][28] - 硬件安全标准不符:执行器和电池管理系统未达到PL(d)或ASIL-D等级,商用网络组件被用于安全关键系统[36] - 历史问题重复出现:5月已有机器人突然摔倒事件,当时同样暴露紧急制动设计缺陷但未改进[39][42][43] 行业安全建议 - 需建立多步骤安全方案:包括硬件安全输入、专用安全关键系统组件、严格开发流程及故障测试[31][32][36] - 避免AI制动依赖:当前技术下应优先监控和紧急切断系统而非AI控制[36] - 用户操作风险警示:机器人自重和电机惯性可能导致二次伤害,需优化断电策略防止随机倾倒[26][30]
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 14:36
核心观点 - 李沐团队研发的Higgs Audio V2模型实现了文本与语音的多模态融合,通过1000万小时语音数据训练,具备生成多语言对话、自动韵律调整、声纹克隆等能力,并在多个基准测试中领先[3][4][19][20] - 模型采用"system-user-assistant"框架统一处理语音和文本任务,通过离散化音频分词器实现高效语义映射,训练中采用双模型互学习策略提升性能[7][8][10][16] - 技术方案突破传统TTS限制,支持实时情绪交互和复杂场景推理,在EmergentTTS-Eval基准上对GPT-4o-mini-tts的胜率高出75.7%(情绪类)和55.7%(问题类)[19] - 模型已开源并提供在线试玩,适用于鬼畜视频制作、虚拟主播等场景,需配合场景语音数据优化声纹克隆效果[23][25] 技术架构 - 数据层:清洗后使用1000万小时授权语音数据,剔除90%低质量样本,避免使用YouTube/B站等版权受限平台[4][14][15] - 编码层:开发统一离散化音频分词器,以每秒25帧速度运行,压缩比达60MB→0.16MB/小时,同时保留语义和声学特征[10][11] - 训练层:构建AudioVerse辅助模型实现自动标注,通过双模型对抗训练提升多模态能力,规避OpenAI/谷歌模型输出限制[16] - 应用层:支持文本转语音、歌曲创作配乐、场景人物分析(性别/年龄/情绪)、环境音识别等18项复杂任务[17][18] 性能表现 - 基准测试:在Seed-TTS Eval和情感语音数据集(ESD)保持SOTA,EmergentTTS-Eval六维评估框架中情绪识别准确率提升75.7%[19][20] - 延迟控制:实现200ms内实时语音交互,支持对话过程中的动态情绪表达,突破机械问答限制[19] - 多语言支持:可生成中英等语言的自然对话,自动适配不同说话人的韵律特征[3] 商业化进展 - 开源策略:GitHub发布完整模型代码,提供Docker镜像简化部署,包含Pytorch GPU版本和Hugging Face接口[23][24] - 产品矩阵:4月推出Higgs Audio Understanding/Generation工具,5月发布EmergentTTS-Eval评估基准,形成完整技术闭环[30] - 公司背景:Boson AI由李沐创立,基于Llama 3开发的Higgs-Llama-3-70B模型在角色扮演和推理任务表现优异,获98.1万B站粉丝关注[26][27][28]
3D生成补上物理短板!首个系统性标注物理3D数据集上线,还有一个端到端框架
量子位· 2025-07-23 12:10
PhysX团队 投稿 量子位 | 公众号 QbitAI 3D生成又补齐了一块重要拼图—— 物理属性 ! 南洋理工大学-商汤联合研究中心S-Lab,及上海人工智能实验室合作提出了 PhysXNet ,号称首个系统性标注的物理基础3D数据集。 团队表示,3D生成正从纯虚拟走向物理真实,但现有的3D生成方法主要侧重于几何结构与纹理信息,忽略了基于物理属性的建模。 为了填补当前包含物理属性3D数据集的关键空白,PhysXNet应运而生。 该数据集包含超过 26K 带有丰富注释的3D物体,涵盖五个核心维度: 物理尺度 、 材料 、 可供性 、 运动学信息 、以及 文本描述 信息。 此外,团队还提出了PhysXGen,一个面向真实物理世界的3D生成框架,以实现从图像到真实3D资产的生成。 下面具体来看。 当前研究大多忽视了物理属性 近年来,随着3D资产在游戏、机器人技术和具身模拟等领域的广泛应用,其多样性与高质量生成受到了越来越多的关注。 大量研究工作集中在外观与几何结构上:包括高质量的3D数据集 (Objaverse、ShapeNet) 、高效的3D表示方法以及生成模型等方面。 然而, 这些研究大多仅关注结构特征,忽视 ...
AI音效90秒长时可控生成!“狼嚎2秒,蟋蟀鸣8秒”精准搞定!清华&生数科技新研究入选ACM MM 2025
量子位· 2025-07-23 12:10
技术突破 - 文生音频系统FreeAudio实现精确时间控制与90秒长时音频生成,支持复杂指令如0-10秒森林风吹声、0-4秒鸟儿鸣叫等[1][2][4] - 系统采用免训练方法突破行业瓶颈,基于自然语言文本与时间提示实现精确控制,在10秒任务中显著优于以往免训练方法[6] - 首次在长时音频生成中实现时间控制,大幅降低计算开销同时保持与训练式方法相当性能[7][29] 技术架构 - 利用LLM规划时间结构,将文本与时间提示解析为不重叠时间窗口并生成适配描述,通过上下文融合与参考引导机制完成合成[14][18] - Decoupling&Aggregating Attention Control模块包含局部对齐与全局融合子机制,保障时序连贯与语义一致[19][21] - 波形重建阶段对相邻片段重叠区域去重裁剪,确保时域连续性与声学自然性[22] 性能表现 - 在AudioCondition测试集上事件级对齐(Eb)达44.34、片段级准确率(At)68.50,全面超越AudioLDM、Tango等主流方法[24][26] - 10秒/26秒/90秒生成任务中均表现优异,主观评估音质、连贯性等维度最佳[29][30] - 在AudioCaps和MusicCaps数据集上展现长时生成的扩展性与稳定性[32] 行业应用 - 技术已通过生数科技Vidu平台商用,支持多音轨时间窗精准可控功能[31][33] - 为影视音效制作提供灵活精准的解决方案,显著降低制作成本并规避版权风险[36] - 未来计划拓展至自然语言事件描述训练、无限长生成及空间音频方向[34][35][36] 学术认可 - 研究成果被ACM Multimedia 2025录用为Oral报告,该会议是CCF推荐的多媒体领域唯一A类国际会议[8]