Workflow
群体智慧
icon
搜索文档
预测市场崛起:预判美联储政策的准确率比肩专业机构
金十数据· 2026-01-28 21:45
但论文作者表示,至少对华尔街而言,Kalshi相比传统预测方式可能具备诸多优势。该平台上的合约交 易活跃,能针对更广泛的变量产出实时更新结果,同时更能全面反映各类潜在结果的可能性。 西北大学凯洛格管理学院博士研究生、论文联合作者贾里德・迪恩・卡茨(Jared Dean Katz)表 示:"其真正的优势在于,能给出结果的概率分布而非单一的点估计,还能观察到事件发生后市场的快 速反应。" 他补充道:"更难得的是,这些预测的准确率相当高。" 与竞争对手一样,Kalshi推出的各类"是/否"合约均以每份1美元兑付。例如,若某份合约售价32美分, 即意味着市场认为该结果发生的概率为32%。针对经济数据的合约,大多与消费者价格指数(CPI)等 最终数据是否高于某一特定水平挂钩。 论文指出,从2022年至2026年6月的数据分析来看,Kalshi平台上的最可能预测结果(即交易者认为发 生概率最高的结果),在美联储决议公布前一晚的预判均完全准确。尽管美联储通常擅长引导市场预 期,但在2024年9月其推出超预期的50个基点降息时,该预测市场的表现依然亮眼。 一项新研究显示,炙手可热的预测平台Kalshi涉足了从超级碗赛事到美国 ...
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
36氪· 2026-01-26 17:14
大模型推理能力的跃迁与“思维社会”假说 - 过去两年,大模型的推理能力在数学、逻辑、多步规划等复杂任务上出现明显跃迁,以OpenAI的o系列、DeepSeek-R1、QwQ-32B为代表的推理模型,开始稳定拉开与传统指令微调模型的差距 [1] - 谷歌与芝加哥大学等机构的研究提出,推理能力提升的本质并非仅是计算步数增加,而是模型在推理过程中隐式模拟了一种复杂的、类多智能体的交互结构,即“思维社会” [2] - 研究发现,推理模型为解决难题,会模拟不同角色间的内部对话,进行争论、纠正、表达惊讶并调和不同观点以达成正确答案,这种社会化组织形式有助于对解空间进行更高效的探索 [2][4] 推理模型的内部行为特征 - 与基线模型和仅进行指令微调的模型相比,DeepSeek-R1和QwQ-32B等推理模型展现出显著更高的视角多样性,会激活更广泛、异质性更强的、与人格和专业知识相关的特征,并在这些特征之间产生更充分的冲突 [3] - 这种类多智能体的内部结构具体表现为一系列对话式行为,包括提问-回答序列、视角切换以及对冲突观点的整合,同时体现在刻画激烈往返互动的社会情绪角色之中 [3] - 研究识别出四类具体的对话行为:1) 问答行为;2) 视角转换;3) 观点冲突;4) 观点调和 [10] 推理模型与指令微调模型的对比证据 - 实验结果表明,即便在推理轨迹长度相近的条件下,推理模型依然表现出更高频率的对话式行为和社会情绪角色 [13] - 数据显示,与DeepSeek-V3相比,DeepSeek-R1在提问-回答(效应量=0.345)、视角切换(效应量=0.213)以及整合与调和(效应量=0.191)方面均显著更频繁 [16] - QwQ-32B相对于Qwen-2.5-32B-IT也呈现出高度一致的趋势,在提问-回答、视角切换、视角冲突和整合行为上均显著更多 [16] - 所有指令微调模型的对话式行为出现频率都始终处于较低水平,其推理过程更像是一段独白,而非对话的模拟 [16] 对话行为对推理性能的因果影响 - 通过特征干预实验发现,对与对话相关的“惊讶”特征(特征30939)进行正向引导,能显著提升模型在特定任务上的表现 [12] - 在Countdown游戏中,对该特征进行正向引导(+10),会使任务准确率从27.1%提升至54.8%,几乎翻倍;而进行负向引导(−10)则会将准确率降低至23.8% [18] - 引导强度的变化会系统性影响对话行为:当引导强度从0增加到+10时,四类对话式行为均显著增强;反之,当引导强度从0降至−10时,这些行为被系统性抑制 [18] 强化学习与对话结构的自发涌现 - 受控强化学习实验显示,即便仅以推理准确率作为奖励信号,基础模型也会自发地增加对话式行为 [3] - 自教式强化学习实验进一步证实,对话式结构本身能够在强化学习过程中促进推理策略的自发涌现与加速形成 [22] - 在训练中引入对话式脚手架,相较于未微调的基础模型以及采用独白式推理微调的模型,能够显著加速推理能力的提升 [3] 研究的方法论与验证 - 研究采用以Gemini-2.5-Pro模型作为评估器的方法,从推理轨迹中识别对话行为、社会情感角色和认知行为,其标注结果与GPT-5.2及人工评分均展现出高度一致性 [7][9] - 社会情感角色的分析基于Bales互动过程分析框架,将话语划分为12种角色类型,并归总为四大高阶类别:信息给予、信息征询、积极情感、消极情感 [8][10] - 研究使用Jaccard指数来量化社会情绪角色的互惠平衡性,指数越高代表模型的互动模式越均衡、趋近于对话形态 [8] - 认知行为的识别包括四类:结果核验、路径回溯、子目标拆解、逆向推理 [11]
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
机器之心· 2026-01-26 12:08
核心观点 - 大模型推理能力的跃迁并非仅源于计算步数的增加,而是源于其内部模拟了一种复杂的、类多智能体的交互结构,即“思维社会”[1][2] - 这种社会化思维结构通过对话式行为和社会情感角色,促进关键认知策略的运作,从而更高效地探索解空间并提升推理准确率[2][3][16][29] - 实验证明,对对话特征进行正向引导可显著提升模型在特定任务上的准确率,而强化学习实验表明模型在仅奖励正确答案时会自发强化对话式行为[24][30] 对话式行为分析 - 研究识别出四类对话行为:问答行为、视角转换、观点冲突、观点调和[7][8] - 在推理轨迹长度相近的条件下,推理模型(如DeepSeek-R1、QwQ-32B)比指令微调模型展现出显著更高频率的对话式行为[16] - 与DeepSeek-V3相比,DeepSeek-R1在提问-回答、视角切换以及整合与调和方面均显著更频繁[18] - 无论参数规模大小(8B、32B、70B或671B),所有指令微调模型的对话式行为出现频率都始终处于较低水平[21] - 当模型面对更高难度的任务(如研究生水平的科学推理GPQA、高难度数学题)时,对话式行为会更加明显[23] 社会情感角色分析 - 研究基于Bales互动过程分析框架,将话语划分为12种互动角色类型,并归总为四大高阶类别:信息给予、信息征询、积极情感、消极情感[10][11] - 推理模型展现出更具互惠性的社会情绪角色结构:它们既会提出问题、请求指引,也会给予回应,同时表现出负向与正向的情绪角色[21] - 指令微调模型主要以单向方式给出指引、观点和建议,几乎不进行反向提问,也缺乏情绪层面的互动,其推理过程更像是一段独白[22] - 使用Jaccard指数量化发现,推理模型更倾向于以互相协调的方式组织不同角色,而不是将它们孤立地、零散地使用[22] 特征干预与准确率提升 - 通过稀疏自编码器识别出特征30939,其定义为“用于表达惊讶、顿悟或认同的话语标记”,该特征在65.7%的会话中占比,且高度稀疏[14] - 在Countdown游戏任务中,对对话式惊讶特征进行正向引导(+10),会使准确率从27.1%提升至54.8%,几乎翻倍;而负向引导(−10)则会将准确率降低至23.8%[24] - 当引导强度从0增加到+10时,四类对话式行为均显著增强;反之,当引导强度从0降至−10时,这些对话行为会被系统性抑制[25] - 正向引导会诱发模型在推理过程中主动质疑先前的解法,体现出明显的视角切换和观点冲突;负向引导则会生成相对平铺直叙的推理文本,缺乏内部讨论[27] 认知策略与强化学习 - 对话特征通过两条路径提升推理能力:直接帮助模型更有效地探索解空间;通过脚手架式地支持验证、回溯和子目标分解等认知策略,推动系统性的问题求解过程[29] - 自教式强化学习实验显示,当只奖励正确答案时,大模型会自发强化对话式行为,表明对话式结构本身能够在强化学习过程中促进推理策略的自发涌现与加速形成[30]
百年沉浮,两家独角兽,一场关于预测未来的新冒险
财富FORTUNE· 2025-12-28 21:12
行业概览与兴起 - 预测市场行业从小众走向主流,在2024年美国总统竞选期间取得突破性发展,吸引了数百万人涌入,对选举结果的投注额超过30亿美元[4] - 行业将大众智慧与金融自利性结合,被支持者视为预测未来事件的“真相机器”,其预测准确性被认为超越了最受推崇的民意调查[4] - 目前,主要平台如Polymarket和Kalshi的月投注总额远超10亿美元,今年夏天吸引了超过3,500万访客[5] 主要参与者与商业模式 - 行业主要参与者包括Kalshi和Polymarket,两家公司估值均超过10亿美元,并获得了红杉资本等机构数亿美元的投资[5] - Kalshi在2024年9月通过诉讼获胜,获得在美国运营的监管优势,其商业模式包括收取约1%的投注佣金,目前客户日均投注额约1,900万美元[19] - Polymarket目前不向用户收费,但投资者认为其若收费可年赚数亿美元,公司近期完成了由Founders Fund领投的2亿美元融资[17][19] - 除了佣金,平台还探索通过向媒体和人工智能公司授权数据或收取研究费用来创收,并可能涉足加密货币领域[19] 市场运作机制 - 预测市场运作类似于证券交易所,参与者相互对赌“事件合约”,并能随时平仓,平台提供买卖匹配服务[8] - 合约价格直接反映市场认为事件发生的概率,例如,价格为80美分的合约意味着市场认为该事件有80%的发生概率,若事件发生,持有者获得1美元回报[9] - 支持者认为,这种机制能汇聚“群体智慧”,并且因为参与者投入真金白银,其预测信号更为真实和准确[9] 增长挑战与风险 - 行业面临的核心商业挑战是能否在四年一度的总统大选之外持续激发用户兴趣并创造收入,大选后平台应用程序下载量显著下滑[18] - 平台身份存在“工具”与“赌场”之争,若主要被视为赌博,将面临来自严格监管的传统博彩行业的巨大竞争和法律风险[6] - 允许对战争、政治家健康等敏感事件下注引发了公众不安和道德争议,例如Polymarket曾因上线关于山火控制的合约被批评为“纵火市场”[6][16] 竞争格局与发展 - 竞争正在加剧,Polymarket通过收购获得了在美国运营的路径,并且吸引了Kalshi的顾问小唐纳德·特朗普的投资[19] - 新竞争者不断出现,如Railbird和The Clearing Company,同时,交易巨头Robinhood也已通过合作伙伴涉足该领域[19] - 目前,两家平台将大量推广精力投入体育相关投注,例如Kalshi在“疯狂三月”篮球赛获得超5亿美元投注额,但这领域面临复杂的州级博彩法律挑战[20] 公司治理与争议 - Polymarket创始人谢恩·科普兰风格激进,公司曾因允许美国用户使用VPN下注等行为遭到美国商品期货交易委员会调查和司法部搜查[12] - Kalshi联合创始人塔雷克·曼苏尔和卢安娜·洛佩斯·拉拉更强调合规,但在得知竞争对手被调查后,公司曾付费让网红发布攻击性内容,事后管理层表示此为越界行为[16] - 两家平台在合约规则和争议解决上存在差异,例如对于“特朗普是否会离任”的合约,Kalshi规定若总统去世则只部分赔付,而Polymarket对类似合约无此规定,其争议解决流程也被批评为不透明[15]
万基时代,基金买卖、重仓,这款APP为你投资保驾护航
新浪财经· 2025-12-05 14:36
行业背景:基金投资的选择困境 - 公募基金市场在2025年突破万只大关,进入“万基时代”,投资者面临前所未有的选择困境 [2][16] - 投资者每天需从海量信息中筛选,并在超过10000只基金中寻找潜力股,完成从决策到执行的全过程 [2][16] - 市场上基金投资APP超过300款,但能有效解决上述痛点的产品凤毛麟角 [2][16] - 金融投资类APP月活跃用户已突破1.66亿,但用户留存率呈现明显的马太效应 [2][16] 公司产品核心优势:行情速度 - 新浪财经APP的行情刷新速度达到0.03秒级,远超行业平均水平 [3][17] - 支持40多个全球市场无缝衔接,包括A股、港股、美股、期货、外汇及贵金属市场 [3][17] - 在2025年5月商品期货夜盘暴跌时,多数APP出现1-2秒延迟,而新浪财经保持毫秒级更新,帮助用户捕捉跨市场套利机会 [3][17] - 独创的Level-2高速行情系统将传统3秒延迟缩短至微秒级别,提升短线交易者信息获取效率 [3][17] - 对美联储决议、国内降准等重大事件的中文解读速度领先行业5-10秒 [3][17] 公司产品核心优势:AI智能 - “喜娜AI助手”可将5000字年报浓缩为300字核心摘要,并用红绿双色标识风险点与机会点 [4][18] - 在解读宁德时代2025年Q2财报时,AI标注了“海外营收增速下滑”风险,并提示“钠电池量产进度超预期”机会,生成产业链受益股列表 [4][18] - AI具备策略自动生成功能,例如基于美债收益率与港股估值模型,在美联储降息后自动生成“科技板块+高股息”组合对冲方案,用户可直接下单执行 [4][19] - 智能定投系统根据市场温度动态调整投入金额,在市场低位时自动增加15%-30%的定投比例 [4][19] 公司产品核心优势:交易闭环 - 通过内置交易功能,实现了从资讯到交易的一站式闭环体验,解决了查询净值与购买基金分离的传统痛点 [6][20] - 与国内40多家主流券商深度对接,用户无需跳转即可完成开户、银证转账、委托交易全流程 [7][21] - 通过自有持牌平台仓石基金,已接入60家基金公司的3000多只产品 [7][21] - 分布式交易网关支持每秒12万笔并发,在2025年2月股市巨震期间保持零卡单记录,市价单成交速度比行业平均快0.7秒 [7][21] 公司产品核心优势:个性化体验 - 模块化工作台支持200多个功能组件自由组合,用户可自定义K线图、财务指标、舆情监测等模块布局 [8][23] - 为鸿蒙用户推出10大独家特性,包括锁屏卡片、语音播报、横屏查看行情图等功能 [8][23] - 用户可在锁屏界面添加“市场总览”、“自选列表”、“财经新闻热榜”三大卡片,无需打开APP即可速览市场趋势 [8][23] - 智能预警系统设置12类条件组合监测,预警推送准确率达到98.2% [8][23] 公司产品核心优势:社区与聚合效应 - 创新整合微博财经大V观点,构建“资讯-分析-交易”动态闭环 [9][24] - 社区认证分析师占比达82%,通过关键词过滤系统屏蔽99%荐股噪音,确保讨论质量 [10][25] - 直播栏目单场最高观看量达90万人次,研报下载量突破1000万次 [11][26] - 投资者社区日均产生2.3万条专业讨论,其中35%涉及行业深度报告解读,形成“群体智慧”效应 [11][26] 产品效果与用户反馈 - 用户日均停留时长达到48分钟,得益于专业内容与互动交流平衡的社区生态 [7][22] - 有十年投资经验的老基民反馈“以前需要四个APP各干各的,现在一个就够了” [1][15] - 一家头部券商交易员表示,手机桌面上常驻的交易软件已减少到三个 [12][27]
剑桥神经科学揭秘:直觉是高效联结的秘密武器
36氪· 2025-11-11 15:12
直觉的神经科学基础 - 直觉并非神秘现象,而是具有明确生理基础的生物功能,其关键机制在于内感受能力[1][3] - 内感受能力始于肠神经系统,负责连接心脏、肠道、大脑和免疫系统,以构建身体的实时地图[2] - 大脑通过无意识处理大量信息,并将其筛选提取为情绪、肠道感觉或预感,从而引导行为[2][3] 超级感受者的表现 - 超级感受者能更敏锐地感知直觉反应,面对不确定性时更具适应力,更不易受负面偏见影响[4] - 金融交易员的内感知能力与其交易表现正相关,心率检测表现更好的交易员能创造更大利润[4] - 超级感受者在社会互动中能捕捉大量非语言交流信息,例如汗液分泌的恐惧气息[4] 群体智慧的关键要素 - 群体智慧指群体表现可超越个体之和,专家组平均预测准确性比任何个体高出15%[6] - 群体智慧的产生需满足四大关键要素:独立性、多样性、去中心化和聚合性[6] - 群体成功的关键在于认知多样性,包括背景、文化及神经多样性,以替代无效冲突[11] 直觉的潜在风险 - 内感受能力强但情绪反应不准确时,直觉可能变得不准确和具有误导性,成为一种偏见[7] - 无意识偏见源于大脑的分类倾向,在紧张时可能导致歧视和毫无根据的假设[7] - 种族刻板印象的激活与心跳同步,在心缩期更多物体会被误认为武器[7] 联结思维的系统化方法 - 联结思维通过高质量社会互动提升集体智能,表现为共同解决问题时大脑电磁波活动同步[8] - 集体智能指数高低取决于情商和亲社会行为,如公平轮流发言和积极倾听,而非个体智商[9] - 消除等级壁垒是激活集体智能的必要条件,可通过“沉默共坐”和“反向指导”等工具实现[12]
段永朝:在AI缔造的新知识时代,刷题和应试将不再有意义
腾讯研究院· 2025-09-01 17:04
大模型技术发展阶段 - 当前大模型处于技术初级阶段 表现为有问必答且从不承认不知道的"话痨"特性[2] AI对认知模式的影响 - 个体知识独立性下降 对群体智慧依附性上升 认知负担转移至大模型外脑[2][5] - 个人自主判断信心下降 因信息过载使参考资料获取量从几百篇跃升至百万篇[6] - 外脑侵入性增强 大模型会强行输出答案形成干扰[6] 群体智慧形态升级 - AI实现群体智慧化学层面准实时融合 超越物理层面非实时聚合[5] 教育体系变革 - 传统通识教育作为知识预训练过程可被大模型大幅缩短[2] 未来经济模式重构 - 经济逻辑从交易中心转向以个人意愿(intention)为中心[7][15] - 运行模式从生产-消费-分配串行逻辑转变为三者并发的并发逻辑[7][15] - 生产环节成为无人化公共事业[7][15] 人机关系重构 - 需以几十年尺度看待人机关系 量子计算前为关键窗口期[9] - 需想象机器生命新物种构成的机器世界新框架[10] - 未来人类将处于纯种人与赛博格间的模糊地带[2][10] 生产要素变革 - 人类物理劳动退出生产要素 活动转向精神与创造领域[2][15] 技术天花板限制 - 当前计算技术存在算力天花板 受能源和物理器件限制[14] 新经济基础设施 - VRM(Vendor Relationship Management)成为意愿经济核心技术[15] - 所有人机交互场景成为必争入口[15] - 区块链通过不可篡改特性解决信用问题[15] 文化融合需求 - 需融合西方计算理论与东方整体论优势[14] 公共精神复兴 - 超级平台作为平台的平台本质是公共服务供应商[14]
人形机器人运动会,没有真正的赢家
36氪· 2025-08-15 11:50
赛事概况与核心目标 - 首届人形机器人运动会于8月15—17日在国家速滑馆举办 参赛方涵盖127个品牌、500余台机器人 包括全球16国280支队伍(192支高校队和88支企业队)[4] - 赛事核心目标并非决出名次 而是通过竞技规则倒逼技术突破 以市场关注反哺产业发展 推动企业明确技术迭代方向和产品落地场景[1][5][17] - 比赛项目设计聚焦短程爆发力与群体协同 包括百米、跨障、跳远及多机足球赛 表演赛和场景赛侧重实用技能与智能化水平探索[4] 技术路线与行业动态 - 控制方式允许遥控与自主双轨并行 自由体操、舞蹈类项目强制要求完全自主控制 体现技术路线的多样性[6] - 宇树科技H1系列机器人表现突出 在1500米决赛中获第一名 赛前其冲刺速度已超越人类水平[7] - 行业存在"遥操"与"自主决策"两种技术路径 前者侧重人机协同与本体性能 后者侧重环境感知与算法规划 二者均围绕场景需求构建解决方案[7][8] 商业化与场景落地 - 赛事表现直接推动商业化订单 例如松延动力凭借马拉松赛事优异表现上半年获2000台订单 加速动力因足球世界杯夺冠创单月交付120台纪录[9][11] - 落地场景明确分为三大维度:体育赛事型经济、艺术展演(如商场引流、艺术创作)及应用场景(工厂、医疗、服务业)[13][15][16] - 应用场景强调工作流闭环能力 例如工厂需完成搬运与码垛全流程 医院需实现药品分装 酒店需覆盖迎宾至清洁 标志机器人从工具属性向系统角色转变[16] 群体协同与产业影响 - 多机协同项目(如足球赛、群体舞蹈)考验实时感知与任务分配能力 每增加一台机器人决策维度大幅提升 形成"1+1>2"的合力效应[11][12] - 优必选Walker S1在极氪工厂进行多机多任务实训 优艾智合与擎朗实现跨机型生态协同 体现群体智慧雏形[11] - 赛事IP化具备商业化潜力 例如加速进化通过足球课程进入高校、中学教育市场 其"机超"活动实现700张售票、多赞助商与3亿+次曝光[15]