当大脑独处时,它在思考什么?

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

当婴儿凝视旋转的风铃时,他或她的大脑便在悄然破解光影变化的规律。无需奖励或惩罚,这种对世界的理解就已在神经回路中生根发芽——这正是 “无监督学习” 的生动体现。


反观当下最先进的人工智能,要区分“猫”和“狗”的图片,也需要在大量标注数据的“喂养”下才能实现。这种需要引导的学习方式,则被称为 “有监督学习”


在神经科学里,有监督学习表现为外部奖惩引导的神经连接强化 (如条件反射) ,而无监督学习是大脑自主提取环境特征 (如自发形成对线条、颜色等视觉特征的有序响应) 。在机器学习领域,有监督学习是从带标签数据训练预测模型 (如分类) ,无监督学习则是从无标签数据挖掘规律 (如聚类)


两种学习方式的核心差异就是, 有监督学习依赖外部的明确指引,而无监督学习则源于系统内部的自主探索与规律发现。 传统观点认为,学习需要依赖奖励信号 (如食物、表扬) 或明确反馈 (如错误纠正) ,但婴儿大脑展现出的惊人能力,正促使神经科学界重新审视这一认知。那么,生物大脑的无监督学习能力到底从何而来?


一、无监督学习是大脑预习课


无监督学习的能力并非人类独有。例如,小鼠在探索新环境时,无需奖励就能自主形成空间记忆。为了精准地观察这一过程,美国霍华德·休斯医学研究所 (HHMI) 的科学家Marius Pachitariu和Carsen Stringer领导的团队,设计了一项精巧的实验 [ 1]


他们摒弃了传统的复杂环境,而是将小鼠置于一个高度可控的虚拟现实 (VR) 走廊中。墙壁上循环播放着四种不同的视觉纹理图像:圆圈、树叶、石头、砖块;而实验的核心在于比较两种学习路径对小鼠的影响:


  • 无监督学习组: 这组小鼠预先在没有奖励的情况下,自由探索这些视觉纹理;然后再跟另一组小鼠一起进行任务学习训练。


  • 任务学习组: 小鼠直接进入奖励训练环节,学习将特定的纹理与奖励联系起来。


为了捕捉神经层面的变化,研究人员使用双光子介观显微镜,对小鼠视觉皮层进行了长期成像,同时记录九万个神经元的活动,以追踪两种学习过程中神经回路的可塑性变化。


结果发现,任务组小鼠在2周的训练后,在处理视觉信息的关键脑区 (内侧高级视觉区HVA) ,神经元对特定奖励相关的纹理产生了强烈的选择性响应——这在预料之中。然而,无监督学习组小鼠的相同脑区也出现了几乎完全一致的神经可塑性变化。这说明, 神经可塑性在视觉区域的分布,可能并不依赖任务反馈或监督。


也就是说,在既不被要求完成任何任务,也得不到任何奖励的情况下,无监督学习组的小鼠的视觉皮层也能和任务组小鼠一样,主动地对环境中的视觉信息进行了分类、编码,并形成了高效的神经表征。这就好比大脑在进行正式的“任务”或“课程”之前,自己先做了 “预习” ,以便当真正的学习任务来临时,直接利用这个 预先搭建好的“知识框架” ,反应更迅速、学习更高效。


更进一步地,研究人员发现虽然无监督学习主导了大部分神经可塑性,但监督学习并非毫无作用。研究人员使用了一种用于大规模神经反应的可视化方法 (RasterMap) ——在与任务事件有关的实验中,RasterMap可以发现相关神经活动的具体一个试验序列,以及可能与奖励和声音提示等任务相关的其他信号 [1] 。研究人员使用RasterMap分析发现,某些主要分布在前侧HVA区域中的神经元簇,会在任务学习中被给予奖励时出现强烈抑制,因此被认为具有预测奖励信号的作用。


这一发现揭示了大脑学习的分工: 任务学习依赖前侧脑区的监督信号 (关联刺激与奖励) ,无监督暴露则在内侧视觉区构建纯粹的刺激表征。 就像学生自学课本 (无监督) 后,老师通过考试指出重点 (监督) ,两者结合实现高效学习。


那么,这些神经元的选择性响应,究竟是对纹理刺激的空间位置敏感 (空间可塑性) ,还是源于纹理本身的视觉特征 (视觉可塑性)


“视觉可塑性”和“空间可塑性”研究是对感官神经学习机制探索的深化。 视觉可塑性作为感觉皮层最易观测的神经变化,成为检验无监督学习理论的理想对象。此外,大脑在整合视觉特征与空间位置时,两种可塑性是否存在协同或分工?


这一问题直接关系到对“感知-导航”神经机制的理解:视觉可塑性负责编码环境视觉统计特征 (如物体形态) ,而空间可塑性 (如海马体、视觉皮层的空间表征变化) 支撑位置记忆与路径规划, 二者的交互可能是生物高效适应复杂环境的核心。


按照空间可塑性假说的观点,神经元对已经学习过的和同类新样本的放电顺序是相似的。视觉可塑性假说认为,视觉特征可被学习,与其位置变动与否无关。为了区分这两种可能,研究人员引入了新的无奖励刺激,分别包含与之前训练刺激相似的视觉特征元素,但是这些元素以不同的空间配置进行排列。


结果,小鼠能忽略虚拟现实走廊中纹理的空间位置 (无论纹理出现在走廊左侧还是右侧) ,仿佛自带“特征提取器”,视觉神经元只对纹理的类别 (树叶vs圆圈) 产生响应。这说明,小鼠的无监督学习行为更多地受到视觉特征相似性的影响,而不是空间配置的变化,即视觉可塑性假说更能解释其行为表现。这种“去空间化”的学习规则,与人类识别物体时“无论猫在左边还是右边,都能认出是猫”的能力如出一辙!


二、从预习到强化的高效学习模式


既然大脑存在无监督学习和有监督学习的分工,那么两者是如何协同作用的? 传统观点认为,感觉皮层的可塑性离不开行为奖励的推动。然而这项研究却表明,仅仅让生物体接触视觉刺激,就能够改变高级视觉区的神经表征。


高级视觉区神经表征的改变有什么功能价值呢?研究团队提出了假设: 无监督训练后神经可塑性可能使动物更快地学习后续任务。 这个问题类似于无监督预训练如何帮助人工神经网络更快地学习监督任务。


为此,研究人员设置了行为研究,让新小鼠群经历10天无奖励预训练 (仅在VR走廊自由奔跑) ,再进入5天奖励任务训练。结果显示,经过自然纹理预训练的组别,在任务训练的第一天就展现出明显的区分能力。而没有经过预训练的小鼠,仍处于随机反应的状态。


另外,接受光栅预训练的组别 (光栅相当于自然刺激) ,其学习曲线与无预训练组重合,这说明学习加速的效果是依赖特定视觉特征的。简言之,这一机制的关键在于“表征预优化”,无监督学习在高级视觉区域形成了精密的纹理特征探测机制,比如对“叶状纹理”的抽象编码。当开始任务学习时,这些经过预训练的神经元只需进行细微调整,就能与奖励信号建立关联,而不必从无到有地构建感知表征。


这种“无监督预习+监督强化”的模式,与人类的学习规律高度吻合。 当我们第一次走进陌生城市时,即使没有导航 (无监督) ,也会默默记住标志性建筑;后续使用导航 (监督) 时,这些预存的空间信息能让我们更快理解路线。 大脑的学习遵循自主探索优先,定向强化为辅的原则。


虽然这项研究的结果已经证明皮质表征本质上是视觉的,而不是空间的,但海马表征也可能从它们的输入中继承了一些视觉特性 [2] 。先前的一项研究深入揭示了大脑认知地图的形成机制:当小鼠学习在两条视觉相似的虚拟走廊 (一条近处有奖励,一条远处有奖励) 中行走时,其海马体神经元的活动模式随学习进程逐步发生分化。初期,神经元对两条走廊的反应颇为相似;随着学习的深入,这些反应差异不断扩大,最终形成完全不同的神经活动模式,构建出编码隐藏信息的独特地图,从而精准区分两条走廊 [3]


视觉皮层中不同的区域,分别负责两种不同类型的学习:无结构化、基于探索的无监督学习,以及有指导、面向目标的有监督学习。这项新研究表明,当动物学习一项任务时,大脑可能同时运用这两种算法: 无监督部分用于提取特征,有监督部分用于为这些特征赋予意义。 这种双轨制学习,也许正是生物能在复杂多变环境中快速适应的核心密码。


三、科学意义与跨学科启示


视觉皮层无监督学习的发现,不仅刷新了我们对大脑功能的认知,更在神经科学与人工智能之间架起了一座新的桥梁。长期以来,“强化学习”理论主导着学习研究,这种理论认为学习都需通过奖励信号强化神经连接。但这项研究证明,视觉皮层的特征提取完全可以在没有奖励的情况下完成。


内侧HVA区域的神经元不断观察环境中的视觉输入,统计纹理出现的概率,最终形成稳定的类别表征。 这种自主学习能力,打破了“没有奖励就没有学习”的传统框架 婴儿之所以能快速掌握语言、识别面孔,可能正是得益于这种预装的无监督学习模块。


大脑的无监督学习机制,与人工智能领域的重大突破形成了奇妙的呼应。2018年问世的BERT模型通过“掩码语言建模” (无监督预训练) 在自然语言处理中取得了革命性进展,这与视觉皮层自主提取纹理特征的过程惊人相似。


神经科学的发现,为AI的无监督学习提供了生物合理性验证。研究中观察到的“内侧HVA优先编码抽象特征”规律,有利于启发科学家设计更高效的特征提取网络,例如让AI模型的深层网络模仿内侧HVA的去空间化编码规则。


人工智能的“预测编码”理论 (如自编码器) ,反过来解释了神经可塑性的机制。视觉皮层的神经元可能通过不断预测下一个视觉输入,并修正预测误差来实现无监督学习——这与AI模型通过重构输入优化特征提取的过程异曲同工。


当然,这些发现并非纸上谈兵,而是能够切实应用到真实世界。例如,在医学领域,自闭症患者常存在视觉特征提取困难 (如难以识别面部表情) 。基于无监督学习原理,有可能设计特定的视觉刺激方案,强化内侧HVA的自主学习能力,帮助患者更好地理解复杂视觉信号。


或者,在计算机领域,模仿视觉皮层的“无监督预习+监督微调”模式,可降低AI对标注数据的依赖。例如,让自动驾驶系统先在虚拟环境中自主学习路况特征(无监督),再通过少量人类标注数据优化决策(监督),大幅减少训练成本。


四、 有待解决的科学谜题


尽管无监督学习的神经机制初现端倪,但仍有诸多谜题等待破解:


神经可塑性的分子基础?


论文已经证实,小鼠视觉皮层 (特别是内侧高级视觉区HVA) 在无奖励刺激暴露下可产生与任务学习相似的神经可塑性变化 (如选择性神经元增加) 。然而,这种可塑性背后的具体神经环路机制仍不清楚。关键问题包含:哪些突触可塑性规则主导无监督学习?无监督学习是否依赖特定的神经调质 (如乙酰胆碱、多巴胺)


跨物种与高阶认知的普适性如何?


这项研究主要聚焦小鼠的部分脑区,但人类感知学习涉及更复杂的皮层。内侧HVA的视觉优先编码规则是否适用于灵长类颞下皮层?无监督预训练能否加速抽象概念学习 (如语义分类) ?行为实验仅验证了基础视觉辨别任务,还未测试工作记忆 (大脑短期存储和处理信息的能力,例如记电话号码拨号) 或迁移学习场景。


无监督学习能力的年龄限制?


发育期感觉暴露依赖关键期可塑性,但成年小鼠的无监督学习是否具有类似的敏感期?婴儿期是视觉无监督学习的黄金期,这是否意味着也存在“关键期”?这项研究暂未比较年龄因素的影响。无监督学习的能力可能随年龄增长而衰退,而如何延缓这种衰退,也会是未来研究的重要方向。


大脑“自学能力”的深层启示


深夜研读文献,脑海中忽然浮现出童年老宅前的溪流声;会议室聆听报告,目光却落在墙角绿植上;这些我们称为“走神”的瞬间,或许正体现了大脑无意识探索、提取规律的无监督学习能力。


从进化视角看,无监督学习是生物在长期演化中形成的“生存智慧”。在食物短缺、危险四伏的原始环境中,生物不可能等待“奖励信号”才学习识别天敌或食物。这种无需指令就能探索规律的能力,是生物适应复杂环境的前提。


反观现代社会,我们似乎正在过度依赖“奖励驱动”的学习模式。 从幼儿的“贴纸奖励”到成年人的“绩效考评”。这种模式可能在一定程度上抑制了大脑的自主学习能力,就像长期依赖导航会削弱我们的空间记忆能力一样。


对人工智能而言,模仿生物的无监督学习范式可能是突破当前困境的关键。 当AI能像婴儿一样自主探索世界的规律,当机器的“好奇心”不再依赖人类设计的奖励函数,或许才能真正实现“通用人工智能”的梦想。


从旋转的风铃到复杂的城市街道,从视觉皮层的神经元到AI的深度网络,无监督学习的故事告诉我们:真正的学习,源于对世界本身的好奇与探索,这是生物进化赋予我们的最珍贵的“自学秘籍”。


参考文献:

1. Stringer,Carsen,et al."Rastermap:a discovery method for neural population recordings." Nature Neuroscience 28.1(2025):201-212.

2. Wen,John H.,et al."One-shot entorhinal maps enable flexible navigation in novel environments." Nature 635.8040(2024):943-950.

3. 02/12/25|Mapmaking in the mind:new research details how the brain builds mental maps of the world,https://www.janelia.org/

4. Zhong,Lin,et al."Unsupervised pretraining in biological neural networks." Nature(2025):1-8.

5.06/23/25|Zoning out could be beneficial—and may actually help us learn faster,https://www.janelia.org/


本文来自微信公众号: 追问nextquestion (ID:gh_2414d982daee) ,作者:小鹿小陆,审校/编辑:一木


随意打赏

提交建议
微信扫一扫,分享给好友吧。