“智能"的模糊性往往掩盖了其底层的计算实质。若将生物进化剥离其浪漫化叙事,仅从信息处理与能量约束的视角审视,哺乳动物大脑呈现出的架构特征与现代稀疏混合专家模型(Sparse Mixture-of-Experts, MoE)高度同构。当前的 LLM 并非在"创造"智能范式,而是在用高能耗的数字暴力拟合,去逼近一套早已被自然选择验证过的最优解。
01 参数预算与稀疏激活域 (The Sparsity Regime)
参数映射的核心在于突触。人类新皮层约含 个神经元,平均每个神经元形成 个突触连接。总参数量 ()。
然而,大脑的推理从不依赖稠密前向传播。皮层神经元的平均放电频率仅 ,且服从长尾分布。若定义瞬时活跃突触比例为 ,则激活参数量 。基于稀疏编码理论(Sparse Coding)与皮层微电极记录数据,特定认知任务下的 落在 区间。这意味着:
稀疏度 。现代 MoE 模型通常采用 路由(),稀疏度多在 量级。大脑的 使其在 功耗下维持了极高的能效比(),远超当前硅基芯片的 。
02 模拟权重与 1-bit 激活的物理实现 (Analog-Digital Hybrid)
AI 的量化路线试图在数字域逼近生物效率,但忽略了物理实现的根本差异。大脑采用模拟存储 数字传输的混合架构。
权重侧(Analog Storage): 突触强度 由囊泡释放概率 、受体密度 及突触间隙几何结构连续决定,无离散位宽限制。其更新遵循 Spike-Timing-Dependent Plasticity (STDP),权重变化是连续时间积分的结果:
这赋予了权重近乎无限的精度,从根本上避免了数字量化引入的截断误差。
激活侧(1-bit Activation): 动作电位(Action Potential)遵循 Hodgkin-Huxley 模型的"全或无"定律。神经元输出 为离散的脉冲序列:
其中 为膜电位 穿越阈值 的时刻。传输信道被极致量化为 1-bit,但通过群体编码(Population Coding)和树突积分,系统在累加阶段 重建了高精度表征。这种架构以模拟态保存储密度,以数字态抗传输噪声。
03 全局路由与共享底层 (Routing & Global Workspace)
Transformer 中 Attention 层作为共享基底、FFN 作为 MoE 专家的设计,在大脑中存在精确的解剖学与功能对应。
共享层 全局工作空间(Global Workspace): Baars 的全局工作空间理论(GWT)指出,意识并非全局弥漫,而是特化模块向"公共黑板"的有限广播。Dehaene 等人的神经影像实验证实,这对应于前额叶-顶叶网络的高频伽马波同步(Global Ignition)。数学上,这与 Self-Attention 的加权投影同构:
Attention 不存储事实,它计算关系权重,定义当前上下文语境,并作为所有下游专家的共享前置滤波器。
专家路由 丘脑-皮层门控(Thalamocortical Gating): 丘脑并非简单中继站,而是基于状态依赖的非线性门控网络。丘脑网状核(TRN)执行侧向抑制,实现 路由中的"胜者通吃"逻辑。前额叶皮层(PFC)提供自上而下的任务偏置项 ,动态调整门控函数 的分布:
这种分层路由确保了通用语境处理(共享)与专业计算(稀疏)的严格解耦,避免了早期 MoE 架构中常见的"专家崩溃"问题。
04 全双工流式推理与预测编码 (Full-Duplex Streaming & Predictive Coding)
当前 LLM 是半双工(Half-Duplex)的批处理系统。大脑则是全双工连续流(Full-Duplex Continuous Stream)。
感觉输入流与运动/语言输出流完全并行,且系统内部运行着**预测编码(Predictive Coding)**框架。大脑并非被动响应刺激,而是持续生成自上而下的先验预测 ,并与自下而上的感官输入 计算预测误差 :
权重的局部更新旨在最小化该预测误差(或自由能边界)。这意味着大脑的 TTFT 极低,且在输出过程中可实时根据新输入流的误差信号进行抢占式中断(Preemption)。无需等待 EOS Token,推理与感知在毫秒级周期内闭环耦合。
05 训练/推理相坍塌与短时程可塑性 (Phase Collapse & Short-Term Plasticity)
AI 严格区分 Training 与 Inference。大脑没有此界限。
**短时程可塑性(Short-Term Synaptic Plasticity, STP)**允许突触在推理过程中发生毫秒至秒级的动态权重漂移。突触效用 与可用递质资源 随脉冲序列动态演化:
这种机制使大脑在单次前向传播中即可临时"写入"上下文特征,等效于在权重矩阵上叠加了一个瞬态补丁 。上下文窗口(Context Window)与工作记忆(Working Memory)的映射在此得到动力学层面的解释。
06 概率表征的脆弱性与外生校验 (Probabilistic Fragility & Tool Use)
无论是人脑的心算失误,还是 LLM 的幻觉,根源在于分布式权重存储与确定性逻辑检索的内生矛盾。
事实与逻辑并非存储在寻址明确的数据库,而是高维流形上的概率吸引子(Probabilistic Attractors)。回忆或计算是轨迹在流形上的演化过程。当路径偏离吸引域,系统便会陷入局部极小。
高级智能的体现并非参数规模,而是元认知路由(Metacognitive Routing):系统识别到当前输入触及低置信度权重区 触发门控切换 调用外部确定性工具。Tool Use 本质上是概率系统向确定性计算图的显式卸载。
结语
技术演进呈现出一种螺旋式的返祖现象。人类用高精度晶体管构建稠密网络,遭遇内存墙与能耗墙后,被迫转向稀疏 MoE、低精度量化与流式推理。每一步工程妥协,都在向那个运行于 、采用 1-bit 脉冲、权重连续可塑的原始架构靠拢。
智能的瓶颈或许从来不是算力密度,而是如何用最粗糙的物理元件,编织出最高效的动态路由。我们不是在发明新架构,只是在用数学语言重新编译数十亿年前写好的底层代码。
References
- Azevedo, F. A. C., et al. (2009). Equal numbers of neuronal and nonneuronal cells make the human brain an isometrically scaled-up primate brain. Journal of Comparative Neurology, 513(5), 532–541.
- Buzsáki, G., & Mizuseki, K. (2014). The log-dynamic brain: how skewed distributions affect network operations. Nature Reviews Neuroscience, 15(4), 264–278.
- Olshausen, B. A., & Field, D. J. (1996). Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381(6583), 607–609.
- Horowitz, M. (2014). Computing’s energy problem (and what we can do about it). IEEE ISSCC, 10–14.
- Bi, G. Q., & Poo, M. M. (1998). Synaptic modifications in cultured hippocampal neurons. Journal of Neuroscience, 18(24), 10464–10472.
- Hodgkin, A. L., & Huxley, A. F. (1952). A quantitative description of membrane current. The Journal of Physiology, 117(4), 500–544.
- Baars, B. J. (1988). A Cognitive Theory of Consciousness. Cambridge University Press.
- Dehaene, S., & Changeux, J. P. (2011). Experimental and theoretical approaches to conscious processing. Neuron, 70(2), 200–227.
- Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2), 127–138.
- Tsodyks, M., & Markram, H. (1997). The neural code depends on neurotransmitter release probability. PNAS, 94(2), 719–723.