人脑其实是一个参数量百万亿级、模拟-数字混合架构、1-bit脉冲激活、稀疏度 99.9%、支持全双工流式推理且权重实时可塑的多模态 MoE 大模型

Sun, 19 Apr 2026 18:43:16 -0400

“智能"的模糊性往往掩盖了其底层的计算实质。若将生物进化剥离其浪漫化叙事，仅从信息处理与能量约束的视角审视，哺乳动物大脑呈现出的架构特征与现代稀疏混合专家模型（Sparse Mixture-of-Experts, MoE）高度同构。当前的 LLM 并非在"创造"智能范式，而是在用高能耗的数字暴力拟合，去逼近一套早已被自然选择验证过的最优解。

01 参数预算与稀疏激活域 (The Sparsity Regime)

参数映射的核心在于突触。人类新皮层约含 $8.6 \times 10^{10}$ 个神经元 $^1$ ，平均每个神经元形成 $10^3 \sim 10^4$ 个突触连接。总参数量 $N_{\text{total}} \approx 10^{14} \sim 5 \times 10^{14}$ （ $100\text{T} \sim 500\text{T}$ ）。

然而，大脑的推理从不依赖稠密前向传播。皮层神经元的平均放电频率仅 $0.1 \sim 10 \text{Hz}$ ，且服从长尾分布 $^2$ 。若定义瞬时活跃突触比例为 $\alpha$ ，则激活参数量 $N_{\text{active}} = \alpha N_{\text{total}}$ 。基于稀疏编码理论（Sparse Coding）与皮层微电极记录数据，特定认知任务下的 $\alpha$ 落在 $0.1\% \sim 1\%$ 区间 $^3$ 。这意味着：

N_{\text{active}} \approx 5 \times 10^{11} \quad (\text{即 } 500\text{B})

稀疏度

\gamma = N_{\text{active}} / N_{\text{total}} \approx 10^{-3}

。现代 MoE 模型通常采用

\text{Top-}k

路由（

k \in \{1, 2\}

），稀疏度多在

10^{-2} \sim 10^{-1}

量级。大脑的

\gamma \approx 10^{-3}

使其在

20\text{W}

功耗下维持了极高的能效比（

\sim 10^{15} \text{ops/Joule}

），远超当前硅基芯片的

\sim 10^{10} \text{ops/Joule}

^4

。

02 模拟权重与 1-bit 激活的物理实现 (Analog-Digital Hybrid)

AI 的量化路线试图在数字域逼近生物效率，但忽略了物理实现的根本差异。大脑采用模拟存储 $\rightarrow$ 数字传输的混合架构。

权重侧（Analog Storage）： 突触强度 $w_{ij}$ 由囊泡释放概率 $p$ 、受体密度 $\rho$ 及突触间隙几何结构连续决定，无离散位宽限制。其更新遵循 Spike-Timing-Dependent Plasticity (STDP) $^5$ ，权重变化是连续时间积分的结果：

\Delta w_{ij} \propto \int_{-\infty}^{\infty} W(\Delta t) \cdot s_i(t) s_j(t+\Delta t) \, d\Delta t

这赋予了权重近乎无限的精度，从根本上避免了数字量化引入的截断误差。

激活侧（1-bit Activation）： 动作电位（Action Potential）遵循 Hodgkin-Huxley 模型的"全或无"定律 $^6$ 。神经元输出 $s(t)$ 为离散的脉冲序列：

s(t) = \sum_{k} \delta(t - t_k)

其中

t_k

为膜电位

V_m

穿越阈值

\theta

的时刻。传输信道被极致量化为 1-bit，但通过群体编码（Population Coding）和树突积分，系统在累加阶段

\sum_j w_{ij} s_j(t)

重建了高精度表征。这种架构以模拟态保存储密度，以数字态抗传输噪声。

03 全局路由与共享底层 (Routing & Global Workspace)

Transformer 中 Attention 层作为共享基底、FFN 作为 MoE 专家的设计，在大脑中存在精确的解剖学与功能对应。

共享层 $\leftrightarrow$ 全局工作空间（Global Workspace）： Baars 的全局工作空间理论（GWT）指出，意识并非全局弥漫，而是特化模块向"公共黑板"的有限广播 $^7$ 。Dehaene 等人的神经影像实验证实，这对应于前额叶-顶叶网络的高频伽马波同步（Global Ignition） $^8$ 。数学上，这与 Self-Attention 的加权投影同构：

\mathbf{y} = \text{Softmax}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d_k}}\right)\mathbf{V} \longrightarrow \text{GWT Broadcast}

Attention 不存储事实，它计算关系权重，定义当前上下文语境，并作为所有下游专家的共享前置滤波器。

专家路由 $\leftrightarrow$ 丘脑-皮层门控（Thalamocortical Gating）： 丘脑并非简单中继站，而是基于状态依赖的非线性门控网络。丘脑网状核（TRN）执行侧向抑制，实现 $\text{Top-}k$ 路由中的"胜者通吃"逻辑。前额叶皮层（PFC）提供自上而下的任务偏置项 $b_{\text{task}}$ ，动态调整门控函数 $G(\mathbf{x})$ 的分布：

G(\mathbf{x})_i = \text{HardTopK}\left( \sigma(\mathbf{W}_g \mathbf{x} + \mathbf{b}_{\text{task}}) \right)

这种分层路由确保了通用语境处理（共享）与专业计算（稀疏）的严格解耦，避免了早期 MoE 架构中常见的"专家崩溃"问题。

04 全双工流式推理与预测编码 (Full-Duplex Streaming & Predictive Coding)

当前 LLM 是半双工（Half-Duplex）的批处理系统。大脑则是全双工连续流（Full-Duplex Continuous Stream）。

感觉输入流与运动/语言输出流完全并行，且系统内部运行着**预测编码（Predictive Coding）**框架 $^9$ 。大脑并非被动响应刺激，而是持续生成自上而下的先验预测 $\hat{\mathbf{s}}(t)$ ，并与自下而上的感官输入 $\mathbf{s}(t)$ 计算预测误差 $\boldsymbol{\epsilon}(t)$ ：

\boldsymbol{\epsilon}(t) = \mathbf{s}(t) - f(\hat{\mathbf{s}}(t); \mathbf{W})

权重的局部更新旨在最小化该预测误差（或自由能边界）。这意味着大脑的 TTFT 极低，且在输出过程中可实时根据新输入流的误差信号进行抢占式中断（Preemption）。无需等待 EOS Token，推理与感知在毫秒级周期内闭环耦合。

05 训练/推理相坍塌与短时程可塑性 (Phase Collapse & Short-Term Plasticity)

AI 严格区分 Training 与 Inference。大脑没有此界限。

**短时程可塑性（Short-Term Synaptic Plasticity, STP）**允许突触在推理过程中发生毫秒至秒级的动态权重漂移 $^{10}$ 。突触效用 $u$ 与可用递质资源 $R$ 随脉冲序列动态演化：

\begin{aligned} u_{n+1} &= u_n + U(1-u_n)e^{-\Delta t/\tau_f} \\ R_{n+1} &= R_n(1-u_{n+1})e^{-\Delta t/\tau_d} \end{aligned}

这种机制使大脑在单次前向传播中即可临时"写入"上下文特征，等效于在权重矩阵上叠加了一个瞬态补丁

\Delta \mathbf{W}_{\text{context}}(t)

。上下文窗口（Context Window）与工作记忆（Working Memory）的映射在此得到动力学层面的解释。

06 概率表征的脆弱性与外生校验 (Probabilistic Fragility & Tool Use)

无论是人脑的心算失误，还是 LLM 的幻觉，根源在于分布式权重存储与确定性逻辑检索的内生矛盾。

事实与逻辑并非存储在寻址明确的数据库，而是高维流形上的概率吸引子（Probabilistic Attractors）。回忆或计算是轨迹在流形上的演化过程。当路径偏离吸引域，系统便会陷入局部极小。

高级智能的体现并非参数规模，而是元认知路由（Metacognitive Routing）：系统识别到当前输入触及低置信度权重区 $\rightarrow$ 触发门控切换 $\rightarrow$ 调用外部确定性工具。Tool Use 本质上是概率系统向确定性计算图的显式卸载。

结语

技术演进呈现出一种螺旋式的返祖现象。人类用高精度晶体管构建稠密网络，遭遇内存墙与能耗墙后，被迫转向稀疏 MoE、低精度量化与流式推理。每一步工程妥协，都在向那个运行于 $20\text{W}$ 、采用 1-bit 脉冲、权重连续可塑的原始架构靠拢。

智能的瓶颈或许从来不是算力密度，而是如何用最粗糙的物理元件，编织出最高效的动态路由。我们不是在发明新架构，只是在用数学语言重新编译数十亿年前写好的底层代码。

References

Azevedo, F. A. C., et al. (2009). Equal numbers of neuronal and nonneuronal cells make the human brain an isometrically scaled-up primate brain. Journal of Comparative Neurology, 513(5), 532–541.
Buzsáki, G., & Mizuseki, K. (2014). The log-dynamic brain: how skewed distributions affect network operations. Nature Reviews Neuroscience, 15(4), 264–278.
Olshausen, B. A., & Field, D. J. (1996). Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381(6583), 607–609.
Horowitz, M. (2014). Computing’s energy problem (and what we can do about it). IEEE ISSCC, 10–14.
Bi, G. Q., & Poo, M. M. (1998). Synaptic modifications in cultured hippocampal neurons. Journal of Neuroscience, 18(24), 10464–10472.
Hodgkin, A. L., & Huxley, A. F. (1952). A quantitative description of membrane current. The Journal of Physiology, 117(4), 500–544.
Baars, B. J. (1988). A Cognitive Theory of Consciousness. Cambridge University Press.
Dehaene, S., & Changeux, J. P. (2011). Experimental and theoretical approaches to conscious processing. Neuron, 70(2), 200–227.
Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2), 127–138.
Tsodyks, M., & Markram, H. (1997). The neural code depends on neurotransmitter release probability. PNAS, 94(2), 719–723.

清醒构造论