神经元与感知机

神经元是神经网络的基本计算单元，感知机是最早的人工神经网络模型。理解这些基础概念，是深入学习神经网络的起点。

学习难度：入门·阅读时间：约10分钟

生物神经元

基本结构

生物神经元的主要组成部分：

细胞体：处理信息和维持细胞生命
树突：接收来自其他神经元的信号
轴突：将信号传递给其他神经元
突触：神经元之间的连接点

工作原理

神经元接收来自其他神经元的电信号
当累积信号超过阈值时，神经元被激活
产生电脉冲，沿轴突传递
通过突触传递给其他神经元

启发

人工神经网络模仿了生物神经元的几个关键特性：

多输入、单输出
阈值激活机制
可调节的连接强度

M-P神经元模型

历史背景

1943年，McCulloch和Pitts提出了第一个神经元数学模型，开创了人工神经网络的研究。

模型结构

M-P神经元是一个简化的逻辑模型：

接收多个二进制输入
输入加权求和
与阈值比较
输出0或1

数学表达

y = 1, if Σ w_i × x_i ≥ θ
y = 0, otherwise

逻辑运算

M-P神经元可以实现基本逻辑运算：

AND门：设置适当的权重和阈值
OR门：设置较低的阈值
NOT门：单输入，负权重

感知机

Rosenblatt感知机

1958年，Frank Rosenblatt提出了感知机，是第一个具有学习能力的神经网络模型。

与M-P神经元的区别

输入可以是连续值
引入偏置项代替阈值
具有学习能力，可以自动调整权重

数学形式

y = sign(w · x + b)

其中sign是符号函数，输出+1或-1。

几何解释

感知机在特征空间中定义了一个超平面：

超平面一边的点被分类为正类
另一边的点被分类为负类
决策边界是线性的

感知机学习算法

学习规则

感知机通过错误驱动的方式学习：

初始化权重和偏置（通常为0或随机小值）
对每个训练样本：
- 计算预测输出
- 如果预测错误，更新权重
重复直到所有样本分类正确或达到最大迭代次数

权重更新规则

w ← w + η × (y_true - y_pred) × x

其中η是学习率，y_true是真实标签，y_pred是预测标签。

收敛定理

如果数据线性可分，感知机算法保证在有限步内收敛。

感知机的局限

XOR问题

1969年，Minsky和Papert指出感知机无法解决异或问题：

x1	x2	XOR
0	0	0
0	1	1
1	0	1
1	1	0

XOR问题不是线性可分的，单层感知机无法找到分界线。

历史影响

这个发现导致了第一次AI寒冬，神经网络研究停滞了近20年。

多层感知机

解决XOR问题

增加一个隐藏层可以解决XOR问题：

隐藏层可以学习非线性变换
组合多个线性决策边界
形成复杂的决策区域

通用近似定理

有一个隐藏层且足够多神经元的网络，可以近似任何连续函数。

现代意义

多层感知机是深度学习的基础，配合反向传播算法，可以训练任意深度的网络。