神经元与感知机
神经元是神经网络的基本计算单元,感知机是最早的人工神经网络模型。理解这些基础概念,是深入学习神经网络的起点。
学习难度:入门·阅读时间:约10分钟
生物神经元
基本结构
生物神经元的主要组成部分:
- 细胞体:处理信息和维持细胞生命
- 树突:接收来自其他神经元的信号
- 轴突:将信号传递给其他神经元
- 突触:神经元之间的连接点
工作原理
- 神经元接收来自其他神经元的电信号
- 当累积信号超过阈值时,神经元被激活
- 产生电脉冲,沿轴突传递
- 通过突触传递给其他神经元
启发
人工神经网络模仿了生物神经元的几个关键特性:
- 多输入、单输出
- 阈值激活机制
- 可调节的连接强度
M-P神经元模型
历史背景
1943年,McCulloch和Pitts提出了第一个神经元数学模型,开创了人工神经网络的研究。
模型结构
M-P神经元是一个简化的逻辑模型:
- 接收多个二进制输入
- 输入加权求和
- 与阈值比较
- 输出0或1
数学表达
y = 1, if Σ w_i × x_i ≥ θ
y = 0, otherwise
逻辑运算
M-P神经元可以实现基本逻辑运算:
- AND门:设置适当的权重和阈值
- OR门:设置较低的阈值
- NOT门:单输入,负权重
感知机
Rosenblatt感知机
1958年,Frank Rosenblatt提出了感知机,是第一个具有学习能力的神经网络模型。
与M-P神经元的区别
- 输入可以是连续值
- 引入偏置项代替阈值
- 具有学习能力,可以自动调整权重
数学形式
y = sign(w · x + b)
其中sign是符号函数,输出+1或-1。
几何解释
感知机在特征空间中定义了一个超平面:
- 超平面一边的点被分类为正类
- 另一边的点被分类为负类
- 决策边界是线性的
感知机学习算法
学习规则
感知机通过错误驱动的方式学习:
- 初始化权重和偏置(通常为0或随机小值)
- 对每个训练样本:
- 计算预测输出
- 如果预测错误,更新权重
- 重复直到所有样本分类正确或达到最大迭代次数
权重更新规则
w ← w + η × (y_true - y_pred) × x
其中η是学习率,y_true是真实标签,y_pred是预测标签。
收敛定理
如果数据线性可分,感知机算法保证在有限步内收敛。
感知机的局限
XOR问题
1969年,Minsky和Papert指出感知机无法解决异或问题:
| x1 | x2 | XOR |
|---|---|---|
| 0 | 0 | 0 |
| 0 | 1 | 1 |
| 1 | 0 | 1 |
| 1 | 1 | 0 |
XOR问题不是线性可分的,单层感知机无法找到分界线。
历史影响
这个发现导致了第一次AI寒冬,神经网络研究停滞了近20年。
多层感知机
解决XOR问题
增加一个隐藏层可以解决XOR问题:
- 隐藏层可以学习非线性变换
- 组合多个线性决策边界
- 形成复杂的决策区域
通用近似定理
有一个隐藏层且足够多神经元的网络,可以近似任何连续函数。
现代意义
多层感知机是深度学习的基础,配合反向传播算法,可以训练任意深度的网络。