神经元与感知机

神经元是神经网络的基本计算单元,感知机是最早的人工神经网络模型。理解这些基础概念,是深入学习神经网络的起点。

学习难度:入门·阅读时间:约10分钟

生物神经元

基本结构

生物神经元的主要组成部分:

  • 细胞体:处理信息和维持细胞生命
  • 树突:接收来自其他神经元的信号
  • 轴突:将信号传递给其他神经元
  • 突触:神经元之间的连接点

工作原理

  1. 神经元接收来自其他神经元的电信号
  2. 当累积信号超过阈值时,神经元被激活
  3. 产生电脉冲,沿轴突传递
  4. 通过突触传递给其他神经元

启发

人工神经网络模仿了生物神经元的几个关键特性:

  • 多输入、单输出
  • 阈值激活机制
  • 可调节的连接强度

M-P神经元模型

历史背景

1943年,McCulloch和Pitts提出了第一个神经元数学模型,开创了人工神经网络的研究。

模型结构

M-P神经元是一个简化的逻辑模型:

  • 接收多个二进制输入
  • 输入加权求和
  • 与阈值比较
  • 输出0或1

数学表达

y = 1, if Σ w_i × x_i ≥ θ
y = 0, otherwise

逻辑运算

M-P神经元可以实现基本逻辑运算:

  • AND门:设置适当的权重和阈值
  • OR门:设置较低的阈值
  • NOT门:单输入,负权重

感知机

Rosenblatt感知机

1958年,Frank Rosenblatt提出了感知机,是第一个具有学习能力的神经网络模型。

与M-P神经元的区别

  • 输入可以是连续值
  • 引入偏置项代替阈值
  • 具有学习能力,可以自动调整权重

数学形式

y = sign(w · x + b)

其中sign是符号函数,输出+1或-1。

几何解释

感知机在特征空间中定义了一个超平面:

  • 超平面一边的点被分类为正类
  • 另一边的点被分类为负类
  • 决策边界是线性的

感知机学习算法

学习规则

感知机通过错误驱动的方式学习:

  1. 初始化权重和偏置(通常为0或随机小值)
  2. 对每个训练样本:
    • 计算预测输出
    • 如果预测错误,更新权重
  3. 重复直到所有样本分类正确或达到最大迭代次数

权重更新规则

w ← w + η × (y_true - y_pred) × x

其中η是学习率,y_true是真实标签,y_pred是预测标签。

收敛定理

如果数据线性可分,感知机算法保证在有限步内收敛。

感知机的局限

XOR问题

1969年,Minsky和Papert指出感知机无法解决异或问题:

x1x2XOR
000
011
101
110

XOR问题不是线性可分的,单层感知机无法找到分界线。

历史影响

这个发现导致了第一次AI寒冬,神经网络研究停滞了近20年。

多层感知机

解决XOR问题

增加一个隐藏层可以解决XOR问题:

  • 隐藏层可以学习非线性变换
  • 组合多个线性决策边界
  • 形成复杂的决策区域

通用近似定理

有一个隐藏层且足够多神经元的网络,可以近似任何连续函数。

现代意义

多层感知机是深度学习的基础,配合反向传播算法,可以训练任意深度的网络。

----