感知机
感知机是一个线性分类模型,属于判别模型,因为模型关心的是对给定的输入X,应该预测什么样的输出Y,与生成模型的不同在于不需要先学习出联合分布P(X,Y)。
感知机的输入输出都是二进制的,多个输入一个输出。
其中神经元内的计算如下:
$\sum_jw_jx_j$
output计算如下:
感知机到神经网络
无法解决非线性问题,例如XOR问题。
即便采用多层perceptron,他仍然是一个线性模型。
$h_{\theta}(x)=\theta^T\phi(x)$
$\theta\in\mathbb{R}^{d*k}$ $\phi:\mathbb{R^n}\rightarrow\mathbb{R^d}$
$\phi(x)=W^Tx$
$h_{\theta}(x)=\theta^T\phi(x)=\theta^TW^Tx=\hat\theta x$
神经网络为了解决这一问题,引入了激活函数使得模型可以解决非线性问题。主要改动就是用$\sigma$替换掉原来的$\phi$方法。
where 𝜎: R → R is a nonlinear function applied elementwise to the vector (e.g. sigmoid, ReLU)
反向传播
参考
Deep Learning Systems: Algorithms and Implementation Manual Neural Networks