梯度下降有三种变种,主要区别在于计算目标函数梯度下降的数据量。
每次计算的数据量,会影响到训练时间和模型准确率。
[TODO]《An overview of gradient descent optimization algorithms》阅读笔记
标签:
发表于:2017-07-24
阅读次数:728
梯度下降有三种变种,主要区别在于计算目标函数梯度下降的数据量。
每次计算的数据量,会影响到训练时间和模型准确率。