3
17
26
新手上路
接续上一次介绍的LSTM ,这里我又很不要脸地使用“人人都能看懂的xxx”来作为标题,来将对GRU进行介绍。同样这里的内容是对台大李宏毅老师课程视频的一些记录以及自己的一些整理和思考。对于不懂基础RNN和LSTM的同学可以先看看我的上一篇文章 人人都能看懂的LSTM。有任何疑问欢迎交流。
简单译文:我们在我们的实验中选择GRU是因为它的实验效果与LSTM相似,但是更易于计算。
Tips: \sigma 为sigmoid函数,通过这个函数可以将数据变换为0-1范围内的数值,从而来充当门控信号。
图2-4中的 \odot 是Hadamard Product,也就是操作矩阵中对应的元素相乘,因此要求两个相乘矩阵是同型的。 \oplus 则代表进行矩阵加法操作。
有读者发现在pytorch里面的GRU[链接]写法相比原版对 h^{t-1} 多了一个映射,相当于一个GRU变体,猜测是多加多这个映射能让整体实验效果提升较大。如果有了解的同学欢迎评论指出。
可以看到,这里的遗忘 z 和选择 (1-z) 是联动的。也就是说,对于传递进来的维度信息,我们会进行选择性遗忘,则遗忘了多少权重 (z ),我们就会使用包含当前输入的 h' 中所对应的权重进行弥补 (1-z) 。以保持一种”恒定“状态。
使用道具 举报
7
13
2
8
12
10
16
1
5
6
4
14
11
22
21
本版积分规则 发表回复 回帖后跳转到最后一页