|
发表于 2022-12-22 20:57:13
|
显示全部楼层
谢谢LZ(和老师)的讲解。这里的说法比原论文([1406.1078] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation)更清晰一些,不过有一些小的差异,我最开始理解的时候有点困难:
门控状态的计算(评论里是不是不能写公式……):原论文中实际上是拆成了两个矩阵,Wr和Ur,以及Wz和Uz,分别和x以及h(t-1)相乘 更新记忆中h'的计算:原论文中同样也是两个矩阵,W和U 原论文中2.3节描述的是对“一个cell中的一个unit”进行计算的过程,这里描述的应该是对“一个cell中的所有unit组成的向量”进行计算的过程。虽然向量表示法清楚得多(事实上我看了这篇文章才明白论文里在讲什么……),不过论文中强调了这一点:“As each hidden unit has separate reset and update gates, each hidden unit will learn to capture dependencies over different time scales.”我觉得这是向量表示法所没有体现出来的。 符号上的一些小差异:略
以及我觉得这篇文章写得非常好,特别是对GRU的一些图示和分析,都是我之前没有见过的。赞! |
|