关于xlnet的疑问

文章目录
  1. 1. 参考资料

.

看xlnet得到一个疑问, 这个疑问涉及到transformer的位置向量的表示方法

1
2
3
4
5
6
7
8
# 注意力可以拆分成4部分的和:
A[i, j] = 4个部分的点击(内容1*内容2 + 位置1*内容2 + 位置2*内容1 + 位置1*位置1)

这里的位置和内容是割裂的, 感觉这样的注意力是缺少了对(内容+位置)的整体考量

这是由于 内容+位置表示, 只是线性组合, 之后的计算都可以拆分出来

应该在(内容+位置表示)后加一个非线性变换, 这样两个内容就融在一起了, 之后的计算也没法分开

想到一个解释

因为A最后要过一个softmax, 过了softmax后就有了4个部分的非线性组合效果了.

参考资料