資料內(nèi)容:
.1.Transformer為何使用多頭注意力機制?(為什么不使用一個頭)
.2.Transformer為什么Q和K使用不同的權(quán)重矩陣生成,為何不能使用同一個值進(jìn)行自身的點乘? (注意和第一個問題的區(qū)別)
.3.Transformer計算attention的時候為何選擇點乘而不是加法?兩者計算復(fù)雜度和效果上有什么區(qū)別?
.4.為什么在進(jìn)行softmax之前需要對attention進(jìn)行scaled(為什么除以dk的平方根),并使用公式推導(dǎo)進(jìn)行講解
.5.在計算attention score的時候如何對padding做mask操作?
.6.為什么在進(jìn)行多頭注意力的時候需要對每個head進(jìn)行降維?(可以參考上面一個問題)
.7.大概講一下Transformer的Encoder模塊?
.8.為何在獲取輸入詞向量之后需要對矩陣乘以embedding size的開方?意義是什么?
.9.簡單介紹一下Transformer的位置編碼?有什么意義和優(yōu)缺點?
.10.你還了解哪些關(guān)于位置編碼的技術(shù),各自的優(yōu)缺點是什么?
.11.簡單講一下Transformer中的殘差結(jié)構(gòu)以及意義。
.12.為什么transformer塊使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?