手工包網(wǎng)站建設(shè)策劃書seo排名查詢
RNN
很難并行化處理
Transformer
1、Input向量x1-x4分別乘上矩陣W得到embedding向量a1-a4。
2、向量a1-a4分別乘上Wq、Wk、Wv得到不同的qi、ki、vi(i={1,2,3,4})。
3、使用q1對每個k(ki)做attention得到a1,i(i={1,2,3,4}),q1、k1,q1、k2,…,還要做一個歸一化操作。
4、把計算的a1,i做softmax操作,得到~a1,i,然后把它a1,i和所有的vi值相乘,然后相加得到b1,依次計算后得到bi。
Multi-head self-attention
在self-attention的第二步,分別乘以多個wq、wk、wv矩陣得到qi,j、ki,j、vi,j。
位置編碼
position emb
DETR
1、用CNN去提取特征
2、用transformer-encoder做編碼提取全局澤正
3、用transformer-decoder生成預(yù)測框子
4、用框子和GT做二分圖的loss