Bag of Words | 1954 | 即 BOW 模型,計算文檔中每個單詞出現(xiàn)的次數(shù),并將它們用作特征。 |
TF-IDF | 1972 | 對 BOW 進(jìn)行修正,使得稀有詞得分高,常見詞得分低。 |
Word2Vec | 2013 | 每個詞都映射到一個稱為詞嵌入的高維向量,捕獲其語義。詞嵌入是通過在大型語料庫中尋找詞相關(guān)性的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)的。 |
RNN | 1986 | RNN 利用句子中詞的上下文計算文檔嵌入,這僅靠詞嵌入是不可能的。后來發(fā)展為 LSTM (1997 )以捕獲長期依賴關(guān)系,并演變?yōu)?Bidirectional RNN (1997 )以捕獲從左到右和從右到左的依賴關(guān)系。最終,Encoder-Decoder RNNs (2014 )出現(xiàn)了,其中一個 RNN 創(chuàng)建文檔嵌入(即編碼器),另一個 RNN 將其解碼為文本(即解碼器)。 |
Transformer | 2017 | 一種 編碼器-解碼器 模型,它利用注意力機(jī)制來計算更好的嵌入并更好地將輸出與輸入對齊。 |
BERT | 2018 | 雙向 Transformer,使用掩碼語言建模(Masked Language Modeling )和下一句預(yù)測目標(biāo)(Next Sentence Prediction objectives )的組合進(jìn)行預(yù)訓(xùn)練。它使用全局注意力。 |
GPT | 2018 | 第一個基于 Transformer 架構(gòu)的自回歸模型。后來演變成 GPT-2 (2019 ),一個在 WebText 上預(yù)訓(xùn)練的更大和優(yōu)化的 GPT 版本,以及 GPT-3 (2020 ),一個更大和優(yōu)化的 GPT-2 版本,在 Common Crawl 上預(yù)訓(xùn)練。 |
CTRL | 2019 | 類似于 GPT,但具有用于條件文本生成的控制代碼。 |
Transformer-XL | 2019 | 一個自回歸 Transformer,可以重用以前計算的隱藏狀態(tài)來處理更長的上下文。 |
ALBERT | 2019 | BERT 的輕量級版本,其中:(1)下一句預(yù)測被句序預(yù)測取代;(2)參數(shù)減少技術(shù)用于降低內(nèi)存消耗和加快訓(xùn)練速度。 |
RoBERTa | 2019 | BERT 的更好版本,其中:(1)Masked Language Modeling 目標(biāo)是動態(tài)的;(2)Next Sentence Prediction 目標(biāo)被刪除;(3)使用 BPE tokenizer ;(4)使用更好的超參數(shù). |
XLM | 2019 | Transformer 使用因果語言建模、掩碼語言建模和翻譯語言建模等目標(biāo)在多種語言的語料庫上進(jìn)行了預(yù)訓(xùn)練。 |
XLNet | 2019 | Transformer-XL 具有廣義自回歸預(yù)訓(xùn)練方法,可以學(xué)習(xí)雙向依賴性。 |
PEGASUS | 2019 | 一個雙向編碼器和一個從左到右的解碼器,使用掩碼語言建模和間隙句子生成目標(biāo)進(jìn)行了預(yù)訓(xùn)練。 |
DistilBERT | 2019 | 與 BERT 相同,但更小更快,同時保留 BERT 95% 以上的性能。通過預(yù)訓(xùn)練的 BERT 模型的蒸餾進(jìn)行訓(xùn)練。 |
XLM-RoBERTa | 2019 | RoBERTa 在具有掩蔽語言建模目標(biāo)的多語言語料庫上進(jìn)行訓(xùn)練。 |
BART | 2019 | 一個雙向編碼器和一個從左到右的解碼器,通過使用任意噪聲函數(shù)破壞文本并學(xué)習(xí)模型來重建原始文本來訓(xùn)練。 |
ConvBERT | 2019 | BERT 的更好版本,其中自注意力模塊被新模塊取代,利用卷積更好地模擬全局和局部上下文。 |
Funnel Transformer | 2020 | 一種 Transformer,它逐漸將隱藏狀態(tài)的序列壓縮到更短的狀態(tài),從而降低計算成本。 |
Reformer | 2020 | 由于對局部敏感的哈希注意力、軸向位置編碼和其他優(yōu)化,一個更高效的 Transformer。 |
T5 | 2020 | 一個雙向編碼器和一個從左到右的解碼器,在無監(jiān)督和監(jiān)督任務(wù)的混合上進(jìn)行了預(yù)訓(xùn)練。 |
Longformer | 2020 | 一種將注意力矩陣替換為稀疏矩陣以提高訓(xùn)練效率的 Transformer 模型。 |
ProphetNet | 2020 | 一種使用未來 N-gram 預(yù)測目標(biāo)和新穎的自注意力機(jī)制訓(xùn)練的 Transformer 模型。 |
ELECTRA | 2020 | 與 BERT 相同,但更輕更好。該模型使用 Replaced Token Detection 目標(biāo)進(jìn)行訓(xùn)練。 |
Switch Transformers | 2021 | 一種稀疏激活的專家 Transformer 模型,旨在簡化和改進(jìn)專家混合模型。 |