汽車網(wǎng)站建設(shè)公司高權(quán)重網(wǎng)站出售
Abstract
本文介紹了一種基于 Transformer 架構(gòu)的 對話策略,其中自注意力機(jī)制被應(yīng)用于對話輪次(dialogue turns)的序列上。近期的一些工作使用層次化的循環(huán)神經(jīng)網(wǎng)絡(luò)(hierarchical recurrent neural networks)在對話上下文中對多個話語(utterances)進(jìn)行編碼,但是我們認(rèn)為純粹的自注意力機(jī)制是更合適的。默認(rèn)情況下 RNN 假設(shè)對話序列中的每一項都與整個序列的編碼相關(guān),然而當(dāng)說話者在多個話題之間切換時,一個對話往往包含多個重疊的話語片段。Transformer 在編碼當(dāng)前對話狀態(tài)時可以挑選要包含的輪次,因此天然適合 選擇性地忽略或關(guān)注對話歷史。本文還比較了 Transformer Embedding Dialogue (TED) 策略和 LSTM 以及 REDP 的表現(xiàn),后兩者是專門被設(shè)計用來克服 RNN 的缺陷的。
INTRODUCTION
本文的目的是證明 Transformer 相比于通常使用的循環(huán)網(wǎng)絡(luò)模型更適合于建模多輪對話。提出的 TED 架構(gòu)可以被看做在各種對話任務(wù)中構(gòu)建 SOTA 架構(gòu)的候選組件。并非對話中的每個話語都必須是對另一方最近話語的回應(yīng)。Groz and Sidner