做網(wǎng)站的外包能學(xué)到什么深圳最新政策消息
#AI夏令營 #Datawhale #夏令營
1.賽事簡介
目前神經(jīng)機器翻譯技術(shù)已經(jīng)取得了很大的突破,但在特定領(lǐng)域或行業(yè)中,由于機器翻譯難以保證術(shù)語的一致性,導(dǎo)致翻譯效果還不夠理想。對于術(shù)語名詞、人名地名等機器翻譯不準(zhǔn)確的結(jié)果,可以通過術(shù)語詞典進行糾正,避免了混淆或歧義,最大限度提高翻譯質(zhì)量。
2.賽事任務(wù)
基于術(shù)語詞典干預(yù)的機器翻譯挑戰(zhàn)賽選擇以英文為源語言,中文為目標(biāo)語言的機器翻譯。本次大賽除英文到中文的雙語數(shù)據(jù),還提供英中對照的術(shù)語詞典。參賽隊伍需要基于提供的訓(xùn)練數(shù)據(jù)樣本從多語言機器翻譯模型的構(gòu)建與訓(xùn)練,并基于測試集以及術(shù)語詞典,提供最終的翻譯結(jié)果,數(shù)據(jù)包括:
·訓(xùn)練集:雙語數(shù)據(jù):中英14萬余雙語句對
·開發(fā)集:英中1000雙語句對
·測試集:英中1000雙語句對
·術(shù)語詞典:英中2226條
3.baseline
(1)對中英雙語句對進行分詞:
import nltk
import jieba
def read_file(filepath):with open(filepath, 'r', encoding='utf-8') as file:lines = file.readlines()return lines# 分詞英語文本
def tokenize_en(lines):return [' '.join(nltk.word_tokenize(line)) for line in lines]# 分詞中文文本
def tokenize_zh(lines):return [' '.join(jieba.cut(line)) for line in lines]
(2)統(tǒng)計句長分布
train_en.tok
train_zh.tok
句長普遍較短,且中英句長分布有區(qū)別。
(3)filter
利用分詞后的語料訓(xùn)練源語言和目標(biāo)語言的語言模型,打分后刪除低分語句。
(4)訓(xùn)練