當(dāng)前位置：首頁 > news >正文

做網(wǎng)站的外包能學(xué)到什么深圳最新政策消息

news 2025/7/2 8:47:47

做網(wǎng)站的外包能學(xué)到什么,深圳最新政策消息,成都前端培訓(xùn)機構(gòu),東莞石碣鎮(zhèn)#AI夏令營 #Datawhale #夏令營 1.賽事簡介目前神經(jīng)機器翻譯技術(shù)已經(jīng)取得了很大的突破，但在特定領(lǐng)域或行業(yè)中，由于機器翻譯難以保證術(shù)語的一致性，導(dǎo)致翻譯效果還不夠理想。對于術(shù)語名詞、人名地名等機器翻譯不準(zhǔn)確的結(jié)果，可以通…

#AI夏令營 #Datawhale #夏令營

1.賽事簡介

目前神經(jīng)機器翻譯技術(shù)已經(jīng)取得了很大的突破，但在特定領(lǐng)域或行業(yè)中，由于機器翻譯難以保證術(shù)語的一致性，導(dǎo)致翻譯效果還不夠理想。對于術(shù)語名詞、人名地名等機器翻譯不準(zhǔn)確的結(jié)果，可以通過術(shù)語詞典進行糾正，避免了混淆或歧義，最大限度提高翻譯質(zhì)量。

2.賽事任務(wù)

基于術(shù)語詞典干預(yù)的機器翻譯挑戰(zhàn)賽選擇以英文為源語言，中文為目標(biāo)語言的機器翻譯。本次大賽除英文到中文的雙語數(shù)據(jù)，還提供英中對照的術(shù)語詞典。參賽隊伍需要基于提供的訓(xùn)練數(shù)據(jù)樣本從多語言機器翻譯模型的構(gòu)建與訓(xùn)練，并基于測試集以及術(shù)語詞典，提供最終的翻譯結(jié)果，數(shù)據(jù)包括：

·訓(xùn)練集：雙語數(shù)據(jù)：中英14萬余雙語句對

·開發(fā)集：英中1000雙語句對

·測試集：英中1000雙語句對

·術(shù)語詞典：英中2226條

3.baseline

（1）對中英雙語句對進行分詞:

import nltk
import jieba
def read_file(filepath):with open(filepath, 'r', encoding='utf-8') as file:lines = file.readlines()return lines# 分詞英語文本
def tokenize_en(lines):return [' '.join(nltk.word_tokenize(line)) for line in lines]# 分詞中文文本
def tokenize_zh(lines):return [' '.join(jieba.cut(line)) for line in lines]

(2)統(tǒng)計句長分布

train_en.tok

train_zh.tok

句長普遍較短，且中英句長分布有區(qū)別。

（3）filter

利用分詞后的語料訓(xùn)練源語言和目標(biāo)語言的語言模型，打分后刪除低分語句。

（4）訓(xùn)練

查看全文

http://www.risenshineclean.com/news/31980.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

做網(wǎng)站的外包能學(xué)到什么深圳最新政策消息

相關(guān)文章：