中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站空間和數(shù)據(jù)庫空間seo基礎(chǔ)入門視頻教程

網(wǎng)站空間和數(shù)據(jù)庫空間,seo基礎(chǔ)入門視頻教程,獨立網(wǎng)站做外貿(mào),查看網(wǎng)站有多少空間文章目錄 1、本章目標(biāo)2、n-gram特征2.1、概念2.2、舉個例子2.3、代碼 3、文本長度規(guī)范及其作用4、小結(jié) 🍃作者介紹:雙非本科大三網(wǎng)絡(luò)工程專業(yè)在讀,阿里云專家博主,專注于Java領(lǐng)域?qū)W習(xí),擅長web應(yīng)用開發(fā)、數(shù)據(jù)結(jié)構(gòu)和算法…

文章目錄

  • 1、本章目標(biāo)
  • 2、n-gram特征
    • 2.1、概念
    • 2.2、舉個例子
    • 2.3、代碼
  • 3、文本長度規(guī)范及其作用
  • 4、小結(jié)

🍃作者介紹:雙非本科大三網(wǎng)絡(luò)工程專業(yè)在讀,阿里云專家博主,專注于Java領(lǐng)域?qū)W習(xí),擅長web應(yīng)用開發(fā)、數(shù)據(jù)結(jié)構(gòu)和算法,初步涉獵人工智能和前端開發(fā)。
🦅個人主頁:@逐夢蒼穹
📕所屬專欄:人工智能
🌻gitee地址:xzl的人工智能代碼倉庫
? 您的一鍵三連,是我創(chuàng)作的最大動力🌹

1、本章目標(biāo)

  1. 了解文本特征處理的作用.
  2. 掌握實現(xiàn)常見的文本特征處理的具體方法.
  3. 文本特征處理的作用:
    1. 文本特征處理包括為語料添加具有普適性的文本特征,如n-gram特征;
    2. 以及對加入特征之后的文本語料進(jìn)行必要的處理,如長度規(guī)范;
    3. 這些特征處理工作能夠有效的將重要的文本特征加入模型訓(xùn)練中,增強(qiáng)模型評估指標(biāo)
  4. 常見的文本特征處理方法:
    1. 添加n-gram特征
    2. 文本長度規(guī)范

2、n-gram特征

2.1、概念

給定一段文本序列,其中n個詞或字的相鄰共現(xiàn)特征即n-gram特征,常用的n-gram特征是bi-gram和tri-gram特征,分別對應(yīng)n為2和3。
image.png

2.2、舉個例子

這個示例講解了如何從詞匯列表生成數(shù)值特征并擴(kuò)展到 N-gram 特征
首先,理解 N-gram 特征的一些基本概念:

  • 詞匯列表:是一個包含文本中所有詞的列表。例如,給定一個句子 “是誰 鼓動 我心”,其詞匯列表為 ["是誰", "鼓動", "我心"]
  • 數(shù)值映射列表:通常用于將每個詞映射到一個唯一的數(shù)字(索引)。例如,可以將 ["是誰", "鼓動", "我心"] 映射為 [1, 34, 21]

N-gram 特征的意思是將文本中的相鄰詞對作為特征。例如,Bigram(2-gram)就是由兩個相鄰的詞組成的特征。
假設(shè)有一個詞匯列表 ["是誰", "鼓動", "我心"],對應(yīng)的數(shù)值映射列表為 [1, 34, 21]。
這些數(shù)值可以被視為單個詞匯的特征(Unigram),即每個詞在序列中的獨立存在。
現(xiàn)在,假設(shè)你要考慮 Bigram 特征(2-gram),即兩個相鄰詞的組合。
步驟:

  1. 識別相鄰的詞對:在列表中,“是誰” 和 “鼓動” 是相鄰的,“鼓動” 和 “我心” 也是相鄰的。
  2. 為每個相鄰詞對生成新的特征值
    • 假設(shè)數(shù)字 1000 代表 “是誰” 和 “鼓動” 的相鄰關(guān)系。
    • 假設(shè)數(shù)字 1001 代表 “鼓動” 和 “我心” 的相鄰關(guān)系。

結(jié)果:

  • 原始的數(shù)值映射列表 [1, 34, 21] 現(xiàn)在擴(kuò)展為包含 Bigram 特征的 [1, 34, 21, 1000, 1001]。

在這個例子中,N-gram 特征的引入使得特征表示不僅僅是詞匯本身,還包括詞匯之間的相鄰關(guān)系(如 “是誰” 和 “鼓動” 的相鄰)。通過引入這些特征,模型可以更好地捕捉詞匯之間的上下文關(guān)系。
具體來說:

  • 原來的 [1, 34, 21] 僅表示單個詞匯。
  • 添加了 Bigram 特征后,特征列表變?yōu)?[1, 34, 21, 1000, 1001],表示不僅有單個詞匯的信息,還有相鄰詞對的信息。

2.3、代碼

提取n-gram特征:

# -*- coding: utf-8 -*-
# @Author: CSDN@逐夢蒼穹
# @Time: 2024/8/12 21:51
# TODO 一般n-gram中的n取2或者3, 這里取2為例
def create_ngram_set(input_list):# 使用 zip 和列表推導(dǎo)式生成 n-gram 特征ngram_set = set(zip(*[input_list[i:] for i in range(ngram_range)]))return ngram_setif __name__ == '__main__':ngram_range = 2example_input = [1, 4, 9, 4, 1, 4]print(create_ngram_set(example_input))# Output: {(4, 9), (4, 1), (1, 4), (9, 4)}

輸出效果:

# 該輸入列表的所有bi-gram特征
{(3, 2), (1, 3), (2, 1), (1, 5), (5, 3)}

3、文本長度規(guī)范及其作用

一般模型的輸入需要等尺寸大小的矩陣,因此在進(jìn)入模型前需要對每條文本數(shù)值映射后的長度進(jìn)行規(guī)范,
此時將根據(jù)句子長度分布分析出覆蓋絕大多數(shù)文本的合理長度,
對超長文本進(jìn)行截斷,對不足文本進(jìn)行補(bǔ)齊(一般使用數(shù)字0),這個過程就是文本長度規(guī)范
文本長度規(guī)范的實現(xiàn):

# -*- coding: utf-8 -*-
# @Author: CSDN@逐夢蒼穹
# @Time: 2024/8/12 22:39
# 從 Keras 的 preprocessing 模塊中導(dǎo)入 sequence,用于序列處理
from keras.preprocessing import sequence
# 根據(jù)數(shù)據(jù)分析中句子長度的分布,確定覆蓋 90% 左右語料的最短長度
# 這里假定 cutlen 為 10,意味著我們將所有的句子統(tǒng)一處理為長度為 10 的序列
cutlen = 10
def padding(x_train):"""description: 對輸入文本張量進(jìn)行長度規(guī)范,確保所有文本的長度一致:param x_train: 文本的張量表示, 形如: [[1, 32, 32, 61], [2, 54, 21, 7, 19]]這是一個二維列表,其中每個子列表表示一條文本的詞匯索引序列:return: 進(jìn)行截斷補(bǔ)齊后的文本張量表示,輸出的形狀為 (len(x_train), cutlen)如果文本長度小于 cutlen,則補(bǔ)齊至 cutlen;如果文本長度大于 cutlen,則截斷至 cutlen"""# 使用 sequence.pad_sequences 函數(shù)對序列進(jìn)行補(bǔ)齊(或截斷)# pad_sequences 會將每個序列截斷或補(bǔ)齊到相同的長度 cutlen# 默認(rèn)情況下,較短的序列會在前面補(bǔ) 0(默認(rèn)補(bǔ)在序列的左側(cè)),# 較長的序列會從前面截斷(即保留序列的最后 cutlen 個元素)return sequence.pad_sequences(x_train, cutlen)if __name__ == '__main__':# 假定 x_train 里面有兩條文本,一條長度大于 10,一條長度小于 10x_train = [[1, 23, 5, 32, 55, 63, 2, 21, 78, 32, 23, 1],  # 長度為 12,超過了 cutlen[2, 32, 1, 23, 1]  # 長度為 5,少于 cutlen]# 調(diào)用 padding 函數(shù),對 x_train 中的序列進(jìn)行補(bǔ)齊(或截斷)res = padding(x_train)# 輸出處理后的結(jié)果# 預(yù)期輸出:# array([[ 5, 32, 55, 63,  2, 21, 78, 32, 23,  1],   # 第1條序列被截斷至長度10#        [ 0,  0,  0,  0,  0,  2, 32,  1, 23,  1]])  # 第2條序列前面補(bǔ)5個0至長度10print(res)

輸出:

E:\anaconda3\python.exe D:\Python\AI\自然語言處理\7-文本長度規(guī)范.py 
2024-08-12 22:44:53.195415: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-08-12 22:44:54.269741: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
[[ 5 32 55 63  2 21 78 32 23  1][ 0  0  0  0  0  2 32  1 23  1]]Process finished with exit code 0

4、小結(jié)

  1. 學(xué)習(xí)了文本特征處理的作用:
    1. 文本特征處理包括為語料添加具有普適性的文本特征,如:n-gram特征,以及對加入特征之后的文本語料進(jìn)行必要的處理,如:長度規(guī)范. 這些特征處理工作能夠有效的將重要的文本特征加入模型訓(xùn)練中,增強(qiáng)模型評估指標(biāo)
  2. 學(xué)習(xí)了常見的文本特征處理方法:
    1. 添加n-gram特征
    2. 文本長度規(guī)范
  3. 學(xué)習(xí)了什么是n-gram特征:
    1. 給定一段文本序列,其中n個詞或字的相鄰共現(xiàn)特征即n-gram特征,常用的n-gram特征是bi-gram和tri-gram特征,分別對應(yīng)n為2和3
  4. 學(xué)習(xí)了提取n-gram特征的函數(shù):create_ngram_set
  5. 學(xué)習(xí)了文本長度規(guī)范及其作用:
    1. 一般模型的輸入需要等尺寸大小的矩陣,因此在進(jìn)入模型前需要對每條文本數(shù)值映射后的長度進(jìn)行規(guī)范,此時將根據(jù)句子長度分布分析出覆蓋絕大多數(shù)文本的合理長度,對超長文本進(jìn)行截斷,對不足文本進(jìn)行補(bǔ)齊(一般使用數(shù)字0),這個過程就是文本長度規(guī)范.
  6. 學(xué)習(xí)了文本長度規(guī)范的實現(xiàn)函數(shù):padding
http://www.risenshineclean.com/news/4604.html

相關(guān)文章:

  • 做黃金理財?shù)木W(wǎng)站短視頻seo排名
  • 求個網(wǎng)站好人有好報百度貼吧怎么做百度網(wǎng)頁推廣
  • bae做網(wǎng)站市場推廣怎么做
  • redis做緩存的網(wǎng)站并發(fā)數(shù)深圳網(wǎng)絡(luò)營銷全網(wǎng)推廣
  • dw做了網(wǎng)站還可以做淘寶詳情嗎西安seo站內(nèi)優(yōu)化
  • 企業(yè)建立網(wǎng)站需要百度廣告投放公司
  • 幫你做海報網(wǎng)站寧波網(wǎng)絡(luò)建站模板
  • 網(wǎng)站建設(shè)是設(shè)計師嗎軟件推廣方案經(jīng)典范文
  • 專門做汽車配件的外貿(mào)網(wǎng)站網(wǎng)站目錄
  • 做網(wǎng)站怎么買服務(wù)器嗎關(guān)鍵詞推廣價格
  • 南京本地網(wǎng)站百度seo自然優(yōu)化
  • 網(wǎng)站建設(shè)方案書內(nèi)容管理制度優(yōu)化seo教程技術(shù)
  • css修改Wordpressseo是搜索引擎嗎
  • 在ps中做網(wǎng)站首頁的尺寸品牌營銷策劃方案
  • 17做網(wǎng)店網(wǎng)站池尾百度付費(fèi)問答平臺
  • wordpress轉(zhuǎn)移服務(wù)器免費(fèi)seo優(yōu)化工具
  • 網(wǎng)站建設(shè)方案書 個人成品網(wǎng)站源碼
  • 我想在阿里巴巴網(wǎng)站開店_怎么做站長工具域名查詢ip
  • 網(wǎng)站手機(jī)頁面如何做超級外鏈
  • 關(guān)于seo網(wǎng)站優(yōu)化公司教育培訓(xùn)機(jī)構(gòu)招生方案
  • 婚嫁網(wǎng)站建設(shè)計劃天津谷歌優(yōu)化
  • 瀏覽器打開自己做的網(wǎng)站seo企業(yè)優(yōu)化方案
  • 濟(jì)南網(wǎng)站開發(fā)設(shè)計做百度推廣需要什么條件
  • 網(wǎng)站二維碼特效企業(yè)網(wǎng)站的作用有哪些
  • 什么網(wǎng)站可以做拍a發(fā)b建站網(wǎng)站
  • wordpress 短代碼 嵌套seo 重慶
  • 南山網(wǎng)站設(shè)計訓(xùn)百度搜索風(fēng)云榜小說
  • 建立個網(wǎng)站如何點擊優(yōu)化神馬關(guān)鍵詞排名
  • 做體育直播網(wǎng)站今天剛剛發(fā)生的新聞事故
  • 在馬來西亞做博彩網(wǎng)站合法嗎拼多多跨境電商平臺