中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

做淘寶客網(wǎng)站能接廣告嗎關(guān)鍵詞seo是什么

做淘寶客網(wǎng)站能接廣告嗎,關(guān)鍵詞seo是什么,深圳品牌設(shè)計(jì)推薦,精仿騰訊3366小游戲門戶網(wǎng)站源碼織夢(mèng)最新內(nèi)核帶全部數(shù)據(jù)!新聞分類,或廣義上的文本分類,其核心任務(wù)是根據(jù)文本內(nèi)容將相似文本聚合在同一類別中。在新聞?lì)I(lǐng)域,這意味著將報(bào)道劃分為財(cái)經(jīng)、體育、軍事等不同主題。人類執(zhí)行此任務(wù)時(shí),通過(guò)閱讀和理解新聞的主旨來(lái)進(jìn)行歸類。然而,作者…

新聞分類,或廣義上的文本分類,其核心任務(wù)是根據(jù)文本內(nèi)容將相似文本聚合在同一類別中。在新聞?lì)I(lǐng)域,這意味著將報(bào)道劃分為財(cái)經(jīng)、體育、軍事等不同主題。人類執(zhí)行此任務(wù)時(shí),通過(guò)閱讀和理解新聞的主旨來(lái)進(jìn)行歸類。然而,作者稱計(jì)算機(jī)并不具備真正理解自然語(yǔ)言的能力(盡管有專家聲稱計(jì)算機(jī)能夠閱讀)實(shí)際上機(jī)器僅依賴于計(jì)算文章間的相似度而非理解語(yǔ)義來(lái)執(zhí)行分類。也就是說(shuō),計(jì)算機(jī)只會(huì)“計(jì)算”文章,而非“閱讀”文章。

為了實(shí)現(xiàn)文章相似度的計(jì)算:

1)首先需要將自然語(yǔ)言寫成的文章轉(zhuǎn)換為數(shù)字編碼,即使用向量表示一篇新聞。

2)然后選擇一種能夠量化兩篇文章相似度的算法進(jìn)行計(jì)算。

3)最后通過(guò)這些具體的相似度數(shù)值來(lái)實(shí)現(xiàn)精準(zhǔn)分類。

下面以新聞分類的場(chǎng)景進(jìn)行講解。

1.?把一篇新聞稿變成一串?dāng)?shù)字

1.1 特征向量

由于詞匯作為信息的核心承載單元,因此我們可以通過(guò)對(duì)新聞稿中關(guān)鍵性、高信息量的詞匯實(shí)施數(shù)字編碼策略,進(jìn)而將這一系列編碼整合為一組數(shù)字串,即特征向量。此特征向量能夠作為新聞稿的數(shù)值化表征,有效地捕捉并反映文章的主旨內(nèi)容。這一方法的合理性源于語(yǔ)言使用的統(tǒng)計(jì)規(guī)律:我們來(lái)感性理解下,在特定領(lǐng)域內(nèi)(如金融領(lǐng)域),文章傾向于共享一套核心詞匯體系,如“信貸”、“利率”、“經(jīng)濟(jì)”、“股票”等高頻詞匯,這些詞匯的使用頻率顯著高于其他領(lǐng)域的特定詞匯(如食品健康領(lǐng)域的“維生素D”、“氨基酸”、“蛋白質(zhì)”等詞匯)。

因此,我們構(gòu)建的特征向量不僅體現(xiàn)了文章中關(guān)鍵概念的比例權(quán)重,還隱含了文章所屬領(lǐng)域的特征模式。通過(guò)比較不同文章特征向量中對(duì)應(yīng)關(guān)鍵詞匯編碼的相似度,我們可以量化評(píng)估文章之間的內(nèi)容接近程度,從而將具有相似主題或歸屬同一類別的文章聚類分析。

說(shuō)到這里,還記得我們?cè)凇舅阉饕娴摹暗馈薄窟@篇讀書(shū)筆記中提到的TF-IDF嗎?它的作用就是給每個(gè)詞打分,告訴我們這個(gè)詞在文章里有多重要。所以咱們可以把每個(gè)詞的TF-IDF值當(dāng)成是它的“數(shù)字身份證”,然后給新聞稿里的每個(gè)詞都發(fā)一張(具體TF-IDF值的計(jì)算邏輯,請(qǐng)查看以前的讀書(shū)筆記)。

1.2 特征向量的示例

想象一下,我們有個(gè)超級(jí)大的詞匯表,里面有64000個(gè)常用漢字和詞,它們還都按拼音字母順序排好了隊(duì)。

c4535bcebfaa40d3aa37e9072b6f0c11.png

接著,給新聞稿里的每個(gè)詞都算了TF-IDF分,然后在這個(gè)大表里找到它們的位置,把分?jǐn)?shù)填上去。沒(méi)在新聞稿里露臉的詞,就給它們打個(gè)0分。

c640cc1adfe54705a3b6dc0ee7bd230b.png

這樣一來(lái),新聞稿就變成了一串由TF-IDF分?jǐn)?shù)組成的數(shù)字串,就像是我們給新聞稿做的一個(gè)“數(shù)字畫像”,這個(gè)就是前面提到的“特征向量”。用這個(gè)方法,咱們就能輕松地把一篇篇文字新聞變成一串串?dāng)?shù)字,讓計(jì)算機(jī)也能“看懂”新聞了。

7099d919a67c49a09b64d92c211c5b60.png

2. 用余弦定理進(jìn)行分類

2.1 余弦定理

說(shuō)實(shí)話,中學(xué)時(shí)候?qū)W余弦定理時(shí),我壓根沒(méi)想到它會(huì)和新聞稿的分類扯上關(guān)系。

現(xiàn)在,咱們手頭的新聞稿都化作了特征向量,它們之間的“親密程度”其實(shí)就藏在這些向量的相似度里。而計(jì)算這些特征向量的相似度時(shí),余弦定理就派上用場(chǎng)了。數(shù)學(xué)真奇妙。

我們先回顧下余弦定理的含義:它描述了三角形中任意一邊的平方與另外兩邊的平方及其夾角余弦值之間的關(guān)系。具體來(lái)說(shuō),對(duì)于任意三角形ABC,其中a、b、c分別為三角形的三邊,A為邊a所對(duì)的角,那么余弦定理可以表示為:

dd01ecbee4f24ecab184bdb511c087b6.png

c36f76448dfa4845b0753ffe69ff2553.png

如果我們把從角A出發(fā)的兩條線b和c看做兩條向量,那么在向量空間下,余弦定理可以表示為:

343eb3227a9e4a2789ecfa9a718c68db.png

其中?eq?%3Cb%2C%20c%3E?代表向量的內(nèi)積,eq?%7Cb%7C%5Ccdot%20%7Cc%7C?代表兩個(gè)向量長(zhǎng)度的乘積。

舉個(gè)例子,如果兩篇新聞稿對(duì)應(yīng)的特征向量(對(duì)應(yīng)上面的b和c)分別為:

5a7490465b834bfeabd462515b2150f5.png

那么這倆向量的夾角的余弦值為:

e3751657d27d406e96ea39ad12749125.png

2.2 用余弦值來(lái)代表相似度

利用余弦定理計(jì)算出兩個(gè)特征向量之間的余弦值后,我們能夠直觀地評(píng)估這兩個(gè)向量的相似度。

原因在于,余弦值實(shí)際上反映了兩個(gè)向量在方向上的接近程度:當(dāng)兩個(gè)向量間的夾角越小,它們的余弦值越接近1,表明這兩個(gè)向量的方向越趨同。巧的是,在文本分類的語(yǔ)境下,向量的方向往往代表了新聞稿的“內(nèi)容指向”(即所屬類別)。因此,通過(guò)比較這些向量間夾角的余弦值,我們能夠有效地判斷兩篇新聞稿在內(nèi)容上是否傾向于屬于同一類別。

這里再提一下,在文本分類的場(chǎng)景下,特征向量里的每個(gè)值都是字或詞對(duì)應(yīng)的TF-IDF值,又由于TF-IDF的計(jì)算方式確保了其值始終為正或零(零值表示該詞在文檔集中不常見(jiàn)或完全未出現(xiàn)),因此基于TF-IDF構(gòu)建的特征向量中的每個(gè)元素也都是非負(fù)的,最終導(dǎo)致余弦值的取值范圍就在0到1之間。

  • 當(dāng)余弦值為1時(shí),意味著兩個(gè)特征向量在方向上完全一致,即它們指向相同的方向。在文本分類的上下文中,這強(qiáng)烈暗示了兩篇新聞稿在詞匯使用和主題上高度相似,很可能屬于同一類別或具有非常接近的主題。

  • 相反,當(dāng)余弦值為0時(shí),表明兩個(gè)向量完全垂直,即它們?cè)诜较蛏蠜](méi)有任何共同之處。這通常意味著兩篇新聞稿在詞匯選擇、主題表達(dá)或信息內(nèi)容上差異顯著,幾乎可以斷定它們屬于不同的類別或討論完全不相關(guān)的主題。

b37bc50071e74a5a8048314eca88785a.png

?

2.3?簡(jiǎn)化計(jì)算量和提高分類質(zhì)量的方法

2.3.1 向量長(zhǎng)度不用重復(fù)計(jì)算(簡(jiǎn)化計(jì)算量)

343eb3227a9e4a2789ecfa9a718c68db.png

在實(shí)際應(yīng)用中,面對(duì)成千上萬(wàn)待分類的新聞稿,其對(duì)應(yīng)的特征向量數(shù)量龐大,若直接兩兩計(jì)算這些特征向量之間的余弦相似度,將導(dǎo)致計(jì)算量急劇增加。為了優(yōu)化這一過(guò)程,一個(gè)容易想到的方法就是預(yù)先計(jì)算并存儲(chǔ)每個(gè)特征向量的模長(zhǎng)(即余弦公式中的分母部分),這樣,在后續(xù)計(jì)算余弦相似度時(shí),可直接調(diào)用這些預(yù)存模長(zhǎng),避免了重復(fù)計(jì)算向量長(zhǎng)度的開(kāi)銷,從而顯著減少總體計(jì)算量,提高處理效率。

2.3.2 計(jì)算內(nèi)積只考慮非零元素(簡(jiǎn)化計(jì)算量)

在優(yōu)化分母部分之后,針對(duì)分子部分的計(jì)算同樣可以進(jìn)行優(yōu)化。在文本分類的場(chǎng)景中,由于每篇文章使用的詞匯相對(duì)于整個(gè)詞匯表而言非常有限,導(dǎo)致對(duì)應(yīng)的特征向量高度稀疏,即包含大量零值。針對(duì)這一特性,我們可以僅計(jì)算兩個(gè)向量中對(duì)應(yīng)兩側(cè)均為非零元素的乘積,并求和,以得出內(nèi)積。這一過(guò)程可以通過(guò)高效的算法來(lái)識(shí)別并僅處理非零元素的位置,如利用稀疏矩陣的存儲(chǔ)和計(jì)算技巧(如壓縮稀疏行/列格式等),這樣的優(yōu)化策略能夠大幅減少不必要的計(jì)算量。

2.3.4?刪除一些沒(méi)意義的虛詞(簡(jiǎn)化計(jì)算量&提高分類質(zhì)量)

在之前的讀書(shū)筆記中,多次提及諸如【的、地、得、是、和】等虛詞,在凸顯文章中心思想時(shí)其作用微乎其微,甚至可能被視為“噪音”。因此,在構(gòu)建特征向量時(shí),剔除這些虛詞不僅有助于提升文本分類的精度,還能有效減少計(jì)算過(guò)程中的冗余,從而提高整體效率。

2.3.5?位置的加權(quán)(提高分類質(zhì)量)

通常而言,文章標(biāo)題、開(kāi)篇與結(jié)尾段落,以及各段落的首句,在表達(dá)文章主旨時(shí)扮演著更為關(guān)鍵的角色。鑒于此,對(duì)于出現(xiàn)在這些關(guān)鍵位置上的詞匯,我們可以適當(dāng)提高其權(quán)重,以此強(qiáng)化它們對(duì)分類結(jié)果的貢獻(xiàn),從而使得最終的分類判斷更為準(zhǔn)確。

2.4?基于相似度進(jìn)行分類

當(dāng)前,我們已經(jīng)知道了如何計(jì)算每?jī)善侣劯逯g的相似度了。接下來(lái),關(guān)于如何進(jìn)行分類,存在兩種情境,可以直觀地劃分為“有參照分類”“無(wú)參照分類”兩種模式。

2.4.1?有參照分類

在“有參照”分類的情形下,核心在于存在一個(gè)基準(zhǔn)向量,該向量精準(zhǔn)捕捉了某一類別新聞(如金融類)的鮮明特征。通過(guò)將待分類新聞稿的特征向量與此基準(zhǔn)向量進(jìn)行相似度比對(duì),若相似度超過(guò)預(yù)設(shè)的閾值,則該新聞稿即被歸入相應(yīng)類別。此方法直觀且高效,但其關(guān)鍵在于基準(zhǔn)向量的精確選擇與構(gòu)建。

書(shū)中作者未詳述基準(zhǔn)向量的構(gòu)建方法,但經(jīng)過(guò)翻看其他資料,可歸納出幾種常見(jiàn)的策略:一是基于專家知識(shí),由領(lǐng)域內(nèi)專家手動(dòng)定義基準(zhǔn)向量的各維度特征;二是采用聚類算法,從已標(biāo)記的新聞數(shù)據(jù)集中自動(dòng)提取某一類別的中心向量作為基準(zhǔn);三是利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型,通過(guò)訓(xùn)練過(guò)程學(xué)習(xí)并生成能夠代表特定類別的基準(zhǔn)向量。

2.4.2?無(wú)參照分類

在“無(wú)參照”分類的情形中,這一過(guò)程本質(zhì)上與機(jī)器學(xué)習(xí)領(lǐng)域的聚類算法相契合。鑒于缺乏預(yù)定義的基準(zhǔn)向量,系統(tǒng)通過(guò)計(jì)算所有特征向量之間的相似度,并依據(jù)設(shè)定的相似度閾值,自動(dòng)將相互間相似度高的文章聚合成不同的子類別。

這一過(guò)程可迭代進(jìn)行:對(duì)于每個(gè)生成的子類別,我們可以再次應(yīng)用相同的聚類方法,構(gòu)建其對(duì)應(yīng)的代表性特征向量,并基于這些特征向量進(jìn)一步細(xì)分子類別。如此循環(huán)往復(fù),直至所有文章均被歸入某一類別,或達(dá)到預(yù)設(shè)的停止條件,比如當(dāng)類別總數(shù)減少至預(yù)設(shè)的閾值(如5個(gè)或更少)時(shí),迭代過(guò)程終止。這種層次化的聚類方法有助于揭示新聞稿之間的復(fù)雜關(guān)聯(lián)與結(jié)構(gòu)。

f8d919a7500b48ef82564c2fee0b808b.png

3. 用奇異值分解進(jìn)行分類

在利用余弦值進(jìn)行分類的方法中,盡管其原理直觀易懂,但在實(shí)際操作中,尤其是在處理大規(guī)模數(shù)據(jù)集且沒(méi)有預(yù)定義基準(zhǔn)向量的“無(wú)參照”分類場(chǎng)景下,計(jì)算復(fù)雜度顯著上升,對(duì)計(jì)算資源提出了較高要求。為了應(yīng)對(duì)這一挑戰(zhàn),線性代數(shù)中的奇異值分解(Singular Value Decomposition, SVD)技術(shù)便顯得尤為重要。

3.1 定義

具體來(lái)說(shuō),對(duì)于任意一個(gè)?eq?m%5Ctimes%20n?的矩陣?eq?A?,都可以將其分解為三個(gè)特定矩陣的乘積形式:

eq?A_%7Bm%20%5Ctimes%20n%7D%20%3D%20U_%7Bm%20%5Ctimes%20m%7D%5Csum%20_%7Bm%20%5Ctimes%20n%7DV%5E%7BT%7D_%7Bn%20%5Ctimes%20n%7D

其中?eq?U_%7Bm%20%5Ctimes%20m%7D?是?eq?m%5Ctimes%20m?的正交矩陣即矩陣的行(列)向量是單位向量且兩兩正交);?eq?%5Csum%20_%7Bm%20%5Ctimes%20n%7D?是?eq?m%5Ctimes%20n?的對(duì)角矩陣但不一定是方陣,其形狀是矩形的,且對(duì)角線上的元素稱為奇異值,按從大到小排列);eq?V%5E%7BT%7D_%7Bn%20%5Ctimes%20n%7D?是?eq?n%5Ctimes%20n?正交矩陣?eq?V 的轉(zhuǎn)置。

又因?yàn)槠娈愔悼勺鳛榻稻S的判斷依據(jù),因此可以通過(guò)只保留前?eq?k 個(gè)最大的奇異值及其對(duì)應(yīng)的 eq?U_%7Bm%20%5Ctimes%20m%7D?和?eq?V%5E%7BT%7D_%7Bn%20%5Ctimes%20n%7D?中的列向量來(lái)進(jìn)行降維,如下所示:

eq?A_%7Bm%20%5Ctimes%20n%7D%20%3D%20U_%7Bm%20%5Ctimes%20m%7D%5Csum%20_%7Bm%20%5Ctimes%20n%7DV%5E%7BT%7D_%7Bn%20%5Ctimes%20n%7D%5Capprox%20U_%7Bm%20%5Ctimes%20k%7D%5Csum%20_%7Bk%20%5Ctimes%20k%7DV%5E%7BT%7D_%7Bk%20%5Ctimes%20n%7D

因?yàn)?eq?k?遠(yuǎn)小于?eq?n?,因此一個(gè)可能巨大的?eq?A_%7Bm%20%5Ctimes%20n%7D?就可以巧妙地用不那么大的三個(gè)矩陣來(lái)共同表示,起到減少計(jì)算量的作用,如下圖所示,具體分解的算法也很簡(jiǎn)單,網(wǎng)上都能找到,這里就不贅述。

3037a781a650488b9d0418a2f5c2f503.png

3.2 在文本分類里的作用

如下圖所示,在這個(gè)矩陣中,每一行對(duì)應(yīng)一篇文章,每一列對(duì)應(yīng)一個(gè)詞,如果有?eq?N 個(gè)詞,eq?M?篇文章,則得到一個(gè)?eq?M%5Ctimes%20N?的矩陣,其中每個(gè)元素?eq?a_%7Bij%7D?可以是我們前面談到的TF-IDF值。

d74fd5b9920f4a60bf128aac7cdb0050.png

假設(shè)上面的?eq?M?等于1000000(即有100萬(wàn)篇新聞稿),?eq?N?等于500000(即詞匯表里有50萬(wàn)個(gè)詞),利用奇異值分解的算法,再選擇前100個(gè)奇異值后,可以將上面的?eq?A?變換成下面的形式:

22022e5b7bb94037a2bc8eedb0144a8e.png

矩陣?eq?X?的每一行代表一篇新聞稿,每一列代表一個(gè)主題,其中的元素表示對(duì)應(yīng)的某篇新聞稿與某個(gè)主題類的相似度;矩陣?eq?Y?的每一行代表一個(gè)主題,每一列代表一個(gè)詞匯,其中的元素表示對(duì)應(yīng)的某個(gè)詞匯與某個(gè)語(yǔ)義類的相似度;矩陣?eq?B?則表示主題類與語(yǔ)義類之間相互的關(guān)系。

可以看到,只需對(duì)矩陣?eq?A?進(jìn)行一次奇異值分解,就可以同時(shí)完成【近義詞分類】、【文章的分類】、【主題類與語(yǔ)義類的相關(guān)性】。

在分類任務(wù)中,當(dāng)采用余弦定理進(jìn)行分類時(shí),尤其是無(wú)參考分類場(chǎng)景下,往往需經(jīng)歷多輪迭代以優(yōu)化分類效果,這一過(guò)程相對(duì)復(fù)雜且耗時(shí)。相比之下,奇異值分解(SVD)以其單次計(jì)算即可完成分解的優(yōu)勢(shì),無(wú)需迭代過(guò)程,使得其應(yīng)用更為高效、直接。

4. 余弦定理與奇異值分解的關(guān)系

讀到這里,面對(duì)SVD的高效與直接性,部分同學(xué)或許會(huì)質(zhì)疑余弦定理的必要性?然而,需明確的是,SVD雖無(wú)需迭代、計(jì)算快捷,但其分類精度相對(duì)粗略。

作者建議了一種高效策略:首先利用SVD進(jìn)行初步分類,以快速縮小范圍(達(dá)到降維的作用);隨后,基于這些粗分類結(jié)果,采用計(jì)算向量余弦的方法進(jìn)行精細(xì)調(diào)整,通過(guò)少數(shù)幾輪迭代,實(shí)現(xiàn)分類精度的顯著提升。這種策略巧妙結(jié)合了SVD的速度優(yōu)勢(shì)和余弦定理的精度優(yōu)勢(shì),既縮短了整體處理時(shí)間,又確保了分類結(jié)果的準(zhǔn)確性。

?

http://www.risenshineclean.com/news/57912.html

相關(guān)文章:

  • wordpress 宕機(jī)原因南山網(wǎng)站seo
  • 深圳龍崗區(qū)寶龍街道正規(guī)seo多少錢
  • 長(zhǎng)沙網(wǎng)站開(kāi)發(fā)培訓(xùn)學(xué)校百度客戶端下載安裝
  • 做網(wǎng)站用html網(wǎng)絡(luò)營(yíng)銷師有前途嗎
  • 做企業(yè)網(wǎng)站備案都需要什么資料廈門seo優(yōu)化外包公司
  • 網(wǎng)站開(kāi)發(fā)女生工資網(wǎng)絡(luò)營(yíng)銷專業(yè)主要學(xué)什么
  • ios軟件下載網(wǎng)站成都網(wǎng)站快速排名
  • 免費(fèi)創(chuàng)造網(wǎng)站杭州seo排名優(yōu)化外包
  • 經(jīng)典網(wǎng)站案例百度搜索大數(shù)據(jù)
  • 電商設(shè)計(jì)工資seo工程師是做什么的
  • 廣東省建設(shè)監(jiān)理協(xié)會(huì)信息管理網(wǎng)站如何在網(wǎng)上推廣自己的產(chǎn)品
  • 中國(guó)石化工程建設(shè)有限公司南昌seo技術(shù)外包
  • 科技網(wǎng)站推薦湘潭營(yíng)銷型網(wǎng)站建設(shè)
  • 網(wǎng)站開(kāi)發(fā)組崗位提高網(wǎng)站權(quán)重的方法
  • 文網(wǎng)站建設(shè)費(fèi)用計(jì)入什么科目鳳山網(wǎng)站seo
  • 用竹片做的網(wǎng)站網(wǎng)站的推廣方式
  • 如何找人幫我做網(wǎng)站推廣在百度怎么創(chuàng)建自己的網(wǎng)站
  • 重慶的主要的網(wǎng)站女教師遭網(wǎng)課入侵視頻大全
  • 做中東服裝有什么網(wǎng)站衡陽(yáng)百度推廣
  • 大學(xué)校園門戶網(wǎng)站建設(shè)怎么開(kāi)設(shè)自己的網(wǎng)站
  • 網(wǎng)絡(luò)培訓(xùn)的網(wǎng)站建設(shè)注冊(cè)網(wǎng)站在哪里注冊(cè)
  • 做淘寶客為什么要建網(wǎng)站西安seo診斷
  • 成都網(wǎng)站建設(shè) 小兵cms網(wǎng)上推廣培訓(xùn)
  • 東莞長(zhǎng)安網(wǎng)站設(shè)計(jì)深圳網(wǎng)站seo哪家快
  • 網(wǎng)上書(shū)城網(wǎng)站開(kāi)發(fā)說(shuō)明書(shū)百度人工服務(wù)熱線24小時(shí)
  • 肥鄉(xiāng)縣建設(shè)局網(wǎng)站四川seo快速排名
  • wordpress主題存放位置青島seo推廣
  • 做調(diào)查的有哪些網(wǎng)站沈陽(yáng)百度seo
  • 華為網(wǎng)站建站網(wǎng)站seo關(guān)鍵詞設(shè)置
  • 南京品牌網(wǎng)站開(kāi)發(fā)模板百度旗下有哪些app