當前位置：首頁 > news >正文

做感恩網站的圖片廣州網頁seo排名

news 2025/7/6 8:31:06

做感恩網站的圖片,廣州網頁seo排名,wordpress首頁刷新,南京建網站1、KG定義 1.1 背景知識人工智能分為三個層次，分別是運算智能，感知智能和認知智能。運算智能是讓機器能存會算；感知智能是讓機器能聽會說、能看會認；認知智能是解決機器能理解會思考的問題。由于知識圖譜的數據組織方式是計算機…

1、KG定義

1.1 背景知識

????????人工智能分為三個層次，分別是運算智能，感知智能和認知智能。運算智能是讓機器能存會算；感知智能是讓機器能聽會說、能看會認；認知智能是解決機器能理解會思考的問題。由于知識圖譜的數據組織方式是計算機能理解的，認知智能需要知識圖譜。????????

?1.2 知識圖譜概念

? ? ? ? KG（Knowledge Graph/Vault），又稱科學知識圖譜，用各種不同的圖形等可視化技術描述知識資源及其載體，挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。

????????下面提供兩條相對準確的定義以供參考。

????????定義1（Ehrlinger et al.）：A knowledge graph acquires and integrates information into an ontology and applies a reasoner to derive new knowledge.?知識圖譜獲取信息并將其集成到本體中，并應用推理器來獲取新知識。

????????定義2（Wang et al.）：A knowledge graph is a multi-relational graph composed of entities and relations which are regarded as nodes and different types of edges, respectively.?知識圖譜是由實體和關系組成的多關系圖，實體和關系分別被視為節(jié)點和不同類型的邊。

? ? ? ?KG可以看作圖，圖由節(jié)點和邊組成。節(jié)點表示?抽象的概念（如人工智能、知識圖譜等）或是實體（如一個人、一本書等）。邊可以是實體的屬性（如姓名、書名）或是實體之間的關系（如朋友、配偶）。

? ? ? ?KG的發(fā)展經理了從邏輯知識--> 詞典--> 知識圖的歷程，其本質是海量信息無序-->有序-->有用。

????????典型應用：維基百科、DBpedia、Yago、清華大學XLORE。

1.3?相關術語

概念：具有同等性質的實體構成的集合，用來表示集合、類別、對象類型、事務的種類等。

與WordNet等早起本體知識構建不同，現有方法多在傳統分類法中結合大眾分類和機器學習來構建語義網絡分類體系。

實體：具有可區(qū)分且獨立存在的某種事物，實體是KG中的最基本元素。

屬性：是對概念和實體外延或者內涵的描述。

屬性值：對象、屬性的值。

關系：把圖中節(jié)點映射到布爾值的函數。

內容：作為實體和語義類的解釋，用文本或音視頻來表達。

從DBpedia可以看出，概念的增長緩慢，但是屬性增長很快。

2、KG的表示

KG中的每兩個節(jié)點和節(jié)點之間的連線構成了三元組，三元組是KG的一種通用表示方法。

主要包括兩種形式：

1.?“實體-關系-實體”，比如中國-首都-北京

2.“實體-屬性-屬性值”，比如北京-人口-2069萬人

還包括“is-a ” 和 “subclass-of”兩類。

????????KG由一條條知識組成，每條知識表示為一個SPO（Subject-Predicate-Object，主謂賓三元組）即：資源-屬性-屬性值

????????知識圖譜分為模式層和數據層。模式層是數據的模式，是對數據層的提煉。數據層是具體的數據。

舉個例子

3、KG的存儲與查詢

? ? ? ? 3.1基于RDF結構

????????RDF（Resource Description FrameWork，資源描述框架），RDF是使用XML語法來表示的數據模型。RDF的功能是用以三元組的形式于描述資源的特性以及資源之間的關系，一種以文本的形式逐行存儲三元組數據。

????????可以利用關系型數據庫對知識圖譜進行存儲。我們可以將圖數據用三元組表示，將每一個三元組作為表中的一行記錄。
????????下面是查詢生于1850年，死于1934年，創(chuàng)建過公司的人。
????????采用關系型數據庫存儲，多跳查詢會產生自連接（self-join）操作。
????????比如A->B為一跳，A->B->C為兩跳。? ?? ????????也可以采用水平表的方式進行存儲，每一行存儲一個主語對應的所有的謂語和賓語。這種存儲方式適合于謂詞較少的知識圖譜。
????????主語一般只在極少的列上有值，導致存儲空間浪費。
????????并且這種存儲方式很難存儲多值屬性或者一對多關系。
????????比如函數的三要素是定義域、值域和對應法則，用水平表存儲這種多值屬性，需要對值拼接后才能存儲。????????

????????也可以按照實體的類型對知識圖譜進行劃分，這種方式適合于實體類別較少的情況。
同樣地，存儲多值屬性或一對多關系需要對值進行拼接。????????

????????也可以根據謂詞對知識圖譜進行劃分。對每一個謂詞創(chuàng)建一張表。這種方式解決了數據存儲稀疏性問題，也可以存儲多值屬性。但是涉及多個謂詞的查詢會導致多表連接操作。????????

????????3.2 基于圖數據庫

? ? ? ? 免費開源的圖數據庫例如Neo4j、JanusGraph、Nebula Graph等。

? ? ? ? 3.2.1 數據存儲

????????圖數據庫是以圖的方式來保存的，圖數據庫的優(yōu)點在于查詢和搜索的速度比較快，并且在圖數據庫中實體節(jié)點可以保留屬性，這就意味著實體可以保留更多的信息，此外圖數據庫像其他的關系數據庫一樣有完整的查詢語句，支持大多數的圖挖掘算法。

????????目前使用范圍最廣的圖數據庫為Neo4j。

? ? ? ? 屬性圖(property graph)是圖數據庫中最常用的數據模型，由節(jié)點和邊構成。
????????比如下面這幅圖，有三個節(jié)點，每個節(jié)點表示一個對象。
????????第一個節(jié)點的標簽是Employee，這個節(jié)點的屬性用鍵值對存儲，比如姓名為Amy peters, 出生日期為1984年3月1日，ID為1。
????????Company 和 Employee之間有邊HAS_CEO，邊上也可以有屬性，比如Company has CEO 開始日期為2008年。

????????

? ? ? ? 3.2.2 數據查詢
????????下面是一個圖數據庫查詢1號節(jié)點認識的節(jié)點中，年齡大于30的節(jié)點參加過的項目。

????????其中Gremlin和Cypher是圖數據庫兩種查詢語言。Gremlin是過程式（procedural）語言；用戶需指明具體的導航步驟，也就是在圖上怎么走；它是業(yè)界標準查詢語言，除了Neo4j外，幾乎所有圖數據庫均支持。Cypher是Neo4j專用語言，它是聲明式（declarative）語言；用戶只需聲明“查什么”, 無需關心“怎么查”。

????????

? ? ? ? 兩種方式的特性對比如下：

4、KG的構建

? ? ? ?4.1 構建概述

????????從數據來源來說，包括從結構化，半結構化和非結構化的海量數據中抽取知識，構建圖譜。

????????按構建者分，可以分為眾包構建和自動化構建。眾包構建，就是利用許多人進行編輯，構建知識圖譜，維基百科，百度百科都是眾包構建的。自動化構建，就是利用機器進行自動構建。
????????按構建方式分，可以分為自上而下的構建和自下而上的構建。????????

????????斯坦福大學醫(yī)學院開發(fā)的七步法，用于領域本體構建。七步驟為：

????????1.確定領域本體的范疇；

????????2.復用現有的本體；

????????3.列出領域內的術語；

????????4.定義類和類的等級關系；

????????5.定義類的屬性；

????????6.定義屬性的限制；屬性的限制包括：屬性的基數，屬性值的類型，以及屬性的定義域和值域。

????????7.填充實例。? ? ?

????????知識圖譜的構建分為眾包構建和自動化構建。由于眾包構建涉及技術較少。我們這里主要介紹自動化構建。
????????這是知識圖譜自動化構建的流程。
????????首先從數據庫，百科網站，垂直網站等數據來源獲取結構化，半結構化，和非結構化數據。
????????對非結構化數據和半結構化數據進行實體抽取，關系抽取，屬性抽取，并與結構化數據進行整合，形成初步的三元組知識。
????????然后通過實體消歧得到標準知識表示。
????????對標準知識構建本體，形成數據模型。
????????對知識進行推理，發(fā)現新的知識。
????????對知識進行質量評估，從而進行質量控制。
????????對知識圖譜添加新的實體，或者修改舊的實體，對知識圖譜進行更新。
????????對構建好的知識圖譜進行存儲，方便下游應用。
????????對知識圖譜進行表示學習，將知識圖譜離散的符號轉化為連續(xù)的數值。
????????對知識圖譜進行應用，主要包括內容理解，搜索，推薦，問答等應用。

????????

框圖來源：?如何從零構建知識圖譜？三分鐘帶你快速了解知識圖譜的架構與邏輯！_嗶哩嗶哩_bilibili

4.2?KG的數據源

????????包括結構化數據、半結構化數據及非結構化數據三大種類。

4.3? 知識抽取

? ? ? ? 知識抽取方法包括：實體識別（命名實體識別 NER）、關系抽取（RE）、屬性抽取

????????非結構化的數據包括文本、視頻、音頻、圖片等，需要對其進行知識抽取，才能進一步建立KG。

????????半結構化數據是介于結構化和非結構化數據之間的一種數據，也需要進行知識抽取。如互動百科。

????????結構化數據，KG通常可以直接利用和轉換，形成基礎數據集，再利用KG補全技術，進一步擴展KG。如 Freebase。

????????其中屬性抽取可以使用python爬蟲爬取百度百科、維基百科等網站，操作較為簡單，因此命名實體識別（NER）和實體關系抽取（RE）是知識抽取中非常重要的部分，命名實體識別與關系抽取是兩個獨立的任務，命名實體識別任務是在一個句子中找出具有可描述意義的實體，而關系抽取則是對兩個實體的關系進行抽取。命名實體識別是關系抽取的前提，關系抽取是建立在實體識別之后。

?4.3.1 實體識別方法

????????對于非結構化數據，先經過預處理，比如全角轉半角等，然后進行分詞，詞性標注，語法解析，依存分析等NLP工具對文本進行解析，進一步進行實體識別，然后關系抽取，實體消歧，事件抽取等構成三元組知識。

? ? ? ? 4.3.1.1 使用CRF完成命名實體識別
????????CRF（Conditional random field，條件隨機場）是一種判別式模型（HMM是生成式模型）。是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型，其特點是假設輸出隨機變量構成馬爾可夫隨機場。

????????實體識別一般建模成序列標注任務。輸入一個序列，經過詞嵌入，和雙向LSTM編碼，然后用CRF進行解碼。其中函數預測的標簽是B-Noun, E-Noun, B和E分別表示mention的開始和結束，Noun表示類型。f(x)預測為表達式，其中I-Expr, I表示Inside, Expr表示表達式。

? ? ? ? ?BIOES標簽: B-begin，I-inside，O-outside，E-end，S-single

? ? ? ? BIO體系：標簽采用“BIO”體系，即實體的第一個字為 B_，其余字為 I_，非實體字統一標記為 O。大部分情況下，標簽體系越復雜，準確度也越高。

? ? ? ?

????????當BERT出現后，由于BERT效果好，常采用BERT來對句子進行編碼。

????????當識別出了文本中的實體，還需要對文本中的實體，兩兩進行關系分類。一般我們會收集并標注一個關系分類的訓練集，來訓練一個模型，然后用模型對測試數據進行預測。

????????比如我們訓練好模型后，對測試數據，集合中的元素有多種特性，包括確定性，互異性，無序性進行預測。我們需要預測元素與確定性之間的關系，預測結果為特性。也就是集合有一個特性是確定性。

由于BERT的興起，常用BERT來做關系分類。

????????技術實現方法：使用pycrfsuite和hanlp完成基于CRF的命名實體識別

????????1）?獲取語料庫：nltk、人民日報、其他公開標注語料

????????2）特征函數：定義特征函數，這里其實更像是定義特征函數的模板，因為真正的特征函數會根據這個定義的模板去生成，而且一般生成的特征函數數量是相當大的，然后通過訓練確定每個特征函數對應的權重。

????????3）訓練模型：接著可以開始創(chuàng)建 Trainer 進行訓練，將語料的每個句子轉成特征及標簽列表，然后設置好 Trainer 的相關參數，并將樣本添加到 Trainer 中開始訓練。最終會將模型保存到model_path中。

????????4）預測：創(chuàng)建 Tagger 并加載模型，即可在測試集中選擇一個的句子打標簽。

????????5）評估：最后是評估我們的模型總體效果，將測試集中所有句子輸入到訓練出來的模型，將得到的預測結果與測試集句子對應的標簽對比，輸出各項指標。

? ? ? ? 4.3.1.2 基于Bilstm+CRF的命名實體識別
????????BiLSTM指的是雙向LSTM；CRF指的是條件隨機場。

????????1）數據預處理：字向量處理：依據字典與標簽字典，將文字與標簽分別轉成數字。第一行是文本，第二行是標簽。

????????2）模型構建：采用雙向LSTM對序列進行處理，將輸出結果進行拼接。

????????3）模型訓練與測試。

????????4）模型驗證

? ? ? ? 4.3.1.3 基于關鍵詞技術的實體抽取
????????基于TextRank的關鍵詞提取技術：

????????算法原理：如果一個單詞出現在很多單詞后面的話，那么說明這個單詞比較重要。一個TextRank值很高的單詞后面跟著的一個單詞，那么這個單詞的TextRank值會相應地因此而提高。

?4.3.2?實體關系抽取

????????實體和實體之間存在著語義關系, 當兩個實體出現在同一個句子里時, 上下文環(huán)境就決定了兩個實體間的語義關系。

????????完整的實體關系包括兩方面：關系類型和關系的參數，關系類型說明了該關系是什么關系, 如雇傭關系、類屬關系等；關系的參數也就是發(fā)生關系的實體，如雇傭關系中的雇員和公司。

????????實體關系抽取問題可以看做一個分類問題。使用有監(jiān)督（標記學習）、半監(jiān)督（統計分析）或無監(jiān)督（聚類方法）等方法進行。實體關系抽取往往關注一個句子內的上下文。

? ? ? ? 實現技術：基于依存句法分析的開放式中文實體關系抽取方法實現：

????????Hanlp分詞HanLP是一系列模型與算法組成的NLP工具包，由大快搜索主導并完全開源，目標是普及自然語言處理在生產環(huán)境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

????????Hanlp提供的功能包括：

? ? ? ? a.中文分詞
? ? ? ? b.詞性標注（pos）
? ? ? ? c.命名實體識別（ner）
? ? ? ? d.關鍵詞提取
? ? ? ? e.自動摘要
? ? ? ? f.短語提取
? ? ? ? g.拼音轉換
? ? ? ? h.簡繁轉換
? ? ? ? i.依存句法分析
? ? ? ? j.word2vec
????????hanlp提供了兩種依存句法分析的器，默認采用的是基于神經網絡的依存句法分析器，另一種為基于最大熵的依存句法分析器。

4.4?知識融合

????????主要任務是實體消歧和指代消解。

????????4.4.1?實體消歧的本質在于一個詞有很多可能的意思，也就是在不同的上下文中所表達的含義不太一樣。實體消歧專門用于解決同名實體產生歧義的問題。

????????4.4.1.1 基于詞典的詞義消歧
????????基于詞典的詞義消歧方法研究的早期代表工作是Lesk 于1986 的工作。給定某個待消解詞及其上下文，該工作的思想是計算語義詞典中各個詞義的定義與上下文之間的覆蓋度，選擇覆蓋度最大的作為待消解詞在其上下文下的正確詞義。但由于詞典中詞義的定義通常比較簡潔，這使得與待消解詞的上下文得到的覆蓋度為0，造成消歧性能不高。

????????4.4.1.2 有監(jiān)督詞義消歧
????????有監(jiān)督的消歧方法使用詞義標注語料來建立消歧模型，研究的重點在于特征的表示。常見的上下文特征可以歸納為三個類型：

????????（1）詞匯特征通常指待消解詞上下窗口內出現的詞及其詞性；

????????（2）句法特征利用待消解詞在上下文中的句法關系特征，如動－賓關系、是否帶主/賓語、主/賓語組塊類型、主/賓語中心詞等；

????????（3）語義特征在句法關系的基礎上添加了語義類信息，如主/賓語中心詞的語義類，甚至還可以是語義角色標注類信息。

????????4.4.1.3 無監(jiān)督和半監(jiān)督詞義消歧
????????雖然有監(jiān)督的消歧方法能夠取得較好的消歧性能，但需要大量的人工標注語料，費時費力。為了克服對大規(guī)模語料的需要，半監(jiān)督或無監(jiān)督方法僅需要少量或不需要人工標注語料。一般說來，雖然半監(jiān)督或無監(jiān)督方法不需要大量的人工標注數據，但依賴于一個大規(guī)模的未標注語料，以及在該語料上的句法分析結果。

? ? ? ? 目前消歧通常涉及聚類法、空間向量模型、語義模型等

4.4.2 指代消解是為了避免代詞指代不清的情況。

4.5?知識推理

????????基于KG的知識推理旨在識別錯誤并從現有的數據中推斷新結論。通過知識推理，可以導出實體間的新關系并反饋以豐富KG，從而支持高級應用。知識推理的方法包括：

????????（1）基于符號邏輯的推理——本體推理

????????（2）基于表運算（Tableaux）及改進的?法： FaCT++、 Racer、 Pellet Hermit等

????????（3）基于Datalog轉換的?法如KAON、 RDFox等????????

????????（4）基于產?式規(guī)則的算法（如rete）： Jena 、 Sesame、 OWLIM等

????????（5）基于圖結構和統計規(guī)則挖掘的推理

????????（6）基于路徑排序學習?法(PRA， Path ranking Algorithm)

????????（7）基于關聯規(guī)則挖掘?法(AMIE)

????????（8）基于知識圖譜表示學習的關系推理:?

????????將實體和關系都表示為向量，通過向量之間的計算代替圖的遍歷和搜索來預測三元組的存在，由于向量的表示已經包含了實體原有的語義信息，計算含有?定的推理能??？蓱?于鏈接預測，基于路徑的多度查詢等。

????????（9）基于概率邏輯的方法

????????概率邏輯學習有時也叫Relational Machine Learning (RML)，關注關系的不確定性和復雜性。

通常使用貝葉斯網絡或者馬爾科夫網絡。

? ? ? ? 4.5 KG的評估

????????構建好了知識圖譜后，我們需要對構建好的知識圖譜進行規(guī)模和質量的評估。規(guī)模一般用知識圖譜中有多少個實體，有多少個關系來描述。

????????質量一般可以用準確率來衡量。由于知識圖譜三元組數量多，我們一般抽取若干個三元組，比如500個，對每一個三元組進行真假判斷，然后統計準確率。
????????右表展示了抽取8個三元組，計算準確率的過程。
????????一般來講，眾包構建的準確率較高，自動化構建的準確率相對較低；領域知識圖譜準確率較高，通用知識圖譜準確率相對較低。

5. 相關賽事

消息理解會議（MUC）
- MUC是由美國DARPA發(fā)起，目的在于鼓勵和開發(fā)信息抽取系統，主要以召回率和精確率來評價信息抽取系統性能的重要指標，一般是基于召回率和精確率來計算法F1值
自動內容抽取（ACE）
- 由美國國家標準技術研究所（NIST）組織的評測會議，主要包括實體檢測與跟蹤、關系檢測與表征、事件檢測與跟蹤，與MUC解決的問題類似，只是對MUC的任務進行融合。
知識庫填充（KBP）
- 由文本分析會議主辦，其目的是開發(fā)和評估從非結構化文本中獲取知識填充知識庫的技術，主要任務包括實體發(fā)現與鏈接、槽填充、事件跟蹤和信念與情感分析。始辦于 2009 年，是國際上影響力最大、水平最高的知識圖譜領域賽事。
語義評測（SemEval）
- 由ACL-SIGLEX組織發(fā)起，是比較早進行實體消歧的評測任務的機構，目的是增進人們對詞義與語義現象的理解，主要包括語義角色標注、情感分析、跨語言語義分析等