網(wǎng)站搭建與網(wǎng)站建設(shè)論文收錄網(wǎng)站排名
【GNN/深度學(xué)習(xí)】常用的圖數(shù)據(jù)集(圖結(jié)構(gòu))
文章目錄
- 【GNN/深度學(xué)習(xí)】常用的圖數(shù)據(jù)集(圖結(jié)構(gòu))
- 1. 介紹
- 2. 圖數(shù)據(jù)集
- 2.1 Cora
- 2.2 Citeseer
- 2.3 Pubmed
- 2.4 DBLP
- 2.5 ACM
- 2.6 AMAP & AMAC
- 2.7 WIKI
- 2.8 COCS
- 2.9 BAT
- 2.10 EAT
- 2.11 UAT
- 2.12 Corafull
- 3. 如何讀取文件
- 4. 下載鏈接
- 5. 參考
1. 介紹
近年來,深度學(xué)習(xí)越來越關(guān)注圖方向的任務(wù),通過利用圖神經(jīng)網(wǎng)絡(luò)去挖掘現(xiàn)實(shí)中各種可以利用圖來表示事物(社交網(wǎng)絡(luò),論文引用網(wǎng)絡(luò),分子結(jié)構(gòu))等等,來學(xué)習(xí)更好的表示,去實(shí)現(xiàn)下游任務(wù)。
- 圖數(shù)據(jù)是由一些點(diǎn)和一些線構(gòu)成的,能表示一些實(shí)體之間的關(guān)系,圖中的點(diǎn)就是實(shí)體,線就是實(shí)體間的關(guān)系。如下圖,v就是頂點(diǎn),e是邊,u是整張圖。attrinbutes(feature)是信息的意思,每個(gè)點(diǎn)、每條邊、每個(gè)圖都是有信息的。
2. 圖數(shù)據(jù)集
下面我們就來介紹深度學(xué)習(xí)中常用的圖數(shù)據(jù)集:Cora、Citeseer(Cite)、Pubmed、DBLP、ACM、AMAP、AMAC、Corafull、WIKI、COCS、BAT、EAT、UAT。
每個(gè)數(shù)據(jù)集都包括:
- label(圖節(jié)點(diǎn)的真實(shí)標(biāo)簽)
- feat(圖節(jié)點(diǎn)的自身屬性)
- adj(圖結(jié)構(gòu)對應(yīng)的鄰接矩陣)
數(shù)據(jù)集的下載鏈接附在后文。
2.1 Cora
Cora數(shù)據(jù)集包括2708份科學(xué)出版物,分為7類。引文網(wǎng)絡(luò)由5429個(gè)鏈接組成。數(shù)據(jù)集中的每個(gè)出版物都由一個(gè)0/1值的詞向量描述,表示字典中對應(yīng)的詞是否存在。這本詞典由1433個(gè)獨(dú)特的單詞組成。
2.2 Citeseer
Citeseer數(shù)據(jù)集包含3312份科學(xué)出版物,分為六類。引文網(wǎng)絡(luò)由4732個(gè)鏈接組成。數(shù)據(jù)集中的每個(gè)出版物都由一個(gè)0/1值的詞向量描述,表示字典中對應(yīng)的詞是否存在。這部詞典由3703個(gè)獨(dú)特的單詞組成。
2.3 Pubmed
Pubmed數(shù)據(jù)集包括Pubmed數(shù)據(jù)庫中有關(guān)糖尿病的19717篇科學(xué)論文,分為三類。引文網(wǎng)絡(luò)由44338個(gè)鏈接組成。數(shù)據(jù)集中的每個(gè)出版物都由字典中的TF/IDF加權(quán)詞向量描述,該字典由500個(gè)唯一的單詞組成。
2.4 DBLP
DBLP數(shù)據(jù)集是來自dblp網(wǎng)站的作者網(wǎng)絡(luò)。如果是共同作者關(guān)系,則兩個(gè)作者之間有一條邊。作者將研究內(nèi)容分為四個(gè)方面:數(shù)據(jù)庫、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和信息檢索。我們根據(jù)每個(gè)作者提交的會議來標(biāo)記他們的研究領(lǐng)域。作者特征是由關(guān)鍵字表示的詞袋中的元素。
2.5 ACM
這是來自ACM數(shù)據(jù)集的論文網(wǎng)絡(luò)。如果兩篇論文是同一作者寫的,那么兩篇論文之間就有一條邊。論文特征是關(guān)鍵詞的詞袋。我們選取在KDD、SIGMOD、SIGCOMM、MobiCOMM上發(fā)表的論文,按研究領(lǐng)域分為數(shù)據(jù)庫、無線通信、數(shù)據(jù)挖掘三類。
2.6 AMAP & AMAC
A-Photo和A-Computers提取自Amazon共購圖,其中節(jié)點(diǎn)表示產(chǎn)品,邊表示兩種產(chǎn)品是否經(jīng)常共購,特征表示用bag-of-words編碼的產(chǎn)品評論,標(biāo)簽是預(yù)定義的產(chǎn)品類別。
2.7 WIKI
維基百科(WIKI)是由世界各地的志愿者創(chuàng)建和編輯的在線百科全書。該數(shù)據(jù)集是由整個(gè)英文維基百科頁面組成的單詞共現(xiàn)網(wǎng)絡(luò)。該數(shù)據(jù)包含2405個(gè)節(jié)點(diǎn),17981條邊和19個(gè)標(biāo)簽。
2.8 COCS
Coauthor-CS和Coauthor-Physics是基于微軟學(xué)術(shù)圖的兩個(gè)包含合著關(guān)系的學(xué)術(shù)網(wǎng)絡(luò)。圖中的節(jié)點(diǎn)表示作者,邊表示合著關(guān)系。在每個(gè)數(shù)據(jù)集中,作者根據(jù)研究領(lǐng)域分別被分為15類和5類,節(jié)點(diǎn)特征是論文關(guān)鍵詞的詞袋表示。
2.9 BAT
數(shù)據(jù)來自國家民航局(ANAC) 2016年1月至12月。它有131個(gè)節(jié)點(diǎn),1038條邊(直徑為5)。機(jī)場活動(dòng)是由相應(yīng)年份的降落和起飛總數(shù)來衡量的。
2.10 EAT
數(shù)據(jù)來自歐盟統(tǒng)計(jì)局(Eurostat) 2016年1月至11月。它有399個(gè)節(jié)點(diǎn),5995條邊(直徑為5)。機(jī)場活動(dòng)是由相應(yīng)時(shí)期的降落加起飛的總數(shù)來衡量的。
2.11 UAT
數(shù)據(jù)來自美國交通統(tǒng)計(jì)局2016年1月至10月。它有1190個(gè)節(jié)點(diǎn),13599條邊(直徑為8)。機(jī)場活動(dòng)是通過相應(yīng)時(shí)期通過機(jī)場(到達(dá)和離開)的總?cè)藬?shù)來衡量的。
2.12 Corafull
Corafull數(shù)據(jù)集包括19793個(gè)節(jié)點(diǎn)、每個(gè)節(jié)點(diǎn)含有8710維的表示;并含有63421條邊,包含70個(gè)類別。
3. 如何讀取文件
解壓之后,放在項(xiàng)目文件下的dataset下,之后便可以利用如下函數(shù)進(jìn)行讀入。
def load_graph_data(dataset_name, show_details=False):"""- Param dataset_name: the name of the datasetshow_details: if show the details of dataset- Return: the features, labels and adj"""load_path = "dataset/" + dataset_name + "/" + dataset_namefeat = np.load(load_path+"_feat.npy", allow_pickle=True)label = np.load(load_path+"_label.npy", allow_pickle=True)adj = np.load(load_path+"_adj.npy", allow_pickle=True)if show_details:print("dataset name: ", dataset_name)print("feature shape: ", feat.shape)print("label shape: ", label.shape)print("adj shape: ", adj.shape)print("undirected edge num: ", int(np.nonzero(adj)[0].shape[0]/2))print("category num: ", max(label)-min(label)+1)print("category distribution: ")for i in range(max(label)+1):print("label", i, end=":")print(len(label[np.where(label == i)]))featur_dim = feat.shape[1]return feat, label, adj
4. 下載鏈接
圖數(shù)據(jù)集下載鏈接
5. 參考
【1】https://github.com/yueliu1999/DCRN