怎么做阿里巴巴官網(wǎng)站模板建站教程
爬蟲專欄:http://t.csdnimg.cn/WfCSx
文件存儲(chǔ)形式多種多樣,比如可以保存成 TXT 純文本形式,也可以保存為 JSON 格式、CSV 格式等,本節(jié)就來了解一下文本文件的存儲(chǔ)方式。
TXT 文本存儲(chǔ)
將數(shù)據(jù)保存到 TXT 文本的操作非常簡單,而且 TXT 文本幾乎兼容任何平臺(tái),但是這有個(gè)缺點(diǎn),那就是不利于檢索。所以如果對(duì)檢索和數(shù)據(jù)結(jié)構(gòu)要求不高,追求方便第一的話,可以采用 TXT 文本存儲(chǔ)。本節(jié)中,我們就來看下如何利用 Python 保存 TXT 文本文件。
1. 本節(jié)目標(biāo)
本節(jié)中,我們要保存知乎上 “發(fā)現(xiàn)” 頁面的 “熱門話題” 部分,將其問題和答案統(tǒng)一保存成文本形式。
2. 基本實(shí)例
首先,可以用 requests 將網(wǎng)頁源代碼獲取下來,然后使用 pyquery 解析庫解析,接下來將提取的標(biāo)題、回答者、回答保存到文本,代碼如下:
import requests from pyquery import PyQuery as pq ? url = 'https://www.zhihu.com/explore' headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } html = requests.get(url, headers=headers).text doc = pq(html) items = doc('.explore-tab .feed-item').items() for item in items:question = item.find('h2').text()author = item.find('.author-link-line').text()answer = pq(item.find('.content').html()).text()file = open('explore.txt', 'a', encoding='utf-8')file.write('\n'.join([question, author, answer]))file.write('\n' + '=' * 50 + '\n')file.close()
這里主要是為了演示文件保存的方式,因此 requests 異常處理部分在此省去。首先,用 requests 提取知乎的 “發(fā)現(xiàn)” 頁面,然后將熱門話題的問題、回答者、答案全文提取出來,然后利用 Python 提供的 open 方法打開一個(gè)文本文件,獲取一個(gè)文件操作對(duì)象,這里賦值為 file,接著利用 file 對(duì)象的 write 方法將提取的內(nèi)容寫入文件,最后調(diào)用 close 方法將其關(guān)閉,這樣抓取的內(nèi)容即可成功寫入文本中了。
運(yùn)行程序,可以發(fā)現(xiàn)在本地生成了一個(gè) explore.txt 文件,其內(nèi)容如圖所示。
這樣熱門問答的內(nèi)容就被保存成文本形式了。
這里 open 方法的第一個(gè)參數(shù)即要保存的目標(biāo)文件名稱,第二個(gè)參數(shù)為 a,代表以追加方式寫入到文本。另外,我們還指定了文件的編碼為 utf-8。最后,寫入完成后,還需要調(diào)用 close 方法來關(guān)閉文件對(duì)象。
3. 打開方式
在剛才的實(shí)例中,open 方法的第二個(gè)參數(shù)設(shè)置成了 a,這樣在每次寫入文本時(shí)不會(huì)清空源文件,而是在文件末尾寫入新的內(nèi)容,這是一種文件打開方式。關(guān)于文件的打開方式,其實(shí)還有其他幾種,這里簡要介紹一下。
-
r:以只讀方式打開文件。文件的指針將會(huì)放在文件的開頭。這是默認(rèn)模式。
-
rb:以二進(jìn)制只讀方式打開一個(gè)文件。文件指針將會(huì)放在文件的開頭。
-
r+:以讀寫方式打開一個(gè)文件。文件指針將會(huì)放在文件的開頭。
-
rb+:以二進(jìn)制讀寫方式打開一個(gè)文件。文件指針將會(huì)放在文件的開頭。
-
w:以寫入方式打開一個(gè)文件。如果該文件已存在,則將其覆蓋。如果該文件不存在,則創(chuàng)建新文件。
-
wb:以二進(jìn)制寫入方式打開一個(gè)文件。如果該文件已存在,則將其覆蓋。如果該文件不存在,則創(chuàng)建新文件。
-
w+:以讀寫方式打開一個(gè)文件。如果該文件已存在,則將其覆蓋。如果該文件不存在,則創(chuàng)建新文件。
-
wb+:以二進(jìn)制讀寫格式打開一個(gè)文件。如果該文件已存在,則將其覆蓋。如果該文件不存在,則創(chuàng)建新文件。
-
a:以追加方式打開一個(gè)文件。如果該文件已存在,文件指針將會(huì)放在文件結(jié)尾。也就是說,新的內(nèi)容將會(huì)被寫入到已有內(nèi)容之后。如果該文件不存在,則創(chuàng)建新文件來寫入。
-
ab:以二進(jìn)制追加方式打開一個(gè)文件。如果該文件已存在,則文件指針將會(huì)放在文件結(jié)尾。也就是說,新的內(nèi)容將會(huì)被寫入到已有內(nèi)容之后。如果該文件不存在,則創(chuàng)建新文件來寫入。
-
a+:以讀寫方式打開一個(gè)文件。如果該文件已存在,文件指針將會(huì)放在文件的結(jié)尾。文件打開時(shí)會(huì)是追加模式。如果該文件不存在,則創(chuàng)建新文件來讀寫。
-
ab+:以二進(jìn)制追加方式打開一個(gè)文件。如果該文件已存在,則文件指針將會(huì)放在文件結(jié)尾。如果該文件不存在,則創(chuàng)建新文件用于讀寫。
4. 簡化寫法
另外,文件寫入還有一種簡寫方法,那就是使用 with as 語法。在 with 控制塊結(jié)束時(shí),文件會(huì)自動(dòng)關(guān)閉,所以就不需要再調(diào)用 close 方法了。這種保存方式可以簡寫如下:
with open('explore.txt', 'a', encoding='utf-8') as file:file.write('\n'.join([question, author, answer]))file.write('\n' + '=' * 50 + '\n')
如果想保存時(shí)將原文清空,那么可以將第二個(gè)參數(shù)改寫為 w,代碼如下:
with open('explore.txt', 'w', encoding='utf-8') as file:file.write('\n'.join([question, author, answer]))file.write('\n' + '=' * 50 + '\n')
上面便是利用 Python 將結(jié)果保存為 TXT 文件的方法,這種方法簡單易用,操作高效,是一種最基本的保存數(shù)據(jù)的方法。
JSON 文件存儲(chǔ)
JSON,全稱為 JavaScript Object Notation, 也就是 JavaScript 對(duì)象標(biāo)記,它通過對(duì)象和數(shù)組的組合來表示數(shù)據(jù),構(gòu)造簡潔但是結(jié)構(gòu)化程度非常高,是一種輕量級(jí)的數(shù)據(jù)交換格式。本節(jié)中,我們就來了解如何利用 Python 保存數(shù)據(jù)到 JSON 文件。
1. 對(duì)象和數(shù)組
在 JavaScript 語言中,一切都是對(duì)象。因此,任何支持的類型都可以通過 JSON 來表示,例如字符串、數(shù)字、對(duì)象、數(shù)組等,但是對(duì)象和數(shù)組是比較特殊且常用的兩種類型,下面簡要介紹一下它們。
對(duì)象:它在 JavaScript 中是使用花括號(hào) {} 包裹起來的內(nèi)容,數(shù)據(jù)結(jié)構(gòu)為 {key1:value1, key2:value2, ...} 的鍵值對(duì)結(jié)構(gòu)。在面向?qū)ο蟮恼Z言中,key 為對(duì)象的屬性,value 為對(duì)應(yīng)的值。鍵名可以使用整數(shù)和字符串來表示。值的類型可以是任意類型。
數(shù)組:數(shù)組在 JavaScript 中是方括號(hào) [] 包裹起來的內(nèi)容,數(shù)據(jù)結(jié)構(gòu)為 ["java", "javascript", "vb", ...] 的索引結(jié)構(gòu)。在 JavaScript 中,數(shù)組是一種比較特殊的數(shù)據(jù)類型,它也可以像對(duì)象那樣使用鍵值對(duì),但還是索引用得多。同樣,值的類型可以是任意類型。
所以,一個(gè) JSON 對(duì)象可以寫為如下形式:
[{"name": "Bob","gender": "male","birthday": "1992-10-18" }, {"name": "Selina","gender": "female","birthday": "1995-10-18" }]
由中括號(hào)包圍的就相當(dāng)于列表類型,列表中的每個(gè)元素可以是任意類型,這個(gè)示例中它是字典類型,由大括號(hào)包圍。
JSON 可以由以上兩種形式自由組合而成,可以無限次嵌套,結(jié)構(gòu)清晰,是數(shù)據(jù)交換的極佳方式。
2. 讀取 JSON
Python 為我們提供了簡單易用的 JSON 庫來實(shí)現(xiàn) JSON 文件的讀寫操作,我們可以調(diào)用 JSON 庫的 loads 方法將 JSON 文本字符串轉(zhuǎn)為 JSON 對(duì)象,可以通過 dumps() 方法將 JSON 對(duì)象轉(zhuǎn)為文本字符串。
例如,這里有一段 JSON 形式的字符串,它是 str 類型,我們用 Python 將其轉(zhuǎn)換為可操作的數(shù)據(jù)結(jié)構(gòu),如列表或字典:
import json ? str = ''' [{"name": "Bob","gender": "male","birthday": "1992-10-18" }, {"name": "Selina","gender": "female","birthday": "1995-10-18" }] ''' print(type(str)) data = json.loads(str) print(data) print(type(data))
運(yùn)行結(jié)果如下:
<class'str'> [{'name': 'Bob', 'gender': 'male', 'birthday': '1992-10-18'}, {'name': 'Selina', 'gender': 'female', 'birthday': '1995-10-18'}] <class 'list'>
這里使用 loads 方法將字符串轉(zhuǎn)為 JSON 對(duì)象。由于最外層是中括號(hào),所以最終的類型是列表類型。
這樣一來,我們就可以用索引來獲取對(duì)應(yīng)的內(nèi)容了。例如,如果想取第一個(gè)元素里的 name 屬性,就可以使用如下方式:
data[0]['name'] data[0].get('name')
得到的結(jié)果都是:
Bob
通過中括號(hào)加 0 索引,可以得到第一個(gè)字典元素,然后再調(diào)用其鍵名即可得到相應(yīng)的鍵值。獲取鍵值時(shí)有兩種方式,一種是中括號(hào)加鍵名,另一種是通過 get 方法傳入鍵名。這里推薦使用 get 方法,這樣如果鍵名不存在,則不會(huì)報(bào)錯(cuò),會(huì)返回 None。另外,get 方法還可以傳入第二個(gè)參數(shù)(即默認(rèn)值),示例如下:
data[0].get('age') data[0].get('age', 25)
運(yùn)行結(jié)果如下:
None 25
這里我們嘗試獲取年齡 age,其實(shí)在原字典中該鍵名不存在,此時(shí)默認(rèn)會(huì)返回 None。如果傳入第二個(gè)參數(shù)(即默認(rèn)值),那么在不存在的情況下返回該默認(rèn)值。
值得注意的是,JSON 的數(shù)據(jù)需要用雙引號(hào)來包圍,不能使用單引號(hào)。例如,若使用如下形式表示,則會(huì)出現(xiàn)錯(cuò)誤:
import json ? str = ''' [{'name': 'Bob','gender': 'male','birthday': '1992-10-18' }] ''' data = json.loads(str)
運(yùn)行結(jié)果如下:
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 3 column 5 (char 8)
這里會(huì)出現(xiàn) JSON 解析錯(cuò)誤的提示。這是因?yàn)檫@里數(shù)據(jù)用單引號(hào)來包圍,請(qǐng)千萬注意 JSON 字符串的表示需要用雙引號(hào),否則 loads 方法會(huì)解析失敗。
如果從 JSON 文本中讀取內(nèi)容,例如這里有一個(gè) data.json 文本文件,其內(nèi)容是剛才定義的 JSON 字符串,我們可以先將文本文件內(nèi)容讀出,然后再利用 loads 方法轉(zhuǎn)化:
import json ? with open('data.json', 'r') as file:str = file.read()data = json.loads(str)print(data)
運(yùn)行結(jié)果如下:
[{'name': 'Bob', 'gender': 'male', 'birthday': '1992-10-18'}, {'name': 'Selina', 'gender': 'female', 'birthday': '1995-10-18'}]
3. 輸出 JSON
另外,我們還可以調(diào)用 dumps 方法將 JSON 對(duì)象轉(zhuǎn)化為字符串。例如,將上例中的列表重新寫入文本:
import json ? data = [{'name': 'Bob','gender': 'male','birthday': '1992-10-18' }] with open('data.json', 'w') as file:file.write(json.dumps(data))
利用 dumps 方法,我們可以將 JSON 對(duì)象轉(zhuǎn)為字符串,然后再調(diào)用文件的 write 方法寫入文本,結(jié)果如圖所示。
另外,如果想保存 JSON 的格式,可以再加一個(gè)參數(shù) indent,代表縮進(jìn)字符個(gè)數(shù)。示例如下:
with open('data.json', 'w') as file:file.write(json.dumps(data, indent=2))
此時(shí)寫入結(jié)果如圖所示。
這樣得到的內(nèi)容會(huì)自動(dòng)帶縮進(jìn),格式會(huì)更加清晰。
另外,如果 JSON 中包含中文字符,會(huì)怎么樣呢?例如,我們將之前的 JSON 的部分值改為中文,再用之前的方法寫入到文本:
import json ? data = [{'name': ' 王偉 ','gender': ' 男 ','birthday': '1992-10-18' }] with open('data.json', 'w') as file:file.write(json.dumps(data, indent=2))
寫入結(jié)果如圖所示。
可以看到,中文字符都變成了 Unicode 字符,這并不是我們想要的結(jié)果。
為了輸出中文,還需要指定參數(shù) ensure_ascii 為 False,另外還要規(guī)定文件輸出的編碼:
with open('data.json', 'w', encoding='utf-8') as file:file.write(json.dumps(data, indent=2, ensure_ascii=False))
寫入結(jié)果如圖所示。
可以發(fā)現(xiàn),這樣就可以輸出 JSON 為中文了。
本節(jié)中,我們了解了用 Python 進(jìn)行 JSON 文件讀寫的方法,后面做數(shù)據(jù)解析時(shí)經(jīng)常會(huì)用到,建議熟練掌握。
CSV 文件存儲(chǔ)
CSV,全稱為 Comma-Separated Values,中文可以叫作逗號(hào)分隔值或字符分隔值,其文件以純文本形式存儲(chǔ)表格數(shù)據(jù)。該文件是一個(gè)字符序列,可以由任意數(shù)目的記錄組成,記錄間以某種換行符分隔。每條記錄由字段組成,字段間的分隔符是其他字符或字符串,最常見的是逗號(hào)或制表符。不過所有記錄都有完全相同的字段序列,相當(dāng)于一個(gè)結(jié)構(gòu)化表的純文本形式。它比 Excel 文件更加簡潔,XLS 文本是電子表格,它包含了文本、數(shù)值、公式和格式等內(nèi)容,而 CSV 中不包含這些內(nèi)容,就是特定字符分隔的純文本,結(jié)構(gòu)簡單清晰。所以,有時(shí)候用 CSV 來保存數(shù)據(jù)是比較方便的。本節(jié)中,我們來講解 Python 讀取和寫入 CSV 文件的過程。
1. 寫入
這里先看一個(gè)最簡單的例子:
import csv ? with open('data.csv', 'w') as csvfile:writer = csv.writer(csvfile)writer.writerow(['id', 'name', 'age'])writer.writerow(['10001', 'Mike', 20])writer.writerow(['10002', 'Bob', 22])writer.writerow(['10003', 'Jordan', 21])
首先,打開 data.csv 文件,然后指定打開的模式為 w(即寫入),獲得文件句柄,隨后調(diào)用 csv 庫的 writer 方法初始化寫入對(duì)象,傳入該句柄,然后調(diào)用 writerow 方法傳入每行的數(shù)據(jù)即可完成寫入。
運(yùn)行結(jié)束后,會(huì)生成一個(gè)名為 data.csv 的文件,此時(shí)數(shù)據(jù)就成功寫入了。直接以文本形式打開的話,其內(nèi)容如下:
id,name,age 10001,Mike,20 10002,Bob,22 10003,Jordan,21
可以看到,寫入的文本默認(rèn)以逗號(hào)分隔,調(diào)用一次 writerow 方法即可寫入一行數(shù)據(jù)。用 Excel 打開的結(jié)果如圖所示。
如果想修改列與列之間的分隔符,可以傳入 delimiter 參數(shù),其代碼如下:
import csv ? with open('data.csv', 'w') as csvfile:writer = csv.writer(csvfile, delimiter=' ')writer.writerow(['id', 'name', 'age'])writer.writerow(['10001', 'Mike', 20])writer.writerow(['10002', 'Bob', 22])writer.writerow(['10003', 'Jordan', 21])
這里在初始化寫入對(duì)象時(shí)傳入 delimiter 為空格,此時(shí)輸出結(jié)果的每一列就是以空格分隔了,內(nèi)容如下:
id name age 10001 Mike 20 10002 Bob 22 10003 Jordan 21
另外,我們也可以調(diào)用 writerows 方法同時(shí)寫入多行,此時(shí)參數(shù)就需要為二維列表,例如:
import csv ? with open('data.csv', 'w') as csvfile:writer = csv.writer(csvfile)writer.writerow(['id', 'name', 'age'])writer.writerows([['10001', 'Mike', 20], ['10002', 'Bob', 22], ['10003', 'Jordan', 21]])
輸出效果是相同的,內(nèi)容如下:
id,name,age 10001,Mike,20 10002,Bob,22 10003,Jordan,21
但是一般情況下,爬蟲爬取的都是結(jié)構(gòu)化數(shù)據(jù),我們一般會(huì)用字典來表示。在 csv 庫中也提供了字典的寫入方式,示例如下:
import csv ? with open('data.csv', 'w') as csvfile:fieldnames = ['id', 'name', 'age']writer = csv.DictWriter(csvfile, fieldnames=fieldnames)writer.writeheader()writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})
這里先定義 3 個(gè)字段,用 fieldnames 表示,然后將其傳給 DictWriter 來初始化一個(gè)字典寫入對(duì)象,接著可以調(diào)用 writeheader 方法先寫入頭信息,然后再調(diào)用 writerow 方法傳入相應(yīng)字典即可。最終寫入的結(jié)果是完全相同的,內(nèi)容如下:
id,name,age ? 10001,Mike,20 ? 10002,Bob,22 ? 10003,Jordan,21
這樣就可以完成字典到 CSV 文件的寫入了。
另外,如果想追加寫入的話,可以修改文件的打開模式,即將 open 函數(shù)的第二個(gè)參數(shù)改成 a,代碼如下:
import csv ? ? with open('data.csv', 'a') as csvfile: ?fieldnames = ['id', 'name', 'age'] ?writer = csv.DictWriter(csvfile, fieldnames=fieldnames) ?writer.writerow({'id': '10004', 'name': 'Durant', 'age': 22})
這樣在上面的基礎(chǔ)上再執(zhí)行這段代碼,文件內(nèi)容便會(huì)變成:
id,name,age ? 10001,Mike,20 ? 10002,Bob,22 ? 10003,Jordan,21 ? 10004,Durant,22
可見,數(shù)據(jù)被追加寫入到文件中。
如果要寫入中文內(nèi)容的話,可能會(huì)遇到字符編碼的問題,此時(shí)需要給 open 參數(shù)指定編碼格式。比如,這里再寫入一行包含中文的數(shù)據(jù),代碼需要改寫如下:
import csv ? with open('data.csv', 'a') as csvfile:fieldnames = ['id', 'name', 'age']writer = csv.DictWriter(csvfile, fieldnames=fieldnames)writer.writerow({'id': '10004', 'name': 'Durant', 'age': 22})
這里需要給 open 函數(shù)指定編碼,否則可能發(fā)生編碼錯(cuò)誤。
另外,如果接觸過 pandas 等庫的話,可以調(diào)用 DataFrame 對(duì)象的 to_csv 方法來將數(shù)據(jù)寫入 CSV 文件中。
2. 讀取
我們同樣可以使用 csv 庫來讀取 CSV 文件。例如,將剛才寫入的文件內(nèi)容讀取出來,相關(guān)代碼如下:
import csv ? ? with open('data.csv', 'r', encoding='utf-8') as csvfile: ?reader = csv.reader(csvfile) ?for row in reader: ?print(row)
運(yùn)行結(jié)果如下:
['id', 'name', 'age'] ? ['10001', 'Mike', '20'] ? ['10002', 'Bob', '22'] ? ['10003', 'Jordan', '21'] ? ['10004', 'Durant', '22'] ? ['10005', ' 王偉 ', '22']
這里我們構(gòu)造的是 Reader 對(duì)象,通過遍歷輸出了每行的內(nèi)容,每一行都是一個(gè)列表形式。注意,如果 CSV 文件中包含中文的話,還需要指定文件編碼。
另外,如果接觸過 pandas 的話,可以利用 read_csv 方法將數(shù)據(jù)從 CSV 中讀取出來,例如:
import pandas as pd ? ? df = pd.read_csv('data.csv') ? print(df)
運(yùn)行結(jié)果如下:
? ? id ? name age ? 0 10001 ? Mike ? 20 ? 1 10002 ? ? Bob ? 22 ? 2 10003 Jordan ? 21 ? 3 10004 Durant ? 22 ? 4 10005 ? 王偉 ? 22
在做數(shù)據(jù)分析的時(shí)候,此種方法用得比較多,也是一種比較方便地讀取 CSV 文件的方法。