在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

<bdo id="3p14f"><delect id="3p14f"><legend id="3p14f"></legend></delect></bdo>

<style id="3p14f"></style>

<kbd id="3p14f"><dl id="3p14f"><video id="3p14f"></video></dl></kbd>

<address id="3p14f"><nav id="3p14f"></nav></address>

爬蟲利器 Beautiful Soup 之遍歷文檔

用戶投稿 ? 2022年7月7日 09:21 ? 社會(huì)

Beautiful Soup 簡介

Beautiful Soup 是一個(gè)可以從 HTML 或 XML 文件中提取數(shù)據(jù)的 Python 庫，它提供了一些簡單的操作方式來幫助你處理文檔導(dǎo)航，查找，修改文檔等繁瑣的工作。因?yàn)槭褂煤唵?，所?Beautiful Soup 會(huì)幫你節(jié)省不少的工作時(shí)間。

Beautiful Soup 安裝

你可以使用如下命令安裝 Beautiful Soup。二選一即可。

$ easy_install beautifulsoup4$ pip install beautifulsoup4

Beautiful Soup 不僅支持 Python 標(biāo)準(zhǔn)庫中的 HTML 解析器，還支持很多第三方的解析器，比如 lxml，html5lib 等。初始化 Beautiful Soup 對(duì)象時(shí)如果不指定解析器，那么 Beautiful Soup 將會(huì)選擇最合適的解析器（前提是你的機(jī)器安裝了該解析器）來解析文檔，當(dāng)然你也可以手動(dòng)指定解析器。這里推薦大家使用 lxml 解析器，功能強(qiáng)大，方便快捷，而且該解析器是唯一支持 XML 的解析器。

你可以使用如下命令來安裝 lxml 解析器。二選一即可。

$ easy_install lxml$ pip install lxml

Beautiful Soup 小試牛刀

Beautiful Soup 使用來起來非常簡單，你只需要傳入一個(gè)文件操作符或者一段文本即可得到一個(gè)構(gòu)建完成的文檔對(duì)象，有了該對(duì)象之后，就可以對(duì)該文檔做一些我們想做的操作了。而傳入的文本大都是通過爬蟲爬取過來的，所以 Beautiful Soup 和 requests 庫結(jié)合使用體驗(yàn)更佳。

# demo 1from bs4 import BeautifulSoup# soup = BeautifulSoup(open(“index.html”))soup = BeautifulSoup(“indexcontent”, “lxml”) # 指定解析器print(soup.head)# 輸出結(jié)果index

Beautiful Soup 將復(fù)雜的 HTML 文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu)，每個(gè)節(jié)點(diǎn)都是 Python 對(duì)象，所有對(duì)象可以歸納為 4 種: Tag，NavigableString，BeautifulSoup，Comment。

Tag 就是 HTML 的一個(gè)標(biāo)簽，比如 p，p 標(biāo)簽等，也是我們用的最多的一個(gè)對(duì)象。

NavigableString 指標(biāo)簽內(nèi)部的文字，直譯就是可遍歷的字符串。

BeautifulSoup 指一個(gè)文檔的全部內(nèi)容，可以當(dāng)成一個(gè) Tag 來處理。

Comment 是一個(gè)特殊的 NavigableString，其輸出內(nèi)容不包括注視內(nèi)容。

為了故事的順利發(fā)展，我們先定義一串 HTML 文本，下文的所有例子都是基于這段文本的。

html_doc = “””index

我常用的網(wǎng)站GoogleBaiduBing

…

…

“””

子節(jié)點(diǎn)

Tag 有兩個(gè)很重要的屬性，name 和 attributes。期中 name 就是標(biāo)簽的名字，attributes 是標(biāo)簽屬性。標(biāo)簽的名字和屬性是可以被修改的，注意，這種修改會(huì)直接改變 BeautifulSoup 對(duì)象。

# demo 2soup = BeautifulSoup(html_doc, “lxml”);p_tag = soup.pprint(p_tag.name)print(p_tag[“class”])print(p_tag.attrs)p_tag.name=”myTag” # attrs 同樣可被修改，操作同字典print(p_tag)#輸出結(jié)果p[‘title’]{‘class’: [‘title’]}首頁

由以上例子我么可以看出，可以直接通過點(diǎn)屬性的方法來獲取 Tag，但是這種方法只能獲取第一個(gè)標(biāo)簽。同時(shí)我們可以多次調(diào)用點(diǎn)屬性這個(gè)方法，來獲取更深層次的標(biāo)簽。

# demo 3soup = BeautifulSoup(html_doc, “lxml”);print(soup.p.b)#輸出結(jié)果首頁

如果想獲得所有的某個(gè)名字的標(biāo)簽，則可以使用 find_all(tag_name) 函數(shù)。

# demo 4soup = BeautifulSoup(html_doc, “lxml”);a_tags=soup.find_all(“a”)print(a_tags)#輸出結(jié)果[Google, Baidu, Bing]

我們可以使用 .contents 將 tag 以列表方式輸出，即將 tag 的子節(jié)點(diǎn)格式化為列表，這很有用，意味著可以通過下標(biāo)進(jìn)行訪問指定節(jié)點(diǎn)。同時(shí)我們還可以通過 .children 生成器對(duì)節(jié)點(diǎn)的子節(jié)點(diǎn)進(jìn)行遍歷。

# demo 5soup = BeautifulSoup(html_doc, “lxml”);head_tag=soup.headprint(head_tag)print(head_tag.contents)for child in head_tag.children:print(“child is : “, child)#輸出結(jié)果index[index]child is : index

.children 只可以獲取 tag 的直接節(jié)點(diǎn)，而獲取不到子孫節(jié)點(diǎn)，.descendants 可以滿足你。

# demo 6soup = BeautifulSoup(html_doc, “lxml”);head_tag=soup.headfor child in head_tag.descendants:print(“child is : “, child)# 輸出結(jié)果child is : indexchild is : index

父節(jié)點(diǎn)

通過 .parent 屬性獲取標(biāo)簽的父親節(jié)點(diǎn)。 title 的父標(biāo)簽是 head，html 的父標(biāo)簽是 BeautifulSoup 對(duì)象，而 BeautifulSoup 對(duì)象的父標(biāo)簽是 None。

# demo 7soup = BeautifulSoup(html_doc, “lxml”);title_tag=soup.titleprint(title_tag.parent)print(type(soup.html.parent))print(soup.parent)# 輸出結(jié)果indexNone

同時(shí)，我們可以通過 parents 得到指定標(biāo)簽的所有父親標(biāo)簽。

# demo 8soup = BeautifulSoup(html_doc, “lxml”);a_tag=soup.afor parent in a_tag.parents: print(parent.name)# 輸出結(jié)果pbodyhtml[document]

兄弟節(jié)點(diǎn)

通過 .next_sibling 和 .previous_sibling 來獲取下一個(gè)標(biāo)簽和上一個(gè)標(biāo)簽。

# demo 9soup = BeautifulSoup(html_doc, “lxml”);p_tag=soup.pprint(p_tag.next_sibling)print(p_tag.next_sibling.next_sibling)# 輸出結(jié)果

…

你可能會(huì)納悶，調(diào)用了兩次 next_sibling 怎么只有一個(gè)輸出呢，這方法是不是有 bug 啊。事實(shí)上是 p 的第一個(gè) next_sibling 是p 和 p 之間的換行符。這個(gè)規(guī)則對(duì)于 previous_sibling 同樣適用。

另外，我們可以通過 .next_siblings 和 .previous_siblings 屬性可以對(duì)當(dāng)前節(jié)點(diǎn)的兄弟節(jié)點(diǎn)迭代輸出。在該例子中，我們?cè)诿看屋敵銮凹恿饲熬Y，這樣就可以更直觀的看到 dib 的第一個(gè) previous_sibling 是換行符了。

# demo 10soup = BeautifulSoup(html_doc, “lxml”);p_tag=soup.pfor pre_tag in p_tag.previous_siblings:print(“pre_tag is : “, pre_tag)# 輸出結(jié)果pre_tag is : pre_tag is :

我常用的網(wǎng)站GoogleBaiduBing

pre_tag is : pre_tag is :

首頁

pre_tag is :

前進(jìn)和后退

通過 .next_element 和 .previous_element 獲取指定標(biāo)簽的前一個(gè)或者后一個(gè)被解析的對(duì)象，注意這個(gè)和兄弟節(jié)點(diǎn)是有所不同的，兄弟節(jié)點(diǎn)是指有相同父親節(jié)點(diǎn)的子節(jié)點(diǎn)，而這個(gè)前一個(gè)或者后一個(gè)是按照文檔的解析順序來計(jì)算的。

比如在我們的文本 html_doc 中，head 的兄弟節(jié)點(diǎn)是 body（不考慮換行符），因?yàn)樗麄兙哂泄餐母腹?jié)點(diǎn) html，但是 head 的下一個(gè)節(jié)點(diǎn)是 title。即soup.head.next_sibling=title soup.head.next_element=title

# demo 11soup = BeautifulSoup(html_doc, “lxml”);head_tag=soup.headprint(head_tag.next_element)title_tag=soup.titleprint(title_tag.next_element)# 輸出結(jié)果indexindex

同時(shí)這里還需要注意的是 title 下一個(gè)解析的標(biāo)簽不是 body，而是 title 標(biāo)簽內(nèi)的內(nèi)容，因?yàn)?html 的解析順序是打開 title 標(biāo)簽，然后解析內(nèi)容，最后關(guān)閉 title 標(biāo)簽。

另外，我們同樣可以通過 .next_elements 和 .previous_elements 來迭代文檔樹。由遺下例子我們可以看出，換行符同樣會(huì)占用解析順序，與迭代兄弟節(jié)點(diǎn)效果一致。

# demo 12soup = BeautifulSoup(html_doc, “lxml”);p_tag=soup.pfor next_element in p_tag.next_elements:print(“next_element is : “, next_element)# 輸出結(jié)果next_element is : 這是注釋內(nèi)容next_element is : next_element is :

…

next_element is : …next_element is : next_element is :

…

next_element is : …next_element is : next_element is :

Beautiful Soup 總結(jié)

本章節(jié)介紹了 Beautiful Soup 的使用場景以及操作文檔樹節(jié)點(diǎn)的基本操作，看似很多東西其實(shí)是有規(guī)律可循的，比如函數(shù)的命名，兄弟節(jié)點(diǎn)或者下一個(gè)節(jié)點(diǎn)的迭代函數(shù)都是獲取單個(gè)節(jié)點(diǎn)函數(shù)的復(fù)數(shù)形式。

同時(shí)由于 HTML 或者 XML 這種循環(huán)嵌套的復(fù)雜文檔結(jié)構(gòu)，致使操作起來甚是麻煩，掌握了本文對(duì)節(jié)點(diǎn)的基本操作，將有助于提高你寫爬蟲程序的效率。

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。

兄弟函數(shù)利器對(duì)象屬性操作文本文檔標(biāo)簽爬蟲節(jié)點(diǎn)遍歷首頁

bind、call、apply 區(qū)別？如何實(shí)現(xiàn)一個(gè)bind?

上一篇 2022年7月7日 09:21

APS廠商“清智優(yōu)化”獲數(shù)千萬元天使輪融資

下一篇 2022年7月7日 09:21

存儲(chǔ)過程語法(sql server存儲(chǔ)過程語法)
今天小編給各位分享存儲(chǔ)過程語法的知識(shí)，其中也會(huì)對(duì)sql server存儲(chǔ)過程語法進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！ oracle存儲(chǔ)過程基本語法…
2022年11月26日
0
《寶可夢(mèng)朱紫》獒教父屬性是什么？獒教父屬性一覽
寶可夢(mèng)朱紫里獒教父是一只很強(qiáng)的寶可夢(mèng)，很多玩家不清楚獒教父的屬性是什么樣的，下面就給大家?guī)韺毧蓧?mèng)朱紫獒教父屬性一覽，感興趣的小伙伴一起來看看吧，希望能幫助到大家。獒教父屬性一覽…
2022年11月25日
0
《寶可夢(mèng)朱紫》太晶化強(qiáng)力寶可夢(mèng)推薦太晶化哪些寶可夢(mèng)最強(qiáng)？
寶可夢(mèng)朱紫游戲中寶可夢(mèng)種類繁多，不過有的寶可夢(mèng)比較強(qiáng)，有的稍弱一些，那么太晶化化哪些寶可夢(mèng)最強(qiáng)呢，為了便于大家更好的體驗(yàn)游戲，這里給大家?guī)砹藢毧蓧?mèng)朱紫太晶化強(qiáng)力寶可夢(mèng)推薦，一起來…
2022年11月25日
0
《奔跑吧·共同富裕篇》跑進(jìn)“最美鄉(xiāng)村小學(xué)”，與孩子們一起唱響新歌！
今晚首演！由喜臨門床墊冠名的浙江衛(wèi)視《奔跑吧·共同富裕篇》將于今天20:20來到淳安縣富文鄉(xiāng)中心小學(xué)。李晨、楊穎（Angelababy）、鄭愷、沙溢、白鹿、周深組成的兄弟團(tuán)，與陳卓…
2022年11月25日
0
寶可夢(mèng)朱紫四大天王屬性怎么樣四大天王屬性數(shù)值介紹
寶可夢(mèng)朱紫四大天王屬性如何？四大天王的屬性數(shù)值玩家們還是挺好奇的，想要了解四大天王屬性的可以看看下面小編的介紹，小編會(huì)把四大天王的屬性數(shù)值全都分享在下面，各位趕緊來小編這里多了解一…
2022年11月25日
0
寶可夢(mèng)朱紫皮卡丘多少級(jí)進(jìn)化皮卡丘進(jìn)化條件攻略
寶可夢(mèng)朱紫皮卡丘進(jìn)化條件是什么？皮卡丘怎么進(jìn)化？作為最受歡迎的電屬性寶可夢(mèng)，大家都很想知道皮卡丘進(jìn)化的方法，今天小編這就在下面的攻略中分享皮卡丘進(jìn)化條件，各位可以趕緊來小編這里了解…
2022年11月25日
0
《寶可夢(mèng)朱紫》四天王屬性是什么？四天王屬性陣容一覽
寶可夢(mèng)朱紫中玩家可以挑戰(zhàn)四天王，很多玩家想知道寶可夢(mèng)朱紫四天王屬性是什么，有什么陣容?下面就帶來寶可夢(mèng)朱紫四天王屬性陣容一覽，感興趣的小伙伴不要錯(cuò)過，希望能幫助到大家。四天王屬性…
2022年11月24日
0
寶可夢(mèng)朱紫皮卡丘怎么進(jìn)化？寶可夢(mèng)朱紫皮卡丘進(jìn)化條件攻略
寶可夢(mèng)朱紫皮卡丘進(jìn)化條件是什么？皮卡丘怎么進(jìn)化？作為最受歡迎的電屬性寶可夢(mèng)，大家都很想知道皮卡丘進(jìn)化的方法，今天小編這就在下面的攻略中分享皮卡丘進(jìn)化條件，各位可以趕緊來小編這里了解…
2022年11月24日
0
淘寶直播開通后帶貨鏈接怎么做(淘寶直播需要開通淘寶店鋪嗎)
直播帶貨無論是對(duì)于商家來說還是主播收益都是非?？捎^的，所以不少平臺(tái)都有直播帶貨功能，一些小伙伴也想加入淘寶直播，那么淘寶直播開通后帶貨鏈接怎么做？下面小編為大家?guī)硖詫氈辈ラ_通后帶…
2022年11月24日
0
搞笑的韓劇
我看過五部機(jī)智的監(jiān)獄生活金濟(jì)赫是一位眾所矚目即將進(jìn)入美國大聯(lián)盟的明星棒球選手，每個(gè)球團(tuán)皆視他為全國最棒的棒球選手，愿意為他投入大筆資金，一夕之間卻因?yàn)橹貍麖?qiáng)奸犯而進(jìn)了監(jiān)獄成了階下囚…
2022年11月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息

<menu id="0qwz4"><tt id="0qwz4"></tt></menu>

<menu id="0qwz4"></menu>

<span id="0qwz4"></span>