Hello,大家好我叫是Dream呀,一個有趣的Python博主,小白一枚,多多關照 ?
入門須知:這片樂園從不缺乏天才,努力才是你的最終入場券!
最后,愿我們都能在看不到的地方閃閃發(fā)光,一起加油進步
“一萬次悲傷,依然會有Dream,我一直在最溫暖的地方等你”,唱的就是我!哈哈哈~
?
?前言:?
?越來越發(fā)現(xiàn)學爬蟲就像找女朋友一樣,慢慢來,找到合適的機會才能拿下!讓我們來先把爬蟲拿下吧!
爬蟲BeautifulSoup模塊從入門到入坑
一、拿下她的必要準備
1.構建頁面:
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<div>
<ul>
<li id="l1">張三</li>
<li id="l2">李四</li>
<li>王五</li>
<a href="" id=""class="a1">尚硅谷</a>
<span>嘿嘿嘿</span>
</ul>
</div>
<a href="" title="a2">百度</a>
<div id="d1">
哈哈哈很牛哇
</div>
<p id="p1" class="p1">哈哈哈哈嘿嘿嘿</p>
</body>
</html>
2.知識儲備:
# -*-coding:utf-8 -*-
# @Author:到點了,心疼徐哥哥
# 奧利給干?。?!
from bs4 import BeautifulSoup
# 通過解析本地文件 來將bs4基礎語法進行講解
# 默認打開的文件的編碼格式為gbk 打開文件時需要指定編碼
soup = BeautifulSoup(open('bs4基本使用.html',encoding='utf-8'),'lxml')
# print(soup)
# 根據(jù)標簽名查找節(jié)點
# 找到的是第一個符合條件的數(shù)據(jù)
# print(soup.a)
# 獲取標簽的屬性和屬性值
# print(soup.a.attrs)
# bs4的一些函數(shù)
# (1)find
# 返回的是第一個符合條件的數(shù)據(jù)
# print(soup.find('a'))
# 根據(jù)title的值來找到對應的
# print(soup.find('a',title="a2")) # <a href="" title="a2">百度</a>
# print(soup.find('a',class="a1")) # class是關鍵字,不能用。相當于古代皇帝叫這個名字,你不能用
# 根據(jù)class的值來找到對應的標簽對象,注意的是class需要添加下劃線
# print(soup.find('a',class_="a1")) # <a class="a1" href="" id="">尚硅谷</a>
# (2)find_all # 返回的是一個列表,并且返回所有的a標簽
# print(soup.find_all('a'))# [<a class="a1" href="" id="">尚硅谷</a>, <a href="" title="a2">百度</a>]
# 如果想要獲取的是多個標簽的數(shù)據(jù),那么需要在find_all的參數(shù)中添加的是列表的數(shù)據(jù)。
# print(soup.find_all(['a','span'])) # [<a class="a1" href="" id="">尚硅谷</a>, <span>嘿嘿嘿</span>, <a href="" title="a2">百度</a>]
# limit查找前幾個數(shù)據(jù)
# print(soup.find_all('li',limit=2)) # [<li>張三</li>, <li>李四</li>]
# (3)select(推薦)
# select方法返回列表和多個數(shù)據(jù)
# print(soup.select('a')) # [<a class="a1" href="" id="">尚硅谷</a>, <a href="" title="a2">百度</a>]
# 可以通過.代表class 我們把這種操作叫做類選擇器
# print(soup.select('.a1')) # [<a class="a1" href="" id="">尚硅谷</a>]
# print(soup.select('#l1')) # [<li id="l1">張三</li>]
# 屬性選擇器
# 查找li標簽中有id的標簽
# print(soup.select('li[id]')) # [<li id="l1">張三</li>, <li id="l2">李四</li>]
# 查找到li標簽中id為l2的標簽
# print(soup.select('li[id="l2"]')) # [<li id="l2">李四</li>]
# 層級選擇器
# 后代選擇器
# 找到的是div下面的li
# print(soup.select('div li')) # [<li id="l1">張三</li>, <li id="l2">李四</li>, <li>王五</li>]
# 子代選擇器
# 某標簽的第一級子標簽
# 注意:很多的計算機編程語言中。如果不加空格不會輸出內容 但是bs4中 不會報錯 會顯示內容
# print(soup.select('div > ul > li')) # [<li id="l1">張三</li>, <li id="l2">李四</li>, <li>王五</li>]
# 找到a標簽和li標簽
# print(soup.select('a,li')) # [<li id="l1">張三</li>, <li id="l2">李四</li>, <li>王五</li>, <a class="a1" href="" id="">尚硅谷</a>, <a href="" title="a2">百度</a>]
# 節(jié)點信息
# 獲取節(jié)點內容
# obj = soup.select('#d1')[0]
# 如果標簽對象中 只有內容 那么string和get_text()都可以使用
# 如果標簽對象中 除了內容還有標簽 那么string就獲取不到數(shù)據(jù) 而get_text()是可以獲取數(shù)據(jù)
# 我們一般情況下 推薦使用get_text()
# print(obj.string)
# print(obj.get_text())
# 節(jié)點屬性
# obj = soup.select('#p1')[0]
# name是標簽的名字
# print(obj.name)
# 將屬性值作為一個字典返回
# print(obj.attrs)
# 獲取節(jié)點的屬性
obj = soup.select('#p1')[0]
print(obj.attrs.get('class'))
二、冬天的第一杯星巴克送給你!
1.開啟尋她之路
首先,進入星巴克官網(wǎng):??星巴克??,然后進入主頁的菜單界面,找到星巴克的一些種類!
2.找到我喜歡的那個她
單擊右鍵進行檢查然后刷新界面:
在解析的網(wǎng)絡模塊數(shù)據(jù)中,我們看到了menu這個東西,我深深地被她吸引了,所以說我打算試一試,看看到底是啥吸引了我!
在她的預覽中心,我們可以看到,有很多不同種類的咖啡:
然后在標頭中找到我們需要的接口,來對她進行更深一步的了解:
3.更加深入的了解她的內心
1.嘗試直接進入,看看她是否對我有防備
通過給定的接口直接進入:
import urllib.request
url = 'https://www.starbucks.com.cn/menu/'
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
print(content)
得到我們的數(shù)據(jù):
點擊??ctrl+F?
?搜索一下之前頁面上的第一杯奶茶:??阿馥奇朵?
?看看有沒有:
我們可以看到找到了!
2.更加一步解析她的內心
對她大概有了一個了解之后,我們要深入到她的各個品性中去,我們她的每一個品性進行深入了解!
進一步分析,我們可以獲取各類咖啡的不同解析位置:
這些標簽里面的的小標簽分別代表不同類型咖啡里面的不同名稱。
進一步使用我的Xpath獲取數(shù)據(jù)具體內容:
xpath不懂的同學自覺看:??1024不孤單!??Xpath爬蟲——你最忠實的伴侶:老規(guī)矩給我一分鐘,萬字教你入手Xpath!?
獲取具體內容:
4.初步打開心扉
按照我們剛才的步驟,使用bs4整理一下我們的思路代碼:
import urllib.request
url = 'https://www.starbucks.com.cn/menu/'
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
# print(content)
from bs4 import BeautifulSoup
soup = BeautifulSoup(content,'lxml')
# //ul[@class="grid padded-3 product"]//strong/text()
name_list = soup.select('ul[class="grid padded-3 product"] strong')
print(name_list)
得到:
5.分析完畢,直接拿下?。?!
import urllib.request
url = 'https://www.starbucks.com.cn/menu/'
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
# print(content)
from bs4 import BeautifulSoup
soup = BeautifulSoup(content,'lxml')
# //ul[@class="grid padded-3 product"]//strong/text()
name_list = soup.select('ul[class="grid padded-3 product"] strong')
# print(name_list)
for name in name_list:
print(name.string)
獲取其中的字符串:
for name in name_list:
print(name.string)
# 或者
print(name.get_text())
??????如果你喜歡的話,就不要吝惜你的一鍵三連了~
本文摘自 :https://blog.51cto.com/u