文章插圖

文章插圖
在進行真正的爬蟲工程創建之前,我們先要明確我們所要操作的對象是什么?完成所有操作之后要獲取到的數據或信息是什么?
首先是第一個問題:操作對象,爬蟲全稱是網絡爬蟲,顧名思義,它所操作的對象當然就是網頁,由于網維網存在的網頁數不勝數,所以我們需要指定爬蟲對象需要借助URL來定位所要操作的網頁 。
一、預備知識:
1.訪問網頁的具體流程:
在用戶瀏覽網頁的過程,其實就是用戶輸入網址之后,經過DNS服務器,找到服務器主機,向服務器發出一個請求,服務器經過解析之后,發送給用戶的瀏覽器 HTML、JS、CSS 等文件,瀏覽器解析出來,用戶便可以看到形形色色的圖片了 。因此,用戶看到的網頁實質是由HTML代碼構成的,爬蟲爬來的便是這些內容,通過分析和過濾這些HTML代碼,實現對圖片、文字等資源的獲取 。
2.URL:
全稱是統一資源定位符,是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址 ?;ヂ摼W上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎么處理它 。
一個URL格式由三部分信息組成:
a.第一部分是協議(或稱為服務方式);
b.第二部分是存有該資源的主機IP地址(有時也包括端口號);
c.第三部分是主機資源的具體地址,如目錄和文件名等 。
爬蟲爬取數據時必須要有一個目標的URL才可以獲取數據,因此,URL是爬蟲獲取數據的基本依據 。
二、創建爬蟲腳本:
創建一個爬蟲腳本其實就是創建一個Python,這里我們創建一個名為test.py的腳本,然后把urllib2庫導入到腳本中,然后爬取一個url地址的內容并打印出來,腳本內容如下:
【python哪里接爬蟲任務 python網頁搜索腳本】可以進行簡單的封裝,得到一個獲取指定url的html內容的方法,如下:
- 小米12怎么讓小愛同學接電話
- ie系統瀏覽器在電腦哪里 電腦上面的ie瀏覽器在哪里
- navicat連接數據庫報錯 navicat新建數據庫報錯
- adsl賬號密碼在哪里可以查看 adsl賬戶密碼查詢
- 刪除超鏈接快捷鍵Excel 刪除超鏈接快捷鍵ppt
- 在哪里購買域名和空間 怎么購買網站空間和域名
- 天貓直播間怎么開通 天貓直播入口在哪里
- gho鏡像文件如何直接安裝 gho鏡像安裝器怎么裝系統
- 百度的應用中心在哪里 百度應用怎么打開
- 磁力鏈最好的鏈接 最好用磁力搜索鏈接
