架設ip代理服務器 服務器做代理ip



文章插圖
架設ip代理服務器 服務器做代理ip

文章插圖

一、建立IP代理池的思路:
做爬蟲時 , 遇到訪問太頻繁IP被封是難以避免的 , 而本地單個IP是不足以進行大規模爬取 , 并且自己并不想購買付費代理 , 那么 , 構建一個IP代理池是非常有必要的 。思路如下:
圖1
二、建立IP 代理池的步驟:
爬取代理IP:搜索選擇代理IP網站 , 選取免費代理;代碼如下:
# _*_ coding:UTF-8 _*_# 開發作者:Jason Zhang# 創建時間:2020/12/29 17:58# 文件名稱:爬取代理IP.PY# 開發工具:PyCharmimport requestsimport lxml.htmlimport osheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url_list = ['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]ip_list = []for url in url_list:r = requests.get(url,headers=headers)etree = lxml.html.fromstring(r.text)ips = etree.xpath('//tr[@class="odd"]')for ip in ips:IP = ip.xpath('//td/text()')ip = IP[0] +':'+ IP[1]ip_list.append(ip)f = open('ip.txt','wb')f.write(','.join(ip_list).encode('utf-8'))f.close(驗證代理IP:
通過網絡訪問來驗證代理IP的可用性和訪問速度 , 將之前爬取到的代理IP地址從ip.txt文件中提取出來 , 分別試用代理IP去訪問某個網站首頁 , 僅保留響應時間在2秒內的IP , 并保存在QIP.txt中 , 代碼如下:
# _*_ coding:UTF-8 _*_# 開發作者:關中老玉米# 創建時間:2020/12/29 18:27# 文件名稱:驗證代理IP.PY# 開發工具:PyCharmimport requestsip_list = open('ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}qurl = 'https://www.baidu.com' #用百度來測試IP是否能正常連網for i in ip_list: #設置超時時間timeout為2 s , 超時則為不可用IPr = requests.get(url, proxies={'http': 'http://' + ip[i]}, headers=headers,timeout=2)if r.text:qip.append(qip[i])else:continuef = open('quality_ip.txt','wb')f.write(','.join(quality_ip).encode('utf-8'))f.close()使用代理IP:
建立IP代理池之后 , 有以下兩種使用代理IP的方式 。
【架設ip代理服務器 服務器做代理ip】# _*_ coding:UTF-8 _*_# 開發作者:Jason Zhang# 創建時間:2020/12/31 18:03# 文件名稱:使用代理IP.PY# 開發工具:PyCharm# (1)使用隨機 IP , 代碼如下:import randomimport requestsip_list = open('quality_ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url = 'http://*********'r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)# (2)因為免費的代理時效很短 , 在后續的爬取任務中很容易失效 , 所以當出現訪問錯誤(響應碼不等于 200)時 , 更換 IP , 代碼如下:ip_list = open('qip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}for ip in ip_list:for i in range(len(url_list)):r = requests.get(url_list[i], proxies={'http': 'http://'+ip},headers=headers)if r.status_code != 200:break