網站采集軟件哪個好用 好用的采集器



文章插圖
網站采集軟件哪個好用 好用的采集器

文章插圖
作為一個 3 月經驗用了 3 年的半吊子前爬蟲程序員,難免有在采集數據時不想寫代碼的時候,畢竟輪子天天造,requests.get 都寫膩了寫煩了 。
而且相信很多做數據分析的同學,也不會為了搞一份臨時的數據,就專門去學個爬蟲 。畢竟:
【網站采集軟件哪個好用 好用的采集器】我就想寫個爬蟲,怎么要學那么多東西?
還好市面上有很多傻瓜式的數據采集器,不用寫一行代碼就能采集數據,這些數據采集器的使用體驗到底如何呢?
州的先生就來給大家做一個不深不淺的測評,方便大家在不想寫代碼的時候,也能夠順利采集到數據 。
火車頭采集器
今天是第一個選手——火車頭采集器 。
據火車頭官網的介紹:
火車采集器是目前使用人數最多的互聯網數據抓取、處理、分析,挖掘軟件 。軟件憑借其靈活 的配置與強大的性能領先國內數據采集類產品,并贏得眾多用戶的一致認可 。
作為國內數據采集器的老前輩,這個自夸自擂還是有資格的 。
我們首先到它的官網上下載最新的軟件包:
然后安裝完成就可以了 。
要使用首先得進行登錄,沒轍,先去注冊一個吧 。之后順利登錄,就進入到了程序的主界面:
說實話,看到這個界面,我是有點懵的,這應該是一個專業級別的軟件 。
不行,看看它的使用手冊先 。
火車采集器是一個非常專業的數據抓取和數據處理軟件,對軟件使用者有較高的技術要求,使用者要有基本的HTML基礎,能看得懂網頁源碼,網頁結構 。同時如果用到web發布或數據庫發布,則對自己文章系統及數據存儲結構要非常了解 。如果您相關基礎薄弱,則需要花時間學習相關知識并多看使用手冊,才可以掌握程序的使用.
按照手冊的介紹,學習采集器時,如有以下相關知識,將會對程序的使用起到促進作用:
html基礎 了解網頁的基本知識,幫助分析網頁結構 http://www.w3school.com.cn/html/index.asp正則表達式的使用 http://www.regexlab.com/zh/regref.htmHttp協議的相關知識 Http請求抓包的方法 http://www.fiddler2.com/fiddler2/Access,Mysql,Sqlserver,Sqlite,Oracle,Mongo數據庫的使用代理服務器,FTP服務器相關知識常見的SQL語句插件需要PHP或C#編程功底的支持Apache或IIS服務器架設,網站的安裝
得嘞,所需的計算機和編程知識還不少 。
雖然不用寫代碼,但是也得會寫代碼呀 。
再看看火車頭采集器的任務新建窗口:
一共 4 個步驟,每個步驟都還有一大串的配置,感覺是相當的繁瑣 。
在這里,州的先生以采集「州的先生博客」為例來演示一下:
首先,配置采集的網址:
然后,內容采集規則我們也使用默認的:
內容發布規則,我們選擇保存到本地CSV文件:
其他設置里面,主要用于配置代理、Cookie、線程等信息,我們都使用默認的 。
輸入任務名稱之后,我們點擊保存 。程序主窗口的任務列表中就會出現我們剛剛新建的任務:
點擊選中這個任務,然后鼠標右鍵選擇「開始」以啟動任務:
這樣,我們的采集任務就已經開始了,在「運行管理」選項卡中可以看到任務運行的狀態:
任務運行完成之后,可以看到程序采集的數據列表:
和數據內容:
雖然配置頁面看起來很復雜,對于有數據采集經驗的人來說,還是相對比較簡單的,但是如果沒有數據采集經驗,操作起來就有點難度 。
這種難度并非說是任務運行的難度,而是程序采集下來的數據與自己需求之間不匹配的難度 。
八爪魚采集器
下面再來看看另一個選手——八爪魚 。
首頁,界面就很互聯網 。而且主頁還提供了很多模板,相當于直接使用這些模板就可以采集數據了 。
不過,和上一個火車頭一樣,我們用州的先生博客來進行測試 。
在輸入框中輸入州的先生博客的域名后,出現了一個按鈕,提示網址已識別,可以直接進行采集 。這簡直也太方便了吧,那咱們來試試 。
點擊后跳轉到了一個 WebView 的窗口,打開了州的先生博客:
但是這加載也太慢了 。
等了十來分鐘,還沒打開 。罷了,不用博客做測試了 。選擇一個熱門模板來試試吧:
來看看億萬爬蟲都垂涎欲滴的淘寶數據:
之前一直以為八爪魚可以搞定淘寶的反爬驗證,看來是我想多了 。
而且免費用戶還不能使用,罷了罷了 。
換騰訊網來試試,輸入網址后,打開的網頁,然后自動下拉網頁:
最終識別出了列表數據(但是不排除是八爪魚后臺服務器以模板的形式已經預置了騰訊網的采集和識別規則):
我們接著點擊「生成采集設置」:
可以進入到下一步的操作中,在這里可以看到八爪魚的采集流程:
我們直接「保存并開始采集」:
結果出來的還是一個包含 WebView 的窗口,上面是 WebView 打開需要采集的URL,下方是采集的進度和狀態 。
窗口中不斷打開待采集的URL,最終提示采集完成:
我們導出數據,可以選擇導出到本地或是數據庫,在這里,我們選擇導出本地:
最后導出完成,我們看看實際的效果:
感覺還是不如火車頭:
最后
火車頭采集器和八爪魚采集器分別用州的先生博客和騰訊網進行了測試 。下面簡單進行一下評價吧:
火車頭雖然UI界面不友好,配置稍顯繁復,但是對州的先生來說,其更加符合個人的使用習慣 。
而八爪魚,看起來使用更加傻瓜化,但是完全依賴于「瀏覽器自動化操作」:
效率稍微偏低,而且如果不使用模板(模板得升級會員或付費),自己配置出來的采集結果,也很容易一團糟 。
與其如此,不如稍微去掌握一點計算機知識,用火車頭會更加好 。