爬蟲是什么 _爬蟲

【爬蟲是什么】網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本，它們被廣泛用于互聯網搜索引擎或其他類似網站，可以自動采集所有其能夠訪問到的頁面內容，以獲取或更新這些網站的內容和檢索方式。從功能上來講，爬蟲一般分為數據采集，處理，儲存三個部分。
Web網絡爬蟲系統的功能是下載網頁數據，為搜索引擎系統提供數據來源，很多大型的網絡搜索引擎系統都是基于Web數據采集的搜索引擎系統，由此可見Web網絡爬蟲在搜索引擎中的重要性。
在網絡爬蟲的系統框架中，主過程由控制器、解析器、資源庫三部分組成。控制器的主要工作是負責給多線程中各個爬蟲線程分配工作任務；解析器的主要工作是下載網頁，進行網頁的處理，處理的內容包括JS腳本標簽、CSS代碼內容、空格字符、HTML標簽等內容。資源庫是用來存放下載到的網頁資源，一般會采用大型的數據庫存儲，并對其建立索引。