爬蟲是什么

【爬蟲是什么】網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中,更經常的稱為網頁追逐者),是一種按照一定的規則 , 自動地抓取萬維網信息的程序或者腳本,它們被廣泛用于互聯網搜索引擎或其他類似網站,可以自動采集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式 。從功能上來講,爬蟲一般分為數據采集,處理,儲存三個部分 。
Web網絡爬蟲系統的功能是下載網頁數據 , 為搜索引擎系統提供數據來源,很多大型的網絡搜索引擎系統都是基于Web數據采集的搜索引擎系統 , 由此可見Web網絡爬蟲在搜索引擎中的重要性 。
在網絡爬蟲的系統框架中 , 主過程由控制器、解析器、資源庫三部分組成 。控制器的主要工作是負責給多線程中各個爬蟲線程分配工作任務;解析器的主要工作是下載網頁,進行網頁的處理,處理的內容包括JS腳本標簽、CSS代碼內容、空格字符、HTML標簽等內容 。資源庫是用來存放下載到的網頁資源 , 一般會采用大型的數據庫存儲 , 并對其建立索引 。