更新時(shí)間:2022-08-18 來源:黑馬程序員 瀏覽量:
網(wǎng)絡(luò)爬蟲歷經(jīng)幾十年的發(fā)展,技術(shù)變得更加多樣化,并結(jié)合不同的需求衍生出類型眾多的網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)大致可以分為4種類型,分別是通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。接下來,對(duì)增量式爬蟲和深層網(wǎng)絡(luò)爬蟲這兩種爬蟲分別進(jìn)行介紹。
1.增量式爬蟲
增量式網(wǎng)終爬蟲(Incremental Web Crawler)是指對(duì)已下載的網(wǎng)頁(yè)采取增量式更新,只抓取新產(chǎn)生或者已經(jīng)發(fā)生變化的網(wǎng)頁(yè)的網(wǎng)絡(luò)爬蟲。增量式網(wǎng)絡(luò)爬蟲只會(huì)抓取新產(chǎn)生的或內(nèi)容變化的網(wǎng)頁(yè),并不會(huì)重新抓取內(nèi)容未發(fā)生變化的網(wǎng)頁(yè),這樣可以有效地減少網(wǎng)頁(yè)的下載量,減少訪問時(shí)間和存儲(chǔ)空間的耗費(fèi),但是增加了網(wǎng)頁(yè)抓取算法的復(fù)雜度和實(shí)現(xiàn)難度。
2.深層網(wǎng)絡(luò)爬蟲
深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)是指抓取深層網(wǎng)頃的網(wǎng)絡(luò)爬蟲,它要抓取的網(wǎng)頁(yè)層次比較深,需要通過一定的附加策略才能夠自動(dòng)抓取,實(shí)現(xiàn)難度較大。
表層網(wǎng)頁(yè)與深層網(wǎng)頁(yè)
網(wǎng)頁(yè)按存在方式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web),關(guān)于這兩類網(wǎng)頁(yè)的介紹如下。
表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,主要以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)構(gòu)成的網(wǎng)頁(yè)。
深層網(wǎng)頁(yè)是指大部分內(nèi)容無法通過靜態(tài)鏈接獲取的,只能通過用戶提交一些關(guān)鍵詞才能獲取的網(wǎng)頁(yè),如用戶注冊(cè)后內(nèi)容才可見的網(wǎng)頁(yè)。