首頁常見問題正文

為什么用Selenium做爬蟲?Selenium爬蟲機制優(yōu)勢

更新時間:2023-10-30 來源:黑馬程序員 瀏覽量:

Selenium是一個Web應用的自動化測試框架,可以創(chuàng)建回歸測試來檢驗軟件功能和用戶需求,通過框架可以編寫代碼來啟動瀏覽器進行自動化測試,換言之,用于做爬蟲就可以使用代碼啟動瀏覽器,讓真正的瀏覽器去打開網(wǎng)頁,然后去網(wǎng)頁中獲取想要的信息!從而實現(xiàn)真正意義上無懼反爬蟲手段。

例如在拉勾網(wǎng)上搜索傳智播客,找到對應的ajax請求地址,使用postman來測試數(shù)據(jù):
1698652035728_爬蟲.png

前幾次可能會獲取到數(shù)據(jù),但多幾次則會出現(xiàn)操作頻繁請稍后再試的問題,很多 API 也都進行了加密處理:

1698652115537_爬蟲2.png

而通過Selenium可以操作瀏覽器,打開某個網(wǎng)址,接下來只需要學習其API,就能獲取網(wǎng)頁中需要的內(nèi)容了!

反爬蟲技術(shù)只是針對爬蟲的,例如檢查請求頭是否像爬蟲,檢查IP地址的請求頻率(如果過高則封殺)等手段

而Selenium打開的就是一個自動化測試的瀏覽器,和用戶正常使用的瀏覽器并無差別,所以再厲害的反爬蟲技術(shù),也無法直接把它干掉,除非這個網(wǎng)站連普通用戶都想放棄掉(12306曾經(jīng)迫于無奈這樣做過)


分享到:
在線咨詢 我要報名
和我們在線交談!