更新時間:2023-10-30 來源:黑馬程序員 瀏覽量:
Selenium是一個Web應用的自動化測試框架,可以創(chuàng)建回歸測試來檢驗軟件功能和用戶需求,通過框架可以編寫代碼來啟動瀏覽器進行自動化測試,換言之,用于做爬蟲就可以使用代碼啟動瀏覽器,讓真正的瀏覽器去打開網(wǎng)頁,然后去網(wǎng)頁中獲取想要的信息!從而實現(xiàn)真正意義上無懼反爬蟲手段。
例如在拉勾網(wǎng)上搜索傳智播客,找到對應的ajax請求地址,使用postman來測試數(shù)據(jù):
前幾次可能會獲取到數(shù)據(jù),但多幾次則會出現(xiàn)操作頻繁請稍后再試的問題,很多 API 也都進行了加密處理:
而通過Selenium可以操作瀏覽器,打開某個網(wǎng)址,接下來只需要學習其API,就能獲取網(wǎng)頁中需要的內(nèi)容了!
反爬蟲技術(shù)只是針對爬蟲的,例如檢查請求頭是否像爬蟲,檢查IP地址的請求頻率(如果過高則封殺)等手段
而Selenium打開的就是一個自動化測試的瀏覽器,和用戶正常使用的瀏覽器并無差別,所以再厲害的反爬蟲技術(shù),也無法直接把它干掉,除非這個網(wǎng)站連普通用戶都想放棄掉(12306曾經(jīng)迫于無奈這樣做過)