首頁技術文章正文

如何使用Python將sitemap.xml轉為sitemap.txt?

更新時間:2021-05-11 來源:黑馬程序員 瀏覽量:

1577370495235_學IT就到黑馬程序員.gif

網站地圖(SiteMap),也叫站點地圖,是把網站中所有頁面的鏈接都放在網頁上的網頁。搜索蜘蛛很喜歡網站地圖,SiteMap是網站所有鏈接的容器。許多網站連通的層次比較深,蜘蛛很難抓到,網站地圖可以方便搜索引擎蜘蛛抓取網站頁面,通過抓取網站頁面,清楚了解網站的結構,網站地圖一般被命名為sitemap,為搜索引擎蜘蛛指引方向,增加對網站重要內容頁面的收錄。

網站地圖格式一般是.xml格式的居多,那么如何將.xml文件轉為.txt格式呢?下面我們通過Python來實現。

# 導入requests模塊,用于獲取網站地圖源碼
import requests
# 導入正則表達式模塊,用于在xml網站地圖中獲取鏈接地址
import re

# 獲取傳智教育網站地圖源碼
sitemap_xml = requests.get('http://www.itcast.cn/sitemap/sitemap.xml').text
# 使用正則表達式匹配網站地圖中的鏈接
url = re.findall(r'<loc>(.*)</loc>', sitemap_xml)
# 使用join()函數在每條鏈接錢前面加個換行符
url_line = '\n'.join(str(url_one) for url_one in url)
# 將獲取的鏈接保存為sitemap.xml
open(r'sitemap.txt', 'w', encoding='utf-8').write(url_line)

xml網站地圖轉為txt



猜你喜歡:

Python爬蟲難學嗎?學會需要多久?

Python的標準模塊:sys、os、random和time

Python爬蟲支持的網頁解析技術有哪些?

黑馬程序員python+大數據培訓課程

分享到:
在線咨詢 我要報名
和我們在線交談!