首页 > 解决方案 > 将文本变成字典

问题描述

我已经成功提取了我的站点地图,我想把这些网址变成一个列表。我不太清楚如何做到这一点,将 https 与修改的日期分开。理想情况下,我还想把它变成一本带有相关日期戳的字典。最后,我将遍历列表并创建网页的文本文件,并将日期时间戳保存在文本文件的顶部。

我将满足于将其变成列表的下一步。这是我的代码:

import urllib.request
import inscriptis
from inscriptis import get_text
sitemap = "https://grapaes.com/sitemap.xml"
i=0
url = sitemap
html=urllib.request.urlopen(url).read().decode('utf-8')
text=get_text(html)
dicto = {text}
print(dicto)
for i in dicto:
        if i.startswith ("https"):
            print (i + '/n')

输出基本上是带有日期戳、空格和 url 的行。

标签: pythonlistdictionaryweb-crawlersitemap

解决方案


您可以先在空格周围拆分文本,然后像这样继续:

text = text.split(' ')
dicto = {}
for i in range(0, len(text), 2):
    dicto[text[i+1]] = text[i]

给出一个以时间戳为键、以 URL 为值的字典,如下所示:

{
 '2020-01-12T09:19+00:00': 'https://grapaes.com/',
 '2020-01-12T12:13+00:00': 'https://grapaes.com/about-us-our-story/', 
  ...,
 '2019-12-05T12:59+00:00': 'https://grapaes.com/211-retilplast/',
 '2019-12-01T08:29+00:00': 'https://grapaes.com/fruit-logistica-berlin/'
}

我相信你可以从这里开始做进一步的处理。


推荐阅读