python - 将文本变成字典
问题描述
我已经成功提取了我的站点地图,我想把这些网址变成一个列表。我不太清楚如何做到这一点,将 https 与修改的日期分开。理想情况下,我还想把它变成一本带有相关日期戳的字典。最后,我将遍历列表并创建网页的文本文件,并将日期时间戳保存在文本文件的顶部。
我将满足于将其变成列表的下一步。这是我的代码:
import urllib.request
import inscriptis
from inscriptis import get_text
sitemap = "https://grapaes.com/sitemap.xml"
i=0
url = sitemap
html=urllib.request.urlopen(url).read().decode('utf-8')
text=get_text(html)
dicto = {text}
print(dicto)
for i in dicto:
if i.startswith ("https"):
print (i + '/n')
输出基本上是带有日期戳、空格和 url 的行。
解决方案
您可以先在空格周围拆分文本,然后像这样继续:
text = text.split(' ')
dicto = {}
for i in range(0, len(text), 2):
dicto[text[i+1]] = text[i]
给出一个以时间戳为键、以 URL 为值的字典,如下所示:
{
'2020-01-12T09:19+00:00': 'https://grapaes.com/',
'2020-01-12T12:13+00:00': 'https://grapaes.com/about-us-our-story/',
...,
'2019-12-05T12:59+00:00': 'https://grapaes.com/211-retilplast/',
'2019-12-01T08:29+00:00': 'https://grapaes.com/fruit-logistica-berlin/'
}
我相信你可以从这里开始做进一步的处理。
推荐阅读
- ios - 可以对 iPad OS 做出反应吗?
- regex - 如何在没有变量冲突的情况下打印正则表达式默认变量 $1
- c# - 为一段时间创建一个类/方法(启动、重置、停止、获取 istant、获取 timerun)
- haskell - 尝试使用 newtype 将现有数据类型作为我自己的
- swift - 如何安装 j2objc
- c++ - 一种安全的、符合标准的方法来使类模板特化仅在实例化时才使用“static_assert”编译失败?
- android - AppWidget布局内ImageView中的图像缩放和定位
- ios - 如何更新应用内购买的 UI?
- javascript - 自动完成 Jquery 无法在主机上运行,但在 localhost 上运行良好
- python - 班级员工打印方法