python - 此处链接表的用途是什么?
问题描述
我正在为每个人专业化 Python 课程 5。我从教练那里得到了这个代码作为样本。我无法理解的几件事是此处链接表的确切用途。
cur.execute('''CREATE TABLE IF NOT EXISTS Pages
(id INTEGER PRIMARY KEY , url TEXT UNIQUE, html TEXT,
error INTEGER, old_rank REAL, new_rank REAL)''')
cur.execute('''CREATE TABLE IF NOT EXISTS Links
(from_id INTEGER, to_id INTEGER)''')
cur.execute('''CREATE TABLE IF NOT EXISTS Webs (url TEXT UNIQUE)''')
因为我是编程新手,所以这是我真正需要弄清楚的第一个大作业。 顺便说一下这个到 Spider.py 的链接 提前谢谢
解决方案
Links 表是被爬取的页面之间的连接,并链接从该页面爬取的页面。当然,这不是最好的方法,因为您是初学者,所以可以在很多方面进行改进,我不会详细介绍。示例:如果您只是在网站表中添加 web https://example.com,则该网站也将添加到页面表中,因此假设这是您的第一个网站,我们从该网站获得的链接数量为两个,所以链接表将存储它并保留它的记录。链接表将是这样的。1 2 1 3. 这是我通过查看您的代码得到的
推荐阅读
- flutter - 在 Flutter 中,如何在 NestedScrollView 中的 TabBarView 中,当它的高度小于屏幕时禁用滚动?
- c++ - 回调函数没有被调用
- r - 如何在一张图中绘制 4 个烛台图?
- scikit-learn - 在 jupyter notebook 中出现错误“文件名、目录名或卷标语法不正确”
- android - 如何在android 10中获取文件夹的所有图像?
- r - 在 R 中的函数中引用数据帧前缀
- python - 为什么我不能从命令行使用 pip 包?
- shell - 如何将输入文件名传递给 awk 脚本
- c++ - 关联方法应该调用对方的关联方法吗?
- python - 为什么在进行外循环时,数组的长度必须在其旁边有一个负数