首页 > 解决方案 > .txt.File 中带有 Selenium 的安全 dublets

问题描述

所以,我的目标是编写一个脚本,用来抓取用户,在 Instagram 上使用特定的主题标签,并将他们的帐户写入 .txt 文件,而且它大部分都有效!

我的问题是,即使一些帐户发布了复数图片,我的脚本确实只显示每个名称一次。任何想法,它如何能够计算它们或让我的脚本不删除双峰?

我寻找了一切,但找不到解决方案。

这是我编写代码的一部分:

def generate_initial_information_txt(initial_information):
    initial_information_txt = open("initial_information", "w+")
    for user in initial_information:
        initial_information_txt.write(user + "\n")

这是查找名称的部分:

for user in range(30):
            el = self.driver.find_element_by_xpath('/html/body/div[4]/div[2]/div/article/header/div[2]/div[1]/div[1]')
            el = el.find_element_by_tag_name('a')
            time.sleep(2)
            profile = el.get_attribute('href')
            open_recent_posts_set.add(profile)
            time.sleep(2)
            next_button = self.driver.find_element_by_xpath('/html/body/div[4]/div[1]/div/div/a[2]')
            next_button.click()
            time.sleep(2)

URL 将是 https://instagram.com/explore/tags/hansaviertel_ms

所以我开始抓取“最近”帖子,例如前 6 个中的 5 个发布的“Hansaforum”。如果我插入一个 6 的范围,它只会抛出一个包含两个帐户的 .txt 文件,而不是 5 倍“汉莎论坛”。我想以任何方式获得次数。–

谢谢 :)

标签: pythonselenium-webdriverweb-scrapinginstagram

解决方案


推荐阅读