首页 > 解决方案 > 如果我想获取本网站上表格的内容(网络抓取),应该读取哪些 HTML 标记

问题描述

我正在尝试阅读此网页的内容:http ://cdn.ime.co.ir (实际上它是一个股票市场网站,我喜欢阅读属于特定股票的每个表格的价格/交易量和此类内容)。但不知道我应该阅读哪些 HTML 标签?当我看到页面源代码时,我可以看到“حجم”或“قیمت”等表格的内容,但找不到相关值?我在 Windows 10 上使用 beautifulsoup 和 python。

标签: pythonweb-scrapingbeautifulsoup

解决方案


看起来你可以模仿 POST 请求并传递合同代码,例如

import requests

data = {'ContractCode' : 'OSFKH98'}
r = requests.post('http://cdn.ime.co.ir/Services/Fut_Live_Loc_Service.asmx/GetContractInfo', json = data ).json()
print(r)

你可以做一个循环,例如:

import requests

codes = ['OSFKH98', 'OSFOR98','OSFTR98', 'SAFKH98','SAFOR98','SAFTR98']

with requests.Session() as s:
    for code in codes:
        data = {'ContractCode' : code}
        r = s.post('http://cdn.ime.co.ir/Services/Fut_Live_Loc_Service.asmx/GetContractInfo', json = data ).json()
        print(r)

示例 r:

https://jsoneditoronline.org/?id=ec913bbb31164500900780c129e971f4


推荐阅读