首页 > 解决方案 > Python 抓取 | 美汤

问题描述

我想为每个“日期”部分提取,什么是刮掉<p>.

<div class="kefufloat" id="targetObj">
            <img src=" " width="44"></div>

    <div class="reblock">
        <p><span>运单编号:&lt;/span>w44036</p>
        <p><span>下单时间:&lt;/span>2020-04-21 14:17:56</p>
        <p><span>到齐时间:&lt;/span>2020-04-10 11:33</p>           
            <p><span>已称重时间:</span>2020-04-21</p>        
    </div>
    <style>

标签: pythonweb-scraping

解决方案


我希望这个片段能帮助你。

from bs4 import BeautifulSoup

html = """<div class="reblock">
  <p><span>运单编号:&lt;/span>w44036</p>
  <p><span>下单时间:&lt;/span>2020-04-21 14:17:56</p>
  <p><span>到齐时间:&lt;/span>2020-04-10 11:33</p>           
  <p><span>已称重时间:</span>2020-04-21</p>        
</div>
<style>"""

soup = BeautifulSoup(html, 'html.parser')

for row in soup.find_all('p'):
    print(row.get_text())

输出如下所示:

运单编号:w44036
下单时间:2020-04-21 14:17:56
到齐时间:2020-04-10 11:33
已称重时间:2020-04-21

为了进一步处理,您可以使用split()方法仅获取字符串的 Date 部分。然后您可以使用日期时间库轻松操作日期。特别是strftime() 和 strptime( ) 函数非常有用。


推荐阅读