python - 数据框中的 Python DateDiff
问题描述
我基本上是在尝试将一组给定的数据时间与预定义的阈值进行比较。最终目标是在超过阈值时获取列中的行。
这是我到目前为止尝试过的代码:
#!/usr/bin/python
from datetime import datetime
import sys
import logging
import operator
import pymysql
import pandas as pd
db_endpoint = "awsendpoint"
db_username="user"
db_password="password"
db_name="database_name"
port = 3306
logger = logging.getLogger()
logger.setLevel(logging.INFO)
try:
conn = pymysql.connect(db_endpoint, user=db_username,
passwd=db_password, db=db_name, connect_timeout=5)
except:
logger.error("ERROR: Unexpected error: Could not connect to MySql instance.")
sys.exit()
logger.info("SUCCESS: Connection to RDS mysql instance succeeded")
cur=conn.cursor()
cur.execute("select talendjobname, taskstartdate from taskexecutionhistory where basicstatus = 'RUNNING'")
#OUTPUT is :
[('Prod_Adobe_Master_Process_v2', datetime.datetime(2018, 12, 17, 3, 30)), ('Prod_Sales_n_DG_Master_Process_v2', datetime.datetime(2018, 12, 17, 4, 0)), ('SDG_download_mail_attachments', datetime.datetime(2018, 12, 23, 3, 0, 1))]
aws = []
for row in cur:
aws.append(row)
# All working upto this.
aws = pd.DataFrame(aws)
aws_time = aws.iloc[:,1]
## I am getting the longer running jobs with respect to current time.
def days_between(d1):
# d1 = datetime.strptime(d1, "%Y-%m-%d")
return abs((datetime.now() - d1))
#Here is the problem
OUTPUT is a list of : 3Days 11 hours 30 mins,
2Days 10 hours 12 mins,
so on and so forth
我的阈值是 8 小时,我无法与此结果进行比较。我希望获得仅超过此阈值的工作列表。
我尝试过的一些其他事情:
time_passed = []
for i in range(0,len(aws_time.index)):
x = days_between(aws_time[i])
time_passed.append(x)
让我知道我缺少什么或者是否有任何不同的方法。TimeDelta 是我正在努力解决的主要课程。我尝试处理字符串操作,但也无法将输出转换为字符串。
解决方案
datetime.timedelta
Python 中的对象有一个名为的方法.total_seconds()
,您可以使用它来查找两次之间的小时数。
from datetime import datetime, timedelta
t1 = datetime.now()
t2 = datetime.now() - timedelta(hours=10)
type(t1 - t2)
datetime.timedelta
# Find total hours between times
(t1 - t2).total_seconds() / 3600
9.99999
您可以对您的操作进行矢量化,以一次找到所有小时的时差(.dt
用于访问时差):
# Find the time differences and convert to hours
aws['time_diff'] = aws.iloc[:, 1].apply(days_between)
aws['time_diff_hours'] = aws['time_diff'].dt.total_seconds() / 3600
然后子集到小时大于 8 的行
greater_than_8_hours = aws[aws['time_diff_hours'] > 8]
推荐阅读
- reactjs - 如何在 React 中编辑输入?
- flutter - Flutter FutureBuilder 和 ListTile 创建
- mongodb - 使用 skip() 和 limit() 实现分页时检查是否有更多文档
- firebase - Flutter 应用 MultiProvider 与 StreamProviders 相互依赖
- sqlite - 如何在 SQLite 中使用连接运算符
- postgresql - 如何使用 Sequelize 在 postgresql 中插入批量上传?
- c++ - 如何让两个用不同语言编写的不同程序进行链接?
- javascript - Clojurescript 与 ProseMirror 互操作
- python - 如何为功能文件创建步骤定义(使用语言:python,包:行为,扩展:黄瓜,编辑器:vs 代码)?
- visual-studio-code - vscode 无法打开弧度(Linux、Manjaro)