首页 > 解决方案 > 寻找提高使用 Pandas 库的 python 脚本速度的方法

问题描述

我对 Pandas 还很陌生,并且已经开始使用该库来处理 Power BI 中的数据集。我最近不得不编写一段代码来对一列整数运行一些计算,但是很难将我的代码从标准 python 转换为 Pandas。该代码本质上是将列转换为列表,然后对列表中的项目运行循环,将结果数字附加到一个新列表中,然后我将其放入它自己的列中。

我读过 Pandas 中的运行循环可能很慢,下面代码的执行确实看起来很慢。任何为我指明正确方向的帮助将不胜感激!

这是我要优化的代码:

import pandas as pd

df = dataset #Required step in Power BI

gb_list = df['Estimated_Size'].T.tolist()
hours_list = []
for size in gb_list:
    hours = -0.50
    try:
        for count in range(0,round(size)):
            if count % 100 == 0:
                hours += .50
            else:
                continue
    except:
        hours = 0
    hours_list.append(hours)

df['Total Hours'] = hours_list

标签: pythonpython-3.xpandasoptimizationpowerbi

解决方案


IIUC,您的代码相当于:

df['Total Hours'] = (df['Estimated_Size'] // 100) * 0.5

除了我不清楚你想要什么值Estimated_Size是什么时候100


推荐阅读