python - 寻找提高使用 Pandas 库的 python 脚本速度的方法
问题描述
我对 Pandas 还很陌生,并且已经开始使用该库来处理 Power BI 中的数据集。我最近不得不编写一段代码来对一列整数运行一些计算,但是很难将我的代码从标准 python 转换为 Pandas。该代码本质上是将列转换为列表,然后对列表中的项目运行循环,将结果数字附加到一个新列表中,然后我将其放入它自己的列中。
我读过 Pandas 中的运行循环可能很慢,下面代码的执行确实看起来很慢。任何为我指明正确方向的帮助将不胜感激!
这是我要优化的代码:
import pandas as pd
df = dataset #Required step in Power BI
gb_list = df['Estimated_Size'].T.tolist()
hours_list = []
for size in gb_list:
hours = -0.50
try:
for count in range(0,round(size)):
if count % 100 == 0:
hours += .50
else:
continue
except:
hours = 0
hours_list.append(hours)
df['Total Hours'] = hours_list
解决方案
IIUC,您的代码相当于:
df['Total Hours'] = (df['Estimated_Size'] // 100) * 0.5
除了我不清楚你想要什么值Estimated_Size
是什么时候100
。
推荐阅读
- .net-core - Github Action DotNetCore sln 和项目在同一个文件夹中
- python - AttributeError:“str”对象没有“包含”属性
- angular - AWS Codepipeline 使用 --delete 标志部署到 S3
- android - 将两个数据类绑定到一个片段 - Android Kotlin
- algorithm - 查找 XOR 和为零的数组数量
- google-bigquery - 特殊组成员时的 BigQuery 数据集访问
- mongodb - mongo db 没有在 centos 7 上启动
- python - 是否有计算项目产品价值的循环?
- ios - Vapor 3.1.10 Xcode-11.3.1 编译问题
- javascript - 禁用除 IE 之外的所有浏览器的 HTML5 AppCache