python - 在 mrJob 中使用 Pandas 数据框
问题描述
我有一个 python 代码,我需要使用 mrjob 来使我的 python 脚本更快。
如何制作以下脚本以使用 mrJob?
下面的脚本适用于小文件,但是当我运行大文件时,它需要很长时间。所以我打算使用mrJob,它是一个mapReducer python 包。所以,问题是:我不知道如何为这个脚本使用 mrJob,请指教?
import os
import pandas as pd
import pyffx
import string
import sys
column='first_name'
filename="python_test.csv"
encrypted_value_list = []
alpha=string.printable
key=b'sec-key'
seperator_in='|'
seperator_out='|'
outputfile='encypted.csv'
compression_in=None
compression_out=None
df = pd.read_csv(filename,compression=compression_in, sep=seperator, low_memory=False, encoding='utf-8-sig')
df_null = df[df[column].isnull()]
df_notnull = df[df[column].notnull()].copy()
for index,row in df_notnull.iterrows():
e = pyffx.String(key, alphabet=alpha, length=len(row[column]))
encrypted_value_list.append(e.encrypt(row[column]))
df_notnull[column]=encrypted_value_list
df_merged = pd.concat([df_notnull, df_null], axis=0, ignore_index=True, sort=False)
df_merged
解决方案
推荐阅读
- android - 具有不同类型和不同适配器的 RecyclerView
- javascript - New object instance copy method has undefined context. (sorry for misleading title)
- android - How do i generate JWT from a secretKey which was generated using "PBKDF2withHmacSHA256" in android?
- json - Serialise object to JSON with array - preparing data for bar Flot Chart
- java - Struts2 Convention Plugin @Actions not mapping with Spring Boot
- javascript - 当使用javascript达到一定宽度时如何取消选中复选框?
- python - 使用具有特定集群的 sklearn 进行 K 折叠,而不是使用特定大小进行拆分
- swift - UITextField 在打开时被键盘部分隐藏
- c# - 接口标记为在外部库中实现,接口的属性不可见,为什么?
- html - 激活时如何使按钮更改颜色