python - 带有大数据的 Seaborn 直方图
问题描述
我正在尝试绘制一个包含 300 万行的大数据集的漂亮直方图(我有 2 个 CPU/16GB RAM)。尽管我提供了垃圾箱,但我从来没有得到一个情节。有没有更有效的方法来绘制直方图?请参阅下面的代码。
df0 = dd.read_csv(filename, sep="|", header=None, dtype=np.str, error_bad_lines=False, usecols=col0, quoting=3, encoding='ISO-8859-1')
dfs = df0[df0['DocumentTypeStndCode']=='D'].compute()
dfs['Price'] = dfs[pd.to_numeric(dfs['Price'], errors='coerce').notnull()]
sns.distplot(dfs['Price'], bins=[0, 10000, 200000, 400000, 2000000], kde=False)
plt.show()
解决方案
这对你来说应该不是问题。我展示了几秒钟来生成给定 5000 万行的图。我先尝试了 pandas hist。
import pandas as pd
import numpy as np
%matplotlib inline
df = pd.DataFrame({
'values': np.random.beta(0.5, 0.1, size=50000000)
})
hist = df.hist(bins=10)
和seaborn一样
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
sns.distplot(df['values'], bins=[0, .10000, .200000, .400000, 2.000000], kde=False)
plt.show()
推荐阅读
- google-sheets - 如何在谷歌表格列中对一些单元格进行文本换行?
- wpf - 使用 Helixtoolkit.SortingVisual3D 通过透明表面单击事件
- python - NoSuchElementException:消息:无法找到元素:[id="faturaspnl.aba"]
- python - Python tkinter:他为什么要退出?
- mysql - 选择具有多个类别的用户
- spring-boot - 如何将 application.yaml 中的值注入 Junit 5 测试用例
- bash - 编辑外壳文件时,您不拥有文件外壳弹出窗口
- python - numpy 获取多维数组的数字的多个索引
- css - 背景动画忽略FF中的边框半径
- php - 错误:此路由不支持 POST 方法。支持的方法:GET、HEAD。- 使用 laravel livewire