首页 > 解决方案 > Dask停滞不前并永远处理任何事情

问题描述

在过去一周左右的时间里,我一直遇到 dask 和 dask 集群问题。

每当我用 dask 运行任何东西时,它都会卡住加载 在此处输入图像描述

然后,几个小时后,它可能会开始处理,但处理最简单的事情需要几天时间。

我发现的唯一解决方案是重新安装 anacanda 和所有软件包,但这只能工作一次,一旦我在 jupterlab 中重新启动内核,它就会再次停止。

我已经在 pycharm 中尝试过,它也停在那里。

我完全被卡住了,由于这个问题,我不得不花 700 美元购买更多的 ram 以避免使用 dask。

有人可以帮我解决这个问题吗?

这是我目前正在使用的代码

import dask.array as da
import dask.dataframe as dd
import numpy as np
import os
import dask
import datetime
from dask.diagnostics import ProgressBar
import plotly.graph_objects as go
import pandas as pd
import plotly
from lenspy import DynamicPlot

from dask.distributed import Client
client = Client("tcp://10.0.0.98:8786")
client.cluster

df = dd.read_csv(r'C:\Users\leamy\Desktop\EURUSD_mt5_ticks.csv', blocksize = '100mb', parse_dates=['Datetime']).set_index('Datetime')

df.loc[(df.index > '2003-05-05 00:00:05.536') & (df.index < '2003-05-05 00:02:40.646')].compute()

df.columns = ['Date', 'Ask_Price', 'Ask_Volume', 'Bid_Price', 'Bid_Volume', 'Spread']

df2 = df.drop(['Ask_Volume','Bid_Price','Bid_Volume','Spread'], axis=1).copy()

df2.to_csv(r'C\Users\leamy_do\Desktop\CSV\test.csv')  

数据

data = {'Date': ['2003-05-05--00:00:05.5360000', '2003-05-05--00:00:06.5610000', '2003-05-05--00:00:14.0850000', '2003-05-05--00:00:14.4200000', '2003-05-05--00:00:15.1100000', '2003-05-05--00:00:15.4450000', '2003-05-05--00:00:29.5360000', '2003-05-05--00:00:30.5610000', '2003-05-05--00:00:31.6870000', '2003-05-05--00:00:32.7120000'], 'Ask_Price': [1.12177, 1.12182, 1.12183, 1.12183, 1.1219, 1.12192, 1.1219, 1.122, 1.12196, 1.12207], 'Ask_Volume': [35.700001, 0.6, 60.5, 0.7, 33.5, 14.8, 24.700001, 23.200001, 0.8, 0.6], 'Bid_Price': [1.12161, 1.12166, 1.12163, 1.12173, 1.1217, 1.12182, 1.12175, 1.12185, 1.12176, 1.12187], 'Bid_Volume': [14.4, 0.8, 0.8, 16.0, 14.9, 5.0, 7.0, 49.799999, 18.0, 23.1], 'Spread': [0.00016, 0.00016, 0.0002, 0.0001, 0.0002, 0.0001, 0.00015, 0.00015, 0.0002, 0.0002]}

我尝试了许多其他代码变体,唯一的相似之处是它们都尝试读取 csv 文件。

标签: daskjupyter-lab

解决方案


推荐阅读