首页 > 解决方案 > R中的批处理与序列处理效率

问题描述

我正在研究一个大型国际象棋游戏数据库(大约 400 万个 PGN 格式的游戏),目的是为每场游戏的前 15 步应用数据分析工具。

为此,我正在使用 RStudio,到目前为止我做得很好。我已经创建了一个解析器来获取游戏动作,现在我正在编写代码来重建棋盘上第 15 步的位置。

我现在主要关心的是处理 4M 游戏所需的时间以及执行此操作的代码效率。我的意思是,代码必须处理 4M 游戏 * 15 步 * 2(黑白棋步)= 1.2 亿次。好多啊。所以我开始寻找最有效的方法来加入我正在编写的所有子流程(解析、编码移动等),但到目前为止,我还没有找到任何与 R 相关的帖子。

我的两个选择(我不知道是否还有其他选择)是:

a)批处理:解析所有动作,将它们存储在数据帧中,然后遍历该数据帧中的每个游戏,以逐个移动重新创建棋盘上的位置,直到达到第 15 步

b)序列处理:解析游戏的第一个动作(从白色开始移动#1),然后将位置存储在棋盘上,并循环接下来的动作直到第 15 步

那么就代码的效率而言,您会推荐什么方法呢?我正在考虑处理时间和计算成本。

谢谢

标签: rperformanceparsinglarge-dataprocessing-efficiency

解决方案


推荐阅读