performance - 使用 EmEditor 优化列数据中的多元素排序/去重
问题描述
在处理大型分隔文件时,目前对列中的元素进行排序/去重的最简单方法(通常使用分号分隔的元素,但可以是任何字符)似乎是通过“拆分列方法” document.SplitColumn
,然后使用组合线方法document.CombineLines
(使用相关的方法参数根据需要进行排序/去重)。
当文件不是很大时,这可以正常工作,但我想知道是否有更快/更优化的方式在较大的分隔文件(百万+行)上执行此常见任务,特别是通过宏/方法。
解决方案
请将 EmEditor 更新到 v20.1.901 或更高版本,并使用此表单:
document.SplitColumn("3",";",eeSplitIntoNone,"A+",eeRemoveDuplicates | eeSortIgnorePrefix | eeSortStable,0);
这种新eeSplitIntoNone
类型实际上不会拆分,而只会对元素的重复项进行排序或删除。
推荐阅读
- c# - SqlDataReader 将 Binary(1) 列转换为 bool
- powerbi - 以功率计测量
- json - 在 Django 中读取 CSV 文件并以 JSON 形式存储数据
- laravel-5.2 - 如何创建 Web 开发人员文档?
- php - 尽管通知管理员注册成功,但如何解决管理员无法登录问题
- mysql - 在数据库中存储图像(地址与 Blob)
- css - 响应项目在 div 中的宽度
- python - 查找最长连续子数组(未排序)-Python
- java - 如果源对象中的字段不为空,MyBatis 会更新
- ios - 如何在 swift 4.2 中增加 UICollectionview 单元格大小等于屏幕大小?