python - 在 R 中加载数据时嵌入 Nul(s)
问题描述
我所说的数据是以 CSV 格式从 SQL 服务器导出的,并且有大约 200 万行。后来这通过 Filezilla 分享给了我(因为这是客户的数据)。我试图将此 CSV 文件加载到 R 环境中,并面临以下警告消息:
警告消息: 在 scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : 在输入中找到嵌入的 nul(s)
这不仅是一条警告消息,而且在加载数据后我丢失了大约 150 万行。这意味着只有 500K 行是非空的。所有这 500K 行都处于良好状态,并且与客户端的父数据相匹配。
这就是谜题中有趣的部分开始的地方。我们让我们的客户将 CSV 上传回 SQL 服务器,以便创建一个新表并检查总行数(以及一些其他指标)。所有的数据都在那里,他们甚至没有错过任何一行。
嵌入式 nul(s)上的其他线程正在帮助在没有警告的情况下读取数据。但我不想那样。所以我请求你的帮助来回答我以下问题:
- 有没有办法使用嵌入式 nuls 读取文件(即使它们是 nuls 我没有问题,但想先读取所有 200 万行)
- 在与用户共享敏感数据的同时,是否有任何可能的安全措施将大部分数据转换为 NULL?(可能是我的客户,我对此一无所知并试图解决错误的问题)
笔记:
- 我也尝试在 Python 和 Alteryx 中加载数据,但结果是一样的
- 没有数据丢失,因为文件大小与客户给我们的完全匹配
- 没有尝试在 SQL 服务器上加载数据,因为我的系统上没有它,但问题是我希望 R/Python 上的数据进行一些分析
解决方案
推荐阅读
- apache-spark - 将 RDD 的值作为变量传递给另一个 RDD - Spark #Pyspark
- python - 加载模型后更改优化器或 lr 会产生奇怪的结果
- sql-server - 从 SQL Server 代理运行 Powershell 脚本
- ruby - Mongoid::Errors::DocumentNotFound 即使在救援之后也会引发
- angular - Angular Firebase 服务属性为不同组件实例化/为空
- javascript - 从 JSON 中获取值
- php - 使用 PHP 函数比较两个数组以找出差异
- php - 带有 PHP 的 REGEX(我做错了什么?)
- python-3.x - 获取矩阵python中每列大于阈值用户的元素的行名
- javascript - 如何替换“。” 带空字符串