azure - 使用 U-SQL 删除字符串中的空行
问题描述
我从客户那里获得对 azure 数据湖的评论,这些评论在 U-SQL 中组合/格式化。一些客户在他们的评论行之间留了一个空格。知道如何使用 U-Sql 删除这些空行吗?
例如单个评论
My name is abc
<blank line>
I love playing football.
需要去掉中间的空行。Trim() 仅删除开始和结束空格。谢谢。
解决方案
你可以使用RegEx
U-SQL 来清理你的文本,例如,这个简单的脚本用一个回车替换两个回车,删除空行:
@input =
SELECT * FROM
( VALUES
( 1, @"My name is abc
I love playing football." ),
( 2, @"I love U-SQL
I'm indifferent to Hadoop." )
) AS x( id, review );
// Strip out repeated carriage returns
@output =
SELECT id,
Regex.Replace(review, "(\r\n){2}", "\r\n", RegexOptions.Multiline) AS cleanedReview
FROM @input;
OUTPUT @output
TO "/output/output.csv"
USING Outputters.Csv();
您可能必须尝试使用 RegEx 表达式来清理您的特定数据。
推荐阅读
- android - 谷歌地图如何显示包含特定单词的地方(Android工作室)?
- excel - 复制和粘贴时禁用 VBA 弹出窗口
- python-3.x - 绘制离散分段函数 - 信号
- python - 根据值的类型过滤 Pandas Dataframe 中的数据
- python - 如何使用 append() 函数扩展 Numpy 数组类?
- python - AttributeError:'method_descriptor'对象在替换字符串时在python中没有属性'df_new'
- google-cloud-platform - 如何设置谷歌云负载均衡器以利用清漆中的 http2 支持?
- splunk - Splunk:按 ID 计数
- c++ - 如何以原子方式设置新的最小值?
- r - R rvest:提取动态加载的html表