apache-spark - 使用 Pyspark 创建具有特定长度的 unique_id
问题描述
我想根据日期为我的数据框中的每一行创建一个 unique_id。
df1:
+---+-----+----+-------+-----+
|day|month|year| userid|units|
+---+-----+------------+-----+
| 01| 01|2016|87cb11 | 0|
| 01| 01|2016|87cb11 | 1|
| 01| 01|2016|87cb11 | 2|
| 02| 01|2016|87cb11 | 0|
| 02| 01|2016|87cb11 | 1|
| 02| 01|2016|87cb11 | 2|
+---+-----+----+-------+-----+
我曾尝试使用monotonically_increasing_id()
,但我不确定如何创建一个越来越多的数字,它将具有一定的长度。
df2:
+---+-----+----+-------+-----+---------------+
|day|month|year| userid|units| unique_id |
+---+-----+------------+-----+---------------+
| 01| 01|2016|87cb11 | 0|201601010000001|
| 01| 01|2016|87cb11 | 1|201601010000002|
| 01| 01|2016|87cb11 | 2|201601010000003|
| 02| 01|2016|87cb11 | 0|201601020000001|
| 02| 01|2016|87cb11 | 1|201601020000002|
| 02| 01|2016|87cb11 | 2|201601020000003|
+---+-----+----+-------+-----+---------------+
解决方案
推荐阅读
- c# - 将 asmx Web 服务部署到共享托管服务器
- jakarta-ee - 测试文件中出现“找不到符号”错误
- c++ - Thrift C++ 链接器错误(增强智能指针)
- haskell - Esqueleto 中的行数和类似内容
- x86 - 从 x86 CPU 生成 64 字节读取 PCIe TLP
- vba - ms访问vba listbox.rowsource在添加where子句时格式化没有结果
- puppet - 获取问题 wuth puppet 模块 pcfens/filebeat
- css - 如何改变CF7的宽度?
- android - 从 RecyclerView 将项目添加到 arraylist
- typescript - 打字稿对象中的不同数组