shell - 如何在 Hadoop HDFS 中删除多级分区
问题描述
拥有多级分区 Hive 表,现在需要删除超过特定年份的分区文件夹。
多级分区如下所示。
/data/warehouse/suite/catalyst/site/company=abc/year=2019/month=08
/data/warehouse/suite/catalyst/site/company=cde/year=2018/month=05
/data/warehouse/suite/catalyst/site/company=cde/year=2017/month=11
/data/warehouse/suite/catalyst/site/company=cde/year=2016/month=11
如果要删除超过 2 年的分区,即需要删除 /year=2017/month=11 和 year=2016/month=11 怎么做。
请帮助,在此先感谢。
解决方案
ALTER TABLE mytable drop if exists partition (year<='2017')
您无法按预期控制分区删除
您可以使用更可靠的unix方式进行尝试。
hive -S -e "show partitions test" > tmp.txt
curr_year=`expr "$(date +'%Y')" - "2"`
curr_mon=`expr "$(date +'%m')" - "1"`
cur_part=$curr_year$curr_mon
cur_part=201812
echo $cur_part
#echo "year=2016/month=12" | cut -d '=' -f 2 | grep -o -E '[0-9]+'
#echo "year=2016/month=12" | cut -d '=' -f 4 | grep -o -E '[0-9]+'
while read -r line
do
part_year=`echo $line | cut -d '=' -f 2 | grep -o -E '[0-9]+'`
part_mon=`echo $line | cut -d '=' -f 3 | grep -o -E '[0-9]+'`
part_part=$part_year$part_mon
echo $part_part
if [[ $part_part -lt $cur_part ]]
then
echo "$part_year , $part_mon"
hive --hivevar year="$part_year" --hivevar month="$part_mon" -e 'ALTER TABLE test DROP IF EXISTS PARTITION (year="${hivevar:year}", month="${hivevar:month}")'
fi
done < tmp.txt
> show partitions test;
OK
year=2016/month=12
year=2017/month=11
year=2017/month=12
year=2018/month=12
> show partitions test;
OK
year=2017/month=12
year=2018/month=12
我已经测试过它工作正常
推荐阅读
- kubernetes - 如何在 Kubernetes 上为 Kafka-connect 创建连接器?
- php - 在登录和注册时使用 htmlspecialchars
- security - 限制服务器的公共访问
- reactjs - 如何在 reactjs 库开发环境中使用 react-hooks?
- javascript - 打字稿导出默认始终执行
- python - 用于文本分类的 Tenserflow 模型没有按预期进行预测?
- java - 在 selenium Java 中验证两个不同的 xpath
- typescript - Firebase 云函数:未定义不是函数
- celery - CeleryExecutor:气流指标“executor.queued_tasks”是否报告 celery 代理中的任务数?
- events - 触发事件时获取 ID 属性(elm v0.19.1)