transformer - 如何使用 Gigaword 或 Cnn dailymail 微调 distillbart 以进行抽象摘要?
问题描述
我想问一下如何使用起始检查点distilbart-cnn-12-6对 gigaword 和 cnn dailymail 上的 distillbart 进行微调。我确实使用了 tensorflow 提供的 gigaword 数据集,但它用这个字符替换了数字:“#”,结果,我的摘要有 # 而不是数字,它有那些 # 是否正常?另外,真的可以使用cnn每日邮件从检查点distilbart-cnn-12-6微调distillbart吗?
import os
os.environ['PYTHONPATH'] += ":/content/transformers/examples"
%cd "/content/transformers/examples"
!python /content/transformers/examples/seq2seq/finetune.py \
--learning_rate=3e-5 \
--fp16 \
--gpus 1 \
--do_train \
--do_predict \
--n_val 1000 \
--val_check_interval 0.1 \
--sortish_sampler \
--data_dir '/content/dataset' \
--train_batch_size=4 \
--eval_batch_size=4 \
--output_dir=distilbart_1300k_1400k \
--num_train_epochs 1 \
--model_name_or_path /content/transformers/examples/distilbart_1200k_1300k/best_tfmr
这里是 gigaword 的链接:https ://www.tensorflow.org/datasets/catalog/gigaword 这里是 cnn dailymail 的链接:https ://www.tensorflow.org/datasets/catalog/cnn_dailymail
对于代码,我在这里按照微调 distillabart 的说明进行操作: https ://github.com/Hildweig/transformers/tree/master/examples/seq2seq
对于带有 gigawords 的输出,我得到这样的信息:“香港 9 月的外汇汇率。## #### ; 中国国防部长表示他已准备好与南斯拉夫外长就伊拉克的角色进行合作在伊拉克与 bc-me-gen iraq"
解决方案
推荐阅读
- java - 如何膨胀合并
- java - 尝试使用 if 语句在 Java for 循环中创建 10 列
- java - 安装为 apk 时,retrofit2 连接会引发错误
- python - 在远程桌面中使用 pywinrm 启动分离的进程
- postgresql - Postgres 与 ORDER BY 和 Equals 与 IN 的碰撞行为
- php - 在 websocket 中向终端创建的 codeanywhere.com 网站服务器发送 bash 命令
- html - 如何将网络上的图像添加到我的 html 网站?
- r - 在排列的 r 数据框中映射相应的值
- java - 无法正确定义处理程序方法以关闭主程序框架和弹出对话框
- c# - 使用 LINQ 查询 JSON