huggingface-transformers - 如何使用 Huggingface 预训练模型来获取用于训练模型的数据集的输出?
问题描述
我正在使用 Huggingface 的预训练 BART、Pegasus 和 T5 模型获取 XSUM 和 CNN DailyMail 数据集的抽象摘要。
我很困惑,因为已经存在在同一数据集上预训练的模型的检查点。
所以即使我这样做:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("mwesner/pretrained-bart-CNN-Dailymail-summ")
model = AutoModelForSeq2SeqLM.from_pretrained("mwesner/pretrained-bart-CNN-Dailymail-summ")
我无法理解如何获取任一数据集的摘要,因为我没有任何可以输入的新句子。
这是通常使用预训练模型的方式:
from transformers import BartTokenizer, BartForConditionalGeneration, BartConfig
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
ARTICLE_TO_SUMMARIZE = "My friends are cool but they eat too many carbs."
inputs = tokenizer([ARTICLE_TO_SUMMARIZE], max_length=1024, return_tensors='pt')
# Generate Summary
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=5, early_stopping=True)
print([tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summary_ids])
但我需要预训练模型在用于训练它们的数据集(XSUM 和 CNN DailyNews)上生成的摘要。
解决方案
推荐阅读
- c - void 指针及其对 void 数据类型的赋值
- android - 如何解决这个组件?
- javascript - async/await 不会将构建的数组返回给父 array.map()
- pandas - 使用多索引进行 DF 重采样
- haskell - Exp / Acc 中的实复类型转换
- node.js - 基于数据库数据的预定事件
- android-studio - 如何更改在 Kotlin 上生成的函数 TODO() 的主体?
- algorithm - Algorithm to aggregate key-value pairs where keys contain numbers
- amazon-web-services - 为什么不能更改 AWS CloudWatch 日志组和流名称?
- android - 将 android 应用程序制作为试用版然后进行结算以解锁应用程序的最佳策略是什么?