首页 > 解决方案 > 使用 Colab 在自定义数据上微调 BERT

问题描述

我在 colab 上运行 run_lm_finetuning,在自定义词汇表上微调 CamemBERT。

我正在使用以下参数:

!python run_lm_finetuning.py \
    --output_dir Skander/ \
    --model_type camembert\
    --model_name_or_path camembert-base \
    --do_train \
    --train_data_file="Text.txt" \
    --line_by_line\
    --mlm\
    --per_gpu_train_batch_size=32 \
    --num_train_epochs=3 \

但是,我收到以下错误:

tcmalloc: large alloc 1264730112 bytes == 0xe87fe000 @  0x7f9828a8f1e7 0x5ad4cb 0x4bb356 0x5bd993 0x50a8af 0x50c5b9 0x508245 0x509642 0x595311 0x54a6ff 0x551b81 0x5aa6ec 0x50abb3 0x50d390 0x508245 0x50a080 0x50aa7d 0x50d390 0x508245 0x50a080 0x50aa7d 0x50c5b9 0x508245 0x50b403 0x635222 0x6352d7 0x638a8f 0x639631 0x4b0f40 0x7f982868cb97 0x5b2fda
^C

有人知道这个错误吗?

标签: bert-language-model

解决方案


推荐阅读