python - 标记数据错误,同时使用 deepspeech 训练数据集
问题描述
在遵循此( https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf)教程时,我创建了一个语音数据集以使用 DeepSpeech 进行训练。
但是,我无法用 deepspeech 训练我的数据集。
由于 train 命令,它会给出一个错误,例如
python DeepSpeech.py --train_files /mnt/c/wsl/teneke_out_bolum1/
它抛出一个错误:
pandas.errors.ParserError:数据标记错误。C 错误:对源调用 read(nbytes) 失败。尝试引擎='python'。
我在 aeneas 力对齐和微调之后创建了数据集:
这是我在 Google Colab 上使用 DeepSpeech 训练的代码:
https://gist.github.com/mustafaxfe/d20be114ca7cea5c47ea5cc85653c761
我在谷歌上找到了一些解决方案,比如
data = pd.read_csv('file1.csv', error_bad_lines=False)
同样作为错误输出,我可以通过设置解决
引擎='蟒蛇'
但是,我无法弄清楚我应该在哪里改变。
所以,我应该在哪里编辑来解决这个问题。
谢谢。
解决方案
您的命令需要重新访问:
- 你指向一个火车数据文件夹。您应该指向一个 .csv 文件
- 使用 Python3
您的运行命令应如下所示。检查文档并根据您的需要进行修改。
python3 -u DeepSpeech.py \
--train_files /data/phonetic_speech_dta/train/train.csv \
--dev_files /data/phonetic_speech_dta/dev/dev.csv \
--test_files /data/phonetic_speech_dta/test/test.csv \
--train_batch_size 64 \
--dev_batch_size 32 \
--test_batch_size 64 \
--n_hidden 800\
--validation_step 1\
--display_step 1 \
--epoch 100 \
--log_level 1 \
--dropout_rate 0.2 \
--learning_rate 0.001 \
--drop_count_weight 3.5 \
--export_dir /speech2text/norwegian_model/results/model_export/ \
--checkpoint_dir /speech2text/norwegian_model/results/checkpoint/ \
--decoder_library_path /home/nvidia/tensorflow/bazel-bin/native_client/libctc_decoder_with_kenlm.so \
--alphabet_config_path /speech2text/norwegian_model/alphabet.txt \
--lm_binary_path /speech2text/norwegian_model/lm.binary \
--lm_trie_path /speech2text/norwegian_model/trie
推荐阅读
- python - 熊猫 - 使用 lambda 应用()
- javascript - 错误:使用 TestCafe 服务器运行 Lighthouse 的协议 JSON API 错误
- return - 修改函数以大写给定字符串的每个单词并返回结果
- python - Python:两个系列之间的互相关
- java - org.apache.maven.lifecycle.LifecycleExecutionException: 未能执行目标 org.apache.maven.plugins:maven-compiler-plugin:3.5.1
- javascript - URL.createObjectUrl() 如何成为模块?
- javascript - 如何在 JavaScript 函数中创建对按钮的引用以避免重复?
- javascript - Create a custom/prettier confirm() and use it in if() statement
- wildfly - 如果知道原始密码,是否可以更改 Wildfly 凭证存储的密码?
- javascript - 类成员方法未绑定到 TypeScript -> JavaScript