python-3.x - 读取 .txt 文件并将每个单词附加到字典中
问题描述
我有点时间紧迫,但这是我在家庭作业中遇到的问题之一。我被卡住了,我不知道该怎么做或如何继续。
我们的任务是打开各种文本文件,在每个文本文件中,我们应该将每个单词添加到字典中,其中键是它来自的文档编号,值是单词。
例如,一个文本文件是:
1
Hello, how are you?
I am fine and you?
每个文本文件都以与其标题对应的数字开头(例如,“document1.txt”以“1”开头,“document2.txt”以“2”开头,等等)
我的老师给了我们这个编码来帮助去除标点符号和线条,但我很难弄清楚在哪里实现它。
data = re.split("[ .,:;!?\s\b]+|[\r\n]+", line)
data = filter(None, data)
我真的不明白 filter(None, data) 东西在哪里起作用,因为它所做的只是返回它在内存中表示的代码行。
到目前为止,这是我的代码:
def invertFile(list_of_file_names):
import re
diction = {}
emplist = []
fordiction = []
for x in list_of_file_names:
afile = open(x, 'r')
with afile as f:
for line in f:
savedSort = filterText(f)
def filterText(line):
import re
word_delimiters = [' ', ',', ';', ':', '.','?','!']
data = re.split("[ .,:;!?\s\b]+|[\r\n]+", f)
key, value = data[0], data[1:]
diction[key] = value
如何将每个单词附加到字典中,其中键是它来自的文档,值是文档中的单词?谢谢你。