首页 > 解决方案 > 拆分时无法识别连字符

问题描述

我正在处理大约 24k 的文本文件,并在“-”上分割了一些行。它适用于某些文件,但无法拆分某些其他文件。

company_participants是一个包含N >= 1元素的列表,每个元素由一个名称和一个连字符(“-”)组成,然后是职位。要获取名称,我使用:

names_participants = [name.split('-')[0].strip() for name in company_participants]

经过仔细检查,我发现它由于某种原因无法将“-”识别为“-”。

例如,第一个元素company_participants是“robert isom - 总统”

调用company_participants[0].split()[2]返回“-”,因为我在空格上进行了拆分,连字符是第三个元素(索引 2)。

然后当我运行一个布尔值是否等于“-”时,我得到 False。

company_participants[0].split()[2] == "-"  # Item at index 2 is the hyphen
# Output = False

知道这里发生了什么吗?还有其他看起来像连字符但不是连字符的东西吗?

非常感谢!

标签: pythontextsplitnlp

解决方案


所以我发现这实际上已经在 StackOverflow 的其他地方得到了回答。

显然我正在处理“破折号”而不是“连字符”;肉眼看不出有什么区别,但是当我从这里复制符号时,它会识别它,从而company_participants[0].split()[2] == "–"返回 True。

#textDataProblems
#didNotSeeThatComing

谢谢 StackOverflow!


推荐阅读