python - 美丽的汤:无法提取整个 unicode 文本
问题描述
我正在尝试从使用非英语语言的新闻门户网站中提取新闻标题。但是,我无法提取整个句子。我只得到了整个文本的前几个单词或字母。
我的代码如下。
res=requests.get("https://ekantipur.com/news").text
soup_ek = BeautifulSoup(res, 'lxml')
ek_ = soup_ek.find_all('div', class_='teaser offset')
for i,news in enumerate(ek_):
title=news.find('a').text.strip()
print(title,i)
示例:预期输出:
२४ घण्टामा ९७ जना कोरोना संक्रमित, थप
它显示了什么:
२४ घण्टामा ९७ जना कोरोना स</p>
解决方案
不是答案,但确认代码对我有用。我试过.strip()
有无。这是测试
res=requests.get("https://ekantipur.com/news").text
soup_ek = BeautifulSoup(res, 'lxml')
ek_ = soup_ek.find_all('div', class_='teaser offset')
for i,news in enumerate(ek_):
# title=news.find('a').text.strip()
# print(title,i)
print(news.find('a').text.strip())
print(news.find('a').text)
print('\n')
最后一个应该是你的例子..
संघीय सरकारका कारण काम गर्न सकिएन : मुख्यमन्त्री गुरुङ
संघीय सरकारका कारण काम गर्न सकिएन : मुख्यमन्त्री गुरुङ
एमिकस क्युरीको राय : प्रतिनिधिसभा विघटनको पक्षमा एक, विपक्षमा चार
एमिकस क्युरीको राय : प्रतिनिधिसभा विघटनको पक्षमा एक, विपक्षमा चार
‘टुँडिखेल मार्च’ मा कसले के भने ?
‘टुँडिखेल मार्च’ मा कसले के भने ?
२४ घण्टामा ९७ जना कोरोना संक्रमित, थप ३ को मृत्यु
२४ घण्टामा ९७ जना कोरोना संक्रमित, थप ३ को मृत्यु
推荐阅读
- google-sheets - 使用 AND 和多个条件来格式化 google sheet/excel
- css - 适合父级的 Flex 盒子网格
- java - java列表的内存占用计算和GC计算
- python - 可变对象上的递归函数
- c# - 带有 Nuget 包的多个 Microsoft.Owin 版本
- php - 如何通过 MySql 查询结果中的循环输入表单(动态)发布 Ajax onClick
- amazon-web-services - 在 terraform 中创建 AWS 实例时如何使用 user_data url?
- php - 如何同步两个日期字段输入。一个漂移,需要一些指导
- python - pytest monkeypatch 终端大小
- c# - 如何编写没有根元素的碎片化 xml 文件?