首页 > 解决方案 > 美丽的汤:无法提取整个 unicode 文本

问题描述

我正在尝试从使用非英语语言的新闻门户网站中提取新闻标题。但是,我无法提取整个句子。我只得到了整个文本的前几个单词或字母。

我的代码如下。

res=requests.get("https://ekantipur.com/news").text
soup_ek = BeautifulSoup(res, 'lxml')
ek_ = soup_ek.find_all('div', class_='teaser offset')

    for i,news in enumerate(ek_):
        title=news.find('a').text.strip()
        print(title,i)

示例:预期输出:

२४ घण्टामा ९७ जना कोरोना संक्रमित, थप

它显示了什么:

२४ घण्टामा ९७ जना कोरोना स</p>

标签: pythonpython-3.xbeautifulsoup

解决方案


不是答案,但确认代码对我有用。我试过.strip()有无。这是测试

res=requests.get("https://ekantipur.com/news").text
soup_ek = BeautifulSoup(res, 'lxml')
ek_ = soup_ek.find_all('div', class_='teaser offset')

for i,news in enumerate(ek_):
#     title=news.find('a').text.strip()
#     print(title,i)
    print(news.find('a').text.strip())
    print(news.find('a').text)
    print('\n')

最后一个应该是你的例子..

संघीय सरकारका कारण काम गर्न सकिएन : मुख्यमन्त्री गुरुङ
संघीय सरकारका कारण काम गर्न सकिएन : मुख्यमन्त्री गुरुङ


एमिकस क्युरीको राय : प्रतिनिधिसभा विघटनको पक्षमा एक, विपक्षमा चार
एमिकस क्युरीको राय : प्रतिनिधिसभा विघटनको पक्षमा एक, विपक्षमा चार


‘टुँडिखेल मार्च’ मा कसले के भने ?
‘टुँडिखेल मार्च’ मा कसले के भने ?


२४ घण्टामा ९७ जना कोरोना संक्रमित, थप ३ को मृत्यु
२४ घण्टामा ९७ जना कोरोना संक्रमित, थप ३ को मृत्यु

推荐阅读