首页 > 解决方案 > 删除在线文章的无关信息

问题描述

我正在做文本分类以检测在线新闻文章中的政治倾向。问题是文章非常嘈杂,带有媒体标签行、文章版权、出版信息、作者/记者姓名、相关文章链接等媒体属性,主要信息和噪声之间没有分隔符( html 标签已被删除)。我已经阅读了几篇关于如何从抓取的在线文章中清除不相关信息的论文;然而,他们都在收集阶段使用HTML标签进行清理过程。我的研究纯粹是 NLP,所以它超出了我的项目范围。

我研究了基于 IDF 和信息增益删除停用词,也使用异常值检测技术(基于距离,基于聚类)。但我不认为他们可以在我的情况下工作。有什么建议可以自动删除新闻文章中那些不相关的内容吗?感谢您的任何评论和回答。

标签: nlptext-classificationdata-cleaning

解决方案


推荐阅读