nlp - 删除在线文章的无关信息
问题描述
我正在做文本分类以检测在线新闻文章中的政治倾向。问题是文章非常嘈杂,带有媒体标签行、文章版权、出版信息、作者/记者姓名、相关文章链接等媒体属性,主要信息和噪声之间没有分隔符( html 标签已被删除)。我已经阅读了几篇关于如何从抓取的在线文章中清除不相关信息的论文;然而,他们都在收集阶段使用HTML标签进行清理过程。我的研究纯粹是 NLP,所以它超出了我的项目范围。
我研究了基于 IDF 和信息增益删除停用词,也使用异常值检测技术(基于距离,基于聚类)。但我不认为他们可以在我的情况下工作。有什么建议可以自动删除新闻文章中那些不相关的内容吗?感谢您的任何评论和回答。
解决方案
推荐阅读
- vba - 多个 Excel 工作簿和 1004 运行时错误
- java - 导入 jar 文件后 jasper 报告中的 NoSuchMethodError
- sql - 为基于角色的访问控制构建数据库模型
- c++ - 具有 const 参数的模板未按预期分派
- laravel-5 - 如何在 Laravel 项目中设置杠杆浏览缓存和 Gzip 压缩
- javascript - 时隙未出现在完整的日历组件中
- python - Python Pickle,返回列表时加载问题
- javascript - 使用 recorder.js mattdiamond/Recorderjs 将 .wav 文件格式转换为 .mp3
- javascript - 背景图片不是通过javascript添加的
- java - 空文件构造函数既不是文件也不是目录