什么是网页净化?
网页净化是根据网页结构,识别网页中不同类型的内容块,舍弃噪声信息,如导航信息、广告信息、版权信息等,剥离出正文信息。它是主题相关度计算、资源查重、自动摘要、自动分类及元数据抽取的前提,是预处理阶段不可缺少的环节。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!







请先 登录后发表评论 ~