基于标签树的净化方法是如何工作的?
基于标签树的净化方法首先将HTML中的标签按照功能分类,提取出适合网页净化的标签树。然后根据内容块中词频数、图片数和超链接数的比值将内容块分为主题型、多链接型和图片型三种。对于目录型网页,将网页中间区域的内容块作为网页的主题内容,而边缘的内容块则通过与主题内容计算相似性的方法来决定取舍。对于图片网页,保留网页中间区域的图片型内容块就可以完成网页净化的功能。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!







请先 登录后发表评论 ~