有哪些网页净化的方法?
常见的网页净化方法有基于标签树的净化方法和基于ST树的净化方法。基于标签树的净化方法通过将HTML中的标签按照功能分类,提取出适合网页净化的标签树,然后根据词频数、图片数和超链接数的比值将内容块分为主题型、多链接型和图片型三种。而基于ST树的净化方法则是通过判断ST树中噪音元素节点的重要程度来进行净化。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!







请先 登录后发表评论 ~