网页消重的算法有哪些?
我们提出了5种网页消重算法,用于快速、有效地发现Web上的转载网页。
算法1: (MD5(Abstract(Pi)) = MD5(Abstract(Pi))) -> Mirror(Pi, Pj)
算法2: (MD5(Concatenate(Ti)) = MD5(Concatenate(Ti))) -> Mirror(Pi, Pj)
算法3: (MD5(Concatenate(sort(Ti))) = MD5(Concatenate(sort(Ti)))) -> Mirror(Pi, Pj)
算法4: (MD5(Concatenate(sort(Ti))) = MD5(Concatenate(sort(Ti)))) -> Mirror(Pi, Pj)
算法5: (MD5(Concatenate(sort(Ti))) = MD5(Concatenate(sort(Ti)))) -> Mirror(Pi, Pj)
这几种算法采用了不同的方式来判断网页是否重复,包括对网页摘要进行MD5散列值的判断,对网页关键词集合的判断,以及对网页特征向量的相似度判断等。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!







请先 登录后发表评论 ~