网页消重的运用是什么?
一般而言,基于内容的消重技术的基本思想是:为每一个网页计算出一组指纹(Fingerprint),所谓指纹信息是指网页文本的一种信息特征,通常由一组词或者一组词加权重构成。从理论上说,不同网页的指纹是不同的,若两个网页指纹相同或相近,则可以认为这两个文档的内容重叠性较高,进而考虑进行消重操作。
常用的基于内容的网页消重有两个关键的方面,一是如何生成网页的指纹,二是如何通过比较指纹来判断网页是否重复。
生成网页的指纹有多种算法,使用比较广泛的算法有MD5散列值算法。MD5的全称是Message-Digest Algorithm5(信息—摘要算法),由美国麻省理工学院于20世纪90年代初开发,经MD2、MD3和MD4发展而来。Message-Digest泛指字节串的Hash变换,就是把一个任意长度的字节串变换成一定长的大整数。可以用MD5算法对网页的文本产生指纹,通过比较不同文本的指纹,可以判断两个页面是否是相同的页面。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!







请先 登录后发表评论 ~