网页消重的原因是什么?
搜索过程中产生重复的原因主要有两个,一个是由于URL本身的构造原因产生搜索结果重复。例如,虚拟主机技术可能会使得多个不同域名映射到同一个IP,当搜索系统用这些域名进行搜索时,实际上搜索到的是同一个站点,导致搜索结果重复。这一类由于URL本身导致网页重复的问题相对来说比较容易解决,例如,可以通过建立IP与域名的对应表、比较网站前几页网页代码等方式解决。
网页重复的另一个重要原因是不同网站之间对相同的内容重复引用或同一站点在不同物理位置的镜像等而导致的,这对于一些热点内容和重要站点尤其如此。对于这类情况,由于大量重复网页不是直接对原有网页进行复制,而是将转载引用的内容放到自己网页的某个特定位置再提供给用户,或者在镜像时定制了网页的内容。这样,新的网页就可能在风格、布局、代码方面与原有网页有很大的差别,因而不能使用网页的形式特征来对网页消重,消重的依据只能是根据网页的内容特征。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!







请先 登录后发表评论 ~