首页 > 技术文章 > 网络爬虫的新鲜性和过失性

Zj141258 2020-10-26 20:40 原文

新鲜度:这是一个衡量抓取内容是不是准确的二元值。在时间t内,仓库中页面p的新鲜度是这样定义的:

新鲜度

 


 

过时性:这是一个衡量本地已抓取的内容过时程度的指标。在时间t时,仓库中页面p的时效性的定义如下:

过时性

 


 

在页面抓取中,新鲜度和过时性的发展

Coffman等人(Edward G. Coffman,1998)是从事爬虫对象定义的,他们提出了一个相当于新鲜度的概念,但是使用了不同的措词:他们建议爬虫必须最小化过时页面部分。

他们指出网络爬行的问题就相当于多个队列,一个投票系统;这里,爬虫是服务器,不同的站点是队列。页面修改是到达的顾客,页面切换的时间是页面进入一个单一站点的间隔。在这个模型下,每一个顾客在投票系统的平均时间,相当于爬虫的平均过时性。

爬虫的目标是尽可能高的提高页面的新鲜度,同时降低页面的过时性。这一目标并不是完全一样的,第一种情况,爬虫关心的是有多少页面时过时的;在第二种情况,爬虫关心的页面过时了多少。

 


 

两种最简单的重新访问策略是由Cho和Garcia-Molina研究的(Cho 和Garcia-Molina,2003):

统一策略:使用相同的频率,重新访问收藏中的所有的链接,而不考虑他们更新频率。

正比策略:对变化越多的网页,重新访问的频率也越高。网页访问的频率和网页变化的频率直接相关。

(两种情况下,爬虫的重新抓取都可以采用随机方式,或者固定的顺序)

Cho和Garcia-Molina证明了一个出人意料的结果。以平均新鲜度方式衡量,统一策略在模拟页面和真实的网络抓取中都比正比策略出色。对于这种结果的解释是:当一个页面变化太快的时候,爬虫将会将会在不断的尝试重新抓取而浪费很多时间,但是却还是不能保证页面的新鲜度。

 


 

 

为了提高页面的新鲜度,我们应该宣判变化太快的页面死罪(Cho和Garcia-Molina, 2003a)。最佳的重新访问策略既不是统一策略,也不是正比策略;保持平均页面新鲜度高的最佳方法策略包括忽略那些变化太快的页面,而保持页面平均过时性低的方法则是对每一页按照页面变化率单调变化的策略访问。

 


 

两种情况下,最佳的策略较正比策略,都更接近统一策略。正如Coffman等人(Edward G.Coffman,1998)所注意到的:“为了最小化页面过时的时间,对任一个页面的访问都应该尽可能的均匀间隔地访问。”对于重新访问的详尽的策略在大体上是不可以达到的,但是他们可以从数学上得到,因为他们依赖于页面的变化。(Cho和Garcia-Molina,2003a)指出指数变化是描述页面变化的好方法,同时(Ipeirotis等人,2005)指出了怎么使用统计工具去发现适合这些变化的参数。注意在这里的重新访问策略认为每一个页面都是相同的(网络上所有的页面价值都是一样的)这不是现实的情况,所以,为了获取更好的抓取策略,更多有关网页质量的信息应该考虑进去。

推荐阅读