自动抓取网页工具MetaSeeker企业版升级

自动抓取网页工具MetaSeeker从V4.11.x版本开始,企业版和在线免费版分开发行。两者的功能完全一致,但是,企业版的性能大大提高,主要为了满足企业客户的需求,帮助企业客户大批量自动抓取网页数据。尤其今年中发布网络舆情监测和企业竞争情报分析解决方案SliceProfile后,MetaSeeker企业版销售量暴增。

本次升级应商品比价和价格监测的用户的要求,提高MetaSeeker企业版抓取网页的速度。重要产品信息罗列如下:

  • 阻止图片和其他媒体资源的下载,讲解了怎样设置DataScraper,阻止DataScraper的内嵌浏览器在抓取网页内容时同时下载图片和其他媒体资源,通过减少带宽的使用提高抓取网页的速度。
  • 阻止Javascript,讲解了怎样设置DataScraper,阻止下载Javascript和解释Javascript,这样既可以节省网络下载流量还节省解释执行的CPU能力。
  • 抓取京东商城价格的应用场景,用实例讲解了怎样使用这些选项。

在很多场合,本次升级带来很明显的性能提高,例如,抓取新浪微博网页,在名人博客上有大量图片和视频,而且网页的长度很长,每个微博的转发数和评论数都需要Ajax动态加载,不滚屏就不加载。又要滚屏,又要下载大量图片,抓取网页的速度很低。如果阻止下载图片,但是允许Javascript下载和执行,可以快速地抓取新浪微博网页上的文字、转发数和评论数。