首页网页制作网络编程脚本专栏数据库网站运营网络安全平面设计 CMS教程

Python自定义scrapy中间模块避免重复采集的方法

所属分类：脚本专栏 / python 阅读数： 250

收藏 0赞 0分享

本文实例讲述了Python自定义scrapy中间模块避免重复采集的方法。分享给大家供大家参考。具体如下：

from scrapy import log
from scrapy.http import Request
from scrapy.item import BaseItem
from scrapy.utils.request import request_fingerprint
from myproject.items import MyItem
class IgnoreVisitedItems(object):
  """Middleware to ignore re-visiting item pages if they
  were already visited before. 
  The requests to be filtered by have a meta['filter_visited']
  flag enabled and optionally define an id to use 
  for identifying them, which defaults the request fingerprint,
  although you'd want to use the item id,
  if you already have it beforehand to make it more robust.
  """
  FILTER_VISITED = 'filter_visited'
  VISITED_ID = 'visited_id'
  CONTEXT_KEY = 'visited_ids'
  def process_spider_output(self, response, result, spider):
    context = getattr(spider, 'context', {})
    visited_ids = context.setdefault(self.CONTEXT_KEY, {})
    ret = []
    for x in result:
      visited = False
      if isinstance(x, Request):
        if self.FILTER_VISITED in x.meta:
          visit_id = self._visited_id(x)
          if visit_id in visited_ids:
            log.msg("Ignoring already visited: %s" % x.url,
                level=log.INFO, spider=spider)
            visited = True
      elif isinstance(x, BaseItem):
        visit_id = self._visited_id(response.request)
        if visit_id:
          visited_ids[visit_id] = True
          x['visit_id'] = visit_id
          x['visit_status'] = 'new'
      if visited:
        ret.append(MyItem(visit_id=visit_id, visit_status='old'))
      else:
        ret.append(x)
    return ret
  def _visited_id(self, request):
    return request.meta.get(self.VISITED_ID) or request_fingerprint(request)

希望本文所述对大家的Python程序设计有所帮助。

更多精彩内容其他人还在看

Python调用C/C++的方法解析

这篇文章主要介绍了Python调用C/C++的方法解析，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

收藏 0赞 0分享

学习Python爬虫的几点建议

这篇文章主要介绍了学习Python爬虫的几点建议，对新手学习爬虫有很大的帮助，感兴趣的朋友可以了解下

收藏 0赞 0分享

Python创建临时文件和文件夹

这篇文章主要介绍了Python如何创建临时文件和文件夹，文中讲解非常细致，代码帮助大家更好的理解和学习，感兴趣的朋友可以了解下

收藏 0赞 0分享

浅析Python 序列化与反序列化

这篇文章主要介绍了Python 序列化与反序列化的相关资料，文中讲解非常细致，代码帮助大家更好的理解和学习，感兴趣的朋友可以了解下

收藏 0赞 0分享

8种常用的Python工具

这篇文章主要介绍了8种常用的Python工具，帮助大家更好的学习Python，感兴趣的朋友可以了解下

收藏 0赞 0分享

python爬虫使用requests发送post请求示例详解

这篇文章主要介绍了python爬虫使用requests发送post请求示例详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

收藏 0赞 0分享

Python结合Window计划任务监测邮件的示例代码

这篇文章主要介绍了Python结合Window计划任务监测邮件的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

收藏 0赞 0分享

Python用来做Web开发的优势有哪些

这篇文章主要介绍了Python用来做Web开发的优势有哪些，文中讲解非常细致，帮助大家更好的理解和学习Python，感兴趣的朋友可以了解下

收藏 0赞 0分享

如何解决pycharm调试报错的问题

在本篇内容里小编给大家整理的是一篇关于如何解决pycharm调试报错的问题文章，需要的朋友们可以学习参考下。

收藏 0赞 0分享

基于logstash实现日志文件同步elasticsearch

这篇文章主要介绍了基于logstash实现日志文件同步elasticsearch,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

收藏 0赞 0分享

查看更多

网络赚钱

更多

站长故事

更多

建站极客

合作伙伴

外卖点餐小程序

QCMS建站系统

小程序SAAS平台

松江网站建设

站长素材网

合同模板网

好听名字网

在线工具

网站地图

建站极客移动版

聚合全网技术文章，根据你的阅读喜好进行个性推荐

© 2012 - 2020 www.zhanzhang360.cn Some Rights Reserved.

沪ICP备13040166号-22