Python 爬虫使用动态切换ip防止封杀

所属分类: 网络安全 / 脚本攻防 阅读数: 400
收藏 0 赞 0 分享

上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。  这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们…. …   (干死他们,哥们要是有资源,必须干掉ddos,让你防 !  当然我也就装装逼,没这个资源)

     对于爬虫被封禁 ! 爬虫一般来说只要你的ip够多,是不容易被封的。 一些中小网站要封杀你,他的技术成本也是很高的,因为大多数网站没有vps,他们用的是虚拟空间或者是sae,bae这样的paas云。 其实就算他们不考虑seo搜索优化,用ajax渲染网页数据,我也可以用webkit浏览器组件来搞定ajax之后的数据。

      如果某个网站他就是闲的蛋疼,他就是喜欢从log里面,一行行的分析出你的ip,然后统计处频率高的网站, 那这个时候咋办?   其实方法很草比,就是用大量的主机,但是大量的主机是有了,你如果没有那么爬虫的种子量,那属于浪费资源… …  其实一个主机,多个ip是可以的。。。
这个时候是有两种方法可以解决的,第一个是用squid绑定多个ip地址,做正向代理…. 你的程序里面维持一组连接池,就是针对这几个正向proxy做的连接池。
正向代理和反向代理最大的区别就是,反向代理很多时候域名是固定的,而正向代理是通过一个http的代理端口,随意访问,只是在proxy端会修改http协议,去帮你访问
如果是python,其实单纯调用socket bind绑定某个ip就可以了,但是标题的轮训是个什么概念,就是维持不同的socket bind的对象,然后你就轮吧 !   跟一些业界做专门做爬虫的人聊过,他们用的基本都是这样的技术。 

 
# -*- coding=utf-8 -*- 
import socket 
import urllib2 
import re 
true_socket = socket.socket 
 
ipbind='xx.xx.xxx.xx' 
 
def bound_socket(*a, **k): 
    sock = true_socket(*a, **k) 
    sock.bind((ipbind, 0)) 
    return sock 
 
socket.socket = bound_socket 
 
response = urllib2.urlopen('http://www.ip.cn') 
html = response.read() 
ip=re.search(r'code.(.*?)..code',html) 
print ip.group(1) 
http://stackoverflow.com/ 上也找到一些个老外给与的解决方法的思路,他是借助于urllib2的HTTPHandler来构造的出口的ip地址。

import functools
import httplib
import urllib2

class BoundHTTPHandler(urllib2.HTTPHandler):

    def __init__(self, source_address=None, debuglevel=0):
        urllib2.HTTPHandler.__init__(self, debuglevel)
        self.http_class = functools.partial(httplib.HTTPConnection,
                source_address=source_address)

    def http_open(self, req):
        return self.do_open(self.http_class, req)

handler = BoundHTTPHandler(source_address=("192.168.1.10", 0))
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)

 
import functools
import httplib
import urllib2
 
class BoundHTTPHandler(urllib2.HTTPHandler):
 
    def __init__(self, source_address=None, debuglevel=0):
        urllib2.HTTPHandler.__init__(self, debuglevel)
        self.http_class = functools.partial(httplib.HTTPConnection,
                source_address=source_address)
 
    def http_open(self, req):
        return self.do_open(self.http_class, req)
 
handler = BoundHTTPHandler(source_address=("192.168.1.10", 0))
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
那么就有一个现成的模块 netifaces  ,其实netifaces模块,就是刚才上面socket绑定ip的功能封装罢了
地址:   https://github.com/raphdg/netifaces

import netifaces
netifaces.interfaces()
netifaces.ifaddresses('lo0')
netifaces.AF_LINK
addrs = netifaces.ifaddresses('lo0')
addrs[netifaces.AF_INET]
[{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]

import netifaces
netifaces.interfaces()
netifaces.ifaddresses('lo0')
netifaces.AF_LINK
addrs = netifaces.ifaddresses('lo0')
addrs[netifaces.AF_INET]
[{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

更多精彩内容其他人还在看

分享PHP场景中getshell防御思路

本文主要分享一下防御思路。防御方案主要想解决的问题是getshell、主机敏感文件泄漏等问题
收藏 0 赞 0 分享

SQL注入测试实例分析

这篇文章主要为大家介绍了SQL注入测试实例分析,对于数据库安全非常重要,需要的朋友可以参考下
收藏 0 赞 0 分享

帝国备份王(Empirebak)万能cookie及拿shell方法与防御

这篇文章主要介绍了帝国备份王(Empirebak)万能cookie及拿shell方法与防御,需要的朋友可以参考下
收藏 0 赞 0 分享

各种网页挂马方式原理揭密(iframe挂马,script 挂马,图片伪装挂马等)

现在,网站经常被各种网页挂马,为了保障大家网站的安全和互联网用户的安全,有必要对网页挂马有所了解。查了一些资料,由于存在大量的黑客软件,一个菜鸟只需几分钟就可以编写一个木马网页,对别人的网站进行挂马了
收藏 0 赞 0 分享

SQL注入攻击(攻击与防范)

SQL注入是从正常的WWW端口访问,而且表面看起来跟一般的Web页面访问没什么区别,所以目前市面的防火墙都不会对SQL注入发出警报,如果管理员没查看IIS日志的习惯,可能被入侵很长时间都不会发觉
收藏 0 赞 0 分享

劫持流量原理是什么?关于劫持流量的种类和产生

流量圈的故事很多,劫持与反劫持的故事在很长时间内将继续演绎下去。流量是很多互联网企业赖以生存的基础,通过优秀的产品去获得用户和流量是唯一的正途,用户的信任来之不易,且行且珍惜。那么你的流量都被劫持到哪里去了?是谁劫持了你的流量
收藏 0 赞 0 分享

中国南海和东南亚问题相关的网络攻击组织 捕获Patchwork APT攻击

南海仲裁这样的闹剧昨天还是宣布了一个可笑的判决,我泱泱大国昨天在海南广东等地派出的各种军队战舰证明这次我们可不是说着玩玩。“若有战,召必回”湿了多少人的眼眶。这边,黑客军团里,也开始借南海问题各种攻击
收藏 0 赞 0 分享

网站个人渗透技巧收集与总结

这篇文章主要介绍了网站个人渗透技巧收集与总结 ,大家也要注意一下不要犯下面的错误,需要的朋友可以参考下
收藏 0 赞 0 分享

网站MYSQL数据库高级爆错注入原分析

国内只有一大堆高级爆错的利用代码 没人分析原因 这个是去官网查资料后分析给出的,需要的朋友可以参考下
收藏 0 赞 0 分享

详解如何通过“鼠洞”控制电脑

大家都知道,没有一台电脑是完全安全的,都有一个攻破点,下面小编就以实例来讲解一下,一起来看看吧
收藏 0 赞 0 分享
查看更多