Contents

Python 简易的代理池设置

Contents

##前言: 在爬取网站的过程中往往需要用到代理 ip, 经过在 gayhub 的搜索找到了一个大神写得ip代理池, 那么就来看看吧.

下载安装

  • 下载源码

    git clone git@github.com:jhao104/proxy_pool.git
    或者直接到大神的 gayhub 中下载:
    https://github.com/jhao104/proxy_pool
  • 安装依赖 pip install -r requirements.txt

  • 配置config/setting.py

# Config/setting.py 为项目配置文件

# 配置DB     
DATABASES = {
    "default": {
        "TYPE": "SSDB",        # 如果使用SSDB或redis数据库,均配置为SSDB
        "HOST": "127.0.0.1",   # db host
        "PORT": 8888,          # db port
        "NAME": "proxy",       # 默认配置
        "PASSWORD": ""         # db password

    }
}


# 配置 ProxyGetter

PROXY_GETTER = [
    "freeProxyFirst",      # 这里是启用的代理抓取函数名,可在ProxyGetter/getFreeProxy.py 扩展
    "freeProxySecond",
    ....
]


# 配置 API服务

SERVER_API = {
    "HOST": "0.0.0.0",  # 监听ip, 0.0.0.0 监听所有IP
    "PORT": 5010        # 监听端口
}

# 上面配置启动后,代理池访问地址为 http://127.0.0.1:5010
  • 启动:
# 如果你的依赖已经安全完成并且具备运行条件,可以直接在Run下运行main.py
# 到Run目录下:
>>>python main.py

# 如果运行成功你应该看到有4个main.py进程

# 你也可以分别运行他们,
# 依次到Api下启动ProxyApi.py,Schedule下启动ProxyRefreshSchedule.py和ProxyValidSchedule.py即可.
  • 使用
  • 启动过几分钟后就能看到抓取到的代理 ip, 你可以直接到数据库中查看, 推荐一个 ssdb 可视化工具, 也可以通过 api 访问 http://127.0.0.1:5010 查看.
    • Api api method Description arg / GET api介绍 None /get GET 随机获取一个代理 None /get_all GET 获取所有代理 None /get_status GET 查看代理数量 None /delete GET 删除代理 proxy=host:ip

    • 爬虫使用

  • 把 API 封装成函数直接使用, 例如:
import requests

def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").content

def delete_proxy(proxy):
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():
    # ....
    retry_count = 5
    proxy = get_proxy()
    while retry_count > 0:
        try:
            html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
            # 使用代理访问
            return html
        except Exception:
            retry_count -= 1
    # 出错5次, 删除代理池中代理
    delete_proxy(proxy)
    return None