Python 简易的代理池设置
Contents
##前言: 在爬取网站的过程中往往需要用到代理 ip, 经过在 gayhub 的搜索找到了一个大神写得ip代理池, 那么就来看看吧.
下载安装
-
下载源码
git clone git@github.com:jhao104/proxy_pool.git 或者直接到大神的 gayhub 中下载: https://github.com/jhao104/proxy_pool -
安装依赖
pip install -r requirements.txt -
配置
config/setting.py
# Config/setting.py 为项目配置文件
# 配置DB
DATABASES = {
"default": {
"TYPE": "SSDB", # 如果使用SSDB或redis数据库,均配置为SSDB
"HOST": "127.0.0.1", # db host
"PORT": 8888, # db port
"NAME": "proxy", # 默认配置
"PASSWORD": "" # db password
}
}
# 配置 ProxyGetter
PROXY_GETTER = [
"freeProxyFirst", # 这里是启用的代理抓取函数名,可在ProxyGetter/getFreeProxy.py 扩展
"freeProxySecond",
....
]
# 配置 API服务
SERVER_API = {
"HOST": "0.0.0.0", # 监听ip, 0.0.0.0 监听所有IP
"PORT": 5010 # 监听端口
}
# 上面配置启动后,代理池访问地址为 http://127.0.0.1:5010- 启动:
# 如果你的依赖已经安全完成并且具备运行条件,可以直接在Run下运行main.py
# 到Run目录下:
>>>python main.py
# 如果运行成功你应该看到有4个main.py进程
# 你也可以分别运行他们,
# 依次到Api下启动ProxyApi.py,Schedule下启动ProxyRefreshSchedule.py和ProxyValidSchedule.py即可.- 使用
- 启动过几分钟后就能看到抓取到的代理 ip, 你可以直接到数据库中查看, 推荐一个 ssdb 可视化工具, 也可以通过 api 访问 http://127.0.0.1:5010 查看.
-
Api api method Description arg / GET api介绍 None /get GET 随机获取一个代理 None /get_all GET 获取所有代理 None /get_status GET 查看代理数量 None /delete GET 删除代理 proxy=host:ip
-
爬虫使用
-
- 把 API 封装成函数直接使用, 例如:
import requests
def get_proxy():
return requests.get("http://127.0.0.1:5010/get/").content
def delete_proxy(proxy):
requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))
# your spider code
def getHtml():
# ....
retry_count = 5
proxy = get_proxy()
while retry_count > 0:
try:
html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
# 使用代理访问
return html
except Exception:
retry_count -= 1
# 出错5次, 删除代理池中代理
delete_proxy(proxy)
return None