Maven 阿里云源

<?xml version="1.0" encoding="UTF-8"?>
<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0"
          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
          xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd">
    <mirrors>
        <mirror>
            <id>alimaven</id>
            <name>aliyun maven</name>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
            <mirrorOf>central</mirrorOf>
        </mirror>

        <mirror>
            <id>uk</id>
            <mirrorOf>central</mirrorOf>
            <name>Human Readable Name for this Mirror.</name>
            <url>http://uk.maven.org/maven2/</url>
        </mirror>

        <mirror>
            <id>CN</id>
            <name>OSChina Central</name>
            <url>http://maven.oschina.net/content/groups/public/</url>
            <mirrorOf>central</mirrorOf>
        </mirror>

        <mirror>
            <id>nexus</id>
            <name>internal nexus repository</name>
            <!-- <url>http://192.168.1.100:8081/nexus/content/groups/public/</url>-->
            <url>http://repo.maven.apache.org/maven2</url>
            <mirrorOf>central</mirrorOf>
        </mirror>

    </mirrors>
</settings>

Python 简易的代理池设置

##前言: 在爬取网站的过程中往往需要用到代理 ip, 经过在 gayhub 的搜索找到了一个大神写得ip代理池, 那么就来看看吧.

下载安装

  • 下载源码

    git clone git@github.com:jhao104/proxy_pool.git
    或者直接到大神的 gayhub 中下载:
    https://github.com/jhao104/proxy_pool
  • 安装依赖 pip install -r requirements.txt

  • 配置config/setting.py

# Config/setting.py 为项目配置文件

# 配置DB     
DATABASES = {
    "default": {
        "TYPE": "SSDB",        # 如果使用SSDB或redis数据库,均配置为SSDB
        "HOST": "127.0.0.1",   # db host
        "PORT": 8888,          # db port
        "NAME": "proxy",       # 默认配置
        "PASSWORD": ""         # db password

    }
}


# 配置 ProxyGetter

PROXY_GETTER = [
    "freeProxyFirst",      # 这里是启用的代理抓取函数名,可在ProxyGetter/getFreeProxy.py 扩展
    "freeProxySecond",
    ....
]


# 配置 API服务

SERVER_API = {
    "HOST": "0.0.0.0",  # 监听ip, 0.0.0.0 监听所有IP
    "PORT": 5010        # 监听端口
}

# 上面配置启动后,代理池访问地址为 http://127.0.0.1:5010
  • 启动:
# 如果你的依赖已经安全完成并且具备运行条件,可以直接在Run下运行main.py
# 到Run目录下:
>>>python main.py

# 如果运行成功你应该看到有4个main.py进程

# 你也可以分别运行他们,
# 依次到Api下启动ProxyApi.py,Schedule下启动ProxyRefreshSchedule.py和ProxyValidSchedule.py即可.
  • 使用
  • 启动过几分钟后就能看到抓取到的代理 ip, 你可以直接到数据库中查看, 推荐一个 ssdb 可视化工具, 也可以通过 api 访问 http://127.0.0.1:5010 查看.
    • Api api method Description arg / GET api介绍 None /get GET 随机获取一个代理 None /get_all GET 获取所有代理 None /get_status GET 查看代理数量 None /delete GET 删除代理 proxy=host:ip

IDEA 往 .gitignore 中添加规则不生效

无效的原因是:对应的目录或者文件已经被git跟踪,此时再加入.gitignore后就无效了,

解决办法:

先执行

[文件夹]  git rm -r --cached .idea
[文件]  git rm --cached demo-project.iml

再重新加入.gitignore文件