日度归档:2021年11月9日

通用代理池,爬虫项目,采集模块构建,静态型采集任务 2021-11-09

采集网站 https://www.socks-proxy.net/
采集页面 网站主页面
采集形式 非动态 匹配 IP:PORT 
匹配规则 pttn = '(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5})'
备注说明 都是一些socks4类型的数据
最后一次人工校验时间 2021-10-09 20:07

import re
s = "<tr><td>210.56.244.134</td><td>4145</td><td>AU</td><td class='hm'>Australia</td><td>Socks4</td>"
pttn = r"<tr><td>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})</td><td>(\d{1,5})</td><td>.*?</td><td class='hm'>.*?</td><td>(\S{1,6})</td>"
data = re.findall(pttn, s)
print(data)
Donate
云乞讨