采集网站 https://www.socks-proxy.net/ 采集页面 网站主页面 采集形式 非动态 匹配 IP:PORT 匹配规则 pttn = '(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5})' 备注说明 都是一些socks4类型的数据 最后一次人工校验时间 2021-10-09 20:07 import re s = "<tr><td>210.56.244.134</td><td>4145</td><td>AU</td><td class='hm'>Australia</td><td>Socks4</td>" pttn = r"<tr><td>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})</td><td>(\d{1,5})</td><td>.*?</td><td class='hm'>.*?</td><td>(\S{1,6})</td>" data = re.findall(pttn, s) print(data)
通用代理池,爬虫项目,采集模块构建,静态型采集任务 2021-11-09
发表评论