比如我想攫取某URL http://proxy.ipcn.org/proxylist.html
我想攫取其页面上的代理列表
怎么写啊?
可不可以实现啊??高分求
import urllib
url = 'http://proxy.ipcn.org/proxylist.html'
opener = urllib.urlopen(url);
lines = opener.readlines();
proxies = [];
i = 0;
while i < len(lines):
if '<pre>' in lines[i]:
i = i + 1
break
i = i + 1
while i < len(lines):
if '</pre>' in lines[i]:
break
proxies.append(lines[i])
i = i + 1
for i in proxies:
print i,
输出:
[中国代理列表] CN Proxy List, Powered by proxy.ipcn.org
更新时间:20061105-234500
61.183.11.195:8080
61.189.240.196:8080
202.101.6.85:8080
221.10.55.227:8080
你可以自己再用正则表达式处理下。
多了几个分号,缩进也没了。简单改一下:
import urllib
url = 'http://proxy.ipcn.org/proxylist.html'
opener = urllib.urlopen(url)
lines = opener.readlines()
proxies = []
i = 0;
while i < len(lines):
if '<pre>' in lines[i]:
i = i + 1
break
i = i + 1
while i < len(lines):
| 论坛热门帖子: | [lch203] 写得蛮好的linux学习笔记(10-21) [黑马制造] 学习java的30个目标(10-19) [笑傲股林] 做测试半年了,有点迷茫,应该再学些什么提高自己的测试水平和测试能力呢?(10-19) [udp8589] 大家用google的来吱一声? 用百度的~~也来报道下?(10-18) [沂偌掳兆] 本人总结的一些认为C++比较经典的书籍,希望对大家有用(10-18) |
| TAG标签: | 页面 内容 其他 如何 知道 lines in import for exp break |
注册
个人空间
