阅 读 文 章

谁知道用Python如何攫取其他URL页面内容啊??

[来源:网上转载 (CSDN转载) | 作者:网友(EnginePlus) | 时间:2007-08-06 | 浏览:人次 ]

谁知道用Python如何攫取其他URL页面内容啊??  
   
  比如我想攫取某URL   http://proxy.ipcn.org/proxylist.html  
   
  我想攫取其页面上的代理列表  
   
  怎么写啊?  
   
  可不可以实现啊??高分求
 
  import   urllib  
   
  url   =   'http://proxy.ipcn.org/proxylist.html'  
  opener   =   urllib.urlopen(url);  
  lines   =   opener.readlines();  
   
  proxies   =   [];  
   
  i   =   0;  
  while   i   <     len(lines):  
  if   '<pre>'   in   lines[i]:  
  i   =   i   +   1  
  break  
  i   =   i   +   1  
   
  while   i   <     len(lines):  
  if   '</pre>'   in   lines[i]:  
  break  
  proxies.append(lines[i])  
  i   =   i   +   1  
   
  for   i   in   proxies:  
  print   i,  
   
   
  输出:  
   
  [中国代理列表]   CN   Proxy   List,   Powered   by   proxy.ipcn.org  
                                  更新时间:20061105-234500  
   
   
  61.183.11.195:8080  
  61.189.240.196:8080  
  202.101.6.85:8080  
  221.10.55.227:8080  
   
  你可以自己再用正则表达式处理下。
多了几个分号,缩进也没了。简单改一下:  
   
  import   urllib  
   
  url   =   'http://proxy.ipcn.org/proxylist.html'  
  opener   =   urllib.urlopen(url)  
  lines   =   opener.readlines()  
   
  proxies   =   []  
   
  i   =   0;  
  while   i   <     len(lines):  
          if   '<pre>'   in   lines[i]:  
                  i   =   i   +   1  
                  break  
          i   =   i   +   1  
   
  while   i   <     len(lines):  
论坛热门帖子: [lch203] 写得蛮好的linux学习笔记(10-21)
[黑马制造] 学习java的30个目标(10-19)
[笑傲股林] 做测试半年了,有点迷茫,应该再学些什么提高自己的测试水平和测试能力呢?(10-19)
[udp8589] 大家用google的来吱一声? 用百度的~~也来报道下?(10-18)
[沂偌掳兆] 本人总结的一些认为C++比较经典的书籍,希望对大家有用(10-18)
TAG标签: 页面 内容 其他 如何 知道 lines in import for exp break

最新评论 共有1位网友发表了评论

发表评论

评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名:(注册)
密码:
验证码:
匿名发表

网站地图友情连接交流论坛网站投稿广告服务联系我们留言本站长统计
Some rights reserved: www.chmhome.com, 鄂ICP备07010232号 E-mail:chinakafei@live.com,QQ:552766
中国咖啡技术网(Chmhome):国外编程技术书籍,中文编程手册,经典编程文章,交流技术,技术软件下载,计算机论文,毕业论文.