博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫1-----urllib模块
阅读量:7060 次
发布时间:2019-06-28

本文共 834 字,大约阅读时间需要 2 分钟。

1、加载urllib模块的request

from urllib import request

2、相关函数:

(1)urlopen函数:读取网页

  • webpage=request.urlopen(url,timeout=1)   【读取网页,参数timeout表示1秒之后为超时,遇到无效网页时可以跳过】
  • data=webpage.read()   【读取页面内容】

  【使用webpage.read()读取的页面内容text内容为bytes-object,打印内容为b’……‘】

  • data=data.decode('utf-8')    【解码】

  【text为bytes-object,将其转换为字符串text.decode(),默认参数为空,也可使用编码方式参数,格式为decode(“gb2312”)。】

  • pat='<div class="name">(.*?)</div>'

  res=re.compile(pat).findall(str(data))【记得str(data)】

  【无法直接使用到re.search(),使用前需要转换为string类型。res就是获取的内容】

(2)urlretrieve函数:读取网页并可以保存在本地,成为本地网页

  • urllib.request.urlretrieve( url , filename=" 本地文件地址//1.html" )

(3)urlcleanup()函数:使用urlretrieve函数会导致一些缓存,使用它可以清除。

  • urllib.request.urlcleanup()

(4)info()函数:返回网页的一些信息。

(5)getcode():若返回200表明爬取正常

(6)geturl():返回正在爬取的网页

(7)(可以查一下llib.request.Request函数)post和get请求

 

转载于:https://www.cnblogs.com/Lee-yl/p/9010759.html

你可能感兴趣的文章
hibernate不调用save也保存上了
查看>>
netty 粘包的解决策略
查看>>
10 Things Every Java Programmer Should Know about String
查看>>
C# ICSharpCode.SharpZipLib.dll文件压缩和解压功能类整理,上传文件或下载文件很常用...
查看>>
C语言的左位移能不能超过8位?
查看>>
关于读博,关于成为一个专家
查看>>
Java下拼接执行动态SQL语句(转)
查看>>
使用ViewPager多页面滑动切换以及动画效果
查看>>
Git本地仓库(Repository)详解
查看>>
linux 系统负载高 如何检查
查看>>
怎么样 javascript / js 在 建立map
查看>>
复杂度
查看>>
利用navicat创建存储过程、触发器和使用游标的简单实例
查看>>
可视化分析之图表选择
查看>>
linux -- ubuntu 14.10开机出现错误“Error found when loading /root/.profile”解决
查看>>
ecshop修改产品详情 折扣倒计时时间
查看>>
把linux的man手册转化为windows下可读的格式
查看>>
Cannot refer to a non-final variable inside an inner class defined in a different method
查看>>
利用Hessian如何实现Webservice
查看>>
zend studio 13 curl 请求本机地址 无法跟踪调试的问题解决方案。。。(chrome等浏览器调试原理相同)...
查看>>