Python爬虫1-----urllib模块-白红宇

Python爬虫1-----urllib模块

阅读量：7060 次

发布时间：2019-06-28

本文共 834 字，大约阅读时间需要 2 分钟。

1、加载urllib模块的request

from urllib import request

2、相关函数：

（1）urlopen函数：读取网页

webpage=request.urlopen(url，timeout=1) 【读取网页,参数timeout表示1秒之后为超时，遇到无效网页时可以跳过】

data=webpage.read() 【读取页面内容】

　　【使用webpage.read()读取的页面内容text内容为bytes-object，打印内容为b’……‘】

data=data.decode('utf-8') 【解码】

　　【text为bytes-object，将其转换为字符串text.decode()，默认参数为空，也可使用编码方式参数，格式为decode(“gb2312”)。】

pat='<div class="name">(.*?)</div>'

　　res=re.compile(pat).findall(str(data))【记得str(data)】

　　【无法直接使用到re.search()，使用前需要转换为string类型。res就是获取的内容】

（2）urlretrieve函数：读取网页并可以保存在本地,成为本地网页

urllib.request.urlretrieve( url , filename=" 本地文件地址//1.html" )

（3）urlcleanup()函数：使用urlretrieve函数会导致一些缓存，使用它可以清除。

urllib.request.urlcleanup()

（4）info()函数：返回网页的一些信息。

（5）getcode()：若返回200表明爬取正常

（6）geturl（）：返回正在爬取的网页

（7）（可以查一下llib.request.Request函数）post和get请求

转载于:https://www.cnblogs.com/Lee-yl/p/9010759.html

你可能感兴趣的文章

hibernate不调用save也保存上了

查看>>

netty 粘包的解决策略

查看>>

10 Things Every Java Programmer Should Know about String

查看>>

C# ICSharpCode.SharpZipLib.dll文件压缩和解压功能类整理，上传文件或下载文件很常用...

使用ViewPager多页面滑动切换以及动画效果

查看>>

Git本地仓库（Repository）详解

查看>>

linux 系统负载高如何检查

查看>>

怎么样 javascript / js 在建立map

查看>>

复杂度

查看>>

利用navicat创建存储过程、触发器和使用游标的简单实例

查看>>

可视化分析之图表选择

查看>>

linux -- ubuntu 14.10开机出现错误“Error found when loading /root/.profile”解决

查看>>

ecshop修改产品详情折扣倒计时时间

查看>>

把linux的man手册转化为windows下可读的格式

查看>>

Cannot refer to a non-final variable inside an inner class defined in a different method

查看>>

利用Hessian如何实现Webservice

查看>>

zend studio 13 curl 请求本机地址无法跟踪调试的问题解决方案。。。(chrome等浏览器调试原理相同)...

查看>>