[904]ScalersTalk成长会Python小组第20周学习笔记-技术教程-四时宝库

Scalers点评：在2015年，ScalersTalk成长会Python小组完成了《Python核心编程》第1轮的学习。到2016年，我们开始第二轮的学习，并且将重点放在章节的习题上。Python小组是成长会内部小组，如果你想和我们一起学习Python，你需要是成长会成员，并且完成相关进群任务。

我们的节奏是一周一章学到位，章节习题都会一个一个过。通过到位地执行，达到实质性的提升。

往期日志：

本周学习情况

本周（20160613-20160619）学习第二十章，章节内容为《web编程》，本周复盘主持人为祥子

本章主要内容

本章主要讲述了urlparse模块，主要包括3个函数，urlparse，unurlparse，urljoin，如何对URL字符串的解析；基于urllib模块的网络爬虫，包括urlopen 、urlretrieve 、quote 、unquote 、quote_plus、urlencode。

第一部分：urlparse模块

url格式：Prot_sch://net_loc/path;params?query#fragment

例子

net_loc:user:passwd@host:port

password:用户的密码

host:web服务器运行的机器名或地址（必须字段）

port:端口号（默认80）

处理URL 的模块：urlparse 、urllib
urlparse模块的函数：urlparse、urlunparse、urljoin
功能：
urlparse格式：
urlparse(urlstr,defProtSch = None,allowFrag=None)
将urlstr解析成一个6元组（prot_sch，net_loc，path，params，query，fragment）

>>> import urlparse
>>> urlparse.urlparse('http://www.latexstudio.net/archives/category/tex-tips') ParseResult(scheme='http', netloc='www.latexstudio.net',
path='/archives/category/tex-tips', params='', query='', fragment='')
>>> urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html') ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')

urlunparse 与urlparse功能相反
公式： urlunparse(urlparse(urlstr)) = urlstr
语法公式：urlparse.urlunparse

例子：

>>> a=urlparse.urlparse('http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html')
>>> a ParseResult(scheme='http', netloc='www.sandia.gov',
path='/~tgkolda/TensorToolbox/index-2.6.html', params='', query='', fragment='')
>>> urlparse.urlunparse(a)'http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html'

urlparse.urljoin 需要多个相关的URL时使用urljoin

语法：urljoin(baseurl,newurl,allowFrag = None)

baseurl : 基路径除了终端的文件名

newurl ：新的路径文件名

例子：

>>> urlparse.urljoin('http://www.python.org/doc/FAQ.html','current/lib/lib.htm')
'http://www.python.org/doc/current/lib/lib.htm'
>>> urlparse.urljoin('http://www.python.org/doc/e/FAQ.html','faf.htm')
'http://www.python.org/doc/e/faf.htm'

总结：

第二部分：urllib模块

函数：

urlopen

urlretrieve

quote

unquote

quote_plus

urlencode

urllib.urlopen :
打开一个给定的URL字符串与WEB连接，并返回了文件类的对象。
语法：urlopen(urlstr,postQueryData = None)
urlopen打开urlstr所指向的URL
read 读出所有的
readline : 读出一行
readlines: 读出所有的行
close: 关闭URL的连接
fileno 返回文件句柄
geturl 返回所打开的真正URL
info 返回mime头文件

例子：

>>> a=urllib.urlopen('http://www.bioconductor.org/')
>>> a.readline
'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n'
>>> a.fileno
940L
>>> a.info <httplib.HTTPMessage instance at 0x0000000003A93288>
>>> a.geturl
'http://www.bioconductor.org/'

urllib.urlretrieve
语法： urlretrieve(urlstr,localfile=None,downloadStatusHook=None)
将html文件下载到本地磁盘中。返回(filename,mime_hdrs) :filename 包含下载数据的本地文件名，mime_hdrs 对web服务器响应后返回的一系列MIME文件头。
urllib.qutote
获取URL数据，并将其编码，从而适用于URL字符中。尤其一些不能被打印的或者不被WEB服务器作为有效URL接收的特殊字符串必须被转换。逗号、下划线、句号、斜线、字母数字不需要转化。
语法：quote(urldata,safe=’/’) urldata字符串被转换成一个可在URL字符串中使用的等价值，safe字符串可以包含一系列的不能被转换的字符。默认为斜线(/)

例子：

>>> name = 'joe mama'
>>> number = 6
>>> base = 'http://www/~foo/cgi-bin/s.py'
>>> final = '%s?name=%s&num=%d' %(base,name,number)
>>> final
'http://www/~foo/cgi-bin/s.py?name=joe mama&num=6'
>>> urllib.quote(final)
'http%3A//www/%7Efoo/cgi-bin/s.py%3Fname%3Djoe%20mama%26num%3D6'
>>> urllib.quote_plus(final)'http%3A%2F%2Fwww%2F%7Efoo%2Fcgi-bin%2Fs.py%3Fname%3Djoe+mama%26num%3D6'

总结:功能相似，后者转换更加的全面，还将空格转为+

urllib.unquote 与 urllib.unquote_plus 将所有”%xx” 转为ASCII
urllib.urlencode
将字典键值对转为键=值。以连接符&划分
例子：
```
>>> aDict={'name':'Georgina Garcia','hmdir':'~ggarcia'}
>>> urllib.urlencode(aDict)
'name=Georgina+Garcia&hmdir=%7Eggarcia'
```
ScalersTalkID:scalerstalk
本微信公众号作者Scalers，游走在口译世界的IT从业者。微信公众号ScalersTalk，微博@Scalers，网站ScalersTalk.com，口译100小时训练计划群C 456036104

成长会是由Scalers发起的面向成长、实践行动，且凝聚了来自全球各地各行各业从业者的社群。有意入会者请和Scalers直接联系，我和其他会员会和你直接交流关于成长行动等各方面的经验教训。2016年成长会持续招募中，参见做能说会写的持续行动者：ScalersTalk成长会2016年会员计划介绍(2016.3更新)

四时宝库

程序员的知识宝库