如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的:
一、 了解HTML语言及css知识
这方面的知识请大家通过w3school 去学习,老猿对于html总结了部分基础知识内容,在《第14.2节 HTML知识简介》进行介绍,其他的大家到w3school 去学习。
二、 学习http协议相关的知识
需要了解url的构成、http协议头的结构、http协议支持的get方法等内容。这方面推荐大家学习如下老猿转发的博文:
- 《url的组成结构信息 》
- 《HTTP请求头和响应头详解【转】 》
- 转:解析HTTP协议六种请求方法,get,head,put,delete,post有什么区别
三、 学习cookies相关知识
要登录网站爬取信息,按现在绝大多数网站的会话管理机制,cookies是必不可少的,了解cookies并利用cookies实现网站登录管理。这方面推荐大家学习如下老猿转发的博文:
- 转:Http协议中Cookie详细介绍
- 转:Chrome浏览器查看网站登录 Cookie 信息的方法
四、 分析浏览器访问网站网址的过程,如是否需要先登录、是否有代理、是否多次交互等,可以通过浏览器来获取网站访问信息来分析访问过程,这个与具体要爬取的网站及爬取内容相关。老猿将介绍通过IE11及google浏览器获取网站访问信息的方法;
五、 学习Python访问web网站编程的知识,这个老猿主要介绍使用urllib模块相关方法读取网页内容;
六、 学习网页解析的方法,老猿将比较详细BeautifulSoup的使用;
七、 分析准备爬取网页内容的结构,获取网页内容后,根据爬取内容的要求针对性进行分析;
八、 分析怎么完成爬取自己感兴趣内容的http交互过程。
其中最后两步有可能是交替的,有可能爬取一个网页分析其结构解读内容,再根据解读内容爬取下一个网页。老猿将以此为主线介绍爬虫相关的知识,但第一、二步就不介绍了。
本文在CSDN的“老猿Python”首发,头条号、微信公众号和百家号“老猿Python”转载,由于这些平台对外部链接的限制,文中不能包含外部链接。如果是头条请点击文章底部最下方的“了解更多”跳转CSDN阅读原文,如果是微信公众号请点击文章底部最下方的“阅读原文”跳转CSDN阅读原文,否则请在百度搜索或CSDN搜索中输入"CSDN老猿Python”加文章标题关键字搜寻本文。