2024年10月20日

Python爬虫Scrapy库的使用入门?（scrapy爬虫实例）

Scrapy是一个开源的并且支持高度可扩展的Python爬虫框架，主要被用来实现从网站提取数据。出现之初就是为网页抓取而设计，但是现在它也可以被用于从 APIs 中抓取数据或通用的Web抓取任务。Scrapy提供了一个简洁的方式来定义和控制网络抓取的整个过程，包括从URL生成请求、处理页面响应到解析内容和存储数据。

下面我们就来通过一个入门的示例代码来看看如何使用Scrapy实现数据爬虫操作。

2024年10月20日

03《Scrapy 入门教程》Scrapy 默认的网页解析器 Xpath

Xpath 是 Scrapy 框架中默认的网页解析器，只有掌握了 Xpath 选择器，我们才能快速从网页元素中提取我们想要的数据。

1. xpath 选择器介绍

2024年10月20日

【0基础学爬虫】爬虫基础之scrapy的使用

大数据时代，各行各业对数据采集的需求日益增多，网络爬虫的运用也更为广泛，越来越多的人开始学习网络爬虫这项技术，K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章，为实现从易到难全方位覆盖，特设【0基础学爬虫】专栏，帮助小白快速入门爬虫，本期为自动化工具 Selenium 的使用。

2024年10月20日

Scrapy 源码剖析(一)架构概览（scrapy开发的四个步骤）

微信搜索关注「水滴与银弹」公众号，第一时间获取优质技术干货。7年资深后端研发，用简单的方式把技术讲清楚。

在爬虫开发领域，使用最多的主流语言主要是 Java 和 Python 这两种，如果你经常使用 Python 开发爬虫，那么肯定听说过 Scrapy 这个开源框架，它正是由Python编写的。

2024年10月20日

12个高效的Python爬虫框架，你用过几个?

实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫，为什么呢？因为Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。那么，Python爬虫一般用什么框架比较好？

2024年10月20日

Python爬虫:Scrapy使用scrapyd进行分布式部署

按照上一篇文章中我们将代码放到远程主机是通过拷贝或者git的方式，但是如果考虑到我们又多台远程主机的情况，这种方式就比较麻烦，那有没有好用的方法呢？这里其实可以通过scrapyd,下面是这个scrapyd的github地址：https://github.com/scrapy/scrapyd

当在远程主机上安装了scrapyd并启动之后，就会再远程主机上启动一个web服务，默认是6800端口，这样我们就可以通过http请求的方式，通过接口的方式管理我们scrapy项目，这样就不需要在一个一个电脑连接拷贝过着通过git，关于scrapyd官方文档地址：http://scrapyd.readthedocs.io/en/stable/

2024年10月20日

Python爬虫进阶(十):Scrapy爬取贴吧

前言

阅读本文中如果发现笔者有讲的不清楚的地方，可以查看scrapy的开发文档（第七节有网址）。

PS：本来的目标是微博，但由于微博的反爬措施太严格了（非要爬也不是不可以，但如果不用splash等包套娃最后八成要变成正则表达式大战），起不到作为示范的作用，我们把目标改成贴吧。

2024年10月20日

使用 Scrapy 轻松抓取网页（webscraper抓取网站数据）

Scrapy 是一个很棒的开源 Python 网页抓取框架。它处理大规模 Web 抓取时最常见的用例：

2024年10月20日

数据获取:认识Scrapy（数据获取怎么写）

本节介绍一个普通流程的爬虫框架——Scrapy，它提供了一个通用性的开发规范，帮助开发者做好了通用性的功能，只需要自定义发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容。在最后的实战项目中，我们将会使用Scrapy来做数据采集并进行深度的数据分析和可视化。

在Scrapy的官网上对它的介绍是：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy官网：https://scrapy.org/，这里可以查阅原始的官网文档。

2024年10月20日

1 Scrapy 爬虫模拟登陆策略（爬虫模拟登录）

Scrapy 爬虫模拟登陆的3种策略

1 Scrapy 爬虫模拟登陆策略

前面学习了爬虫的很多知识，都是分析 HTML、json 数据，有很多的网站为了反爬虫，除了需要高可用代理 IP 地址池外，还需要登录，登录的时候不仅仅需要输入账户名和密码，而且有可能验证码，下面就介绍 Scrapy 爬虫模拟登陆的几种策略。

1.1 策略一：直接POST请求登录

前面介绍的爬虫 scrapy 的基本请求流程是 start_request 方法遍历 start_urls 列表，然后 make_requests_from_url方法，里面执行 Request 方法，请求 start_urls 里面的地址，使用的是 GET 方法，由于直接使用用户名和密码可以登录，使用 POST 方法进行登录。

四时宝库

程序员的知识宝库

Python爬虫Scrapy库的使用入门?（scrapy爬虫实例）

03《Scrapy 入门教程》Scrapy 默认的网页解析器 Xpath

1. xpath 选择器介绍

【0基础学爬虫】爬虫基础之scrapy的使用

【0基础学爬虫】爬虫基础之scrapy的使用

Scrapy 源码剖析(一)架构概览（scrapy开发的四个步骤）

12个高效的Python爬虫框架，你用过几个?

Python爬虫:Scrapy使用scrapyd进行分布式部署

Python爬虫进阶(十):Scrapy爬取贴吧

前言

使用 Scrapy 轻松抓取网页（webscraper抓取网站数据）

数据获取:认识Scrapy（数据获取怎么写）

1 Scrapy 爬虫模拟登陆策略（爬虫模拟登录）

Scrapy 爬虫模拟登陆的3种策略

1 Scrapy 爬虫模拟登陆策略