2024年10月20日

有哪些常见、好用的爬虫框架?Scrapy、XPATH、CSS框架一文详解

什么是Python爬虫框架?

简单来说，Python的爬虫框架就是一些爬虫项目的半成品。比如我们可以将一些常见爬虫功能的实现代码写好，然后留下一些接口，在做不同的爬虫项目时，我们只需要根据实际情况，手写少量需要变动的代码部分，并按照需要调用这些接口，即可以实现一个爬虫项目。

2024年10月20日

Scrapy:Python的爬虫框架（爬虫框架scrapy实例）

Scrapy是一个用Python编写的强大的网络爬虫框架，可以快速、方便地从网站中抓取数据。Scrapy框架的设计使得它非常适合用于数据挖掘、信息处理等领域的爬虫程序开发。

2024年10月20日

本章工作任务

任务1：为什么使用Scrapy

2024年10月20日

如何使用 Scrapy 执行 JavaScript

大多数现代网站都使用客户端 JavaScript 框架，例如 React、Vue 或 Angular。在没有服务器端渲染的情况下从动态网站抓取数据通常需要执行 JavaScript 代码。

我已经抓取了数百个网站，而且我总是使用 Scrapy。Scrapy 是一个流行的 Python 网页抓取框架。与其他 Python 抓取库（例如 Beautiful Soup）相比，Scrapy 帮助您根据一些最佳实践来构建代码。Scrapy 负责并发、收集统计数据、缓存、处理重试逻辑和许多其他问题。

2024年10月20日

Python3爬虫实例——使用Scrapy重构代码爬取名著

1.准备

安装：pip install scrapy==1.1.0rc3
参考资料：官方1.0文档

2.使用Scrapy重构代码

2.1创建新项目

使用cmd进入待建项目的文件夹中，输入：

2024年10月20日

Python爬虫进阶(九):http&scrapy请求与响应

前言

在写系列教程的时候，很多时候我会以为自己写了一些东西，最后回头去看才发现完全没写到，就只能像这样赶紧补上一节。总的来说这都是因为我写东西不拉大纲（也许以后老板让我拉大纲我就会拉了），还有一点是写教程的时候我也在学习，如果我中间断了一会或者写的时间太长了，确实会发生最后回看教程发现少写东西的情况。这还不是最丢人的，看上去总有一天我会在结束一个教程，说完“我就讲到这里为止”之后再发现自己少写了东西，那会子才是丢人丢大发。

2024年10月20日

11《Scrapy 入门教程》Scrapy 中的中间件

今天我们来聊一聊 Scrapy 框架中的中间件使用，包括 Spider 中间件、下载中间件等。它属于 Scrapy 框架的一个重要部分，是我们定制化 Scrapy 框架时的重要基础。

1. Spider 中间件

2024年10月20日

scrapy爬虫框架入门须知（scrapy框架爬取图片）

scrapy是一款开源的框架，用来爬取互联网上的数据，它非常流行。但是看了官方文档的入门示例后，我在开始动手编写自己的爬虫时仍然遇到不少困惑的问题，这里整理如下。

如何使用多级request并传递参数？

官方文档的入门实例只需要一个request就爬到了所需的数据，但是实际情况往往更加复杂，就像要爬取下面这样的数据，往往需要多次请求才能做到，而且需要把上一级爬取的信息（如设备类型）传递到下一级最终才能得到想要爬取的完整数据。

2024年10月20日

万字长文:用Scrapy爬取“药物临床试验”信息并写入Excel表格

事情的背景是这样的：

两天后：

excel 内容预览如下：

全部代码参考Github：coursera/Projects/clinical_exp/clinical_exp at master · oscarzhao/coursera

2024年10月20日

分布式爬虫实例，爬取知乎全站系列四(middlewares与反反爬)

摘要：本篇是分布式爬取知乎全站系列四，主要是middlewares的简介、解耦、代码，以及反反爬。

一、scrapy中middlewares简介

middlewares即中间件，主要作用有三：

1. 在爬虫发出请求前进行预处理，由process_request()函数负责。

2. 在爬虫解析回复前进行预处理，由process_response()函数负责。

3. 处理中间件抛出的异常，由process_exception()函数负责。

四时宝库

程序员的知识宝库

有哪些常见、好用的爬虫框架?Scrapy、XPATH、CSS框架一文详解

什么是Python爬虫框架?

Scrapy:Python的爬虫框架（爬虫框架scrapy实例）

跟我学系列，走进Scrapy爬虫(三)初窥Scrapy

上一篇

本章工作任务

如何使用 Scrapy 执行 JavaScript

Python3爬虫实例——使用Scrapy重构代码爬取名著

Python爬虫进阶(九):http&scrapy请求与响应

前言

11《Scrapy 入门教程》Scrapy 中的中间件

1. Spider 中间件

scrapy爬虫框架入门须知（scrapy框架爬取图片）

如何使用多级request并传递参数？

万字长文:用Scrapy爬取“药物临床试验”信息并写入Excel表格

分布式爬虫实例，爬取知乎全站系列四(middlewares与反反爬)