2024年10月20日

前言

阅读本文中如果发现笔者有讲的不清楚的地方，可以查看scrapy的开发文档（第七节有网址）。

PS：本来的目标是微博，但由于微博的反爬措施太严格了（非要爬也不是不可以，但如果不用splash等包套娃最后八成要变成正则表达式大战），起不到作为示范的作用，我们把目标改成贴吧。

2024年10月20日

使用 Scrapy 轻松抓取网页（webscraper抓取网站数据）

Scrapy 是一个很棒的开源 Python 网页抓取框架。它处理大规模 Web 抓取时最常见的用例：

2024年10月20日

数据获取:认识Scrapy（数据获取怎么写）

本节介绍一个普通流程的爬虫框架——Scrapy，它提供了一个通用性的开发规范，帮助开发者做好了通用性的功能，只需要自定义发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容。在最后的实战项目中，我们将会使用Scrapy来做数据采集并进行深度的数据分析和可视化。

在Scrapy的官网上对它的介绍是：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy官网：https://scrapy.org/，这里可以查阅原始的官网文档。

2024年10月20日

Scrapy 爬虫模拟登陆的3种策略

1 Scrapy 爬虫模拟登陆策略

前面学习了爬虫的很多知识，都是分析 HTML、json 数据，有很多的网站为了反爬虫，除了需要高可用代理 IP 地址池外，还需要登录，登录的时候不仅仅需要输入账户名和密码，而且有可能验证码，下面就介绍 Scrapy 爬虫模拟登陆的几种策略。

1.1 策略一：直接POST请求登录

前面介绍的爬虫 scrapy 的基本请求流程是 start_request 方法遍历 start_urls 列表，然后 make_requests_from_url方法，里面执行 Request 方法，请求 start_urls 里面的地址，使用的是 GET 方法，由于直接使用用户名和密码可以登录，使用 POST 方法进行登录。

2024年10月20日

Python网络爬虫框架Scrapy笔记(一)

先前在工作中也有涉及到Scrapy，只是当时有其他人负责网络爬虫工作，并未深入去学习该框架。现在想从某网站上面“爬”点数据，于是利用闲时正在学习Scrapy，在这主要是记录一下本人的学习笔记，希望对其他人也有帮助。

【注】本文所学的是Scrapy官网最新版，即scrapy1.2，官网：https://scrapy.org/

Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

2024年10月20日

最棘手的验证码，爬虫验证码识别方案

"写爬虫的时候遇到过反爬虫措施中的验证码吗，最终是怎样解决的",面试官经常这么问.

什么是验证码?

验证码（CAPTCHA）是“Completely Automated Public Turing test to tell Computers and Humans Apart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。可以防止：恶意破解密码、刷票、论坛灌水，有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试，实际上用验证码是现在很多网站通行的方式，我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

2024年10月20日

10个高效的Python爬虫框架，你用过几个?

小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。

下面介绍了10个爬虫框架，大家可以学习使用！

2024年10月20日

python爬虫实战:利用scrapy，50行代码下载整站短视频

一、撕开爬虫的面纱——爬虫是什么，它能做什么

爬虫是什么

爬虫就是一段能够从互联网上高效获取数据的程序。

我们每天都在从互联网上获取数据。当打开浏览器访问百度的时候，我们就从百度的服务器获取数据，当拿起手机在线听歌的时候，我们就从某个app的服务器上获取数据。简单的归纳，这些过程都可以描述为：我们提交一个Request请求，服务器会返回一个Response数据，应用根据Response来渲染页面，给我们展示数据结果。

2024年10月20日

Python爬虫架构Scrapy快速安装（爬虫scrapy流程）

Scrapy的安装相对来说比较简单，不过它会完全依赖于你从哪里起步。为了能够支持尽可能多的用户，运行和安装Scrapy以及所有示例的“官方”方式是通过Vagrant，该软件能够让你在不考虑宿主操作系统的情况下，运行一个标准的Linux系统，在该系统中我们已经安装好所有需要用到的工具。

我们将会在接下来的几小节中给出Vagrant的使用说明以及一些常用操作系统中的指引。

MacOS

为了更加方便地阅读本书，请按照后面给出的Vagrant使用说明操作。如果你想直接在MacOS系统中安装Scrapy，其实也很简单。只需要输入下面的命令即可。

2024年10月20日

使用python scrapy框架抓取cnblog 的文章内容

scrapy 的文档请移驾到 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html

1、准备工作

安装python 、Spyder 、scrapy 如果想要数据直接入mysql 还需要安装python的 MySQLdb 依赖包

本人mac操作系统安装MySQLdb的时候出现了些小问题最后是重装了openssl 才通过的

Spyder 是编写python的ide

四时宝库

程序员的知识宝库

Python爬虫进阶(十):Scrapy爬取贴吧

前言

使用 Scrapy 轻松抓取网页（webscraper抓取网站数据）

数据获取:认识Scrapy（数据获取怎么写）

1 Scrapy 爬虫模拟登陆策略（爬虫模拟登录）

Scrapy 爬虫模拟登陆的3种策略

1 Scrapy 爬虫模拟登陆策略

Python网络爬虫框架Scrapy笔记(一)

最棘手的验证码，爬虫验证码识别方案

10个高效的Python爬虫框架，你用过几个?

python爬虫实战:利用scrapy，50行代码下载整站短视频

一、撕开爬虫的面纱——爬虫是什么，它能做什么

Python爬虫架构Scrapy快速安装（爬虫scrapy流程）

MacOS

使用python scrapy框架抓取cnblog 的文章内容