深度学习:基于Serverless的验证码识别API-技术教程-四时宝库

前言

之前和大家分享了很多的CV相关的例子，被很多小伙伴吐槽说我是调包侠，还连累了Serverless被很多人误以为也仅仅能"调包玩一玩"，其实在Serverless中，开发者的自由度还是非常大的，除了调包快速实现一些东西，我们也可以通过一些代码训练一些模型，然后实现一些功能，本文将会通过简单的实验，在Serverless架构上实现一个基于卷积神经网络（CNN）算法的在线验证码识别的小工具。

验证码与识别

验证码（CAPTCHA）是“Completely Automated Public Turing test to tell Computers and Humans Apart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。可以防止：恶意破解密码、刷票、论坛灌水，有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试，实际上用验证码是现在很多网站通行的方式，我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

说白了，验证码就是用来验证的码，验证是人访问的还是机器访问的码。

验证码的发展，可以说是非常迅速的，从开始的单纯数字验证码，到后来的数字+字母验证码，再到后来的数字+字母+中文的验证码以及图形图像验证码，可以说就单纯的验证码素材已经越来越多了，从验证码的形态来看，也是各不相同，输入、点击、拖拽以及短信验证码、语音验证码……

例如腾讯云后台登陆的验证码与Bilibili的登录验证码就是滑动登录:

而百度贴吧、知乎、以及Google等相关网站的验证码又各不相同，例如选择正着写的文字，选择包括指定物体的图片以及按顺序点击图片中的字符等。

验证码的识别可能会根据验证码的类型而不太一致，当然最简单的验证码可能就是最原始的文字验证码了：

即便是文字验证码，也是存在很多差异的，例如简单的数字验证码，简单的数字+字母验证码，文字验证码，验证码中包括计算，简单验证码中增加一些干扰成为复杂验证码…….

就这种比较简单的验证码的识别方法也有很多，除了目前比流行的端到端识别之外，之前比较常见的识别就是通过图像的切割，对验证码每一部分裁剪，然后再对每个裁剪但愿进行相似度对比，获得最可能的结果，最后进行拼接，例如将验证码：

进行二值化等操作：

完成之后再进行切割：

切割完成在进行识别，再进行拼接，这样饿做法是，针对每个字符进行识别，相对来说是比较容易容易的。但是对于某些情况，是没办法切割的，例如图片中有很多干扰线等。这个时候就可能需要深度学习，来进行端对端的识别了。

代码实现

本代码很多内容来源于Github，更多是通过搜集一些资料，发挥自己的想象，将该项目部署到Serverless架构上。

验证码生成部分

# coding:utf-8
# name:captcha_gen.py

import random
import numpy as np
from PIL import Image
from captcha.image import ImageCaptcha


NUMBER = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
LOW_CASE = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u',
            'v', 'w', 'x', 'y', 'z']
UP_CASE = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U',
           'V', 'W', 'X', 'Y', 'Z']

CAPTCHA_LIST = NUMBER
CAPTCHA_LEN = 4         # 验证码长度
CAPTCHA_HEIGHT = 60     # 验证码高度
CAPTCHA_WIDTH = 160     # 验证码宽度


def random_captcha_text(char_set=CAPTCHA_LIST, captcha_size=CAPTCHA_LEN):
    """
    随机生成定长字符串
    :param char_set: 备选字符串列表
    :param captcha_size: 字符串长度
    :return: 字符串
    """
    captcha_text = [random.choice(char_set) for _ in range(captcha_size)]
    return ''.join(captcha_text)


def gen_captcha_text_and_image(width=CAPTCHA_WIDTH, height=CAPTCHA_HEIGHT, save=None):
    """
    生成随机验证码
    :param width: 验证码图片宽度
    :param height: 验证码图片高度
    :param save: 是否保存（None）
    :return: 验证码字符串，验证码图像np数组
    """
    image = ImageCaptcha(width=width, height=height)
    # 验证码文本
    captcha_text = random_captcha_text()
    captcha = image.generate(captcha_text)
    # 保存
    if save:
        image.write(captcha_text, './img/' + captcha_text + '.jpg')
    captcha_image = Image.open(captcha)
    # 转化为np数组
    captcha_image = np.array(captcha_image)
    return captcha_text, captcha_image


if __name__ == '__main__':
    t, im = gen_captcha_text_and_image(save=True)
    print(t, im.shape)      # (60, 160, 3)

这一部分主要用户生成验证码，目前CAPTCHA_LIST = NUMBER，表示只用数字验证码，如果需要英文大小写，可将LOW_CASE和UP_CASE加到CAPTCHA_LIST中。

这一部分主要是进行一些组件的编写，在未来的训练和测试过程中会有所应用。

完成之后，我们可以进行训练：

训练完成之后，我可以保留最后（训练效果最好的模型）进行保存，并且开始编写云函数：

# -*- coding:utf-8 -*-

import base64, random, json
import tensorflow as tf
from model_train import cnn_graph
from util import vec2text, convert2gray
from util import CAPTCHA_LIST, CAPTCHA_WIDTH, CAPTCHA_HEIGHT, CAPTCHA_LEN
from PIL import Image
import numpy as np


x = tf.placeholder(tf.float32, [None, CAPTCHA_HEIGHT * CAPTCHA_WIDTH])
keep_prob = tf.placeholder(tf.float32)
y_conv = cnn_graph(x, keep_prob, (CAPTCHA_HEIGHT, CAPTCHA_WIDTH))
saver = tf.train.Saver()

def captcha2text(image_list):
    """
    验证码图片转化为文本
    :param image_list:
    :return:
    """
    with tf.Session() as sess:
        saver.restore(sess, tf.train.latest_checkpoint('model/'))
        predict = tf.argmax(tf.reshape(y_conv, [-1, CAPTCHA_LEN, len(CAPTCHA_LIST)]), 2)
        vector_list = sess.run(predict, feed_dict={x: image_list, keep_prob: 1})
        vector_list = vector_list.tolist()
        text_list = [vec2text(vector) for vector in vector_list]
        return text_list


def main_handler(event, context):

    print(event)

    try:
        # 读取picture，并且保存
        imgData = base64.b64decode(json.loads(event["body"])['picture'])
        fileName = '/tmp/' + "".join(random.sample('zyxwvutsrqponmlkjihgfedcba', 5))
        with open(fileName, 'wb') as f:
            f.write(imgData)

        # 开始预测
        img = Image.open(fileName)
        img = img.resize((160, 60), Image.ANTIALIAS)
        img = img.convert("RGB")
        img = np.asarray(img)
        image = convert2gray(img)
        image = image.flatten() / 255
        pre_text = captcha2text([image])
        return {'result': pre_text}
    except Exception as e:
        return {'error': str(e)}

这其中有一个内容就是：我在训练的时候都是160*60的的大小，所以在测试时候也都是要转换成这个大小。

测试程序：

import json
import urllib.request
import base64

with open("test.png", 'rb') as f:
    base64_data = base64.b64encode(f.read())
    s = base64_data.decode()

url = 'https://service-qzelhadc-1256773370.gz.apigw.tencentcs.com/release/demo'

print(urllib.request.urlopen(urllib.request.Request(
    url = url,
    data= json.dumps({'picture': s}).encode("utf-8")
)).read().decode("utf-8"))

测试完成：

可以看到已经初步可以识别成功。接下来，我们可以进行批量测试：

# -*- coding:utf-8 -*-

import base64, random
import tensorflow.compat.v1 as tf
from model_train import cnn_graph
from util import vec2text, convert2gray
from util import CAPTCHA_LIST, CAPTCHA_WIDTH, CAPTCHA_HEIGHT, CAPTCHA_LEN
from PIL import Image
import numpy as np

tf.compat.v1.disable_eager_execution()

x = tf.placeholder(tf.float32, [None, CAPTCHA_HEIGHT * CAPTCHA_WIDTH])
keep_prob = tf.placeholder(tf.float32)
y_conv = cnn_graph(x, keep_prob, (CAPTCHA_HEIGHT, CAPTCHA_WIDTH))
saver = tf.train.Saver()

def captcha2text(image_list):
    """
    验证码图片转化为文本
    :param image_list:
    :return:
    """
    with tf.Session() as sess:
        saver.restore(sess, tf.train.latest_checkpoint('model/'))
        predict = tf.argmax(tf.reshape(y_conv, [-1, CAPTCHA_LEN, len(CAPTCHA_LIST)]), 2)
        vector_list = sess.run(predict, feed_dict={x: image_list, keep_prob: 1})
        vector_list = vector_list.tolist()
        text_list = [vec2text(vector) for vector in vector_list]
        return text_list


def main_handler(event, context):
    try:
        # 读取picture，并且保存
        imgData = base64.b64decode(event["body"])
        fileName = '/tmp/' + "".join(random.sample('zyxwvutsrqponmlkjihgfedcba', 5))
        with open(fileName, 'wb') as f:
            f.write(imgData)

        # 开始预测
        img = Image.open(fileName)
        img = img.resize((160, 60), Image.ANTIALIAS)
        img = img.convert("RGB")
        img = np.asarray(img)
        image = convert2gray(img)
        image = image.flatten() / 255
        pre_text = captcha2text([image])
        return {'result': pre_text}
    except Exception as e:
        return {'error': str(e)}

运行结果：

1330 {'result': ['1330']}
5142 {'result': ['5142']}
9524 {'result': ['9524']}
6867 {'result': ['6667']}
4644 {'result': ['4644']}
7023 {'result': ['7023']}
9615 {'result': ['9616']}
1684 {'result': ['1684']}
4123 {'result': ['4123']}
0135 {'result': ['0135']}
2503 {'result': ['2503']}
1112 {'result': ['1112']}
1977 {'result': ['1977']}
3242 {'result': ['3242']}
5867 {'result': ['5867']}
7143 {'result': ['7143']}
6238 {'result': ['6288']}
7049 {'result': ['7049']}
0665 {'result': ['0665']}
8557 {'result': ['8557']}

可以看到，基本测试之后，效果还是蛮不错的。当然，由于在训练的时候，使用的是CAPTCHA_LIST = NUMBER，所以目前只能识别数字，如果有兴趣，可以尝试生成混合的验证码。

总结

Serverless发展迅速，通过Serverless做一个验证码识别工具，我觉得这是一个非常酷的事情，在未来的数据采集等工作中，又一个优美的验证码识别工具是非常必要的额，当然验证码种类很多，针对不同类型的验证码识别，也是一项非常有挑战性的工作。

前言