从零之057 网页代码中提取文字(删除多余空行)-技术教程-四时宝库

在上一章，我们已经实现了从网页代码文件中提取文字，但是我们发现，提取的文字中有很多空白行，如下图

这样，篇幅可能很长很长。现在我们有一个需要，就是能不能将这些空白行去除掉？本章就来研究这个问题。

首先，我们先对程序进行一下优化处理，把上一张最后程序中的自定义函数“去除html代码”，移动到通用函数库中。

上一章最后的程序如下

移动后程序变成下面这个样子

此时，自定义函数已经移到了通用函数库中。于是，我们看到，优化后的程序更加简单易懂，下面我们研究去除空行的问题。

按照以前的习惯，我们先对主程序进行下改造，改造后的主程序变成下面的模样

上面红线标注的这一行，就是我们新增加的内容。我们编写了一个函数，名字叫做去除空行，详细内容如下图，下面我们研究一下这个函数

第四行，我们定义的这个函数以及传入的参数

第五行，定义了回收内容的变量

第六行，用换行符把内容分割成列表

第七行，对列表内所有的行进行遍历

第八行，对列表中的内容进行空格删除，然后看看是不是为空，用这样的方式判断行内是否有内容。

第九行，对有内容的行进行回收。

第十行，返回结果

于是我们得到了完整的程序，如下图

运行后的效果如下图

于是我们看到，所有的空行没有了。剩下的行都是有内容的行。

四时宝库