在上一章,我们已经实现了从网页代码文件中提取文字,但是我们发现,提取的文字中有很多空白行,如下图
这样,篇幅可能很长很长。现在我们有一个需要,就是能不能将这些空白行去除掉?本章就来研究这个问题。
首先,我们先对程序进行一下优化处理,把上一张最后程序中的自定义函数“去除html代码”,移动到通用函数库中。
上一章最后的程序如下
移动后程序变成下面这个样子
此时,自定义函数已经移到了通用函数库中。于是,我们看到,优化后的程序更加简单易懂,下面我们研究去除空行的问题。
按照以前的习惯,我们先对主程序进行下改造,改造后的主程序变成下面的模样
上面红线标注的这一行,就是我们新增加的内容。我们编写了一个函数,名字叫做去除空行,详细内容如下图,下面我们研究一下这个函数
第四行,我们定义的这个函数以及传入的参数
第五行,定义了回收内容的变量
第六行,用换行符把内容分割成列表
第七行,对列表内所有的行进行遍历
第八行,对列表中的内容进行空格删除,然后看看是不是为空,用这样的方式判断行内是否有内容。
第九行,对有内容的行进行回收。
第十行,返回结果
于是我们得到了完整的程序,如下图
运行后的效果如下图
于是我们看到,所有的空行没有了。剩下的行都是有内容的行。