四时宝库

程序员的知识宝库

从零之057 网页代码中提取文字(删除多余空行)

在上一章,我们已经实现了从网页代码文件中提取文字,但是我们发现,提取的文字中有很多空白行,如下图

这样,篇幅可能很长很长。现在我们有一个需要,就是能不能将这些空白行去除掉?本章就来研究这个问题。

首先,我们先对程序进行一下优化处理,把上一张最后程序中的自定义函数“去除html代码”,移动到通用函数库中。

上一章最后的程序如下

移动后程序变成下面这个样子

此时,自定义函数已经移到了通用函数库中。于是,我们看到,优化后的程序更加简单易懂,下面我们研究去除空行的问题。

按照以前的习惯,我们先对主程序进行下改造,改造后的主程序变成下面的模样

上面红线标注的这一行,就是我们新增加的内容。我们编写了一个函数,名字叫做去除空行,详细内容如下图,下面我们研究一下这个函数

第四行,我们定义的这个函数以及传入的参数

第五行,定义了回收内容的变量

第六行,用换行符把内容分割成列表

第七行,对列表内所有的行进行遍历

第八行,对列表中的内容进行空格删除,然后看看是不是为空,用这样的方式判断行内是否有内容。

第九行,对有内容的行进行回收。

第十行,返回结果

于是我们得到了完整的程序,如下图

运行后的效果如下图

于是我们看到,所有的空行没有了。剩下的行都是有内容的行。

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言
    友情链接