四时宝库

程序员的知识宝库

python 从网页下载html转为markdown

利用html2text库将html内容转为Markdown格式内容

首先需要使用pip安装html2text包和requests包

pip install html2text
pip install requests

再使用requests获取网页内容

import requests
htmlpage = requests.get(url, headers=headers)

使用html2text包将获取的html数据转换为markdown格式内容

import html2text as ht
import requests
text_maker = ht.HTML2Text()

def url2md(url):
    htmlpage = requests.get(url, headers=headers).text
    mdtext = text_maker.handle(htmlpage)
    return mdtext

最后,将markdown内容存储为.md文件

article_content = url2md(article_url)
with open(os.path.join(title+".md"), "w", encoding="utf-8") as fh:
    fh.write(article_content)

记录一下常用的小函数!

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言
    友情链接