python 实现 html 转 text 文本
采集的网页中,想提取所有的txt 保存为 txt 文件。原理:
1,匹配所有DIV 之间的内容
2,去掉内容中的HTML标签
3,去掉多换行空格制表符nbsp
4,检测长度是否超过300 说明是正文
经过测试,可以让多数网页博客变成纯净的 txt 文件。
以下是源码
#coding:utf-8 """ html转txt 2016-02-06 11:36 """ import os import re import sys word_len = 300 for root,dir,files in os.walk(os.getcwd()): for file in files: file = os.path.join(root,file) ext = file.split(".")[-1] if ext in ["htm","html"]: with open(file) as htm: newText = "" htm =htm.read() #查找到所有匹配的 DIV 去掉里面的HTML 后检测字数 divs = re.findall(r"]+)?>([\s|\S]+?)<([\/]+)?div",htm) for attr,text,flag in divs: #移除javascript style text = re.sub(r"
- 上一篇:python 实现 ntp 网络对时详解
- 下一篇:没有了