程序设计『Programing』

获取网页中所有的文字

2018年8月17日没有评论

# encoding=utf8

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import re
import requests
from bs4 import BeautifulSoup


html = requests.get('https://mp.weixin.qq.com/s?src=11×tamp=1533887718&ver=1051&signature=Xszdx5nmmHyebcH0MXxyHi7-jDwGoNDUDXCHJzPVic68tXGRSTiM3CStUDfSR*aALaC3nK3Ez4e33uLR5ir1pLgy3vEvWXWOvVXgAbsXMn5fB-HWboOW26GH*KMRVhgX&new=1')
soup = BeautifulSoup(html.text, "html5lib")
data = soup.findAll(text=True)


def visible(element):
    if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
        return False
    elif re.match('', str(element.encode('utf-8'))):
        return False
    return True


result = filter(visible, data)

with open('res.txt', "w+") as p:
    for i in result:
        print(str(i))
        p.write(str(i))


print list(result)

闺蜜圈 APP

☆版权☆

* 网站名称：obaby@mars
* 网址：https://lang.ma/
* 个性：https://oba.by/
* 本文标题：《获取网页中所有的文字》
* 本文链接：https://www.lang.ma/2018/08/6238
* 短链接：https://oba.by/?p=6238
* 转载文章请标明文章来源，原文标题以及原文链接。请遵从《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。

Python

Previous Post Next Post

obaby

爱好广泛的火星小妖精，有问题欢迎留言交流啊~(✪ω✪) 爬虫类工具请先点击这个链接查看用法https://oba.by/?p=12240 闺蜜圈APP下载 https://guimiquan.cn

发表回复取消回复

本站所破解的程序仅限于分析研究使用，不可用于非法用途，如果喜欢该软件请购买正版。由于程序所造成的损失本人概不负责。(Findu App由于阿里旺信服务关闭，暂时停止推荐，如果想和我一块开发，请联系我~~)

QQ：382291381
QQ群：777692924

本站其他域名列表(301跳转本站)：

da.bi oba.by nai.dog lang.bi lang.ma h4ck.ws loli.gifts danteng.me zhongxiaojie.com zhongxiaojie.cn

老刘 on 蜀道难 — 有偿招募 Google Play 测试用户: “翻墙太烦了，国产的AI也基本能满足要求，…” 12 月 5, 20:30
obaby on 完美主义: “啥视频？” 12 月 5, 17:03
obaby on 蜀道难 — 有偿招募 Google Play 测试用户: “实在是懒得申诉了，就酱紫吧。腾讯也是闲的…” 12 月 5, 16:58
Snake Wu on 完美主义: “啥，9号那天右上角的标识表示还有视频？” 12 月 5, 16:51
手里有只毛毛虫 on 蜀道难 — 有偿招募 Google Play 测试用户: “好好好，等你发版更新。还有姐妹，qq邮…” 12 月 5, 16:40
obaby on 蜀道难 — 有偿招募 Google Play 测试用户: “没办法，毕竟规则是人家定的。” 12 月 5, 15:53
obaby on 蜀道难 — 有偿招募 Google Play 测试用户: “没关系，你以为苹果不能用吗？等我发版更新…” 12 月 5, 15:52
obaby on 蜀道难 — 有偿招募 Google Play 测试用户: “是的，的确麻烦” 12 月 5, 15:52