14行代码带你爬取网页小说
2021/4/8 10:10:42
本文主要是介绍14行代码带你爬取网页小说,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Newspaper库
本项目是基于newspaper库实现的,Newspaper是一个可以用来提取新闻、文章和内容分析的库,在文章爬取方面具有十分强大的功能
python3安装:
pip3 install newspaper3k
首先打开《平凡的世界》网站http://www.pingfandeshijie.net/可看到内容如下
按照爬虫的步骤解析网页获取每一章的链接,因为此网站链接规律性较强,例如第一章链接为http://www.pingfandeshijie.net/di-yi-bu-01.html,后面章节链接只需改动一下章节号即可,在爬取时可通过for循环来实现快速爬取。
程序主要有两个函数构成,一个是生成链接,另一个是获取文本并写入txt中。程序如下图所示
本程序只爬取前10章内容,运行程序得到文本文件如下
由上即可爬取成功平凡的世界这本小说,喜欢读小说的朋友再也不用在网页上阅读小说或者满世界找资源了,通过本例程可拓展任何爬取你自己想看的小说
这篇关于14行代码带你爬取网页小说的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-20测试人员都是画画大神,让我看看谁还不会用代码图?
- 2024-05-20年薪百万的程序员都在用的摸鱼方式……
- 2024-05-19永别了,微服务架构!
- 2024-05-15鸿蒙生态设备数量超8亿台
- 2024-05-13TiDB + ES:转转业财系统亿级数据存储优化实践
- 2024-05-09“2024鸿蒙零基础快速实战-仿抖音App开发(ArkTS版)”实战课程已上线
- 2024-05-09聊聊如何通过arthas-tunnel-server来远程管理所有需要arthas监控的应用
- 2024-05-09log4j2这么配就对了
- 2024-05-09nginx修改Content-Type
- 2024-05-09Redis多数据源,看这篇就够了