14行代码带你爬取网页小说

2021/4/8 10:10:42

编程Tag： 代码程序网页爬取链接小说 14 Newspaper

本文主要是介绍14行代码带你爬取网页小说，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

Newspaper库

本项目是基于newspaper库实现的，Newspaper是一个可以用来提取新闻、文章和内容分析的库，在文章爬取方面具有十分强大的功能

python3安装：

pip3 install newspaper3k

首先打开《平凡的世界》网站http://www.pingfandeshijie.net/可看到内容如下

按照爬虫的步骤解析网页获取每一章的链接，因为此网站链接规律性较强，例如第一章链接为http://www.pingfandeshijie.net/di-yi-bu-01.html，后面章节链接只需改动一下章节号即可，在爬取时可通过for循环来实现快速爬取。

程序主要有两个函数构成，一个是生成链接，另一个是获取文本并写入txt中。程序如下图所示

本程序只爬取前10章内容，运行程序得到文本文件如下

由上即可爬取成功平凡的世界这本小说，喜欢读小说的朋友再也不用在网页上阅读小说或者满世界找资源了，通过本例程可拓展任何爬取你自己想看的小说

这篇关于14行代码带你爬取网页小说的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！