Scrapy的基本使用
2022/7/4 6:21:48
本文主要是介绍Scrapy的基本使用,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
一、基本命令
- 创建项目
scrapy startproject xxx
- 创建爬虫
scrapy genspider xxx
- 运行相应爬虫
scrapy crawl xxx
二、相关文件
1、相应的爬虫文件名称为自己创建的的xxx.py
2、爬虫项目的配置文件setting.py
- ROBOTSTXT_OBEY 是否遵循robots.txt协议
- USER_AGENT 爬虫请求时的请求头
- DOWNLOAD_DELAY 爬虫请求的频率
- ITEM_PIPELINES 是否打开管道
- LOG_ENABLED 是否打印日志
- LOG_LEVEL 打印日志的最低标准
...
3、管道,处理爬虫发过来的数据pipelines.py
4、一些中间件设置middlewares.py
5、变量类型(建议直接用字典)items.py
三、其他
- crawlspider自动查找新url地址并下载
- ImagePipeline图片下载保存管道
这篇关于Scrapy的基本使用的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-15PingCAP 黄东旭参与 CCF 秀湖会议,共探开源教育未来
- 2024-05-13PingCAP 戴涛:构建面向未来的金融核心系统
- 2024-05-09flutter3.x_macos桌面os实战
- 2024-05-09Rust中的并发性:Sync 和 Send Traits
- 2024-05-08使用Ollama和OpenWebUI在CPU上玩转Meta Llama3-8B
- 2024-05-08完工标准(DoD)与验收条件(AC)究竟有什么不同?
- 2024-05-084万 star 的 NocoDB 在 sealos 上一键起,轻松把数据库编程智能表格
- 2024-05-08Mac 版Stable Diffusion WebUI的安装
- 2024-05-08解锁CodeGeeX智能问答中3项独有的隐藏技能
- 2024-05-08RAG算法优化+新增代码仓库支持,CodeGeeX的@repo功能效果提升