Scrapy的基本使用

2022/7/4 6:21:48

编程Tag： 使用爬虫管道 log 基本 Scrapy py XXX

本文主要是介绍Scrapy的基本使用，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

一、基本命令

创建项目scrapy startproject xxx
创建爬虫scrapy genspider xxx
运行相应爬虫scrapy crawl xxx

二、相关文件

1、相应的爬虫文件名称为自己创建的的xxx.py

2、爬虫项目的配置文件setting.py

ROBOTSTXT_OBEY 是否遵循robots.txt协议
USER_AGENT 爬虫请求时的请求头
DOWNLOAD_DELAY 爬虫请求的频率
ITEM_PIPELINES 是否打开管道
LOG_ENABLED 是否打印日志
LOG_LEVEL 打印日志的最低标准
...

3、管道，处理爬虫发过来的数据pipelines.py

4、一些中间件设置middlewares.py

5、变量类型（建议直接用字典）items.py

三、其他

crawlspider自动查找新url地址并下载
ImagePipeline图片下载保存管道

这篇关于Scrapy的基本使用的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

相关编程文章

更多>

2024-05-15PingCAP 黄东旭参与 CCF 秀湖会议，共探开源教育未来
2024-05-13PingCAP 戴涛：构建面向未来的金融核心系统
2024-05-09flutter3.x_macos桌面os实战
2024-05-09Rust中的并发性：Sync 和 Send Traits
2024-05-08使用Ollama和OpenWebUI在CPU上玩转Meta Llama3-8B
2024-05-08完工标准（DoD）与验收条件（AC）究竟有什么不同？
2024-05-084万 star 的 NocoDB 在 sealos 上一键起，轻松把数据库编程智能表格
2024-05-08Mac 版Stable Diffusion WebUI的安装
2024-05-08解锁CodeGeeX智能问答中3项独有的隐藏技能
2024-05-08RAG算法优化+新增代码仓库支持，CodeGeeX的@repo功能效果提升