Scrapy的基本使用

2022/7/4 6:21:48

本文主要是介绍Scrapy的基本使用,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

一、基本命令

  • 创建项目scrapy startproject xxx
  • 创建爬虫scrapy genspider xxx
  • 运行相应爬虫scrapy crawl xxx

二、相关文件

1、相应的爬虫文件名称为自己创建的的xxx.py

2、爬虫项目的配置文件setting.py

  • ROBOTSTXT_OBEY 是否遵循robots.txt协议
  • USER_AGENT 爬虫请求时的请求头
  • DOWNLOAD_DELAY 爬虫请求的频率
  • ITEM_PIPELINES 是否打开管道
  • LOG_ENABLED 是否打印日志
  • LOG_LEVEL 打印日志的最低标准
    ...

3、管道,处理爬虫发过来的数据pipelines.py

4、一些中间件设置middlewares.py

5、变量类型(建议直接用字典)items.py

三、其他

  • crawlspider自动查找新url地址并下载
  • ImagePipeline图片下载保存管道


这篇关于Scrapy的基本使用的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程