爬取Macy网用户评价日志（3）：爬取comment的设计（具体执行）

2022/1/15 6:05:32

编程Tag： mysql 爬取 url list python comment Macy

本文主要是介绍爬取Macy网用户评价日志（3）：爬取comment的设计（具体执行），对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

step0. main函数。

1）从mysql中抓取所有未请求的url; 创建url列表；

2) 依次向url发送info爬虫request.

3) 依次向url发送comment爬虫request.

step1. mysql抽取；

1）查看rank3爬取的mysql数据，即具体产品页面url的数量。目前我爬取的数据已经超过了10000条以上。

因此，需要考虑创建的“rank3 mysql提取类”的提取方法和顺序，以及提取的数量是否python的list可以放得下。

① 考虑python list的容量。

1----------32位python的限制是 536870912 个元素。

2----------64位python的限制是 1152921504606846975 个元素。

就目前来看，64位python的数量是可以放下10万条以上mysql的list的。所以暂时还是考虑使用cursor.fetchall()的方法。

step2. info爬取；

step3. comment爬取；

这篇关于爬取Macy网用户评价日志（3）：爬取comment的设计（具体执行）的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

爬取Macy网用户评价日志（3）： 爬取comment的设计（具体执行）