爬取Macy网用户评价日志(3): 爬取comment的设计(具体执行)
2022/1/15 6:05:32
本文主要是介绍爬取Macy网用户评价日志(3): 爬取comment的设计(具体执行),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
step0. main函数。
1)从mysql中抓取所有未请求的url; 创建url列表;
2) 依次向url发送info爬虫request.
3) 依次向url发送comment爬虫request.
step1. mysql抽取;
1)查看rank3爬取的mysql数据,即具体产品页面url的数量。目前我爬取的数据已经超过了10000条以上。
因此,需要考虑创建的“rank3 mysql提取类”的提取方法和顺序,以及提取的数量是否python的list可以放得下。
① 考虑python list的容量。
1----------32位python的限制是 536870912 个元素。
2----------64位python的限制是 1152921504606846975 个元素。
就目前来看,64位python的数量是可以放下10万条以上mysql的list的。所以暂时还是考虑使用cursor.fetchall()的方法。
step2. info爬取;
step3. comment爬取;
这篇关于爬取Macy网用户评价日志(3): 爬取comment的设计(具体执行)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-06Package Easy(基于 NSIS 的打包exe安装包工具)使用方法-icode9专业技术文章分享
- 2024-06-06基于 casdoor 的 ELK 开源登录认证解决方案: elk-auth-casdoor-icode9专业技术文章分享
- 2024-05-29Elasticsearch慢查询日志配置
- 2024-05-29揭秘华为如此多成功项目的产品关键——Charter模板
- 2024-05-29海外IDC业务拓展的7大挑战
- 2024-05-29InLine Chat功能优化对标Github Copilot,CodeGeeX带来更高效、更直观的编程体验!
- 2024-05-29CodeGeeX 智能编程助手 6 项功能升级,在Visual Studio插件市场霸榜2周!
- 2024-05-29AutoMQ 生态集成 Apache Doris
- 2024-05-292024年IDC行业的深度挖掘:机遇、挑战与未来展望
- 2024-05-29五款扩展组件齐发 —— Volcano、Keda、Crane-scheduler 等,邀你体验