我们最近想要对爬虫拿到的下载结果进行存档,这个结果是一个Python对象(我们并不想简单的存一个HTML或js […]
Continue reading…
Posts tagged with '爬虫'
HTTP连接池(基于Python的requests和urllib3)
HTTP是建立在TCP上面的,一次HTTP请求要经历TCP三次握手阶段,然后发送请求,得到相应,最后TCP断开 […]
Continue reading…
有关爬虫框架的设计的一些备忘
我们公司一直在使用自己设计的爬虫框架,这么做的初衷是让框架保持简单,新手可以很快写一个爬虫工作。但是也遇到过许 […]
Continue reading…
pytest插件开发笔记
上一篇博客解决了写爬虫测试时候的一个痛点:复制粘贴太多的重复代码。可还有一个比较烦人的地方,即使test的代码 […]
Continue reading…
爬虫常用的工具
前面写过一篇《如何成为一名爬虫工程师》,这篇博文介绍一些写爬虫的神器。比如查看网络请求,模拟网络请求等。本文不 […]
Continue reading…