这篇文章用来收集整理爬虫相关的资料。
相关技术
如果只想单纯的自己开发,可以使用 Python + Celery + Redis/MySQL 基本能满足 80% 的需求。
如果想要选用框架 Scrapy,pyspider,等等都是非常不错的选择,我甚至在 GitHub 上看到过 Java 的分布式爬虫。
书籍
Python 3 网络爬虫开发实战
这本书在网上有部分 gitbook,链接在这里
网上公开的部分都是无关痛痒的部分,不过提及的工具倒是可以参考一下。大部分我之前的文章也都有提及