【整理】pyspider vs scrapy

pyspider vs scrapy

pyspider 和 scrapy 比较起来有什么优缺点吗？ – 知乎

“Pyspiders是国内某大神开发了个WebUI的[Pyspider](GitHub – binux/pyspider: A Powerful Spider(Web Crawler) System in Python.)，具有以下特性：

1. python 脚本控制，可以用任何你喜欢的html解析包（内置 pyquery）

2. WEB 界面编写调试脚本，起停脚本，监控执行状态，查看活动历史，获取结果产出

3. 支持 MySQL, MongoDB, SQLite

4. 支持抓取 JavaScript 的页面

5. 组件可替换，支持单机/分布式部署，支持 Docker 部署

6. 强大的调度控制

从内容上讲，两者具有功能差不多，包括以上3，5，6。不同是Scrapy原生不支持js渲染，需要单独下载[scrapy-splash](GitHub – scrapy-plugins/scrapy-splash: Scrapy+Splash for JavaScript integration),而PyScrapy内置支持[scrapyjs](GitHub – scrapy-plugins/scrapy-splash: Scrapy+Splash for JavaScript integration)；PySpider内置 pyquery选择器，Scrapy有XPath和CSS选择器，这两个大家可能更熟一点；此外，Scrapy全部命令行操作，Pyscrapy有较好的WebUI；还有，scrapy对千万级URL去重支持很好，采用[布隆过滤](海量大数据处理单机方案)来做，而Spider用的是数据库来去重？最后，PySpider更加容易调试，scrapy默认的debug模式信息量太大，warn模式信息量太少，由于异步框架出错后是不会停掉其他任务的，也就是出错了还会接着跑。。。从整体上来说，pyspider比scrapy简单，并且pyspider可以在线提供爬虫服务，也就是所说的SaaS，想要做个简单的爬虫推荐使用它，但自定义程度相对scrapy低，社区人数和文档都没有scrapy强，但scrapy要学习的相关知识也较多，故而完成一个爬虫的时间较长。”

pyspider 和 scrapy 对比 – V2EX

爬虫框架Scrapy · 网络爬虫教程

“框架概述

爬虫框架，其中比较好用的是 Scrapy 和 PySpider。

* PySpider

优点：分布式框架，上手更简单，操作更加简便，因为它增加了 WEB 界面，写爬虫迅速，集成了phantomjs，可以用来抓取js渲染的页面。

缺点：自定义程度低

http://docs.pyspider.org/en/latest/Quickstart/

* Scrapy

优点：自定义程度高，比 PySpider更底层一些，适合学习研究，需要学习的相关知识多，拿来研究分布式和多线程等等是最合适不过的。

缺点：非分布式框架（可以用scrapy-redis分布式框架）”

scrapy和pyspider介绍 – 简书