最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【已解决】PySpider中如何清空之前运行的数据和正在运行的任务

pyspider crifan 6118浏览 0评论

折腾:

【已解决】写Python爬虫爬取汽车之家品牌车系车型数据

期间,想要对于PySpider中的,两个正在运行的任务,由于发现代码写的有问题,所以暂停运行了:

导致result.db有残留不要的数据,以及还有被暂停的垃圾正在运行的task

现在想要清除掉之前运行的数据。

pyspider 清空之前数据

css – pyspider如何清空之前的结果再重新执行爬虫任务呢? – SegmentFault 思否

为什么pyspider+mongodb只存了一部分数据到数据库,而其他大量数据并没有写入数据库! – CSDN博客

pyspider的一个诡异问题 – CSDN博客

基于pyspider的大众点评数据爬取总结 – CSDN博客

没人说解决办法。

期间自己无意间把data文件夹及其所有文件:

都删了。

结果导致之前爬虫项目,真正运行的任务,结果,都没了。

看了文件,感觉是:

如果要清空之前:

  • 正在运行的任务

  • 之前的数据

可以去,删除掉:

  • task.db

  • result.db

后续也还要删除:

scheduler.all

scheduler.1d

scheduler.1h

但是一定不能删除掉:

  • project.db:应该就是python的代码和配置

通过用SQLite工具去打开:

project.db

可以看到:

内部保存了python代码:

-》

  • project.db:用于保存项目代码和配置的

打开了:

task.db

里面保存了各种任务

【总结】

  • project.db:用于保存项目代码和配置的

  • result.db:保存结果数据

  • task.db:保存任务数据

    • 和任务相关的调度?

      • scheduler.all

      • scheduler.1d

      • scheduler.1h

所以结论是:

如果想要删除之前的下载的数据和任务,去:

删除result.db和task.db(以及任务相关的 scheduler.all,scheduler.1d,scheduler.1h)

然后重新刷新页面:

http://0.0.0.0:5000/

后,即可看到干净的项目,没有了之前的任务和数据了。

去真正操作一次试试:

注意:

要先停掉(终端中正在运行的)pySpider:

然后再去删除:

(否则会自动生成相关db文件的)

然后重新启动pyspider:

http://0.0.0.0:5000/

页面上就没了之前的数据:

和任务了

真正实现了,保留项目(代码)本身,把数据和任务都删除掉了。

然后就可以:

修改代码,然后回来设置status为RUNNING,然后点击Run后,去运行了了:

转载请注明:在路上 » 【已解决】PySpider中如何清空之前运行的数据和正在运行的任务

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
83 queries in 0.188 seconds, using 22.53MB memory