最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【记录】用python脚本修改更新百度帖子

Python crifan 1982浏览 0评论

之前已经成功的用python脚本,将百度空间的帖子,导出为WXR,然后再导入wordpress了。

现在又实现了,在该脚本基础上,在提供了用户名和密码的前提下,用python脚本登陆百度空间,

然后找到私人类型的日志。

后来又实现了,在登陆模式下,去修改帖子内容,在每一篇帖子的开头,加上对应的搬家声明,添加完后,效果如下:

搬家声明 2搬家声明 1

但是运行脚本的过程中,却遇到很多新的情况。

(1)新修改的内容,会把旧的内容冲掉

在保证了脚本中,http的POST提交的内容都是正确的前提下,但是提交后,

帖子内容,只剩下新添加的搬家声明的数据内容了,而原先该帖子的内容,都消失了,即新提交的数据,是搬家声明的数据加上原先帖子的数据,但是提交后,却只剩搬家声明部分的数据了。

很是无语。后来还专门调试了半天,结果还是同样效果。

对此,也没啥其他更好的办法,如果帖子数据丢失,那么也没本质影响,毕竟帖子都搬过家了。想看的人,可以去新地址看到。

但是还是感觉百度系统,是有问题的。此处修改帖子的话,有时候会丢失原先帖子的内容。

暂时的推测是,估计是百度空间中,对于html的一些代码,处理有问题。导致数据即使是存在的,也可能不显示。

或者就是提交的时候,数据被错误地处理掉,只剩搬家部分的数据了。

(2)文章内容包含不合适内容,请检查

有的帖子,由于是之前所发表的,那时候文字过滤还不是那么变态,所以当时帖子是可以被发表的。

但是现在再去发表一些,可能看起来并不包含敏感词的那个帖子,且也提示“文章内容包含不合适内容,请检查”,而无法修改发表了。

这点,倒也是可以理解的。

但是对于有些帖子,比如:

英汉对照 – 课程

的内容,本来是完全正常的,但是估计是其中包含的“毛泽东思想研究 ”,而导致也出现这个提示,就很让人无语了。看来党在文字过滤方面,真的是宁可错杀一千,也不可放过一个。又或者是百度自己对自己,过度阉割了。导致如此正常的帖子,都无法再次修改发表。

对于这类问题,开始的做法是,手动的去,跳过当前帖子,即找到当前帖子的下一篇文章的地址,然后重新运行一次程序,即可继续去修改帖子。但是后来由于此类问题还是很多,所以就又修改程序,添加了支持自动忽略此类帖子的修改的功能,使得不需要手工干预,自动跳过这类帖子,只修改普通的帖子即可。

后来,又遇到更觉得变态的,比如这个帖子:

【歌曲推荐】See The Sun – Sequence Pulse

只是单纯的推荐的歌曲,这样的帖子,竟然也包含敏感词,看来真是某人所说的,党太敏感了,到处都是敏感部位,都摸不得啊。。。

(3)您的操作过于频繁,请稍后再试

刚开始python程序,修改完一个帖子后,解析到下一个帖子的链接,然后就直接去修改下一个帖子了。

由于程序的处理速度过快,所以,没修改几个帖子呢,就返回“您的操作过于频繁,请稍后再试”的错误。

后来就把之前对帖子标题,分类等,调用google翻译的部分的代码,又启用了,因为每次调用google翻译,都要访问google翻译的网站,提交对应http,然后解析获得翻译后的内容,这样,就增加了每个帖子的处理的间隔时间,本来以为就可以了,但是遇到网络很好的时候,这部分的耗时,也不是很大,也就1,2秒,所以修改帖子多了,还是会有“您的操作过于频繁,请稍后再试”的提示。

所以后来索性去在每两个帖子之间,增加了5,6秒的sleep,才得以不间断去修改帖子。

对于其他百度空间,帖子内容不多,比如只有100,200个的话,是可以正常地,一次性地,修改所有的帖子的,但是对于我的这个博客:

笑不笑由你 ^O^ ↑→大杂烩←↓

由于有1000多个帖子,结果后来在修改到500个左右的时候,

在修改帖子:

在北大校园BBS引起轰动的一篇文章

的时候,还是出现了“您的操作过于频繁,请稍后再试。”的提示。

本来以为重新运行一下python脚本即可,结果处理上述那个帖子的时候,就出现了同样的提示,然后过了几个小时之后,再去尝试,还是同样错误。最后等到第二天再去试试,还是同样错误。

所以,看来是百度,对于此账户,封了当前电脑的IP,所以导致,当前电脑无法继续修改此账号的帖子了。

看来只能有空去试试其他电脑了。

注:此电脑登陆其他博客,修改其他博客的帖子,是可以的。

之后换到了住处的电脑,再去用此脚本更新帖子,就是可以的了。

但是结果到这个帖子:
恶搞全国各地人心中的中国地图
又遇到了:您的操作过于频繁,请稍后再试。
然后去空间中看了下,一共大概84页,到这个帖子是18页,中间已经处理掉的是84-18=66页,
所以前后大概2次,共处理了66页,每次大概33页,33*15=495,所以正好是500个帖子。
所以百度是判断了一段时间内,比如我这里的大概2个小时前后的时间,连续修改了500个帖子,那么就会给出错误提示:
您的操作过于频繁,请稍后再试。
然后封你的ip,然后你之后用此ip登陆同一账号,再去修改帖子,就都完全被禁止了,就会提示你:
您的操作过于频繁,请稍后再试。
了。只有换个IP,换个电脑,去修改帖子,才可以的。

转载请注明:在路上 » 【记录】用python脚本修改更新百度帖子

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
82 queries in 0.181 seconds, using 22.08MB memory