受白苏的希望,现给BlogsToWordpress去添加天涯博客,BlogTianya的支持。
按照正常的流程,添加代码,一点点的测试。
其中感觉天涯博客的代码,还算比较有逻辑性,所以不论是提取帖子的各种信息,还是提取评论,都是相对不麻烦的,找到对应的class,通过BeautifulSoup,即可解析。
甚至很多信息,相对简单,直接通过re模块即可实现提取了。
其中,有个别事项,需要多说明一下的:
1.图片需要加referer,否则无法访问
天涯图片,访问的时候,需要添加对应的referer,referer的值为当前博客的帖子的地址
比如
http://blog.tianya.cn/blogger/post_read.asp?BlogID=309977&PostID=47772706
中的图片地址是:
http://img3.laibafile.cn/p/m/122282130.jpg
想要访问和下载该图片,需要添加
referer="http://blog.tianya.cn/blogger/post_read.asp?BlogID=309977&PostID=47772706"
否则会出错:
HTTP Error 403: Forbidden
这也就是之前看到高手的解释的现象了,是其中一种图片防盗链的手段之一了。
另外,天涯博客的图片的地址,目前主要有两种:
http://img3.laibafile.cn/p/m/122282130.jpg
http://img13.tianya.cn/photo/2010/7/4/24358385_34481178.jpg
都是需要加referer的。