1. 参考:
http://abeltribe.blog.163.com/blog/static/126452923201101684655622/
http://wpchina.org/transfer-blogbus-to-wordpress-quickly-739/
去注册了个blogbus的博客,然后把一个百度空间导入到blogbus里面,然后导出对应的xml文件:
backup-20111207133923.xml
接着用bus2wp.py转换为wordpress可以识别的xml文件:
wp-baidu_music.xml
然后进入wordpress里面:
工具->导入->WordPress,选择刚才的xml,然后点击上传文件并导入,但是出错:
This does not appear to be a WXR file, missing/invalid WX
参考:百度快照,自己手动在xml里面:
<?xml version=”1.0″ encoding=”utf-8″?>
之后,
<rss version=”2.0″ xmlns:content=”http://purl.org/rss/1.0/modules/content/” xmlns:dc=”http://purl.org/dc/elements/1.1/” xmlns:excerpt=”http://wordpress.org/export/1.0/excerpt/” xmlns:wfw=”http://wellformedweb.org/CommentAPI/” xmlns:wp=”http://wordpress.org/export/1.0/“>
之前,添加了对应的
<wp:wxr_version>1.0</wp:wxr_version>
然后再尝试去导入,结果也还是failed,无法导入这些文章。
2. 关于将百度空间内容搬到wordpress中,也可以参考这里:
http://www.wodidai.com/post/baidu-hi-wordpress.html
介绍的,先用blog_backup存为rss,然后改一下关键字,再导入wordpress中去。
但是缺点是没法保留评论。
另外,参考:
http://blog.cnfol.com/c9u9f3p1b9/article/36267664.html
去执行使用BlogMover:
hi-baidu-mover.py -s http://hi.baidu.com/recommend_music/blog
发现是可以生成xml文件,但是却只导出了最新一个帖子,其他帖子都没导出来,不过好像是可以到处评论的,只是暂时(如果某文章评论太多,有好多页的话)只支持导出第一页的评论。
所以还是没法实现目的:不仅要实现将百度博客搬家到wordpress,同时也保留全部的评论。
后来无意间找到:
百度搜索“百度空间 wordpress yhustc”可以找到:
新版本的百度空间到wordpress搬家工具
中的新版本的工具:
有空可以试试。
想要学习如何写python脚本解析网页,其中关于BeautifulSoup可以参考这里:
http://www.crummy.com/software/BeautifulSoup/documentation.zh.html
关于百度空间页面html源码的解析,可以参考这个:
从百度空间到CSDN——博客搬家源码
http://lvliangtest.blog.163.com/blog/static/17392912320101049583632/
这里:
http://www.yhustc.com/%E5%8F%91%E5%B8%83wordpress%E6%90%AC%E5%AE%B6%E5%B7%A5%E5%85%B7.html
已经解释了,上面那些网易博客搬家的代码失效了,但是其发布了一个新版本的百度空间搬家的代码,就是上面提到的
新版本的百度空间到wordpress搬家工具
只是经过尝试,目前此刻,2011-12-09,也是失效的,也是无法下载百度空间日志的。
及时加上了-f 最新一个日志地址,也还是只能下载单个日志,不能正常地搬家全部帖子。
所以,看来还是要自己抽空写出来一个有效的搬家的脚步才行。
发现了,最原始的msn的live space搬家的python脚本,是在这里的:
http://live-space-mover.googlecode.com/svn-history/r40/trunk/live-space-mover.py
而上面那个BlogMover,应该就是以其为基础,修改添加了多个针对百度,网易等的新版本。
而且,又发现了,该脚本,在google code上有:
http://code.google.com/p/live-space-mover/downloads/list
截止目前(2011-12-11)最新版本是2010年7月的live-space-mover.1.8.zip
其中可以找到这里:
http://b2.broom9.com/?page_id=519
里面介绍了此脚本的来龙去脉和使用方法和注意事项。
其中也有关于UnicodeDecodeError的介绍:
If you met an “UnicodeDecodeError”, that’s probably because your live space contains Italian or other languages. There is a bug in Python 2.5, you need to fix it. Yes, fix Python library by your own hands 😛 If you installed Python to it’s default path on Windows, what you need to do is to change the file C:Python25Libsgmlib.py, in line 394 if not 0 <= n <= 255: should be changed to if not 0 <= n <= 127: That’s all, I learned this from here |
最后还是自己实现了:
【已实现】想要通过python脚本实现抓取百度空间上的文章,评论,图片 v2011-12-19
3.如果想要尝试去学习bus2wp.py的修正,那么可以先去学习关于rss的spec:
RSS 1.0 spec
http://www.rssboard.org/rss-profile#element-channel
RSS 2.0 spec
http://www.rssboard.org/rss-specification
顺带说一下,关于language一项,常见的是en(英语),和中文的zh-cn,指的是简体中文。对应的zh-tw指的是繁体中文。
想说的是,没有zh这一缩写。
此处摘录几个常见的:
Chinese (Simplified) | zh-cn |
Chinese (Traditional) | zh-tw |
English | en |
French | fr |
German | de |
Italian | it |
Japanese | ja |
更多的语言缩写,参见:
http://www.rssboard.org/rss-language-codes
4.关于wordpress里面的语法高亮插件,网上看到这里:
http://article.yeeyan.org/view/119553/94844
评测说这个不错:
http://wordpress.org/extend/plugins/syntax-highlighter-and-code-prettifier/
有机会去试试。
5.关于wordpress导出的xml文件,全名叫做WordPress eXtended RSS,WXR文件。
其中WXR的格式,有人已经总结的不错了,可以参考一下:
WordPress eXtended Rss (WXR)文件格式解析
http://huxuan.org/20110622/analysis-of-wordpress-extended-rss-wxr-file/
转载请注明:在路上 » 记录 wordpress折腾过程