1. 参考:
http://abeltribe.blog.163.com/blog/static/126452923201101684655622/
http://wpchina.org/transfer-blogbus-to-wordpress-quickly-739/
去注册了个blogbus的博客,然后把一个百度空间导入到blogbus里面,然后导出对应的xml文件:
backup-20111207133923.xml
接着用bus2wp.py转换为wordpress可以识别的xml文件:
wp-baidu_music.xml
然后进入wordpress里面:
工具->导入->WordPress,选择刚才的xml,然后点击上传文件并导入,但是出错:
This does not appear to be a WXR file, missing/invalid WX
参考:百度快照,自己手动在xml里面:
<?xml version=”1.0″ encoding=”utf-8″?>
之后,
<rss version=”2.0″ xmlns:content=”http://purl.org/rss/1.0/modules/content/” xmlns:dc=”http://purl.org/dc/elements/1.1/” xmlns:excerpt=”http://wordpress.org/export/1.0/excerpt/” xmlns:wfw=”http://wellformedweb.org/CommentAPI/” xmlns:wp=”http://wordpress.org/export/1.0/“>
之前,添加了对应的
<wp:wxr_version>1.0</wp:wxr_version>
然后再尝试去导入,结果也还是failed,无法导入这些文章。
2. 关于将百度空间内容搬到wordpress中,也可以参考这里:
http://www.wodidai.com/post/baidu-hi-wordpress.html
介绍的,先用blog_backup存为rss,然后改一下关键字,再导入wordpress中去。
但是缺点是没法保留评论。
另外,参考:
http://blog.cnfol.com/c9u9f3p1b9/article/36267664.html
去执行使用BlogMover:
hi-baidu-mover.py -s http://hi.baidu.com/recommend_music/blog
发现是可以生成xml文件,但是却只导出了最新一个帖子,其他帖子都没导出来,不过好像是可以到处评论的,只是暂时(如果某文章评论太多,有好多页的话)只支持导出第一页的评论。
所以还是没法实现目的:不仅要实现将百度博客搬家到wordpress,同时也保留全部的评论。
后来无意间找到:
百度搜索“百度空间 wordpress yhustc”可以找到:
新版本的百度空间到wordpress搬家工具
中的新版本的工具:
有空可以试试。
想要学习如何写python脚本解析网页,其中关于BeautifulSoup可以参考这里:
http://www.crummy.com/software/BeautifulSoup/documentation.zh.html
关于百度空间页面html源码的解析,可以参考这个:
从百度空间到CSDN——博客搬家源码
http://lvliangtest.blog.163.com/blog/static/17392912320101049583632/
这里:
http://www.yhustc.com/%E5%8F%91%E5%B8%83wordpress%E6%90%AC%E5%AE%B6%E5%B7%A5%E5%85%B7.html
已经解释了,上面那些网易博客搬家的代码失效了,但是其发布了一个新版本的百度空间搬家的代码,就是上面提到的
新版本的百度空间到wordpress搬家工具
只是经过尝试,目前此刻,2011-12-09,也是失效的,也是无法下载百度空间日志的。
及时加上了-f 最新一个日志地址,也还是只能下载单个日志,不能正常地搬家全部帖子。
所以,看来还是要自己抽空写出来一个有效的搬家的脚步才行。
发现了,最原始的msn的live space搬家的python脚本,是在这里的:
http://live-space-mover.googlecode.com/svn-history/r40/trunk/live-space-mover.py
而上面那个BlogMover,应该就是以其为基础,修改添加了多个针对百度,网易等的新版本。
而且,又发现了,该脚本,在google code上有:
http://code.google.com/p/live-space-mover/downloads/list
截止目前(2011-12-11)最新版本是2010年7月的live-space-mover.1.8.zip
其中可以找到这里:
http://b2.broom9.com/?page_id=519
里面介绍了此脚本的来龙去脉和使用方法和注意事项。
其中也有关于UnicodeDecodeError的介绍:
If you met an “UnicodeDecodeError”, that’s probably because your live space contains Italian or other languages. There is a bug in Python 2.5, you need to fix it. Yes, fix Python library by your own hands If you installed Python to it’s default path on Windows, what you need to do is to change the file C:Python25Libsgmlib.py, in line 394 if not 0 <= n <= 255: should be changed to if not 0 <= n <= 127: That’s all, I learned this from here |
最后还是自己实现了:
【已实现】想要通过python脚本实现抓取百度空间上的文章,评论,图片 v2011-12-19
3.如果想要尝试去学习bus2wp.py的修正,那么可以先去学习关于rss的spec:
RSS 1.0 spec
http://www.rssboard.org/rss-profile#element-channel
RSS 2.0 spec
http://www.rssboard.org/rss-specification
顺带说一下,关于language一项,常见的是en(英语),和中文的zh-cn,指的是简体中文。对应的zh-tw指的是繁体中文。
想说的是,没有zh这一缩写。
此处摘录几个常见的:
Chinese (Simplified) | zh-cn |
Chinese (Traditional) | zh-tw |
English | en |
French | fr |
German | de |
Italian | it |
Japanese | ja |
更多的语言缩写,参见:
http://www.rssboard.org/rss-language-codes
4.关于wordpress里面的语法高亮插件,网上看到这里:
http://article.yeeyan.org/view/119553/94844
评测说这个不错:
http://wordpress.org/extend/plugins/syntax-highlighter-and-code-prettifier/
有机会去试试。
5.关于wordpress导出的xml文件,全名叫做WordPress eXtended RSS,WXR文件。
其中WXR的格式,有人已经总结的不错了,可以参考一下:
WordPress eXtended Rss (WXR)文件格式解析
http://huxuan.org/20110622/analysis-of-wordpress-extended-rss-wxr-file/
转载请注明:在路上 » 记录 wordpress折腾过程