crifan 11年前 (2013-09-22) 28574浏览 3评论
【背景】
问题参见:
python2.7 urllib2 抓取新浪乱码
中的: 报错的异常是 UnicodeDecodeError: ‘gbk’ codec can’t decode...
crifan 11年前 (2013-09-16) 7486浏览 0评论
【背景】
之前已经使用过chardet了,也算用了不少次了。
之前也写过和chardet相关的:
【已解决】windows下,安装python的chardet
【问题】Python中用Chardet检测出来从Windows的cmd中输入的字符串的编码...
crifan 11年前 (2013-09-10) 4655浏览 0评论
【背景】
之前折腾技术的时候,或多或少,知道一个东西:
DocxyGen
是用于从代码生成文档的。
最近,又从:
Seeking very simple ANTLR error handling example when generating C c...
crifan 11年前 (2013-09-09) 13547浏览 0评论
【背景】
是别人问我的:
BeautifulSoup 4中,soup.string和soup.text何有区别。
【折腾过程】
1.去beautifulsoup的官网:
bs3:
http://www.crummy.com/software/Beau...
crifan 11年前 (2013-09-09) 3751浏览 0评论
1.搜到的一些参考资料,有空可以去试试:
http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/ https://github.com/dpapathanasi...
crifan 11年前 (2013-09-06) 9847浏览 2评论
Python 2.7手册中的官网解释为: (?:...) A non-capturing version of regular parentheses. Matches whatever regular expression is insi...
crifan 11年前 (2013-08-30) 19250浏览 17评论
关于什么是Python的IDE,不了解的先去看:
【整理】【多图详解】如何在Windows下开发Python:在cmd下运行Python脚本+如何使用Python Shell(command line模式和GUI模式)+如何使用Python IDE
...
crifan 11年前 (2013-08-26) 4978浏览 2评论
【背景】
之前自己弄的BlogsToWordpress,后来希望添加支持,导出网易163博客中的心情随笔的内容。
之前已经通过代码,可以获得返回的DWR-REPLY数据了:
【记录】给BlogsToWordPress添加支持导出网易的心情随笔
现在就...
crifan 11年前 (2013-08-12) 12538浏览 6评论
【问题】
用Python脚本模拟登陆百度空间。
需要先获得最开始登陆的百度空间网页所返回的cookie。
【解决过程】
1.搜了一番,最后参考这个:
利用Python抓取需要登录网站的信息
实现了对应的代码:
loginUrl = "htt...
crifan 11年前 (2013-08-01) 3651浏览 1评论
【背景】
之前用过Python的chardet:
https://pypi.python.org/pypi/chardet
(代码下载在:https://github.com/dcramer/chardet)
现在,在看Requests的编码方式时,...