【记录】用Scrapy抓取manta.com
crifan 12年前 (2013-05-24) 4003浏览 0评论
【问题】 手上有个Scrapy的项目,是要抓取和 http://www.manta.com/ 相关的站点的内容。 已有源码为: bs.py: import requests from bs4 import BeautifulSoup ...
all python related
crifan 12年前 (2013-05-24) 4003浏览 0评论
【问题】 手上有个Scrapy的项目,是要抓取和 http://www.manta.com/ 相关的站点的内容。 已有源码为: bs.py: import requests from bs4 import BeautifulSoup ...
crifan 12年前 (2013-05-20) 6104浏览 0评论
【背景】 已有一个pdf文件,效果如下: 想要用python从中提取一些信息。 【折腾过程】 1.搜了下,找到个: pyPdf http://pybrary.net/pyPdf/ 其功能之一是: “extracting document infor...
crifan 12年前 (2013-05-08) 4008浏览 0评论
待完成,最新更新:2013-05-08 把之前的: 【详解】Python中的文件操作,readline读取单行,readlines读取全部行,文件打开模式 中的部分内容整理过来,再加上更多的解释。 关于文件的基本知识 &...
crifan 12年前 (2013-05-03) 7781浏览 0评论
【问题】 已经通过Python中的BeautifulSoup获得了对应的soup: LINE 253 : INFO foundDescription=<td va...
crifan 12年前 (2013-05-02) 15220浏览 5评论
【问题】 写Python代码,利用urllib2去访问网络,结果期间会出现错误: urllib2.URLError: <urlopen error [Errno 10060] > 【解决过程】 1.后来发现,程序本身是好的,但...
crifan 12年前 (2013-04-29) 13582浏览 4评论
【问】 Hi Crifan, 我在http://bbs.csdn.net/topics/390361293 里看到抓取网易公开课的脚本,我看了下,感觉还比较简单,但是有一处不是很理解 它在 获取课程名称的时候用到以下代码, fileNa...
crifan 12年前 (2013-04-22) 19937浏览 16评论
背景 折腾: 【记录】使用Python操作MySQL数据库 的过程中,需要去安装MySQLdb。 下载MySQLdb 去官网: http://pypi.python.org/pypi/MySQL-python/ 看到有1.2.4和1.2.3 所以去最...
crifan 12年前 (2013-04-19) 8635浏览 1评论
【背景】 折腾过基本的BeautifulSoup的人,知道,可以通过指定对应的name和attrs去搜索,特定的名字和属性,以找到所需要的部分的html代码。 但是,有时候,会遇到,对于要处理的内容中,其name或attr的值,有多种可能,尤其是符合...
crifan 12年前 (2013-04-03) 2989浏览 0评论
【问题】 python的程序,打包成了exe: BlogsToWordpress_v16.9_2013-03-11_noGUI_windows.exe 别人运行,结果出错: win7 運行exe程序,出現以下提示:請問什麼原因? C:\&am...
crifan 12年前 (2013-04-03) 6281浏览 1评论
【问题】 python的程序,打包成了exe: BlogsToWordpress_v16.9_2013-03-11_noGUI_windows.exe 别人运行,结果出错: win7 運行exe程序,出現以下提示:請問什麼原因? C:\&am...