摘要
Python的BeautifulSoup模块,可以帮助你实现HTML和XML的解析
先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。
这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。
但是对于工作量很大,要分析的内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。
而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。
比如我这里的想要实现博客搬家之前,想要抓取对应的博客中的内容,就需要先去打开一个URL地址,去解析其中的内容,找到第一个固定链接,然后一点点分析HTML中的内容,抓去下来,导出wordpress所需要的xml文件等。
这其中对于HTML的分析,就可以利用BeautifulSoup这个模块了。
更多内容参见"Beautiful Soup 中文文档"
其中,原先链接:
http://www.crummy.com/software/BeautifulSoup/documentation.zh.html
已失效,最新的可用的地址是:
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html
想要下载的话,这是BeautifulSoup的官网,其中可以下载到最新的版本: