第 1 章 BeautifulSoup简介

摘要

1.1. BeautifulSoup模块简介

Python的BeautifulSoup模块，可以帮助你实现HTML和XML的解析

先说一下，一般写网页爬虫，即抓取网页的html源码等内容，然后分析，提取相应的内容。

这种分析html内容的工作，如果只是用普通的正则表达式re模块去一点点匹配的话，对于内容简单点的网页分析，还是基本够用。

但是对于工作量很大，要分析的内容很繁杂的html，那么用re模块，就会发现无法实现，或很难实现。

而使用beautifulsoup模块去帮你实现分析html源码的工作的话，你就会发现，事情变得如此简单，极大地提高了分析html源码的效率。

比如我这里的想要实现博客搬家之前，想要抓取对应的博客中的内容，就需要先去打开一个URL地址，去解析其中的内容，找到第一个固定链接，然后一点点分析HTML中的内容，抓去下来，导出wordpress所需要的xml文件等。

这其中对于HTML的分析，就可以利用BeautifulSoup这个模块了。

更多内容参见"Beautiful Soup 中文文档"

其中，原先链接：

想要下载的话，这是BeautifulSoup的官网，其中可以下载到最新的版本：


2. 待完成		第 2 章 BeautifulSoup中的find函数详解