Python专题教程:抓取网站,模拟登陆,抓取动态网页

版本:v1.0

Crifan Li

摘要

本文是针对Python的中级开发人员,介绍如何用Python语言去实现抓取网站,模拟登陆,抓取动态网页。其中主要涉及到,网络处理方面的模块(urllib,urllib2等),以及HTML解析相关的模块(BeautifulSoup,json等)。

[提示] 本文提供多种格式供:
在线阅读 HTML HTMLs PDF CHM TXT RTF WEBHELP
下载(7zip压缩包) HTML HTMLs PDF CHM TXT RTF WEBHELP

HTML版本的在线地址为:

http://www.crifan.com/files/doc/docbook/python_topic_web_scrape/release/html/python_topic_web_scrape.html

有任何意见,建议,提交bug等,都欢迎去讨论组发帖讨论:

http://www.crifan.com/bbs/categories/python_topic_web_scrape/

2013-02-06

修订历史
修订 1.0 2013-02-06 crl
  1. 把之前教程的地址整理过来

目录

前言
1. 本文目的
2. 前提
1. 如何用Python实现网站抓取,模拟登陆,抓取动态网页
2. Python中的网络处理
3. Python中的HTMl解析
参考书目