看此文之前，（强烈建议）先去看：

如何用Python，C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站

然后，才明白，此文的作用和产生的背景。

其中，本文的部分内容，也会在上述帖子，给出额外链接，其中有更详细的解释的。

之前折腾了两个东西：

BlogsToWordPress – 将百度空间，网易163等博客搬家到WordPress

WLW (Windows Live Writer) Plugin–InsertSkydriveFiles

了解了一些关于，如何抓取对应的网页内容，如何模拟登陆一个网站的大概逻辑和流程，以及一些注意事项。

在此整理出来，仅供参考。

抓取网页的一般逻辑和过程

一般普通用户，用浏览器，打开某个URL地址，然后浏览器就可以显示出对应的页面的内容了。

这个过程，如果用程序代码来实现，就可以被称为（用程序实现）抓取网页（的内容，并进行后期处理，提取所需信息等）

对应的英文说法有，website crawl/scrape/data mining。

而用来抓取网页的工具，也常被叫做 spider，crawler等。

即，一般所谓的取网页内容，指的是通过程序（某种语言的程序代码，比如Python脚本语言，C#语言等）实现访问某个URL地址，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。

而对于这个抓取网页的过程，是有一套自己的逻辑的。

想要用程序实现对应的网页内容的抓取，就是要先搞懂这套逻辑，然后再去用对应的不同的语言实现，即可。

抓取网页的一般逻辑

去访问一个URL地址,获得对应的网页的过程，其对应的内部机制是

准备好对应的Http请求（Http Request）+ 提交对应的Http Request

–>

获得返回的响应（Http Response） + 获得Http Response中的网页源码

下面介绍这两大步骤的具体操作流程：

准备此Http请求Request （访问URL之前的准备工作）

url

知道了要访问的URL地址是什么,即request url；

其中，此处的url地址，是指的是完整的地址：基本的url + 查询字符串

此查询字符串参数：

IE中算是称为request parameter
Chrome中称为query string

其中，查询字符串，很多时候也是没有的。

举个例子：

完整的url = https://www.crifan.com/?s=crifan&submit=Search

基本url + 查询字符串

= https://www.crifan.com/ + s=crifan 和submit=Search

GET还是POST

必须或可选：Headers

即request header

头信息Headers，包含很多个Header

有些是必须的，有些是可选的（根据不同情况，可忽略的）

有的时候，甚至不设置任何header也是可以的。

[可选]Post Data

如果是POST方法，则还需要填写对应的数据:

此数据：

IE中称为request body
Chrome中称为Post Data

换句话说：

如果是GET，则是没有POST数据的。

提示：所以，你在IE9中通过F12抓取到的内容中，会看到，对于所有的GET请求，对应的“请求正文（request body）”都是空的。

必须或可选：cookie

很多时候，访问对应url还需要提供对应的cookie。

一般来说，模拟登陆等情况下，往往都会涉及到cookie的。

其他一些可能需要准备的东西

（1）代理proxy

（2）设置最大超时timeout时间

提交HttpRequest，即可获得此http请求的响应Response（访问URL之后的要做的工作）

1.获得对应的响应response

2.从响应中获得对应的网页源码等信息

（1）获得返回的网页HTML源码（或json等）

（2）[可选]如果有需要，还要获得对应的cookie

（3）[可选]判断返回的其他一些相关信息，比如response code等

【网页抓取过程中的注意事项】

1.网页跳转Redirect

（1）直接跳转

（2）间接跳转

A。javascript脚本中有对应的代码实现网页跳转

B。本身所返回的HTML源码中包含refresh动作，所实现的网页跳转

抓取网页后，如何分析获得所需要的内容

一般来说，去访问一个URL地址，所返回的内容，多数都是网页的HTML源码，也有其他一些形式的内容的，比如json等。

我们所想要的则是，从返回的内容（HTML或json等）中，提取我们所需要的特定的信息，即对其进行一定的处理，获得所需信息。

就我所遇到的情况，有几种方法可以实现提取所需的信息：

1. 对于HTML源码：

（1）如果是Python中的话，可以通过调用第三方的Beautifulsoup库

然后再调用find等函数，来提取对应的信息。

这部分内容，相对很复杂，需要详细了解的，可以参考一下：

BlogsToWordPress v3.0 – 将百度空间，网易163等博客搬家到WordPress

中的源码。

（2）直接使用正则表达式自己去提取相关内容

对于内容的分析和提取，很多时候，都是通过正则表达式来实现的。

关于正则表达式的相关知识和总结，去看这里：

【总结】关于正则表达式 v2012-02-20

正则表达式是一种规范/规则，具体用何种语言实现，取决于你自己。

我遇到的有Python和C#两种语言：

A。Python：使用re模块，常用的函数是find，，findall，search等。

B：C#：使用Regex类，用对应的pattern和match函数来匹配。

关于C#中的Regex，更多内容请参考：

【总结】C#中的Regex的使用心得和注意事项

2.对于Json

可以先去看专门的关于JSON的介绍：

【整理】什么是JSON+如何处理JSON字符串

然后再看下面的如何处理Json。

（1）使用库（函数）来处理

A。Python

Python中，有对应的json库，常用的是json.load，即可将json格式的字符串，转换为对应的字典Dictionary类型变量，很是好用。

（2）还是使用正则表达式来处理

A。Python

Python中的re模块，同上。

B。C#

C#中貌似没有自带json的库，倒是有很多第三方的json库，但是我当时遇到解析json字符串的时候，觉得这些库，使用起来还是很麻烦，所以还是直接使用regex类来处理了。

模拟登陆网站的一般逻辑和过程

而对于用C#实现网页内容抓取和模拟登陆网页方面，一些心得和注意事项，去看这里：

【经验总结】Http，网页访问，request，response相关的知识

多种语言（Python/C#）实现抓取网页，模拟登陆网站

【教程】抓取网并提取网页中所需要的信息之 Python版

【教程】模拟登陆网站之 Python版（内含两种版本的完整的可运行的代码）

【教程】抓取网并提取网页中所需要的信息之 C#版

【教程】模拟登陆网站之 C#版（内含两种版本的完整的可运行的代码）

转载请注明：在路上 » 【整理】关于抓取网页，分析网页内容，模拟登陆网站的逻辑/流程和注意事项

Post Views: 4,159

大神您好，我最近在写一个python模拟登录网页的问题，遇到了一些困难，想求教一下，我的qq是1054433629，谢谢大神

赵月涓9年前 (2016-07-19)回复

我是用的xpath进行网页内容的抓取，想请问一下，当我抓取特定文本时，如何忽略这些文本的字体定义？如“宋体; font-size: 16px;”。每次输出抓取结果时都会有很多宋体、黑体等等类似定义。

李晨10年前 (2015-06-17)回复

刚才的评论没发出去？

x10年前 (2015-01-27)回复

刚想写一个类似的软件完就找到楼主的文章,先感谢再拜读!

小农11年前 (2014-01-08)回复

当抓包出现了bdPass.api.params.login_token='the fisrt two args should be string type:0,1!'; 我该怎么解决？？

tyskfs12年前 (2013-09-01)回复

如果query string中的参数是动态变化的，怎样获取参数值呢

teah12年前 (2013-05-16)回复

从你从网页执行的过程中，找到参数变化的规律（比如是访问之前某个url地址所返回的html中提取出来的）然后模拟此过程，提取你要的参数的值
crifan12年前 (2013-05-16)回复

你好！我是一名软件专业的在校大学生。最近在用java写一个spider程序，但是发现有一些页面必须要登陆访问后编写登陆的代码卡了我很久，直到找到这个网站让我受益匪浅。但是关于java的cookie获得与发送还有不明白的地方，如果可以的话可以加我的QQ505161956指导我一下吗？非常感谢！

akira12年前 (2013-04-25)回复

已加。
crifan12年前 (2013-04-26)回复
- 请问什么时候能在QQ上联络到您呢？
  akira12年前 (2013-04-26)回复

你好，最近在用你博客中的方法抓取网页信息，非常好用，但是我遇到一个小问题：模拟登陆时GET方法的参数传递怎样用pyhon中的urllib等库解决呀，我找了半天也没找到相关函数。谢谢啦！

jaden13年前 (2012-12-08)回复

“参数传递怎样用pyhon中的urllib等库解决” 不懂你所想要表达的意思。如果指的是，url地址的编码和解码，可以参考：【整理】关于http(GET或POST)请求中的url地址的编码(encode)和解码(decode) 另外，此贴已更新：建议先去看：如何用Python，C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站
crifan13年前 (2012-12-08)回复
- 我想一个登陆一个论坛，看到request header里面需要提供cookie信息，请问怎样找到相应的cookie，怎样发送过去，用urllib2.Request（）还是urllib2.urlopen()
  jaden13年前 (2012-12-09)回复

【整理】关于抓取网页，分析网页内容，模拟登陆网站的逻辑/流程和注意事项

抓取网页的一般逻辑和过程

抓取网页的一般逻辑

准备此Http请求Request （访问URL之前的准备工作）

url

GET还是POST

必须或可选：Headers

[可选]Post Data

必须或可选：cookie

其他一些可能需要准备的东西

提交HttpRequest，即可获得此http请求的响应Response（访问URL之后的要做的工作）

抓取网页后，如何分析获得所需要的内容

模拟登陆网站的一般逻辑和过程

多种语言（Python/C#）实现抓取网页，模拟登陆网站

与本文相关的文章

Hi，您需要填写昵称和邮箱！

网友最新评论 (15)

抓取网页的一般逻辑和过程

抓取网页的一般逻辑

准备此Http请求Request （访问URL之前的准备工作）

url

GET还是POST

必须或可选：Headers

[可选]Post Data

必须或可选：cookie

其他一些可能需要准备的东西

提交HttpRequest，即可获得此http请求的响应Response（访问URL之后的要做的工作）

抓取网页后，如何分析获得所需要的内容

模拟登陆网站的一般逻辑和过程

多种语言（Python/C#）实现抓取网页，模拟登陆网站

与本文相关的文章

Hi，您需要填写昵称和邮箱！

网友最新评论 (15)

订阅在路上