第 1 章 网站抓取,模拟登陆,抓取动态网页的通用逻辑

[提示] 相关旧帖

如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站

【整理】各种浏览器中的开发人员工具Developer Tools:IE9的F12,Chrome的Ctrl+Shift+J,Firefox的Firebug

【总结】浏览器中的开发人员工具(IE9的F12和Chrome的Ctrl+Shift+I)-网页分析的利器

【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项

【教程】如何利用IE9的F12去分析网站登陆过程中的复杂的(参数,cookie等)值(的来源)

【整理】关于http(GET或POST)请求中的url地址的编码(encode)和解码(decode)

【整理】关于HTML网页源码的字符编码(charset)格式(GB2312,GBK,UTF-8,ISO8859-1等)的解释

【整理】网页抓取,模拟登陆,抓取动态网页内容等过程中,所涉及的Headers信息,Cookie信息,POST数据的处理逻辑

【整理】关于用正则表达式处理html代码方面的建议