【总结】网络抓取和模拟登陆相关的经验和注意事项
crifan 12年前 (2013-07-03) 2074浏览 0评论
此贴内容已移至: 【总结】静态网页抓取,动态网页抓取,模拟登陆的注意事项和心得 如果不加User-Agent,则有些网址的访问,会被禁止的 此点,之前别人很多人已总结。 此处,还是再啰嗦一遍。 比如,直接通过浏览器访问,csdn的某个...
crifan 12年前 (2013-07-03) 2074浏览 0评论
此贴内容已移至: 【总结】静态网页抓取,动态网页抓取,模拟登陆的注意事项和心得 如果不加User-Agent,则有些网址的访问,会被禁止的 此点,之前别人很多人已总结。 此处,还是再啰嗦一遍。 比如,直接通过浏览器访问,csdn的某个...
crifan 12年前 (2013-05-10) 9569浏览 13评论
【问题】 参考百度API的官网: http://developer.baidu.com/wiki/index.php?title=docs/pcs/rest/file_data_apis_list 中的“上传单个文件”的解释: 上传单个文件 ...
crifan 12年前 (2013-03-18) 13158浏览 8评论
1.用IE9打开 https://www.google.com.hk/ 后,点击右上角的Sign In后,然后输入用户名和密码: 点击Sign in去登陆。 然后就可以看到已经登陆了: 2.很明显,其中的: https://a...
crifan 12年前 (2012-12-08) 15184浏览 15评论
看此文之前,(强烈建议)先去看: 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站 然后,才明白,此文的作用和产生的背景。 其中,本文的部分内容,也会在上述帖子,给出额外链接,其中有更详细的解释的。 之前折腾了两个东...
crifan 13年前 (2012-03-13) 2298浏览 0评论
【问题】 用python模拟登陆百度空间,再模拟修改帖子,在提交http的POST请求后,返回的html中,出现错误提示: <div style="margin-top:20px;line...
crifan 13年前 (2012-03-02) 3096浏览 0评论
【背景】 在尝试用IE9的F12去分析百度空间的登录过程。 其中分析cookie的值,在登录https://passport.baidu.com/?login之前,是如何获得的。 并且,在分析登录过程之前, 当前处于页面:http://hi.baid...