lzth.net
当前位置:首页 >> 如何访问需要登陆的网页 python >>

如何访问需要登陆的网页 python

可以尝试添加相关cookie来试着去访问.自己先本地登录一下,然后抓取页面cookie,然后构造相应的请求,让他看起来像是登录过的,如果网站验证的不是特别严的话,是可以成功的.还有一种方法,就是用Selenium框架,他会打开一个浏览器,然后访问指定url.但是还是免不了需要登录一次,但是登录过程,输入账号密码和点击登录按钮都是你可以模拟的.具体你可以参照官方文档.

登录,主要是cookie会保存session id来表示身份.你需要处理登录返回的HTTP头,Set-Cookie头中包含了需要设置的cookie信息.然后,你登录后,访问所有地址时需要在你的HTTP请求报文头部中加入Cookie头、设置之前服务器返回的cookie值.以上只是最简单的登录处理,如果有验证码,那就不在这个讨论范围内了,属于图像识别的领域了.

最近我必须执行一项从一个需要登录的网站上爬取一些网页的操作.它没有我想象中那么简单,因此我决定为它写一个辅助教程.在本教程中,我们将从我们的bitbucket账户中爬取一个项目列表.教程中的代码可以从我的 Github 中找到.我们将

scrapy.FormRequest login.py class LoginSpider(scrapy.Spider):name = 'login_spider' start_urls = ['hin.com'] def parse(self, response):return [ scrapy.FormRequest.from_response( response, # username和password要根据实际页面的表单的name

<html><body><form>可获取码列表:<select name="liscode"><option value="01">123456</option><option value="02">123457</option><option value="03">123458</option><option value="04">123459</option><option value="05

>>>用httpwatch之类的请求监测插件 查看post的数据>>>再加入你的程序就可以了>>>比如urllib

大致的思路是先抓包,分析登陆包以及服务器返回的数据包的内容,然后用Python写.可以使用urllib2,cookiejar,beautifulsoup(这个用来分析网页,当然,自己用正则构造一个类效率会更高)这几个类.

post获取COOKIE,然后带着COOKIE去爬

大部分是POST,也有使用GET传递的,就是加到URL后面?参数1=值1&.这种形式,就是需要抓包分析,特别注意cookie的设置,写代码要模拟到位,headers、user-agent等这些信息都要模拟,还有就是分析JS对input的处理,有的加密之后进行传递的.

有些网页需要你登录之后才可以访问,你需要提供账户和密码.只要在发送http请求时,带上含有正常登陆的cookie就可以了.1.首先我们要先了解cookie的工作原理.Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会

网站首页 | 网站地图
All rights reserved Powered by www.lzth.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com