爬虫怎样绕过验证码?

1,cookie登录

利用cookie的特性:cookie会保持较长的时间,来避免用户频繁登录

cookie一般由前端开发用js生成,可以利用抓包尝试下破解,不过这个难度有点高,不过破解js本就是爬虫必须直面面对的

2OCR库里的tesseract(光学文字识别)可以解决大多数的传统验证码

软件tesserract-ocr先安装,然后安装pytesserract类库

注意:

Windows需要下载软件安装包,再配置环境变量   

linux  直接在命令窗口输入:sudo apt-get tesseract-ocr 模拟浏览器,selenium和PIL库的截屏功能,来识别验证码(save_screenshot截图)

打码平台

打码兔和QQ超人打码,有提供Python的接入方式,人工打码平台需要收费。

以QQ超人打码平台,先要注册开发者账号,在识别程序中需要填写个人账号进行认证计费,登录之后接入,开始计费(一个码六分钱)

selenium 来模拟拉动来破解滑动验证码

由于时间过久,滑动验证码已经更改,滑动验证码已经被放弃,现仅供参考使用 

交流群:1029344413 分享资料、源码

from

PILimport Imagefromtimeimport sleepfromseleniumimport webdriverfromselenium.webdriver.common.byimport Byfromselenium.webdriverimport ActionChainsfromselenium.webdriver.support.waitimport WebDriverWaitfromselenium.webdriver.supportimport expected_conditions as ECfromselenium.webdriver.common.desired_capabilitiesimport DesiredCapabilitiesimport random

headers = {

    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}

chrome_options = webdriver.ChromeOptions()

chrome_options.add_experimental_option('w3c', False)

caps = DesiredCapabilities.CHROME

caps['loggingPrefs'] = {'performance':'ALL'}class SliderVerificationCode(object):

    def__init__(self):# 初始化一些信息self.left = 60# 定义一个左边的起点 缺口一般离图片左侧有一定的距离 有一个滑块self.url ='https://passport.bilibili.com/login'        self.driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')

        self.wait = WebDriverWait(self.driver, 20)# 设置等待时间20秒self.phone ="17369251763"        self.passwd ="abcdefg"definput_name_password(self):# 输入账号密码        self.driver.get(self.url)

        self.driver.maximize_window()

        input_name = self.driver.find_element_by_xpath("//input[@id='login-username']")

        input_pwd = self.driver.find_element_by_xpath("//input[@id='login-passwd']")

        input_name.send_keys("username")

        self.wait = WebDriverWait(self.driver, 3)

        input_pwd.send_keys("passport")

    defclick_login_button(self):# 点击登录按钮,出现验证码图片login_btn = self.driver.find_element_by_class_name("btn-login")

        sleep(random.randint(3, 6))

        login_btn.click()

    defget_geetest_image(self):# 获取验证码图片gapimg = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,'geetest_canvas_bg')))

        sleep(2)

        gapimg.screenshot(r'./captcha1.png')

        # 通过js代码修改标签样式 显示图片2js ='var change = document.getElementsByClassName("geetest_canvas_fullbg");change[0].style = "display:block;"'        self.driver.execute_script(js)

        sleep(2)

        fullimg = self.wait.until(

            EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_slice')))

        fullimg.screenshot(r'./captcha2.png')

    def is_similar(self, image1, image2, x, y):

        '''判断两张图片 各个位置的像素是否相同

        #image1:带缺口的图片

        :param image2: 不带缺口的图片

        :param x: 位置x

        :param y: 位置y

        :return: (x,y)位置的像素是否相同

        '''# 获取两张图片指定位置的像素点pixel1 = image1.load()[x, y]

        pixel2 = image2.load()[x, y]

        # 设置一个阈值 允许有误差threshold = 60# 彩色图 每个位置的像素点有三个通道ifabs(pixel1[0] - pixel2[0]) < thresholdandabs(pixel1[1] - pixel2[1]) < thresholdand abs(

                pixel1[2] - pixel2[2]) < threshold:

            return True

        else:

            return False

    defget_diff_location(self):# 获取缺口图起点captcha1 = Image.open('captcha1.png')

        captcha2 = Image.open('captcha2.png')

        forxinrange(self.left, captcha1.size[0]):# 从左到右 x方向foryinrange(captcha1.size[1]):# 从上到下 y方向ifnot self.is_similar(captcha1, captcha2, x, y):

                    returnx# 找到缺口的左侧边界 在x方向上的位置def get_move_track(self, gap):

        track = []# 移动轨迹current = 0# 当前位移# 减速阈值mid = gap * 4 / 5# 前4/5段加速 后1/5段减速t = 0.2# 计算间隔v = 0# 初速度whilecurrent < gap:

            ifcurrent < mid:

                a = 5# 加速度为+5else:

                a = -5# 加速度为-5v0 = v# 初速度v0v = v0 + a * t# 当前速度move = v0 * t + 1 / 2 * a * t * t# 移动距离current += move# 当前位移track.append(round(move))# 加入轨迹return track

    def move_slider(self, track):

        slider = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'.geetest_slider_button')))

        ActionChains(self.driver).click_and_hold(slider).perform()

        forxintrack:# 只有水平方向有运动 按轨迹移动ActionChains(self.driver).move_by_offset(xoffset=x, yoffset=0).perform()

        sleep(1)

        ActionChains(self.driver).release().perform()  # 松开鼠标def main(self):

        self.input_name_password()

        self.click_login_button()

        self.get_geetest_image()

        gap = self.get_diff_location()# 缺口左起点位置gap = gap - 6# 减去滑块左侧距离图片左侧在x方向上的距离 即为滑块实际要移动的距离track = self.get_move_track(gap)

        self.move_slider(track)if__name__=="__main__":

    springAutumn = SliderVerificationCode()

    springAutumn.main()

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • 文/墨如初见 当繁华落尽, 我愿与你寻一无人山谷, 建一木制小屋, 朝钟暮鼓, 余生共度。 余生共度, 我愿与你寻...
    墨如初见ainiya阅读 218评论 2 5
  • 又到了这个时候 去年的这个时候在思考论文吧 还有春运志愿者的事情 好讨厌自己现在的状态 又是拿起手机找一切的乐子 ...
    崔Miranda阅读 121评论 0 0
  • 悠扬的琴声 在黎明的宁静里回旋 林中鸟儿正在酣睡 太阳还没有出来 天边只泛出微微白色 轻柔的云海 正随着琴声缠绵 ...
    相逢萍水阅读 197评论 0 4
  • 原作者@锦璱 * 版权归(锦璱年华&锦璱)所有,未经授权请勿转载 * 《桃花溪》唐·张旭 隐隐飞桥隔野烟,石矶西畔...
    锦璱年华阅读 237评论 0 4