python爬虫字体加密的解决

更新时间：2023年03月03日 08:33:39 作者：L'y

本文主要介绍了python爬虫字体加密的解决，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

解决步骤

获取到真正的源码
找到对应的字体库
进行解析操作.

获取到真正的源码

为什么用webdriver,因为requests拿不到真正的源码.

from selenium import webdriver
# --- 进行chrome的配置
options = webdriver.ChromeOptions()

prefs = {"profile.managed_default_content_settings.images": 2}  # 设置无图模式
options.add_experimental_option("prefs", prefs)
options.add_argument("service_args = ['–ignore-ssl-errors = true', '–ssl-protocol = TLSv1']")
options.binary_location = r'C:\Program Files\Google\Chrome\Application\chrome.exe'
# ---- chrome进行端口接管调用
options.add_argument('-incognito')

driver = webdriver.Chrome(options=options)
driver.set_page_load_timeout(5)
# --- 设置宽和高位置
driver.maximize_window()
# --- 拦截webdriver检测代码
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
                       {"source": """
                  Object.defineProperty(navigator, 'webdriver', {
                  get: () => undefined
                  })
                  """})

找到对应的字体库

在这里插入图片描述

这上面进行申明了告诉了我们这个是字体base64,然后就是那下来然后生成文件.

# 示例
import base64

# 省略了很长的...
b64_code = 'AAEAAAAKAIAAAwAgT1MvMla19RMAAACsAAAAYGNtYXAGQAPOAAABDAAAAa5nbHlmZrwdwAAAArwAAAakaGVhZBQx4JoAAAlgAAAANmhoZWEFswFxAAAJmAAAACRobXR4DVYBYgAACbwAAAAubG9jYQwQCnYAAAnsAAAAIm1heHAAFABOAAAKEAAAACBuYW1lUuodRwAACjAAAAGecG9zdDHgxUkAAAvQAAAAdAAEAgsBkAAFAAACmQLMAAAAjwKZAswAAAHrADMBCQAAAgAGAwAAAAAAAAAAAAEQAAAAAAAAAAAAAABQZkVkAMAAI4EEAyz/LABcAywA1AAAAAEAAAAAAxgAAAAAACAAAQAAAAQAAAADAAAAJAABAAAAAABcAAMAAQAAACQAAwAKAAABYgAEADgAAAAKAAgAAgACACMAKwAtAC///wAAACMAKgAtAC/e/9j/1//WAAEAAAAAAAAAAAAAAAABBgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABAAAAAAAAAgMABAAFAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMAAAAAABMAAAAAAAAAAUAAAAjAAAAIwAAAAEAAAAqAAAAKwAAAAIAAAAtAAAALQAAAAQAAAAvAAAALwAAAAUACID7AAiBBAAAAAYAAAACACIAAAEyAqoAAwAHAAA3ESERJzMRIyIBEO7MzAACqv1WIgJmAAAAAgAdAAACIALbABsAHwAAARUjByM3IwcjNyM1MzcjNTM3MwczNzMHMxUjByMzNyMB/4AmSCZrJ0knZnQjdoQkSSVrJkkmYnAitWwkbAEUR83Nzc1HuUjGxsbGSLm5AAAAAQAkAKQB3gI2ABEAABM3FyczBzcXBxcHJxcjNwcnNyQumSJzJZkun58umSRyIZguoAGXZ26mpGpmKClma6anbWYqAAABAEMAkwH6AkoACwAAARUjNSM1MzUzFTMVAUNKtrZKtwFKt7dJt7dJAAAAAAEAGgFCASQBrQADAAATNSEVGgEKAUJrawAAAAABAAD/gwEnAwoAAwAAFycTM0pK30h9AQOGAAAAAgAj//YCGgLmABMAJwAAARQOAiMiLgI1ND4CMzIeAgUUHgIzMj4CNTQuAiMiDgICGhw9X0NGYDwaGjxgR0JfPRz+qAgUJB0cJBUHBxQkHB0kFQgBb1WLYzY2Y4xVVYpiNTVii1VKc08qKk9zSklzTykpT3MAAAAAAQArAAACCgLfACEAADc1MzI+AjURDgMjIi4CNT4DPwEzERQeAjsBFWRUDRMNBhQiIB8PDRUQChAiJiwaSHIFCxUQUgA3Bg8aEwIBGCccDwoUHBEEDBIbEjX9mhAZEQg3AAAAAAEAJAAAAg4C5gArAAABFA4EDwEzMjY/ATMHITU3PgM1NCYjIgYVIi4CNTQ+AjMyHgIB9AsYKDtPM2fvHy0JCD0G/hyYLz0jDiomNCodMCMTHThUODpXPB4CPBgtMDZATjFhJCMf12qaMU5HRSg6NllYCxgnGxwyJhcYLD8AAAAAAQAd//YCDgLmAEQAABciLgI1ND4CMxQeAjMyPgI1NC4CKwE1MzI+AjU0JiMiDgIVIiY1ND4CMzIeAhUUDgIHHgMVFA4C+TpTNhkOGB8SEiEvHBktIxUVKDsnP0MhMSAQKyobIxMHQEUdOVQ4N1c+IRgqOSIfQTUiL01kChQiLRgTHhUKITEhEA4iOiweMSMUQBUoOCE4PxstOR4tLxsvJBQWKz4oIzouIgwFGSo/LD5VNBYAAgAOAAACKQLbABgAIwAAJRUUHgI7ARUhNTMyPgI9ASE1ATMRMxUlNDY3DgMPATMBvw0XHxEN/pkcEh4XDf7lASKPav8AAwQFFhkXBorUvz8YHQ8FNzcFDx0YPz4B3v4nQ/YtaDAMKiwoCeUAAQAp//YCBgLbADoAADcyPgI1NCYjIg4CBycTIRcjJy4DKwEUDgIPAT4DMzIeAhUUDgIjIi4CNTQ2MxQeAuwZLiIVSUMTIBsYCy8gAYQFOwgCBgsQDNUCAgMBCAgZHiIPPGBFJTBNXy85UDIXLSUMGis+ECVAL0xLAwUHAxIBYrojCQ4KBgEQGyISXgMGBAMcNlI3Q1o3GBUiLRgkIxYsIxYAAAACAC7/9gIZAuYALAA8AAABIg4CBz4DMzIeAhUUDgIjIi4CNTQ+AjMyHgIVFA4CIzQuAgMiDgIHFB4CMzI2NTQmAUkeMSMVAwobIysaL0s2HR48WDs5XUMlJEhuSjJFKxMNHS4iBg8bNw4fHBgGEh4pFygtMgKpJEVkQQcNCwcdN04yN1tBJCpWg1lVk20/EyAoFhAdFg0XLyYY/tkIDhIJSWpEIFBZU0wAAAAAAQAtAAACGwLbAAsAADcBISIGDwEjNyEVAakBEf7yHBwDBj4FAen+5QACbBsZNNcy/VcAAAMAH//2Ah4C5gAlADkATQAANzQ+AjcuATU0PgIzMh4CFRQOAgceAxUUDgIjIi4CFzI+AjU0LgInDgMVFB4CEzQuAiMiDgIVFB4CFz4DHxUoOCE9QRg4W0I2UjcbEyQzIC5BKBMkQ2E+QF4+Hf4aKx4QESU4KBEeFQ0RHit6DBgkFxUhFgsOHCkbExsSCLshNSslESNaPCRDNCAbMEInHi8nIRAXLTI2HzFLNBwfNUhiEyIvHBkpIyISCx0jLBseMiMUAgQWKyEUER8qGBsoIBkNCxkgKAAAAAIAJP/2Ag8C5gAoADYAABciLgI1NDY3HgMzMjY3DgMjIi4CNTQ+AjMyHgIVFA4CAzI2NzQuAiMiBhUUFukvQCgRGBoHFR4nGkVKBQwdJS0aLEo1HiA9Vzc3XkUmIUdvHyU1DxEcKBgsMDAKFCAqFhYfBRcoHRGVkw8ZEwobNk80N1tCJChUglpVlG9AAW4lH0JePB1WV0dJAAAAAAEAAAABAACt4Ie1Xw889QALBAAAAAAA2XTOiAAAAADZdM6IAAD/gwIpAwoAAAAIAAIAAAAAAAAAAQAAAyz/LABcAj0AAAAAAikAAQAAAAAAAAAAAAAAAAAAAAcBdgAiAj0AHQICACQCPQBDAT4AGgEnAAACPQAjACsAJAAdAA4AKQAuAC0AHwAkAAAAAAAUAEQAZgB8AIoAmADUAQYBRgGgAdYCKAJ+ApgDBANSAAAAAQAAABAATgADAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAwAlgABAAAAAAABAA0AAAABAAAAAAACAAYADQABAAAAAAADAA0AEwABAAAAAAAEAA0AIAABAAAAAAAFAB4ALQABAAAAAAAGAA0ASwADAAEECQABABoAWAADAAEECQACAAwAcgADAAEECQADABoAfgADAAEECQAEABoAmAADAAEECQAFADwAsgADAAEECQAGABoA7kxlZVRyZWVzaGFkb3dNZWRpdW1MZWVUcmVlc2hhZG93TGVlVHJlZXNoYWRvd1ZlcnNpb24gMS4wOyBGb250RWRpdG9yICh2MS4wKUxlZVRyZWVzaGFkb3cATABlAGUAVAByAGUAZQBzAGgAYQBkAG8AdwBNAGUAZABpAHUAbQBMAGUAZQBUAHIAZQBlAHMAaABhAGQAbwB3AEwAZQBlAFQAcgBlAGUAcwBoAGEAZABvAHcAVgBlAHIAcwBpAG8AbgAgADEALgAwADsAIABGAG8AbgB0AEUAZABpAHQAbwByACAAKAB2ADEALgAwACkATABlAGUAVAByAGUAZQBzAGgAYQBkAG8AdwAAAAIAAAAAAAAAMgAAAAAAAAAAAAAAAAAAAAAAAAAAABAAEAAAAAYADQAOABAAEgECAQMBBAEFAQYBBwEIAQkBCgELBHplcm8Db25lA3R3bwV0aHJlZQRmb3VyBGZpdmUDc2l4BXNldmVuBWVpZ2h0BG5pbmU='

with open('font.ttf', 'wb') as f:
    f.write(base64.decodebytes(b64_code.encode()))


from fontTools.ttLib import TTFont  # 导包

font = TTFont('font.ttf')
font.saveXML('font.xml')

# 简单封装下
import base64
def w_tff(one_html):
    res_tff = re.findall(r';base64,(.*?)"', one_html, re.S)
    if res_tff and len(res_tff) == 1:
        new_res_ttf = res_tff[0]
        with open('123_new_ttf.ttf', 'wb') as f:
            f.write(base64.decodebytes(new_res_ttf.encode()))

读取文件找到里面的对应关系,就是你这个数字的格式是存储在.ttf文件里的.

from fontTools.ttLib import TTFont
def get_num_phone(es_str: str):
    # 加载字体生成映射关系
    path = '123_new_ttf.ttf'
    font = TTFont(path)

    # font.saveXML('font.xml')   # 生成xml文件
    # 得到映射关系
    bestcmap = font.getBestCmap()

    ss = {}
    for key, value in bestcmap.items():
        keys = hex(key).replace('0x', '').replace("&#x", "")  # 10进制转16进制
        if value == "zero":
            value = 0
        elif value == "one":
            value = 1
        elif value == "one":
            value = 1
        elif value == "two":
            value = 2
        elif value == "three":
            value = 3
        elif value == "four":
            value = 4
        elif value == "five":
            value = 5
        elif value == "six":
            value = 6
        elif value == "seven":
            value = 7
        elif value == "eight":
            value = 8
        elif value == "nine":
            value = 9
        elif value == "hyphen":
            value = "-"
        ss.update({
            keys: value
        })

    need_re = es_str
    list_phone = ""
    try:
        for item in need_re.split(";"):
            if item:
                new_item = item.replace("&#x", "")
                list_phone += "".join(str(ss[new_item]))
        if not list_phone or len(list_phone) < 2:
            return None
        return list_phone
    except Exception as e:
        return None

<cmap>
    <tableVersion version="0"/>
    <cmap_format_4 platformID="0" platEncID="3" language="0">
      <map code="0x23" name="numbersign"/><!-- NUMBER SIGN -->
      <map code="0x2a" name="asterisk"/><!-- ASTERISK -->
      <map code="0x2b" name="plus"/><!-- PLUS SIGN -->
      <map code="0x2d" name="hyphen"/><!-- HYPHEN-MINUS -->
      <map code="0x2f" name="slash"/><!-- SOLIDUS -->
    </cmap_format_4>
    <cmap_format_0 platformID="1" platEncID="0" language="0">
      <map code="0x23" name="numbersign"/>
      <map code="0x2a" name="asterisk"/>
      <map code="0x2b" name="plus"/>
      <map code="0x2d" name="hyphen"/>
      <map code="0x2f" name="slash"/>
    </cmap_format_0>
    <cmap_format_4 platformID="3" platEncID="1" language="0">
      <map code="0x23" name="numbersign"/><!-- NUMBER SIGN -->
      <map code="0x2a" name="asterisk"/><!-- ASTERISK -->
      <map code="0x2b" name="plus"/><!-- PLUS SIGN -->
      <map code="0x2d" name="hyphen"/><!-- HYPHEN-MINUS -->
      <map code="0x2f" name="slash"/><!-- SOLIDUS -->
    </cmap_format_4>
    <cmap_format_12 platformID="3" platEncID="10" format="12" reserved="0" length="76" language="0" nGroups="5">
      <map code="0x23" name="numbersign"/><!-- NUMBER SIGN -->
      <map code="0x2a" name="asterisk"/><!-- ASTERISK -->
      <map code="0x2b" name="plus"/><!-- PLUS SIGN -->
      <map code="0x2d" name="hyphen"/><!-- HYPHEN-MINUS -->
      <map code="0x2f" name="slash"/><!-- SOLIDUS -->
      <map code="0x880fb" name="zero"/><!-- ???? -->
      <map code="0x880fc" name="one"/><!-- ???? -->
      <map code="0x880fd" name="two"/><!-- ???? -->
      <map code="0x880fe" name="three"/><!-- ???? -->
      <map code="0x880ff" name="four"/><!-- ???? -->
      <map code="0x88100" name="five"/><!-- ???? -->
      <map code="0x88101" name="six"/><!-- ???? -->
      <map code="0x88102" name="seven"/><!-- ???? -->
      <map code="0x88103" name="eight"/><!-- ???? -->
      <map code="0x88104" name="nine"/><!-- ???? -->
    </cmap_format_12>
  </cmap>

读取ttf文件,(再生成xml文件,第一次寻找映射关系是需要做的)

font.getBestCmap() 获取映射关系表
我们观察 xml文件的cmap段进行研究 ,可以看到我们明确需要的结果
keys = hex(key).replace('0x', '').replace("&#x", "") 10进制转16进制 ,会得到映射关系表 {'23': 'numbersign', '2a': 'asterisk', '2b': 'plus', '2d': '-', '2f': 'slash', '8826e': 0, '8826f': 1, '88270': 2, '88271': 3, '88272': 4, '88273': 5, '88274': 6, '88275': 7, '88276': 8, '88277': 9}
和从页面上那些来的结果进行逐个匹配调整就行了.

注意的点

webdriver拿下来的页面源码有可能有点问题,所以我用了 soup_text = bs4.BeautifulSoup(driver.page_source, 'lxml').text 的方法来处理源代码 (import bs4)

其他的就是一些小细节上的问题了.基本的思路就是这样的.

到此这篇关于python爬虫字体加密的解决的文章就介绍到这了,更多相关python爬虫字体加密内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python实现12306登录并保存cookie的方法示例
这篇文章主要介绍了 python实现12306登录并保存cookie的方法示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-12-12
用Python定时发送天气邮件
大家好，本篇文章主要讲的是用Python定时发送天气邮件，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-02-02
python使用 HTMLTestRunner.py生成测试报告
这篇文章主要介绍了python使用 HTMLTestRunner.py生成测试报告，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-10-10
Python编程中类与类的关系详解
在本文里小编给大家整理了关于Python编程中类与类的关系以及相关代码知识点，需要的朋友们可以学习下。
2019-08-08
利用Python提取PDF文本的简单方法实例
日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,下面这篇文章主要给大家介绍了关于利用Python提取PDF文本的简单方法,需要的朋友可以参考下
2022-07-07
Python PyQt5中窗口数据传递的示例详解
开发应用程序时，若只有一个窗口则只需关心这个窗口里面的各控件之间如何传递数据。如果程序有多个窗口，就要关心不同的窗口之间是如何传递数据。本文介绍了PyQt5中三种窗口数据传递，需要的可以了解一下
2022-12-12
Python入门教程(十)Python布尔值介绍
这篇文章主要介绍了Python入门教程(十)Python布尔值,Python是一门非常强大好用的语言,也有着易上手的特性,本文为入门教程,需要的朋友可以参考下
2023-04-04
解读NumPy数组与Python列表的比较
在Python中处理数值数据时,可以选择使用Python列表或NumPy数组,Python列表灵活,可存储不同类型元素,但在大数据处理上可能较慢,NumPy数组固定类型,内存连续存储,执行数组操作如加法、乘法等更高效,尤其在大数据集处理上具有明显的性能和内存使用优势
2024-10-10
Python matplotlib实现折线图的绘制
Matplotlib作为Python的2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。本文将利用Matplotlib库绘制折线图，感兴趣的可以了解一下
2022-03-03
python学习基础之循环import及import过程
python中的import语句是用来导入模块的，下面这篇文章主要给大家介绍了关于python学习基础之循环import及import过程的相关资料，需要的朋友可以参考借鉴，下面随着小编来一起学习学习吧。
2018-04-04

python爬虫字体加密的解决

目录

解决步骤

获取到真正的源码

注意的点

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具