python tiktoken的简介、安装、使用方法

 更新时间:2023年10月20日 14:28:21   作者:一个处女座的程序猿  
tiktoken是OpenAI于近期开源的Python第三方模块,该模块主要实现了tokenizer的BPE(Byte pair encoding)算法,并对运行性能做了极大的优化,本文将介绍python tiktoken的简介、安装、使用方法,感兴趣的朋友跟随小编一起看看吧

tiktoken的简介

tiktoken是一个用于OpenAI模型的快速BPE标记器。

1、性能:tiktoken比一个类似的开源分词器快3到6倍

tiktoken的安装

pip install tiktoken
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken
C:\Windows\system32>pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting tiktoken
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/91/cf/7f3b821152f7abb240950133c60c394f7421a5791b020cedb190ff7a61b4/tiktoken-0.5.1-cp39-cp39-win_amd64.whl (760 kB)
     |████████████████████████████████| 760 kB 726 kB/s
Requirement already satisfied: regex>=2022.1.18 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2022.3.15)
Requirement already satisfied: requests>=2.26.0 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2.31.0)
Requirement already satisfied: charset-normalizer<4,>=2 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2.0.12)
Requirement already satisfied: urllib3<3,>=1.21.1 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (1.26.9)
Requirement already satisfied: idna<4,>=2.5 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (3.3)
Requirement already satisfied: certifi>=2017.4.17 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2021.10.8)
Installing collected packages: tiktoken
Successfully installed tiktoken-0.5.1

tiktoken的使用方法

1、基础用法

(1)、用于OpenAI模型的快速BPE标记器

import tiktoken
enc = tiktoken.get_encoding("cl100k_base")
assert enc.decode(enc.encode("hello world")) == "hello world"
# To get the tokeniser corresponding to a specific model in the OpenAI API:
enc = tiktoken.encoding_for_model("gpt-4")

(2)、帮助可视化BPE过程的代码

from tiktoken._educational import *
# Train a BPE tokeniser on a small amount of text
enc = train_simple_encoding()
# Visualise how the GPT-4 encoder encodes text
enc = SimpleBytePairEncoding.from_tiktoken("cl100k_base")
enc.encode("hello world aaaaaaaaaaaa")

到此这篇关于python tiktoken的简介、安装、使用方法的文章就介绍到这了,更多相关python tiktoken安装使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python动态可视化模块Pynimate初体验

    Python动态可视化模块Pynimate初体验

    Pynimate是python第三方用于动态可视化的数据模块,是一位专攻 Python 语言的程序员开发的安装包。本文将通过几个简单的示例,讲解一下Pynimate的使用方法,需要的可以参考一下
    2023-02-02
  • python列表去重的5种常见方法实例

    python列表去重的5种常见方法实例

    在Python编程过程中经常会遇到列表去重的问题,下面这篇文章主要给大家介绍了python列表去重的5种常见方法,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • python中装饰器的理解与使用详解

    python中装饰器的理解与使用详解

    这篇文章主要介绍了python中装饰器的理解与使用详解,装饰器本质上是一个闭包函数,其作用在于可以为其他函数增加额外功能,装饰器的返回值是一个函数对象,需要的朋友可以参考下
    2023-07-07
  • python中Django文件上传方法详解

    python中Django文件上传方法详解

    在本篇文章里小编给大家整理了一篇关于python中Django文件上传方法,有兴趣的朋友们可以学习下。
    2020-08-08
  • python 实现socket服务端并发的四种方式

    python 实现socket服务端并发的四种方式

    这篇文章主要介绍了python 实现socket服务端并发的四种方式,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-12-12
  • python 中的列表生成式、生成器表达式、模块导入

    python 中的列表生成式、生成器表达式、模块导入

    这篇文章主要介绍了python中的列表生成式、生成器表达式、模块导入 ,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-06-06
  • pytorch查看网络参数显存占用量等操作

    pytorch查看网络参数显存占用量等操作

    这篇文章主要介绍了pytorch查看网络参数显存占用量等操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05
  • python MySQLdb使用教程详解

    python MySQLdb使用教程详解

    本文主要内容python MySQLdb数据库批量插入insert,更新update的相关知识,感兴趣的朋友跟随脚本之家小编一起看看吧
    2018-03-03
  • Python实现遍历包含大量文件的文件夹

    Python实现遍历包含大量文件的文件夹

    在处理大模型的训练数据时,经常需要遍历大型文件夹,其中,可能包括数千万或数亿个文件,所以本文为大家整理了Python遍历包含大量文件的文件夹的方法,希望对大家有所帮助
    2023-04-04
  • python字符串编码解码的使用

    python字符串编码解码的使用

    在Python中,字符串的编码和解码操作可以通过字符串的encode()和decode()方法来实现,本文主要介绍了python字符串编码解码的使用,感兴趣的可以了解一下
    2023-12-12

最新评论