浅析Python中的随机采样和概率分布

更新时间：2021年12月06日 08:38:36 作者：Orion's Blog

Python中包含了很多概率算法，包括基础的随机采样以及许多经典的概率分布生成。本文主要介绍了我们在机器学习中常用的概率函数。感兴趣的同学可以了解一下

1. random.choice

如果我们只需要从序列里采一个样本（所有样本等概率被采），只需要使用random.choice即可：

import random
res1 = random.choice([0, 1, 2, 3, 4])
print(res1) # 3

2. random.choices（有放回）

当然，很多时候我们不只需要采一个数，而且我们需要设定序列中每一项被采的概率不同。此时我们可以采用random.random.choices函数, 该函数用于有放回的（即一个数据项可以被重复采多次）对一个序列进行采样。其函数原型如下：

random.choices(population, weights=None, *, cum_weights=None, k=1)

population: 欲采样的序列

weights: 每个样本被赋予的权重（又称相对权重），决定每个样本被采的概率，如[10, 0, 30, 60, 0]

cum_weights: 累积权重，相对权重[10, 0, 30, 60, 0]相当于累积权重[10, 10, 40, 100, 100]

我们从[0, 1, 2, 3, 4]中按照相对权重采样3个样本如下:

res2 = random.choices([0, 1, 2, 3, 4], weights=[10, 0, 30, 60, 0], k=3)
# 注意population不是关键字参数，在函数调用时不能写成population=[0,1,2,3,4]来传参
# 关于关键字参数和位置参数，可以参看我的博客《Python技法2：函数参数的进阶用法》https://www.cnblogs.com/orion-orion/p/15647408.html
print(res2) # [3, 3, 2]

从[0, 1, 2, 3, 4]中按照累积权重采样3和样本如下：

res3 = random.choices([0, 1, 2, 3, 4], cum_weights=[10, 10, 40, 100, 100], k=3)
print(res3) # [0, 3, 3]

注意，相对权重weights和累计权重cum_weights不能同时传入，否则会报TypeError异常'Cannot specify both weights and cumulative weights'。

3. numpy.sample(无放回)

random.sample是无放回，如果我们需要无放回采样（即每一项只能采一次），那我们需要使用random.sample。需要注意的是，如果使用该函数，将无法定义样本权重。该函数原型如下：

random.sample(population, k, *, counts=None)¶

population: 欲采样的序列

k: 采样元素个数

counts: 用于population是可重复集合的情况，定义集合元素的重复次数。sample(['red', 'blue'], counts=[4, 2], k=5)等价于sample(['red', 'red', 'red', 'red', 'blue', 'blue'], k=5)

我们无放回地对序列[0, 1, 2, 3, 4]采样3次如下：

res3 = random.sample([0, 1, 2, 3, 4], k=3)
print(res3) # [3, 2, 1]

无放回地对可重复集合[0, 1, 1, 2, 2, 3, 3, 4]采样3次如下：

res4 = random.sample([0, 1, 2, 3, 4], k=3, counts=[1, 2, 2, 2, 1])
print(res4) # [3, 2, 2]

如果counts长度和population序列长度不一致，会抛出异常ValueError:"The number of counts does not match the population"。

4.rng.choices 和 rng.sample

还有一种有放回采样实现方法是我在论文[1]的代码[2]中学习到的。即先定义一个随机数生成器，再调用随机数生成器的choices方法或sample方法，其使用方法和random.choice/random.sample函数相同。

rng_seed = 1234
rng = random.Random(rng_seed)
res5 = rng.choices(
     population=[0,1,2,3,4],
     weights=[0.1, 0, 0.3, 0.6, 0],
     k=3,
)
print(res5) # [3, 3, 0]

res6 = rng.sample(
     population=[0, 1, 2, 3, 4],
     k=3,
)
print(res6) # [4, 0, 2]

这两个函数在论文[1]的实现代码[2]中用来随机选择任务节点client：

def sample_clients(self):
        """
        sample a list of clients without repetition

        """
        rng_seed = (seed if (seed is not None and seed >= 0) else int(time.time()))
        self.rng = random.Random(rng_seed)

        if self.sample_with_replacement:
            self.sampled_clients = \
                self.rng.choices(
                    population=self.clients,
                    weights=self.clients_weights,
                    k=self.n_clients_per_round,
                )
        else:
            self.sampled_clients = self.rng.sample(self.clients, k=self.n_clients_per_round)

5. numpy.random.choices

从序列中按照权重分布采样也可以采用numpy.random.choice实现。其函数原型如下:

random.choice(a, size=None, replace=True, p=None)

a: 1-D array-like or int 如果是1-D array-like，那么样本会从其元素中抽取。如果是int，那么样本会从np.arange(a)中抽取；

size: int or tuple of ints, optional 为输出形状大小，如果给定形状为(m,n,k)，那么m×n×k的样本会从中抽取。默认为None，即返回一个单一标量。

replace: boolean, optional 表示采样是又放回的还是无放回的。若replace=True，则为又放回采样（一个值可以被采多次），否则是无放回的（一个值只能被采一次）。

p: 1-D array-like, optional 表示a中每一项被采的概率。如果没有给定，则我们假定a中各项被采的概率服从均匀分布（即每一项被采的概率相同）。

从[0,1,2,3,4,5]中重复/不重复采样3次如下：

import numpy as np
res1 = np.random.choice(5, 3, replace=True)
print(res1) # [1 1 4]

res2 = np.random.choice(5, 3, replace=False)
print(res2) # [2 1 4]

同样是[0,1,2,3,4,5]中重复/不重复采样3次，现在来看我们为每个样本设定不同概率的情况：

res3 = np.random.choice(5, 3, p=[0.1, 0, 0.3, 0.6, 0])
print(res3)  # [2 3 3]

res4 = np.random.choice(5, 3, replace=False, p=[0.1, 0, 0.3, 0.6, 0])
print(res4) # [3 2 0]

参考文献

https://github.com/omarfoq/FedEM

https://www.python.org/

https://numpy.org/

到此这篇关于浅析Python中的随机采样和概率分布的文章就介绍到这了,更多相关Python内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python技巧分享之如何将字符串转回DataFrame格式
平常我们使用pandas，一般使用的是DataFrame和Series，但个别交换数据的时候，只能使用字符串，那如何再将字符串再转回DataFrame格式呢，本文就来和大家讲讲解决办法
2023-06-06
使用Python编写文件重复检查器的完整代码
在日常工作中,我们经常需要处理大量文件,但有时候会遇到文件重复的情况,为了有效管理文件并避免重复占用存储空间,我们可以编写一个简单的Python程序来检查文件夹中是否存在重复文件,本文将介绍如何使用Python和其库来编写一个文件重复检查器
2024-08-08
Python如何使用type()函数查看数据的类型
这篇文章主要介绍了Python如何使用type()函数查看数据的类型，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
python获取当前日期和时间的方法
这篇文章主要介绍了python获取当前日期和时间的方法,涉及Python操作日期与时间的相关技巧,非常具有实用价值,需要的朋友可以参考下
2015-04-04
详解Python中enumerate函数的使用
Python 的 enumerate() 函数就像是一个神秘的黑箱，它具有非常有用的高级用法。本文就来为大家详细讲一下它的使用，需要的可以参考一下
2022-08-08
Pyqt5将多个类组合在一个界面显示的完整示例
这篇文章主要给大家介绍了关于Pyqt5将多个类组合在一个界面显示的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2021-09-09
Python Pandas实现将嵌套JSON数据转换DataFrame
对于复杂的JSON数据进行分析时,通常的做法是将JSON数据结构转换为Pandas DataFrame,所以本文就来看看将嵌套JSON数据转换为Pandas DataFrame的具体方法吧
2024-01-01
python自动保存百度盘资源到百度盘中的实例代码
这篇文章主要介绍了python自动保存百度盘资源到百度盘中的实例代码，代码简单易懂，非常不错，具有一定的参考借鉴价值,需要的朋友可以参考下
2019-08-08
python如何获取服务器硬件信息
这篇文章主要为大家详细介绍了python获取服务器硬件信息的相关代码，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-05-05
如何理解python中数字列表
在本篇文章里小编给大家分享的是关于python中数字列表知识点详解，有兴趣的朋友们可以参考下。
2020-05-05