python 实现朴素贝叶斯算法的示例

 更新时间:2020年09月30日 11:21:55   作者:鄙人剑人肖  
这篇文章主要介绍了python实现朴素贝叶斯算法的示例,帮助大家更好的理解和学习python 机器学习算法,感兴趣的朋友可以了解下

特点

  • 这是分类算法贝叶斯算法的较为简单的一种,整个贝叶斯分类算法的核心就是在求解贝叶斯方程P(y|x)=[P(x|y)P(y)]/P(x)
  • 而朴素贝叶斯算法就是在牺牲一定准确率的情况下强制特征x满足独立条件,求解P(x|y)就更为方便了
  • 但基本上现实生活中,没有任何关系的两个特征几乎是不存在的,故朴素贝叶斯不适合那些关系密切的特征
from collections import defaultdict
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from loguru import logger


class NaiveBayesScratch():
 """朴素贝叶斯算法Scratch实现"""
 def __init__(self):
  # 存储先验概率 P(Y=ck)
  self._prior_prob = defaultdict(float)
  # 存储似然概率 P(X|Y=ck)
  self._likelihood = defaultdict(defaultdict)
  # 存储每个类别的样本在训练集中出现次数
  self._ck_counter = defaultdict(float)
  # 存储每一个特征可能取值的个数
  self._Sj = defaultdict(float)

 def fit(self, X, y):
  """
  模型训练,参数估计使用贝叶斯估计
  X:
   训练集,每一行表示一个样本,每一列表示一个特征或属性
  y:
   训练集标签
  """
  n_sample, n_feature = X.shape
  # 计算每个类别可能的取值以及每个类别样本个数
  ck, num_ck = np.unique(y, return_counts=True)
  self._ck_counter = dict(zip(ck, num_ck))
  for label, num_label in self._ck_counter.items():
   # 计算先验概率,做了拉普拉斯平滑处理,即计算P(y)
   self._prior_prob[label] = (num_label + 1) / (n_sample + ck.shape[0])

  # 记录每个类别样本对应的索引
  ck_idx = []
  for label in ck:
   label_idx = np.squeeze(np.argwhere(y == label))
   ck_idx.append(label_idx)

  # 遍历每个类别
  for label, idx in zip(ck, ck_idx):
   xdata = X[idx]
   # 记录该类别所有特征对应的概率
   label_likelihood = defaultdict(defaultdict)
   # 遍历每个特征
   for i in range(n_feature):
    # 记录该特征每个取值对应的概率
    feature_val_prob = defaultdict(float)
    # 获取该列特征可能的取值和每个取值出现的次数
    feature_val, feature_cnt = np.unique(xdata[:, i], return_counts=True)
    self._Sj[i] = feature_val.shape[0]
    feature_counter = dict(zip(feature_val, feature_cnt))
    for fea_val, cnt in feature_counter.items():
     # 计算该列特征每个取值的概率,做了拉普拉斯平滑,即为了计算P(x|y)
     feature_val_prob[fea_val] = (cnt + 1) / (self._ck_counter[label] + self._Sj[i])
    label_likelihood[i] = feature_val_prob
   self._likelihood[label] = label_likelihood

 def predict(self, x):
  """
  输入样本,输出其类别,本质上是计算后验概率
  **注意计算后验概率的时候对概率取对数**,概率连乘可能导致浮点数下溢,取对数将连乘转化为求和
  """
  # 保存分类到每个类别的后验概率,即计算P(y|x)
  post_prob = defaultdict(float)
  # 遍历每个类别计算后验概率
  for label, label_likelihood in self._likelihood.items():
   prob = np.log(self._prior_prob[label])
   # 遍历样本每一维特征
   for i, fea_val in enumerate(x):
    feature_val_prob = label_likelihood[i]
    # 如果该特征值出现在训练集中则直接获取概率
    if fea_val in feature_val_prob:
     prob += np.log(feature_val_prob[fea_val])
    else:
     # 如果该特征没有出现在训练集中则采用拉普拉斯平滑计算概率
     laplace_prob = 1 / (self._ck_counter[label] + self._Sj[i])
     prob += np.log(laplace_prob)
   post_prob[label] = prob
  prob_list = list(post_prob.items())
  prob_list.sort(key=lambda v: v[1], reverse=True)
  # 返回后验概率最大的类别作为预测类别
  return prob_list[0][0]


def main():
 X, y = load_iris(return_X_y=True)
 xtrain, xtest, ytrain, ytest = train_test_split(X, y, train_size=0.8, shuffle=True)

 model = NaiveBayesScratch()
 model.fit(xtrain, ytrain)

 n_test = xtest.shape[0]
 n_right = 0
 for i in range(n_test):
  y_pred = model.predict(xtest[i])
  if y_pred == ytest[i]:
   n_right += 1
  else:
   logger.info("该样本真实标签为:{},但是Scratch模型预测标签为:{}".format(ytest[i], y_pred))
 logger.info("Scratch模型在测试集上的准确率为:{}%".format(n_right * 100 / n_test))

if __name__ == "__main__":
 main()

以上就是python 实现朴素贝叶斯算法的示例的详细内容,更多关于python实现朴素贝叶斯算法的资料请关注脚本之家其它相关文章!

相关文章

  • YOLOv5以txt或json格式输出预测结果的方法详解

    YOLOv5以txt或json格式输出预测结果的方法详解

    这篇文章主要给大家介绍了关于YOLOv5以txt或json格式输出预测结果的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2023-03-03
  • Python中csv模块的基本使用教程

    Python中csv模块的基本使用教程

    csv文件使用逗号分割,是一种纯文本格式,不能指定字体颜色等样式,也不能指定单元格的宽高,不能合并单元格,没有多个工作表等功能,可以使用Excel打,这篇文章主要给大家介绍了关于Python中csv模块的基本使用教程,需要的朋友可以参考下
    2021-07-07
  • Python中的Numpy 矩阵运算

    Python中的Numpy 矩阵运算

    这篇文章介绍Python中的Numpy 矩阵运算,NumPy是Python的一种开源的数值计算扩展.这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,下面详细内容,需要的朋友可以参考一下
    2021-11-11
  • Python计算质数的方法总结

    Python计算质数的方法总结

    质数(Prime Number)是指大于1且只能被1和自身整除的正整数,计算质数是数论中的一个经典问题,本文将介绍python中多种计算质数的方法,希望对大家有所帮助
    2023-11-11
  • Python sqlite3事务处理方法实例分析

    Python sqlite3事务处理方法实例分析

    这篇文章主要介绍了Python sqlite3事务处理方法,结合具体实例形式分析了Python针对sqlite3事务处理的操作技巧,代码中包含详尽的注释,需要的朋友可以参考下
    2017-06-06
  • python如何设置静态变量

    python如何设置静态变量

    在本篇内容里小编给大家整理的是一篇关于python如何设置静态变量的相关文章,有兴趣的朋友们可以参考下。
    2020-09-09
  • 提高Python生产力的五个Jupyter notebook插件

    提高Python生产力的五个Jupyter notebook插件

    Jupyter Notebook 因其可用性和实用性而成为数据分析和机器学习模型领域最流行的 IDE,它也是很多数据初学者的首选 IDE。它最具特色的是,拥有丰富的插件、扩展数据处理能力和提升工作效率
    2021-11-11
  • wxPython使用系统剪切板的方法

    wxPython使用系统剪切板的方法

    这篇文章主要介绍了wxPython使用系统剪切板的方法,涉及Python使用wx模块操作系统剪切板的技巧,需要的朋友可以参考下
    2015-06-06
  • Python性能优化的20条建议

    Python性能优化的20条建议

    不论什么语言我们都需要注意性能优化问题,提高执行效率,这里就为大家分享下Python的性能优化技巧,需要的朋友可以参考下
    2014-10-10
  • python PIL Image 图像处理基本操作实例

    python PIL Image 图像处理基本操作实例

    这篇文章主要介绍了python PIL Image 图像处理基本操作实例包括图片加载、灰度图,图像通道分离和合并,在图像上输出文字,图像缩放,图像阈值分割、 二值化,图像裁剪需要的朋友可以参考下
    2022-04-04

最新评论