Python一阶马尔科夫链生成随机DNA序列实现示例

 更新时间:2022年07月01日 08:37:51   作者:BioChem  
这篇文章主要为大家介绍了Python实现一阶马尔科夫链生成随机DNA序列示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

1. 原理

对于DNA序列,一阶马尔科夫链可以理解为当前碱基的类型仅取决于上一位碱基类型。如图1所示,一条序列的开端(由B开始)可能是A、T、G、C四种碱基(且可能性相同,均为0.25),若序列的某一位是A,则下一位碱基是A、T、G、C的概率分别为0.25、0.20、0.20、0.20,下一位无碱基(即序列结束,状态为E)的概率为0.15。

图1 DNA序列的一阶马尔科夫链

2. 代码实现

以下代码运行于Jupyter Notebook (Python 3.7);代码功能是随机生成一定数量的DNA序列,统计序列长度并绘制分布图。若希望显示随机生成的序列,将代码# print(''.join(Seq))前的#删除即可。

import numpy
import random
import seaborn as sns
import matplotlib.pyplot as plt

# 状态空间
states = ["A","G","C","T","E"]

# 可能的事件序列
transitionName = [["AA","AG","AC","AT","AE"],
                  ["GA","GG","GC","GT","GE"],
                  ["CA","CG","CC","CT","CE"],
                  ["TA","TG","TC","TT","TE"],]

# 概率矩阵(转移矩阵)
transitionMatrix = [[0.25,0.20,0.20,0.20,0.15],
                    [0.20,0.25,0.20,0.20,0.15],
                    [0.20,0.20,0.25,0.20,0.15],
                    [0.20,0.20,0.20,0.25,0.15]]

def RandomDNAs(Num):
    max_len = 0
    i = 0
    Seq = [] #创建列表(Seq)用于添加碱基,以组成DNA序列
    Len = [] #创建列表(Len)用于记录每条生成序列的长度
    while i != Num:
        Base = ["A","G","C","T"]
        START = random.choice(Base) #随机从碱基中选择一个作为序列的起始碱基
        Seq.append(START) #将起始碱基添加至Seq中
        while START != "E":
            if START == "A":
                change = numpy.random.choice(transitionName[0],p=transitionMatrix[0])
                #以transitionMatrix矩阵第一行的概率分布随机抽取transitionName第一行包含的事件
                if change == "AA":
                    START = "A" #如果转移状态是AA(即A碱基接下来的碱基是A,则将起始碱基设为A)
                elif change == "AG":
                    START = "G"
                elif change == "AC":
                    START = "C"
                elif change == "AT":
                    START = "T"
                elif change == "AE":
                    START = "E"
            elif START == "G":
                change = numpy.random.choice(transitionName[1],p=transitionMatrix[1])
                if change == "GA":
                    START = "A"
                elif change == "GG":
                    START = "G"
                elif change == "GC":
                    START = "C"
                elif change == "GT":
                    START = "T"
                elif change == "GE":
                    START = "E"
            elif START == "C":
                change = numpy.random.choice(transitionName[2],p=transitionMatrix[2])
                if change == "CA":
                    START = "A"
                elif change == "CG":
                    START = "G"
                elif change == "CC":
                    START = "C"
                elif change == "CT":
                    START = "T"
                elif change == "CE":
                    START = "E"
            elif START == "T":
                change = numpy.random.choice(transitionName[3],p=transitionMatrix[3])
                if change == "TA":
                    START = "A"
                elif change == "TG":
                    START = "G"
                elif change == "TC":
                    START = "C"
                elif change == "TT":
                    START = "T"
                elif change == "TE":
                    START = "E"
            if START != "E":
                Seq.append(START) #如果状态转移后不为End(E),则将转移后的碱基加到Seq序列中
        i += 1
        Len.append(len(Seq))
        if len(Seq) > max_len:
            max_len = len(Seq)
        #print(''.join(Seq))
        Seq.clear()
    plt.hist(numpy.array(Len), bins=max_len, edgecolor="white")
    # 显示横轴标签
    plt.xlabel("DNA Sequence Length")
    # 显示纵轴标签
    plt.ylabel("Frequency")
    # 显示图标题
    plt.title("Histogram of frequency distribution of DNA sequence length")
    plt.show()
    print("DNA序列的最大长度为:",max_len)
    print("DNA序列长度的众数为:",max(Len, key=Len.count))

%matplotlib notebook #若未使用Jupyter Notebook,此句不需要
RandomDNAs(1000) #1000表示随机生成1000条序列

3. 运行结果

从以下4个序列长度分布统计可以看到,随着随机生成的序列数量增多,序列长度分布愈发集中,且长度为1bp的序列占比最多且逐渐增加。

图2 10,000条DNA序列的序列长度分布统计

10,000条DNA序列的序列中

DNA序列的最大长度为: 65

DNA序列长度的众数为: 1

图3 100,000条DNA序列的序列长度分布统计

100,000条DNA序列的序列中

DNA序列的最大长度为: 71

DNA序列长度的众数为: 1

以上就是Python实现一阶马尔科夫链生成随机DNA序列的详细内容,更多关于Python一阶马尔科夫DNA序列的资料请关注脚本之家其它相关文章!

相关文章

  • Python 忽略warning的输出方法

    Python 忽略warning的输出方法

    今天小编就为大家分享一篇Python 忽略warning的输出方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Python实例方法、类方法、静态方法区别详解

    Python实例方法、类方法、静态方法区别详解

    这篇文章主要介绍了Python实例方法、类方法、静态方法区别详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • 基于Python实现人脸自动戴口罩系统

    基于Python实现人脸自动戴口罩系统

    2019年新型冠状病毒感染的肺炎疫情发生以来,牵动人心,举国哀痛,口罩、酒精、消毒液奇货可居。这篇文章主要介绍了基于Python的人脸自动戴口罩系统,需要的朋友可以参考下
    2020-02-02
  • python对视频画框标记后保存的方法

    python对视频画框标记后保存的方法

    今天小编就为大家分享一篇python对视频画框标记后保存的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python Tkinter模块实现时钟功能应用示例

    Python Tkinter模块实现时钟功能应用示例

    这篇文章主要介绍了Python Tkinter模块实现时钟功能,结合实例形式分析了Tkinter模块结合time模块实现的时钟图形绘制与计时功能相关操作技巧,需要的朋友可以参考下
    2018-07-07
  • 深入解析Python中占位符%的使用方法

    深入解析Python中占位符%的使用方法

    在Python中,%占位符是一种强大的工具,用于格式化字符串,本文将深入解析Python中占位符的使用方法,包括字符串格式化、数字格式化、日期格式化等多个方面,需要的可以参考下
    2023-12-12
  • 深入理解Python虚拟机中描述器的实现原理

    深入理解Python虚拟机中描述器的实现原理

    这篇文章主要给大家介绍一个我们在使用类的时候经常使用但是却很少在意的黑科技——描述器的实现原理,文中的示例代码讲解详细,需要的可以参考一下
    2023-05-05
  • Pytest使用fixture实现token共享的方法

    Pytest使用fixture实现token共享的方法

    同学们在做pytest接口自动化时,会遇到一个场景就是不同的测试用例需要有一个登录的前置步骤,登录完成后会获取到token,用于之后的代码中,本文给大家介绍Pytest使用fixture实现token共享的方法,感兴趣的朋友一起看看吧
    2023-11-11
  • python排列组合库itertools的具体使用

    python排列组合库itertools的具体使用

    排列组合是数学中必不可少的一部分, Python 提供了itertools库,该库具有计算排列和组合的内置函数,本文主要介绍了python排列组合库itertools的具体使用,具有一定的参考价值,感兴趣的可以了解下
    2024-01-01
  • Python面向对象程序设计中类的定义、实例化、封装及私有变量/方法详解

    Python面向对象程序设计中类的定义、实例化、封装及私有变量/方法详解

    这篇文章主要介绍了Python面向对象程序设计中类的定义、实例化、封装及私有变量/方法,结合具体实例形式较为详细的分析了Python面向对象程序设计中类的定义、实例化、封装、私有变量、私有方法等相关使用技巧,需要的朋友可以参考下
    2019-02-02

最新评论