Python使用RethinkDB总结

 更新时间:2014年03月16日 15:18:04   作者:  
最近一个项目要用到文档数据库,顺便关注了一下 NoSQL 方面的消息。当前几个比较流行的文档数据库引擎有 MongoDB, CouchDB, OrientDB 等,朋友推荐的是 MongoDB 和 RethinkDB

和 MongoDB 类似 RethinkDB 是一个主要用来存储 JSON 文档的数据库引擎(MongoDB 存储的是 BSON),可以轻松和多个节点连成分布式数据库,非常好用的查询语言以及支持表的 joins 和 group by 操作等。
昨天试玩了一下 RethinkDB,在一台虚拟机上测试,插入2500万行记录性能比较稳定,维持在 1.5K 行到 2K 行每秒之间,RethinkDB 的数据分片(sharding)功能非常简单,一个点击就可以完成。下面的安装和测试在 Ubuntu 12.04.4 LTS Server 版本上完成。
加入 RethinkDB 官方源后安装:

复制代码 代码如下:
$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:rethinkdb/ppa
$ sudo apt-get update
$ sudo apt-get install rethinkdb

拷贝一个例子配置文件后修改 bind 部分以便可以从其他机器访问:
复制代码 代码如下:
$ cd /etc/rethinkdb/
$ sudo cp default.conf.sample instances.d/default.conf

$ sudo vi instances.d/default.conf
...
# bind=127.0.0.1
bind=0.0.0.0
...


启动 rethinkdb:
复制代码 代码如下:
$ sudo /etc/init.d/rethinkdb start
rethinkdb: default: Starting instance. (logging to `/var/lib/rethinkdb/default/data/log_file')

访问 http://192.168.2.39:8080/ 就可以看到 rethinkdb 的管理界面了:

如果不喜欢在命令行工作,web 界面还提供了 Data Explorer 在线查询工具,支持语法高亮、在线函数提示等,不用额外查帮助文件。


要用程序的方式和 rethinkdb 打交道的话就需要安装客户端驱动(client drivers),官方支持的驱动有 JavaScript, Ruby 和 Python 3种语言,社区支持的驱动几乎包括了 C, Go, C++, Java, PHP, Perl, Clojure, Erlang 等所有主流编程语言。本人用 Python 多一些,所以这里安装 Python 客户端驱动:
复制代码 代码如下:
$ sudo apt-get install python-pip
$ sudo pip install rethinkdb

测试一下驱动是否能工作了,如果 import rethinkdb 没有出错基本就可以说明模块安装成功:
复制代码 代码如下:
$ python
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import rethinkdb
>>>

gene2go.txt 是一个含有基因数据的文本文件,大概1000多万行记录,格式如下:
复制代码 代码如下:
$ head -2 gene2go.txt
#Format: tax_id GeneID GO_ID Evidence Qualifier GO_term PubMed Category (tab is used as a separator, pound sign - start of a comment)
3702 814629 GO:0005634 ISM - nucleus - Component

写个简单程序把 gene2go.txt 的数据导入到 rethinkdb 里:
复制代码 代码如下:
#!/usr/bin/python
# -*- coding: UTF-8 -*-

import os, os.path, sys, re, csv, string

def csv2db():
    data = csv.reader(open('gene2go.txt', 'rb'), delimiter='\t')
    data.next()

    import rethinkdb as r
    r.connect('localhost', 28015).repl()
    r.db('test').table_create('gene2go').run()
    gene2go = r.db('test').table('gene2go')
    for row in data:
        gene2go.insert({
            'tax_id': row[0],
            'GeneID': row[1],
            'GO_ID': row[2],
            'Evidence': row[3],
            'Qualifier': row[4],
            'GO_term': row[5],
            'PubMed': row[6],
            'Category': row[7]
        }).run(durability="soft", noreply=True)

def main():
    csv2db()

if __name__ == "__main__":
    main()

相关文章

  • victoriaMetrics代理性能优化问题解析

    victoriaMetrics代理性能优化问题解析

    这篇文章主要为大家介绍了victoriaMetrics代理性能优化问题的解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2022-04-04
  • 使用sqlplus创建DDL和DML操作技巧

    使用sqlplus创建DDL和DML操作技巧

    这篇文章主要介绍了使用sqlplus创建DDL和DML操作技巧,非常不错,具有参考借鉴价值,需要的朋友可以参考下
    2018-05-05
  • SQL Server不存在或访问被拒绝问题的解决

    SQL Server不存在或访问被拒绝问题的解决

    最近做一个项目(Asp.net+Sql Server 2000),在原来开发的机器上运行没有任何问题.但当我在另外一台机器上调试程序(本机调试)的时候,总出现“SQL Server不存在或访问被拒绝”。相信在任何一个搜索网站输入这样的检索词,一定会获得n多的页面。
    2008-04-04
  • 数据库 SQL千万级数据规模处理概要

    数据库 SQL千万级数据规模处理概要

    我在前年遇到过过亿条的数据。以至于一个处理过程要几个小时的。后面慢慢优化,查找一些经验文章。才学到了一些基本方法。综合叙之,与君探讨之。
    2009-07-07
  • ubuntu中使用docker下载华为opengauss数据库超简单步骤

    ubuntu中使用docker下载华为opengauss数据库超简单步骤

    openGauss是关系型数据库,采用客户端/服务器,单进程多线程架构,支持单机和一主多备部署方式,备机可读,支持双机高可用和读扩展,这篇文章主要给大家介绍了关于ubuntu中使用docker下载华为opengauss数据库超的简单步骤,需要的朋友可以参考下
    2024-04-04
  • MySQL与Oracle 差异比较之七用户权限

    MySQL与Oracle 差异比较之七用户权限

    这篇文章主要介绍了MySQL与Oracle 差异比较之七用户权限,需要的朋友可以参考下
    2017-04-04
  • 颜值与实用性并存的数据库建模工具Chiner教程

    颜值与实用性并存的数据库建模工具Chiner教程

    这篇文章主要为大家介绍了一款颜值与实用性并存的数据库建模工具Chiner,推荐大家使用,有需要的朋友可以共同学习参考下,希望能够有所帮助,祝大家多多进步
    2022-03-03
  • 数据库分页查询语句数据库查询

    数据库分页查询语句数据库查询

    关于分页 SQL 的资料许多,有的使用存储过程,有的使用游标。本人不喜欢使用游标,我觉得它耗资、效率低;使用存储过程是个不错的选择,因为存储过程是颠末预编译的,执行效率高,也更灵活
    2014-08-08
  • 使用DataGrip连接Hive的详细步骤

    使用DataGrip连接Hive的详细步骤

    这篇文章主要介绍了DataGrip连接Hive的详细图文教程,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-11-11
  • openGauss数据库在CentOS上的安装实践记录

    openGauss数据库在CentOS上的安装实践记录

    这篇文章主要介绍了openGauss数据库在CentOS上的安装实践,本文是基于华为云ECS+CentOS 7的openGauss数据库安装实践,需要的朋友可以参考下
    2022-07-07

最新评论