Python连接Hadoop数据中遇到的各种坑(汇总)

更新时间：2020年04月14日 11:03:26 作者：wx0628

这篇文章主要介绍了Python连接Hadoop数据中遇到的各种坑，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

最近准备使用Python+Hadoop+Pandas进行一些深度的分析与机器学习相关工作。（当然随着学习过程的进展，现在准备使用Python+Spark+Hadoop这样一套体系来搭建后续的工作环境），当然这是后话。
但是这项工作首要条件就是将Python与Hadoop进行打通，本来认为很容易的一项工作，没有想到竟然遇到各种坑，花费了整整半天时间。后来也在网上看到大家在咨询相同的问题，但是真正解决这个问题的帖子又几乎没有，所以现在将Python连接Hadoop数据库过程中遇到的各种坑进行一个汇总，然后与大家进行分享，以尽量避免大家花费宝贵的时间。

（说明一下：这篇文章中的各种坑的解决，翻阅了网上无数的帖子，最好一GIT上面一个帖子的角落里面带了这么一句，否则很容易翻船。但是由于帖子太多，所以我就不一一帖出来了）

首先是选组件，我选择的是使用：impala+Python3.7来连接Hadoop数据库，如果你不是的话，就不要浪费宝贵时间继续阅读了。

执行的代码如下：

import impala.dbapi as ipdb
conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN')
cursor = conn.cursor()
#其中xxxx是表名，为了不涉及到公司的信息，我把表名隐藏掉了，大家自己换成自己数据库表名
cursor.execute('select * From xxxx')
print(cursor.description) # prints the result set's schema
for rowData in cursor.fetchall():
  print(rowData)
conn.close()

坑一：提示语法错误

现象：

/Users/wangxxin/miniconda3/bin/python3.7 /Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py
Traceback (most recent call last):
File "/Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py", line 1, in <module>
    import impala.dbapi as ipdb
File "/Users/wangxxin/miniconda3/lib/python3.7/site-packages/impala/dbapi.py", line 28, in <module>
    import impala.hiveserver2 as hs2
File "/Users/wangxxin/miniconda3/lib/python3.7/site-packages/impala/hiveserver2.py", line 340
    async=True)

解决办法：将参数async全部修改为“async_”（当然这个可以随便，只要上下文一致，并且不是关键字即可），原因：在Python3.0中，已经将async标为关键词，如果再使用async做为参数，会提示语法错误；应该包括以下几个地方：

#hiveserver2.py文件338行左右
op = self.session.execute(self._last_operation_string,
                 configuration,
                 async_=True)
#hiveserver2.py文件1022行左右
def execute(self, statement, configuration=None, async_=False):
  req = TExecuteStatementReq(sessionHandle=self.handle,
                statement=statement,
                confOverlay=configuration,
                runAsync=async_)

坑二：提供的Parser.py文件有问题，加载的时候会报错

解决办法：

#根据网上的意见对原代码进行调整
elif url_scheme in ('c', 'd', 'e', 'f'):
  with open(path) as fh:
    data = fh.read()
elif url_scheme in ('http', 'https'):
  data = urlopen(path).read()
else:
  raise ThriftParserError('ThriftPy does not support generating module '
              'with path in protocol \'{}\''.format(
                url_scheme))

以上的坑一、坑二建议你直接修改。这两点是肯定要调整的；

坑三：上面的两个问题处理好之后，继续运行，会报如下错误：

TProtocolException: TProtocolException(type=4)

解决办法：

原因是由于connect方法里面没有增加参数：auth_mechanism='PLAIN，修改如下所示：

import impala.dbapi as ipdb
conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN')`

坑四：问题三修改好之后，继续运行程序，你会发现继续报错：

AttributeError: 'TSocket' object has no attribute 'isOpen'

解决办法：

由于是thrift-sasl的版本太高了(0.3.0)，故将thrift-sasl的版本降级到0.2.1

pip uninstall thrift-sasl
pip install thrift-sasl==0.2.1

坑五：处理完这个问题后，继续运行，继续报错（这个时间解决有点快崩溃的节奏了，但是请坚持住，其实你已经很快接近最后结果了）：

thriftpy.transport.TTransportException: TTransportException(type=1, message="Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2'")

解决办法：这个是最麻烦的，也是目前最难找到解决办法的。

I solved the issue, had to uninstall the package SASL and install PURE-SASL, when impyla can´t find the sasl package it works with pure-sasl and then everything goes well.

主要原因其实还是因为sasl和pure-sasl有冲突，这种情况下，直接卸载sasl包就可能了。

pip uninstall SASL

坑六：但是执行完成，继续完成，可能还是会报错：

TypeError: can't concat str to bytes

定位到错误的最后一条，在init.py第94行（标黄的部分）

header = struct.pack(">BI", status, len(body))
#按照网上的提供的办法增加对BODY的处理
if (type(body) is str):
 body = body.encode()
self._trans.write(header + body)
self._trans.flush()

经过以上步骤，大家应该可以连接Hive库查询数据，应该是不存在什么问题了。

最后总结一下，连接Hadoop数据库中各种依赖包，请大家仔细核对一下依赖包（最好是依赖包相同，也就是不多不少[我说的是相关的包]，这样真的可以避免很多问题的出现）

序号	包名	版本号	安装命令行
1	pure_sasl	0.5.1	pip install pure_sasl==0.5.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
2	thrift	0.9.3	pip install thrift==0.9.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
3	bitarray	0.8.3	pip install bitarray==0.8.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
4	thrift_sasl	0.2.1	pip install thrift_sasl==0.2.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
5	thriftpy	0.3.9	pip install thriftpy==0.3.9 -i https://pypi.tuna.tsinghua.edu.cn/simple
6	impyla	0.14.1	pip install impyla==0.14.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

建议按顺序安装，我这边之前有依赖包的问题，但是最终我是通过conda进行安装的。
其中在安装thriftpy、thrift_sasl、impyla报的时候报错，想到自己有conda，直接使用conda install，会自动下载依赖的包，如下所示（供没有conda环境的同学参考）

package	build	size
ply-3.11	py37_0	80 KB
conda-4.6.1	py37_0	1.7 MB
thriftpy-0.3.9	py37h1de35cc_2	171 KB

祝您好运！如果在实际过程中还是遇到各种各样的问题，请你留言。

最后有一点提示：

SQL里面不要带分号，否则会报错。但是这个就不是环境问题了。报错如下：

impala.error.HiveServer2Error: Error while compiling statement: FAILED: ParseException line 2:83 cannot recogniz

到此这篇关于Python连接Hadoop数据中遇到的各种坑(汇总)的文章就介绍到这了,更多相关Python连接Hadoop内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

django-初始配置(纯手写)详解
这篇文章主要介绍了django-初始配置(纯手写)详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
使用python tkinter实现各种个样的撩妹鼠标拖尾效果
这篇文章主要介绍了使用python tkinter实现各种个样的撩妹鼠标拖尾效果,本文通过实例代码，给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-09-09
离线部署Python环境的详细过程
本文主要介绍了离线部署Python环境的全过程,包括前置工作、部署Python、测试Python、配置环境和验证Python五个步骤,为读者提供了详细的操作指南,希望能对需要离线部署Python环境的读者提供帮助
2024-10-10
Python对象与引用的介绍
今天小编就为大家分享一篇关于Python对象与引用的介绍，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
2019-01-01
jupyter notebook实现显示行号
这篇文章主要介绍了jupyter notebook实现显示行号，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
python中if的基础用法(if else和if not)
if在Python中用作某个条件或值的判断,下面这篇文章主要给大家介绍了关于python中if的基础用法,主要包括if else和if not,文中通过图文介绍的非常详细,需要的朋友可以参考下
2022-09-09
关于文件Permission denied解决方案(pip)
这篇文章主要介绍了文件Permission denied解决方案(pip),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
Python引用类型和值类型的区别与使用解析
这篇文章主要介绍了Python引用类型和值类型的区别与使用解析,需要的朋友可以参考下
2017-10-10
Python调用百度AI实现颜值评分功能
这篇文章主要介绍了应用百度AI的人脸识别功能对年龄、性别、颜值等进行识别，代码具有一定的学习价值，感兴趣的朋友跟随小编一起看看吧
2021-11-11
Python中eval()函数的功能及使用方法小结
python中eval(str)函数很强大，官方解释为：将字符串str当成有效的表达式来求值并返回计算结果,所以，结合math当成一个计算器很好用
2023-05-05

Python连接Hadoop数据中遇到的各种坑(汇总)

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具