Thrift/Zookeeper 连接数过多导致新连接请求被拒

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Apache Hadoop

› Hortonworks Sandbox

› Intel Hadoop Distribution

› Treasure Data

这是一个创建于 3584 天前的主题，其中的信息可能已经有所发展或是发生改变。

症状:
小型集群在部署后12到48小时就会有应用报错, 说和HBse在创建链接时超时. 这时候去查看Zookeeper的日志是发现已经有大量链接创建并且达到了设置的数值(60).

环境:
Cloudera. 大部分应用使用 Python Happybase 通过Thrift service来和Zookeeper进行通信, 由于集群的规模非常小, 所以只有一个Thrift gateway.另外有一些Java应用是mapreduce来对HBase进行put, 用的是native Hadoop HBase API.

临时解决方案:
1. 把Zookeeper的max # of connections设置成200
2. 每12小时重启Zookeeper一次
这2个办法现在可以基本把症状消除但是在我看来并不解决问题因为根本没找到问题在哪. 而且Zookeeper的重启会导致有60秒的真空期如果这个时候应用给zookeeper发出请求也是各种报错。

请问各位英雄豪杰有没有类似的经历? 小弟跪求指点

zookeeper

Hbase

thrift

9 条回复 • 2015-03-12 01:12:58 +08:00