본문 바로가기
Tech/Openstack

Rabbitmq failover 문제

by 타이호 2017. 12. 24.
반응형

오픈스택에서 사용하는 Rabbitmq-server에서 클러스터를 구성했는데 문제가 발생하였다 

Rabbitmq를 클러스터로 구성 시 아래와 같은 에러를 볼 경우가 있다

2017-07-24 02:48:33.140 9167 INFO oslo.messaging._drivers.impl_rabbit [-] A recoverable connection/channel error occurred, trying to reconnect: Too many heartbeats missed
2017-07-24 02:49:40.564 9173 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server on 10.10.1.127:5672 is unreachable: Too many heartbeats missed. Trying again in 1 seconds.
2017-07-24 02:49:40.564 9226 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server on 10.10.1.127:5672 is unreachable: Too many heartbeats missed. Trying again in 1 seconds.
2017-07-24 02:49:40.564 9222 ERROR oslo.messaging._drivers.impl_rabbit [-] AMQP server on 10.10.1.127:5672 is unreachable: Too many heartbeats missed. Trying again in 1 seconds.

이럴 경우에는 해당 오픈스택 설정에서 아래와 같이 설정을 늘려주자

[oslo_messaging_rabbit]
...
kombu_reconnect_delay=3.0

이 설정은 amqp에 대한 응답을 reconnection하기 위해 얼마나 오래 걸리는지에 대한 설정이다. default는 1초 마다 reconnection을 시도한다.

아마 neutron이나 nova-api 서비스들이 많이 떠 있는 경우 발생하는 듯 하다.

반응형