使用RabbitMQ半年有余,每天跑的数据量数亿这个量级吧,期间做了些工作,也处理了些问题,稍加总结。
我们使用的场景主要是用于模块件的数据中转和分发,客户端以C++为主,php和python为辅。
工作:
- 基于开发了c/c++客户端,主要实现了连接管理、统一配置管理、负载均衡、QPS限制等功能,同时为支持队列迁移,提供了消息本地缓存功能,通过信号开关;
- 为解决,额外提供了thrift形式的访问接口,在thrift层增加了统计、配额管理等功能,同时提供队列抽象层及多队列机制,支持后续不中断服务的扩容;
- 开发了配套的工具脚本,一键创建vhost\exchange\queue等;
- 对队列所在的服务器,建立了物理资源和应用层面的监控,使用ganglia,应用层面监控了每个队列的发送速度、消费速度、队列累计消息;
经验和教训:
- 提供c++客户端时,限制使用接口,只保留了publish\consume\ack,保证业务使用时可以有极低的学习成本;
- consume时预取参数的大小对consume性能影响很大,具体可参见;
- 队列HA的代价非常高,特别是对带宽的占用,有限制的使用HA,且只提供两备份即可;
- 磁盘也可能形成瓶颈,如果单台机器队列很多,确认只在必要时才使用duration,避免把磁盘跑满;
- 队列的消息大量累积后,发送和消费速度都会受到影响,导致服务进一步恶化,采用的方法是,额外的脚本监控每个队列的消息数,超过限额会执行purge操作,简单粗暴但是有效的保证了服务稳定;
- 限制单条消息大小,我们的限制是128k,消息队列只走消息,其他交由存储去做;
- 用iptables适当的限制连接;