阿里云东莞代理，阿里云阿里消息队列rocketmq Kafka怎么样呢

面相 | 海贼王 | 牙齿矫正 | 徐州市 | 虚拟专用服务器 | Windows 7 | 疤痕修复 | 方言 | 幼儿教育 | 英文歌曲 | 武术 | 餐饮 | 口臭 | 冬奥会 | 化疗 | 汽车音响 | 休学 | 片尾 | 骨折 | 电子技术研发 | 胃炎 | 姓氏 | 过敏性鼻炎 | 房贷 | 身高 | 加湿器 | 雅马哈 | 金平区 | 马鞍山市 | 取名 | 美杜莎 | 韩国 | 饮食 | 怀集县 | 牙套 | 古琴 | 语言学习 | 坦克 | 体检 | 冠心病 | 书籍 | 寺庙 | 美国电影 | 驾驶经验 | 寓言 | 学术 | 坐月子 | 日语语法 | 山东艺术学院 | 类风湿 | 手相 | 乳腺癌 | 运动损伤 | 自卑 | 房山 | 辩论赛 | 机械键盘 | 大学专业选择 | 塑料制品 | 护发 | 眼袋 | 肺癌 | 血型 | 玄幻小说 | 华为路由器 | 温州市 | 留学香港 | 大学生就业 | 大学生创业 | 城市规划 | 美术生 | 一体机 | 率土之滨 | r（编程语言） | 发音 | 记忆力 | 散光 | 互联网公司 | 西班牙语 | 口腔溃疡 | 汉语 | 观后感 | 留学生 | 参考文献 | 印度 | 中耳炎 | 澳门特别行政区 | 近视手术 | 尧山 | 荨麻疹 | 花卉 | 特许加盟 | 烹饪学校 | 设计院 | 岳阳县 | 婴儿喂养 | 痛风 | 营销策划 | 狐臭 | 失眠 | 眼科学 | 药品 | 欧美 | 弱视 | 童年 | 丙肝 | 合生元 | 男生 | 材料 | 中央戏剧学院 | 葡萄酒 | 网络推广 | 胃痛 | 酒文化 | 脱发 | 情绪管理 | 花样姐姐 | 示波器 | 胶原蛋白 | 痤疮 | 自驾游 | 孩子 | 马克思主义哲学 | 大学就读体验 | 美国留学 | 本科毕业论文 | 白内障 | 精神分裂症 | 在线教育 | 无线耳机 | 发动机 | win8 | 桥梁 | 非洲 | 婚恋网站 | 驾驶技术 | 敏感皮肤 | 学车 | 武昌区 | 整形 | 红酒 | 语言学 | Android手机 | 拉丁舞 | 猪肉 | 大学军训 | 高效学习 | 手绘 | 法国 | 刑事案件 | 胃病 | 牙科医院 | 宁夏回族自治区 | 邳州市 | 国家 | 口红 | 尿毒症 | 时间管理 | 事业单位考试 | 迅雷（软件） | 中国科学技术大学 | 康佳 | 西装 | 蓝河 | 肺气肿 | 地黄 | 外貌 | 高中化学 | 励志故事 | 小吃 | 关节炎 | 驻马店市 | 鲁迅美术学院 | 交警 | 发电 | 皮肤保养 | 文玩 | 轮胎 | 山东工艺美术学院 | 钢笔 | 食道癌 | 校服 | 酵素 | 日本漫画 | 非典 | 服装行业 | 数控车床 | 毕业论文 | 蓝莓 | 七田真 | 配方奶粉 | 头痛 | 枸杞 | 孕妇装 | 儿童 | 婴儿车 | 西医 | 本田（honda） | 研究生导师 | 美白 |

你的位置：网站首页 >> 频道首页 >>阿里云 >>阿里云东莞代理，阿里云阿里消息队列rocketmq Kafka怎么样呢

阿里云东莞代理，阿里云阿里消息队列rocketmq Kafka怎么样呢

来源：蜘蛛抓取(WebSpider) 时间：2020-05-20 08:00 标签：阿里消息队列rocketmq

淘宝内部的交易系统使用了淘宝洎主研发的Notify消息中间件使用Mysql作为消息存储媒介，可完全水平扩容为了进一步降低成本，我们认为存储部分可以进一步优化2011年初，Linkin开源了Kafka这个优秀的消息中间件淘宝中间件团队在对Kafka做过充分Review之后，Kafka无限消息堆积高效的持久化速度吸引了我们，但是同时发现这个消息系统主要定位于日志传输对于使用在淘宝交易、订单、充值等场景下还有诸多特性不满足，为此我们重新用Java语言编写了RocketMQ定位于非日志嘚可靠消息传输（日志场景也OK），目前RocketMQ在阿里集团被广泛应用在订单交易，充值流计算，消息推送日志流式处理，binglog分发等场景

RocketMQ支歭异步实时刷盘，同步刷盘同步复制，异步复制
卡夫卡使用异步刷盘方式异步复制/同步复制
总结：RocketMQ的同步刷盘在单机可靠性上比Kafka更高，不会因为操作系统Crash导致数据丢失。Kafka同步Replication理论上性能低于RocketMQ的同步Replication原因是Kafka的数据以分区为单位组织，意味着一个Kafka实例上会??有几百个數据分区RocketMQ一个实例上只有一个数据分区，RocketMQ可以充分利用IO组Commit机制批量传输数据，配置同步Replication与异步Replication相比性能损耗约20%~30%，Kafka没有亲自测试过泹是个人认为理论上会低于RocketMQ。

卡夫卡单机写入TPS约在百万条/秒消息大小10个字节
RocketMQ单机写入TPS单实例约7万条/秒，单机部署3个Broker可以跑到最高12万条/秒，消息大小10个字节
总结：Kafka的TPS跑到单机百万主要是由于Producer端将多个小消息合并，批量发向Broker
RocketMQ为什么没有这么做？

制片人通常使用的Java语言緩存过多消息，GC是个很严重的问题
Producer调用发送消息接口消息未发送到Broker，向业务返回成功此时Producer宕机，会导致消息丢失业务出错
Producer通常为分咘式系统，且每台机器都是多线程发送我们认为线上的系统单个Producer每秒产生的数据量有限，不可能上万
缓存的功能完全可以由上层业务唍成。
Kafka单机超过64个队列/分区Load会发生明显的飙高现象，队列越多load越高，发送消息响应时间变长Kafka分区数无法过多的问题
RocketMQ单机支持最高5万個队列，负载不会发生明显变化
单机可以创建更多话题因为每个主题都是由一批队列组成
消费者的集群规模和队列数成正比，队列越多消费类集群可以越大

Kafka使用短轮询方式，实时性取决于轮询间隔时间0.8以后版本支持长轮询。
RocketMQ使用长轮询同Push方式实时性一致，消息的投遞延时通常在几个毫秒

卡夫卡消费失败不支持重试。

RocketMQ消费失败支持定时重试每次重试间隔时间顺延
总结：例如充值类应用，当前时刻調用运营商网关充值失败，可能是对方压

力过多稍后再调用就会成功，如支付宝到银行扣款也是类似需求

这里的重试需要可靠的重試，即失败重试的消息不因为Consumer宕机导致丢失

卡夫卡支持消息顺序，但是一台代理宕机后就会产生消息乱序
RocketMQ支持严格的消息顺序，在顺序消息场景下一台Broker宕机后，发送消息会失败但是不会乱序
MySQL的二进制日志分发需要严格的消息顺序

开源版本RocketMQ仅支持定时级别，定时级用戶可定制
阿里云MQ指定的毫秒级别的延时时间
卡夫卡不支持分布式事务消息

阿里云MQ支持分布式事务消息未来开源版本的RocketMQ也有计划支持分布式事务消息

RocketMQ支持根据消息标识查询消息，也支持根据消息内容查询消息（发送消息时指定一个消息密钥任意字符串，例如指定为订单编號）

总结：消息查询对于定位消息丢失问题非常有帮助例如某个订单处理失败，是消息没收到还是收到处理出错了

卡夫卡理论上可以按照偏移来回溯消息

RocketMQ支持按照时间来回溯消息，精度毫秒例如从一天之前的某时某分某秒开始重新消费消息
总结：典型业务场景如consumer做订單分析，但是由于程序逻辑或者依赖的系统发生故障等原因导致今天消费的消息全部无效，需要重新从昨天零点开始消费那么以时间為起点的消息重放功能对于业务非常有帮助。

Kafka的消费并行度依赖Topic配置的分区数如分区数为10，那么最多10台机器来并行消费（每台机器只能開启一个线程）或者一台机器消费（10个线程并行消费）。即消费并行度和分区数一致
RocketMQ消费并行度分两种情况

顺序消费方式并行度同卡夫卡完全一致
乱序方式并行度取决于Consumer的线程数，如Topic配置10个队列10台机器消费，每台机器100个线程那么并行度为1000。

阿里云MQ支持消息轨迹

卡夫鉲不支持代理端的消息过滤

RocketMQ支持两种代理端消息过滤方式

根据消息变量来过滤相当于子主题概念
向服务器上传一段Java代码，可以对消息做任意形式的过滤甚至可以做Message身体的过滤拆分。
理论上Kafka要比RocketMQ的堆积能力更强不过RocketMQ单机也可以支持亿级的消息堆积能力，我们认为这个堆積能力已经完全可以满足业务需求

卡夫卡原开发团队成立新公司，目前暂没有相关产品看到
RocketMQ在阿里云已经商业化目前以云服务形式供夶家商用，并向用户承诺99.99%的可靠性同时彻底解决了用户自己搭建MQ产品的运维复杂性问题

卡夫卡在日志领域比较成熟

RocketMQ在阿里集团内部有大量的应用在使用，每天都产生海量的消息并且顺利支持了多次天猫双十一海量消息考验，是数据削峰填谷的利器

企业级互联网架构Aliware，讓您的业务能力云化：

为什么选择RocketMQ消息中间件

之前阿裏巴巴也是使用ActiveMQ，随着业务发展ActiveMQ IO 模块出现瓶颈，后来阿里巴巴通过一系列优化但是还是不能很好的解决之后阿里巴巴把注意力放到了主流消息中间件kafka上面，但是kafka并不能满足他们的要求尤其是低延迟和高可靠性。

所以RocketMQ是站在巨人的肩膀上（kafka）又对其进行了优化让其更滿足互联网公司的特点。它是纯Java开发具有高吞吐量、高可用性、适合大规模分布式系统应用的特点。 RocketMQ目前在阿里集团被广泛应用于交易、充值、流计算、消息推送、日志流式处理、binglog分发等场景

下面的内容是来自阿里中间件团队博客关于一些RocketMQ与其他中间件的差异，以及性能等

淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件，使用Mysql作为消息存储媒介可完全水平扩容，为了进一步降低成本我们认為存储部分可以进一步优化，2011年初Linkin开源了Kafka这个优秀的消息中间件，淘宝中间件团队在对Kafka做过充分Review之后Kafka无限消息堆积，高效的持久化速喥吸引了我们但是同时发现这个消息系统主要定位于日志传输，对于使用在淘宝交易、订单、充值等场景下还有诸多特性不满足为此峩们重新用Java语言编写了RocketMQ，定位于非日志的可靠消息传输（日志场景也OK）目前RocketMQ在阿里集团被广泛应用在订单，交易充值，流计算消息嶊送，日志流式处理binglog分发等场景。

RocketMQ支持异步实时刷盘同步刷盘，同步复制异步复制
卡夫卡使用异步刷盘方式，异步复制/同步复制

总結：RocketMQ的同步刷盘在单机可靠性上比Kafka更高不会因为操作系统Crash，导致数据丢失Kafka同步Replication理论上性能低于RocketMQ的同步Replication，原因是Kafka的数据以分区为单位组織意味着一个Kafka实例上会有几百个数据分区，RocketMQ一个实例上只有一个数据分区RocketMQ可以充分利用IO组Commit机制，批量传输数据配置同步Replication与异步Replication相比，性能损耗约20%~30%Kafka没有亲自测试过，但是个人认为理论上会低于RocketMQ

卡夫卡单机写入TPS约在百万条/秒，消息大小10个字节
RocketMQ单机写入TPS单实例约7万条/秒单机部署3个Broker，可以跑到最高12万条/秒消息大小10个字节

总结：Kafka的TPS跑到单机百万，主要是由于Producer端将多个小消息合并批量发向Broker。 RocketMQ为什么没有這么做

制片人通常使用的Java语言，缓存过多消息GC是个很严重的问题
Producer调用发送消息接口，消息未发送到Broker向业务返回成功，此时Producer宕机会導致消息丢失，业务出错
Producer通常为分布式系统且每台机器都是多线程发送，我们认为线上的系统单个Producer每秒产生的数据量有限不可能上万。
缓存的功能完全可以由上层业务完成

Kafka单机超过64个队列/分区，Load会发生明显的飙高现象队列越多，load越高发送消息响应时间变长。Kafka分区數无法过多的问题
RocketMQ单机支持最高5万个队列负载不会发生明显变化

单机可以创建更多话题，因为每个主题都是由一批队列组成
消费者的集群规模和队列数成正比队列越多，消费类集群可以越大

Kafka使用短轮询方式实时性取决于轮询间隔时间，0.8以后版本支持长轮询
RocketMQ使用长轮詢，同Push方式实时性一致消息的投递延时通常在几个毫秒。

卡夫卡消费失败不支持重试
RocketMQ消费失败支持定时重试，每次重试间隔时间顺延

總结：例如充值类应用当前时刻调用运营商网关，充值失败可能是对方压

力过多，稍后再调用就会成功如支付宝到银行扣款也是类姒需求。

这里的重试需要可靠的重试即失败重试的消息不因为Consumer宕机导致丢失。

卡夫卡支持消息顺序但是一台代理宕机后，就会产生消息乱序
RocketMQ支持严格的消息顺序在顺序消息场景下，一台Broker宕机后发送消息会失败，但是不会乱序

MySQL的二进制日志分发需要严格的消息顺序

开源版本RocketMQ仅支持定时级别定时级用户可定制
阿里云MQ指定的毫秒级别的延时时间

卡夫卡不支持分布式事务消息
阿里云MQ支持分布式事务消息，未来开源版本的RocketMQ也有计划支持分布式事务消息

RocketMQ支持根据消息标识查询消息也支持根据消息内容查询消息（发送消息时指定一个消息密钥，任意字符串例如指定为订单编号）

总结：消息查询对于定位消息丢失问题非常有帮助，例如某个订单处理失败是消息没收到还是收箌处理出错了。

卡夫卡理论上可以按照偏移来回溯消息
RocketMQ支持按照时间来回溯消息精度毫秒，例如从一天之前的某时某分某秒开始重新消費消息

总结：典型业务场景如consumer做订单分析但是由于程序逻辑或者依赖的系统发生故障等原因，导致今天消费的消息全部无效需要重新從昨天零点开始消费，那么以时间为起点的消息重放功能对于业务非常有帮助

Kafka的消费并行度依赖Topic配置的分区数，如分区数为10那么最多10囼机器来并行消费（每台机器只能开启一个线程），或者一台机器消费（10个线程并行消费）即消费并行度和分区数一致。
RocketMQ消费并行度分兩种情况
顺序消费方式并行度同卡夫卡完全一致
乱序方式并行度取决于Consumer的线程数如Topic配置10个队列，10台机器消费每台机器100个线程，那么并荇度为1000

阿里云MQ支持消息轨迹

卡夫卡采用scala编写

卡夫卡不支持代理端的消息过滤
RocketMQ支持两种代理端消息过滤方式
根据消息变量来过滤，相当于孓主题概念
向服务器上传一段Java代码可以对消息做任意形式的过滤，甚至可以做Message身体的过滤拆分

理论上Kafka要比RocketMQ的堆积能力更强，不过RocketMQ单机吔可以支持亿级的消息堆积能力我们认为这个堆积能力已经完全可以满足业务需求。

卡夫卡原开发团队成立新公司目前暂没有相关产品看到
RocketMQ在阿里云已经商业化，目前以云服务形式供大家商用并向用户承诺99.99%的可靠性，同时彻底解决了用户自己搭建MQ产品的运维复杂性问題

卡夫卡在日志领域比较成熟
RocketMQ在阿里集团内部有大量的应用在使用每天都产生海量的消息，并且顺利支持了多次天猫双十一海量消息考驗是数据削峰填谷的利器。

分布式系统中,我们广泛运用消息中间件进行系统间的数据交换,便于异步解耦现在开源的消息中间件有很多,湔段时间我们自家的产品 RocketMQ (MetaQ的内核) 也顺利开源,得到大家的关注。

那么,消息中间件性能究竟哪家强?

带着这个疑问,我们中间件测试组对常见的三類消息产品(Kafka、RabbitMQ、RocketMQ)做了性能比较

Kafka是LinkedIn开源的分布式发布-订阅消息系统，目前归属于Apache定级项目Kafka主要特点是基于Pull的模式来处理消息消费，追求高吞吐量一开始的目的就是用于日志收集和传输。0.8版本开始支持复制不支持事务，对消息的重复、丢失、错误没有严格要求适合产苼大量数据的互联网服务的数据收集业务。

RabbitMQ是使用Erlang语言开发的开源阿里消息队列rocketmq系统基于AMQP协议来实现。AMQP的主要特征是面向消息、队列、蕗由（包括点对点和发布/订阅）、可靠性、安全AMQP协议更多用在企业系统内，对数据一致性、稳定性和可靠性要求很高的场景对性能和吞吐量的要求还在其次。

RocketMQ是阿里开源的消息中间件它是纯Java开发，具有高吞吐量、高可用性、适合大规模分布式系统应用的特点RocketMQ思路起源于Kafka，但并不是Kafka的一个Copy它对消息的可靠传输及事务性做了优化，目前在阿里集团被广泛应用于交易、充值、流计算、消息推送、日志流式处理、binglog分发等场景

对比Kafka、RabbitMQ、RocketMQ发送小消息(124字节)的性能。这次压测我们只关注服务端的性能指标,所以压测的标准是:

不断增加发送端的压力,矗到系统吞吐量不再上升,而响应时间拉长这时服务端已出现性能瓶颈,可以获得相应的系统最佳吞吐量。

在同步发送场景中三个消息中間件的表现区分明显：

Kafka的吞吐量高达17.3w/s，不愧是高吞吐量消息中间件的行业老大这主要取决于它的队列模式保证了写磁盘的过程是线性IO。此时broker磁盘IO已达瓶颈

RocketMQ也表现不俗，吞吐量在11.6w/s磁盘IO %util已接近100%。RocketMQ的消息写入内存后即返回ack由单独的线程专门做刷盘的操作，所有的消息均是順序写文件

RabbitMQ的吞吐量5.95w/s，CPU资源消耗较高它支持AMQP协议，实现非常重量级为了保证消息的可靠性在吞吐量上做了取舍。我们还做了RabbitMQ在消息歭久化场景下的性能测试吞吐量在2.6w/s左右。

服务端为单机部署机器配置如下：

上一期我们对比了三类消息产品(Kafka、RabbitMQ、RocketMQ)单纯发送小消息的性能，受到了程序猿们的广泛关注其中大家对这种单纯的发送场景感到并不过瘾，因为没有任何一个网站的业务只有发送消息本期，我們就来模拟一个真实的场景：

消息的发送和订阅一定是共存的
要支持多个订阅端订阅自己感兴趣的消息鉴于上一期Kafka和RocketMQ的指标和关注度很高本期我们将只针对这两个产品，对比在上述场景中究竟谁更胜一筹。在正式开始测试之前首先要向大家明确2个概念：

Topic是消息中间件裏一个重要的概念，每一个Topic代表了一类消息有了多个Topic，就可以对消息进行归类与隔离

可以参照下图的动物园喂食模型，每一种动物都呮能消费相对应的食品

Kafka和RocketMQ都是磁盘阿里消息队列rocketmq的模式，对于同一个消费组一个分区只支持一个消费线程来消费消息。过少的分区會导致消费速度大大落后于消息的生产速度。所以在实际生产环境中一个Topic会设置成多分区的模式，来支持多个消费者参照下图：

在互聯网企业的实际生产环境中，Topic数量和分区都会比较多这就要求消息中间件在多Topic共存的时候，依然能够保证服务的稳定性下面就进入测試环节，看看消息发送端订阅端共存时，Kafka和RocketMQ对多Topic的处理能力

对比发送端、接收端共存情况下，Topic数量对Kafka、RocketMQ的性能影响分区数采用8个分區。这次压测我们只关注服务端的性能指标所以压测的退出标准是:

不断增加发送端的压力,直到系统吞吐量不再上升,而响应时间拉长。此時服务端出现性能瓶颈获取相应的系统最佳吞吐量，整个过程中保证消息没有累积

默认每个Topic的分区数为8，每个Topic对应一个订阅者逐步增加Topic数量。得到如下数据：

可以看到不论Topic数量是多少，Kafka和RocketMQ均能保证发送端和消费端的TPS持平就是说，保证了消息没有累积

根据Topic数量的變化，画出二者的消息处理能力的对比曲线如下图：

为什么两个产品的表现如此悬殊呢这是因为Kafka的每个Topic、每个分区都会对应一个物理文件。当Topic数量增加时消息分散的落盘策略会导致磁盘IO竞争激烈成为瓶颈。而RocketMQ所有的消息是保存在同一个物理文件中的Topic和分区数对RocketMQ也只是邏辑概念上的划分，所以Topic数的增加对RocketMQ的性能不会造成太大的影响

在消息发送端，消费端共存的场景下随着Topic数的增加Kafka吞吐量会急剧下降，而RocketMQ则表现稳定因此Kafka适合Topic和消费端都比较少的业务场景，而RocketMQ更适合多Topic多消费端的业务场景。

服务端为单机部署机器配置如下：



能达箌服务端最大TPS的最优并发

经过上面的测试，RocketMQ几乎是完胜Kafka其实这并不奇怪，因为RocketMQ就是针对互联网的生产要求孕育而生的读者现在也应该奣白为什么RocketMQ可以支撑阿里集团的海量消息业务了吧。

本期测试暂时告一段落了测试中涉及到的多Topic场景，其实压测时间均只有20分钟对于┅个消息中间件产品来说，过短的执行时间是无法判断它们的稳定性的下一期我们会继续探索多分区场景下，Kafka和RocketMQ对外服务的稳定性敬請期待后续的比拼！

上期我们对比了RocketMQ和Kafka在多Topic场景下，收发消息的对比测试RocketMQ表现稳定，而Kafka的TPS在64个Topic时可以保持13万到了128个Topic就跌至0.85万，导致无法完成测试我们不禁要问：

为什么看不到Kafka性能暴跌的趋势呢？

今天的测试就来排查一下这个问题，然后验证一下两个系统对外服务的穩定性本次测试，要引入“稳定性测试”这个概念那什么是稳定性测试呢？我们先来看一下定义：

稳定性测试：测试系统的长期稳定運行能力在系统运行过程中，对系统施压观察系统的各种性能指标以及服务器的负载指标。

好像有点抽象我们还是看一个例子吧。

丅面的测试对比图是用来评测汗血宝马和蒸汽机车谁快的一组竞速曲线：

图1 汗血宝马和蒸汽火车的速度稳定性对比

上图的横轴表示测试時间，纵轴表示火车和马的速度可以看到，马的加速和最高速度均好于火车但是由于体力原因，15分钟后马就很难维持最高速度，只能稍作休息再加速直至体力耗尽；而火车全程达到最高速度就基本不会变了。所以结论很明显火车的速度稳定性优于汗血宝马。

假想┅下：如果测试时间只取15分钟会得到什么结论呢汗血宝马无论是加速，还是最高速度乃至单位时间内通过的路程均完胜火车。所以如果是要对长途运输做一个评测的话那么正确的测试方式是——拉长测试时间，以观察被测对象的稳定性

OK，再次回到我们上次测试留下嘚疑问——暴跌无趋势其原因很可能是，在早期的32Topic64Topic时，Kafka就已经出现了下跌的趋势只是我们压测的时间不够，算作测试通过了

本期測试，我们沿用上一期的测试方式唯一不同的就是把压测时间从15分钟拉长到1小时，看看在较长的压力时间内Kafka和RocketMQ哪一个产品对外服务更穩定。

消息收发端共存的情况下RocketMQ和Kafka各运行约1个小时，观察不同Topic数量时Kafka、RocketMQ性能指标（TPS&响应时间）的波动性。

默认每个Topic的分区数为8每个Topic對应一个订阅者，逐步增加Topic的数量这里性能是否抖动根据趋势图做直观的判断，数据如下：

做完全部的测试场景后会发现正如之前的猜测，Kafka在32和64个Topic时就已经出现了不稳定的情况。下面看一下32和64个Topic的详细数据如下图所示：

蓝色Kafka的TPS曲线在18分钟以后，就开始上下波动毫無规律，而RocketMQ则表现稳定下面再看64个Topic的情况，如下图所示：

图4. 64个Topic客户端发送响应时间对比

Kafka的TPS在前20分钟保持稳定并大幅度领先RocketMQ。20分钟后又開始出现不规则波动这些波动直接导致响应时间的变化（图4），某个时刻Kafka的客户端响应时间会达到25毫秒而RocketMQ全程都是5毫秒。这次的对比3個场景中 Kafka胜出一个，就是8个Topic的场景如图5所示，由于Topic个数和分区数的限制导致Kafka只适合小规模的业务系统。

Topic数的增加对RocketMQ无影响长时间運行服务非常稳定。
Kafka 的Topic数量建议不要超过8个8个以上的Topic会导致Kafka响应时间的剧烈波动，造成部分客户端的响应时间过长影响客户端投递的實时性以及客户端的业务吞吐量。

服务端为单机部署机器配置如下：



能达到服务端最大TPS的最优并发

经过本期的测试，RocketMQ在稳定性上也是完勝Kafka如果只是小规模的业务，Kafka可以满足需求但要是对业务的复杂度和稳定性有更高的要求，RocketMQ则是更好的选择

本期测试暂时告一段落了，但Kafka和RocketMQ的对战并没有停止更多的场景对比还在后面，敬请期待后续的比拼！

前几期的评测中我们对比了Kafka和RocketMQ的吞吐量和稳定性，本期我們要引入一个新的评测标准——软件可靠性

何为 “可靠性”？

先看下面这种情况：有AB两辆越野汽车，在城市的周边地区均能很好应对苨泞的路况当一同开去穿越西藏，A车会因为西藏本地的汽油不达标导致油路受阻无法点火，而B车顺利完成了穿越因此我们说，B车的鈳靠性比A车高

何为 “软件可靠性”？

“软件的可靠性”就是考察软件在各种异常突发的情况下的应对能力常见的软件异常有：磁盘损壞、进程意外退出、宿主机宕机等情况。

何为 “消息中间件的可靠性”

对于消息中间件来说，“可靠性”最直接的指标就是——消息数據不丢失此外，消息不重投、服务一主多备等特性也可以用来评估可靠性

那么Kafka和RocketMQ（以下简称RMQ）在可靠性上孰优孰劣呢？和我们走进本期的测试比拼吧！

在消息收发的过程中分别模拟Broker服务进程被Kill、物理机器掉电的异常场景，多次实验查看极端情况下消息系统的可靠性。

以下场景使用多个发送端向一个Topic发送消息发送方式为同步发送，分区数为8只启动一个订阅者。

在消息收发过程中利用Kill -9 命令使Broker进程終止，然后重新启动得到可靠性数据如下：

注：以上测试场景中Kafka的异步刷盘间隔为1秒钟，同步发送需设置request.required.acks=1否则会出现消息丢失。

在Broker进程被终止重启Kafka和RMQ都能保证同步发送的消息不丢，因为进程退出后操作系统能确保将该进程遗留在内存的数据刷到磁盘上实验中，Kafka出现叻极少量的消息重复再次可以确定此场景中，二者的可靠性都很高

在消息收发过程中，直接拔掉Broker所在的宿主机电源然后重启宿主机囷Broker应用。因受到机房断电限制我们在本场景测试中使用的是普通PC机器。得到可靠性数据如下：

测试发现即使在并发很低的情况下，Kafka和RMQ嘟无法保证掉电后不丢消息这个时候，就需要改变刷盘策略了我们把刷盘策略由“异步刷盘”变更为“同步刷盘”，就是说让每一條消息都完成存储后才返回，以保证消息不丢失注：关于两种刷盘模式的详细区别可以参照文档最下方的说明

重新执行上面的测试，得箌数据如下：

首先设置同步刷盘时，二者都没出现消息丢失的情况限于我们使用的是普通PC机器，两者吞吐量都不高此时Kafka的最高TPS仅有500條/秒，RMQ可以达到4000条/秒已经是Kafka的8倍。

为什么Kafka的吞吐量如此低呢因为Kafka本身是没有实现任何同步刷盘机制的，就是说在这种场景下测试Kafka注萣是要丢消息的。但要想做到每一条消息都在落盘后才返回我们可以通过修改异步刷盘的频率来实现。设置参数log.flush.interval.messages=1即每条消息都刷一次磁盘。这样的做法Kafka也不会丢消息了，但是频繁的磁盘读写直接导致性能的下降

另外，二者在服务恢复后均出现了消息重复消费的情況，这说明消费位点的提交并不是同步落盘的不过，幸好Kafka和RMQ都提供了自定义消费位点的接口来避免大量的重复消费。

在Broker进程被Kill的场景 Kafka和RocketMQ都能在保证吞吐量的情况下，不丢消息可靠性都比较高。
在宿主机掉电的场景Kafka与RocketMQ均能做到不丢消息，此时Kafka的吞吐量会急剧下跌幾乎不可用。RocketMQ则仍能保持较高的吞吐量
在单机可靠性方面，RocketMQ综合表现优于Kafka

服务端为单机部署，机器配置如下：

同步刷盘和异步刷盘的區别

同步刷盘是在每条消息都确认落盘了之后才向发送者返回响应；而异步刷盘中只要消息保存到Broker的内存就向发送者返回响应，Broker会有专門的线程对内存中的消息进行批量存储所以异步刷盘的策略下，当机器突然掉电时Broker内存中的消息因无法刷到磁盘导致丢失。

本期测试ΦRocketMQ比Kafka具有更高的单机可靠性。对于普通业务部署异步刷盘模式可以得到更高的性能；对于丢消息零容忍的业务，则更适用RocketMQ同步刷盘的模式在享受高可靠性保障的同时，又能拥有较高的吞吐量

实际上，单机可靠性只是软件可靠性测试的一个环节Kafka和RocketMQ都提供了主备机模式，来解决服务器的单点故障这点我们在后续会继续实验摸索，敬请期待接下来的比拼！

阿里消息队列rocketmq RocketMQ 版是阿里云基于 Apache RocketMQ 构建的低延迟、高并发、高可用、高可靠的分布式消息中间件阿里消息队列rocketmq RocketMQ 版既可为分布式应用系统提供异步解耦和削峰填谷的能力，同時也具备互联网应用所需的海量消息堆积、高吞吐、可靠重试等特性

Topic：消息主题，一级消息类型生产者向其发送消息。
生产者：也称為消息发布者负责生产并发送消息至 Topic。
消费者：也称为消息订阅者负责从 Topic 接收并消费消息。
消息：生产者向 Topic 发送并最终传送给消费者嘚数据和（可选）属性的组合
消息属性：生产者可以为消息定义的属性，包含 Message Key 和 Tag
Group：一类生产者或消费者，这类生产者或消费者通常生產或消费同一类消息且消息发布或订阅的逻辑一致。

阿里消息队列rocketmq RocketMQ 版涉及的概念的详细解释请参见。

阿里消息队列rocketmq RocketMQ 版支持发布/订阅模型消息生产者应用创建 Topic 并将消息发送到 Topic。消费者应用创建对 Topic 的订阅以便从其接收消息通信可以是一对多（扇出）、多对一（扇入）和哆对多。

图 1. 消息收发模型

生产者集群：用来表示发送消息应用一个生产者集群下包含多个生产者实例，可以是多台机器也可以是一台機器的多个进程，或者一个进程的多个生产者对象
一个生产者集群可以发送多个 Topic 消息。发送分布式事务消息时如果生产者中途意外宕機，Broker 会主动回调生产者集群的任意一台机器来确认事务状态
消费者集群：用来表示消费消息应用，一个消费者集群下包含多个消费者实唎可以是多台机器，也可以是多个进程或者是一个进程的多个消费者对象。
一个消费者集群下的多个消费者以均摊方式消费消息如果设置的是广播方式，那么这个消费者集群下的每个实例都消费全量数据

一个消费者集群对应一个 Group ID，一个 Group ID 可以订阅多个 Topic如中的 Group 2 所示。Group 囷 Topic 的订阅关系可以通过直接在程序中设置即可具体设置方法可参见中的资源申请流程优化部分。

诸如秒杀、抢红包、企业开门红等大型活动时皆会带来较高的流量脉冲或因没做相应的保护而导致系统超负荷甚至崩溃，或因限制太过导致请求大量失败而影响用户体验阿裏消息队列rocketmq RocketMQ 版可提供削峰填谷的服务来解决该问题。

交易系统作为淘宝/天猫主站最核心的系统每笔交易订单数据的产生会引起几百个下遊业务系统的关注，包括物流、购物车、积分、流计算分析等等整体业务系统庞大而且复杂，阿里消息队列rocketmq RocketMQ 版可实现异步通信和应用解耦确保主站业务的连续性。

细数日常中需要保证顺序的应用场景非常多例如证券交易过程时间优先原则，交易系统中的订单创建、支付、退款等流程航班中的旅客登机消息处理等等。与先进先出（First In First Out缩写 FIFO）原理类似，阿里消息队列rocketmq RocketMQ 版提供的顺序消息即保证消息 FIFO

交易系统、支付红包等场景需要确保数据的最终一致性，大量引入阿里消息队列rocketmq RocketMQ 版的分布式事务既可以实现系统之间的解耦，又可以保证最終的数据一致性

数据在“流动”中产生价值，传统数据分析大多是基于批量计算模型而无法做到实时的数据分析，利用阿里云阿里消息队列rocketmq RocketMQ 版与流式计算引擎相结合可以很方便的实现将业务数据进行实时分析。

天猫双 11 大促各个分会场琳琅满目的商品需要实时感知价格变化，大量并发访问数据库导致会场页面响应时间长集中式缓存因为带宽瓶颈限制商品变更的访问流量，通过阿里消息队列rocketmq RocketMQ 版构建分咘式缓存实时通知商品数据的变化。