剖析美团内部所采用的网站压力测试方案

所属分类: 网站运营 / 网站优化 阅读数: 123
收藏 0 赞 0 分享

美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有:

1.使用一些脚本语言如:Python、Ruby等,读取线上日志构建请求,用多线程模拟用户请求进行压测
2.使用开源工具进行压测
然而,无论采取哪种方法,压测都是一个十分耗时而又繁琐的过程,主要痛点有:

需要写很多代码解析日志,还原请求,对于比较复杂的请求,解析很容易出错
需要搭建脚本或者工具的运行环境,通常这一过程比较耗时
由于打压方法没有统一,导致打压的结果指标比较混乱,有的结果甚至以终端输出的方式展示,非常不直观
对一个应用的打压测试,由于环境、代码的问题,导致组内同学很难共享
针对上述问题,提供一个简单好用的压测工具是十分有必要的。

是否有必要重复造轮子
在构建压测工具之前,对于一些现有的开源工具进行了调研。现在主流的压测工具主要有以下几个:

JMeter
JMeter是一个比较老牌的压测工具,主要针对HTTP服务进行打压,该工具在以下方面并不满足美团内部的压测需求:

1.默认不支持Thrift的打压测试
2.需要本地安装,并且配置复杂
3.对于用户操作并不友好
201632393024299.png (1045×359)

twitter/iago
iago 是一个由Twitter开源的压测工具,支持对HTTP、Thrift等服务进行压测,其主要问题如下:

对每个压测应用都需要创建一个项目
压测结果并不直观
流量重放依赖本地文件
项目依赖于一个较老版本的Scala,搭建不便
相关文档比较少
除此之外,当时还考察了GatlingGrinderLocust 等一些常见的压测工具,都因为适用场景和美团的需求有些出入而排除了。

综上,针对当前压测工具的一些现状,构建一个简单易用的压测工具还是很有必要的。

目标
针对之前提到的痛点,新的压测工具主要提供以下功能:

线上流量拷贝
1.简单易用的操作界面(接入压测的时间应该控制在1小时以内)
2.清晰的图表能反映压测应用的各项指标
3.满足包括Thrift、HTTP等服务的压测需求


如何构建
抽象
目标已经明确,怎么实现呢?首先是抽象压测的过程。
一个典型的压测过程如图所示,首先在init方法里面,进行一些初始化的工作,比如连接数据库,创建客户端等。接下来,在run方法里面发出压测请求,为了保证能够对服务产生足够的压力,这里通常采用多线程并发访问,同时记录每次请求的发起时间和结束时间,这两个时间的简单相减就能够得到每次请求的响应时间,利用该结果就可以计算出TP90、平均响应时间、最大响应时间等指标,等压测结束后,通过destroy方法进行资源回收等工作。
201632393116380.png (1490×592)

以上过程可以用接口表示,无论是压测Thrift服务还是HTTP服务,本质上都是这三个方法实现的不同。考虑到压测工具的灵活性和通用性,压测工具可以将这个接口交给打压测试的同学实现,而压测工具则重点实现多线程打压,打压结果的聚合等比较耗时的工作。

复制代码
代码如下:

interface Runner {
def init(Test app) // 初始化压测
def run(Test app, String log) // 每次打压请求,传入log方便构建请求
def destroy(Test app) // 压测完毕后,回收资源
}


拷贝流量
Thrift服务打压的难点之一就是如何简单地拷贝线上真实流量用来构建打压请求。一些大型的Thrift服务数据结构非常复杂,写打压脚本的时候需要很多代码来解析日志,而且容易出错。 因此提供一个简单好用的拷贝流量方法是十分有必要的。

在这里压测工具提供了一个叫VCR(录像机)的工具来拷贝流量。VCR能够将线上的请求序列化后写到Redis里面。

考虑到用户需要查看具体请求和易用性等需求,最终选取了JSON格式作为序列化和反序列化的协议。同时需要部署在生产环境,为了降低对线上服务的影响,这里采取了单线程异步写的方式来拷贝流量。
201632393337313.png (524×402)

聚合数据
应用打压完成后,需要一些指标来评估压测结果,常见的指标有:

1.最大响应时间
2.平均响应时间
3.QPS
4.TP90
5.TP50
压测工具采用了 InfluxDB 来完成数据的聚合工作。
以TP90为例子,仅需要一行查询就能实现需求。

SQL Code复制内容到剪贴板
  1. SELECT PERCENTILE(response_time, 90) FROM test_series GROUP BY time(10s)  

架构
整体而言,整个打压过程如下:
201632393434896.jpg (1372×996)

实践
拷贝流量
美团内部的服务大多使用Java来构建,VCR以Maven Package的方式提供给用户。

对用户来说只需要2行代码可以拷贝流量。

为了不影响线上服务,通常选取单台机器进行流量拷贝工作。

Java Code复制内容到剪贴板
  1. public class TestAppRPC implements TestApp.Iface {   
  2.   
  3.     private Vcr _vcr = new Vcr("testapp"); // 指定拷贝流量的key   
  4.   
  5.     @Override  
  6.     public TestResponse echo(TestRequest req) throws TException {   
  7.         _vcr.copy(req); // 拷贝操作   
  8.         long start = System.currentTimeMillis();   
  9.         TestResponse response = new TestResponse();   
  10.         return response;   
  11.     }   
  12. }  

一旦流量拷贝完成后,通过Web界面,用户能够查看日志的收集情况和单条日志的详情。
201632393521398.jpg (2782×1310)

压测逻辑实现
压测工具采用Groovy来进行编写。对每个应用来说,只需要实现runner接口就可以实现对应用的打压。

复制代码
代码如下:

interface Runner {
def init(Test app)
def run(Test app, String log)
def destroy(Test app)
}

以Thrift服务为例:

Java Code复制内容到剪贴板
  1. class TestServiceRunner implements Runner {   
  2.   
  3.     RPCService.Client _client   
  4.     TTransport _transport;   
  5.   
  6.     @Override  
  7.     def init(Test app) {   
  8.         def conf = app.config // 读取应用配置   
  9.         _transport = new TFramedTransport(new TSocket(conf.get("thrift_service_host") as String, conf.get("thrift_service_port") as int))   
  10.         TProtocol protocol = new TBinaryProtocol(_transport)   
  11.         _client = new RPCService.Client(protocol)   
  12.         _transport.open()   
  13.     }   
  14.   
  15.     @Override  
  16.     def run(Test app, String log) {   
  17.         TestRequest req = Vcr.deSerialize(log, TestRequest.class// 将拷贝流量反序列化   
  18.         _client.echo(req) // 发送请求   
  19.     }   
  20.   
  21.     @Override  
  22.     def destroy(Test app) {   
  23.         _transport.close() // 关闭服务   
  24.     }   
  25. }  

创建应用
实现以上接口后,就可以对应用进行打压了。

用户可以通过Web界面创建应用,除了必填配置以外,用户可以按照应用灵活配置。
201632393558352.jpg (2746×1034)

性能指标
用户可以通过直观的图表来查看应用的各种性能指标。
201632393619103.jpg (2880×2174)

结束语
压测工具上线以来,已经接入了20多个应用,完成数百次打压实验,现在应用的接入时间仅需要15~30分钟。保证了美团服务的稳定和节省了开发同学的时间,使大家告别了以往繁琐冗长的打压测试。

欢迎对这方面有兴趣的同学一起讨论。

更多精彩内容其他人还在看

快速更新网站内容的几种方法

自从有了CMS现在做个网站是件非常简单的事,网站的运作的中心是日常的网站内容更新和长期网站推广。其中网站内容的快速更新是重中之重,今天笔者来分享一下快速更新网站内容的几种方法。希望能为站长们更新网站内容提供一些帮助。 1、内容采集 内容采集是最直接的方法,采
收藏 0 赞 0 分享

Google给广大网站的搜索引擎优化(SEO)建议

为了把Google中文搜索本土化Google官方也确实做了大量的工作,其中在(网站管理员/站长)这块文章丰富了不少,作为营销爱好者笔者经常关注拜读之余也摘录一些自认为比较有价值的内容供大家参考。今天和大家分享的是:Google给广大网站的搜索引擎优化(SEO)建议。文章内容如下
收藏 0 赞 0 分享

创建一个方便Google处理的网站的详细建议

这又是一篇来自Google的文章,再继续发下去很多朋友会问我为什么又转搜索引擎的东西了。其实个人认为Google网站管理员/站长帮助里头还是很多精华的,例如:今天将要转载的这个(创建一个方便Google处理的网站的详细建议)就写得非常好。废话不多说了,下面来分享下创建一个方
收藏 0 赞 0 分享

排除法解决网站在搜索过程中表现不佳的现象

搜索引擎排名机制异常的复杂和严密,直接导致很多网站内容发布出来在搜索引擎的搜索结果表现不佳的现象,种现象一直困扰着很多站长。今天笔者给大家介绍一种比较有效的解决方法:排除法解决网站在搜索过程中表现不佳的现象。 这个排除法的步骤如下: 一、查看您的网站是否被
收藏 0 赞 0 分享

百度 google分别喜欢什么样的友情链接

友情链接对搜索引擎的重要性我就不说了,你去看下只要是做优化的网站几乎都是有友情链接。我发现一些做seo的公司,给客户优化网站的时候纯属就是靠友情链接,雇专门的友情链接专员来进行优化。但是这样做你真的有效果吗,我看到过一些网站,页面上几乎三分之一的页面是友情链
收藏 0 赞 0 分享

浅析网站首页的广告形式

一般而言,由于互联网用户在刚登录某网站时,会看到各种各样的广告。这些广告杂乱无章,因此,大多数的标语用户很容易看过就忘。行为追踪就是防止这种情况发生的方法之一,从而使得广告与用户的生活和目前的精神状态相关的机率更大。或者,您也可以采取不那么敏感的方式使广
收藏 0 赞 0 分享

友情连接与SEO的关系

外连的多少是SE判断一个网站质量的好坏的最基本的标准,谷歌的PR值,百度的超连分析技术等都是以连接网页的数量的多少来决定一个网页的质量的。相对,网站做友情连接,也是以这点为出发点的。但是,友情连接质量的高低往往会起到影响网站排名的关键性作用。因次,我们必须在
收藏 0 赞 0 分享

一个网站的好坏是网民说了算还是PR说了算

大概每一季度的PR更新,都能在站长界引起一阵不大不小的地震,谷歌在2009年端午节这一天,更新了其旗下品牌的PR值,让很多站长觉得这是谷歌在中国的传统节日端午送上的大礼。 谷歌也真够有心的了,偏偏在端午那一天与大家“意思意思”,PR值,对于广大的站长确
收藏 0 赞 0 分享

网站成功的必备条件分析小结

托尔斯泰有句名言:“幸福的家庭都是相似的,不幸的家庭各有各的不幸”。引申到建站方面,即“成功的网站都是相似的,失意的网站各有各的不幸”。 那么,网站的成功,都有哪些相似之处呢?网站成功需要哪些重要因素呢? 有人会说技术最重要
收藏 0 赞 0 分享

网站运营推广中的内容策略浅谈

一、提升流量的内容策略 提升流量(PV)的关键是什么呢?很简单,让用户大量点击网站的页面,阅读网站的内容。浏览的页面多了,流量自然就上去了。那如何才能增加用户的点击行为呢? 1、根据用户喜好,增加相应的文章数量。注意,这里说的文章,是指用户喜欢的内容。 2
收藏 0 赞 0 分享
查看更多