在 2017 年的数字货币热潮中,数字货币交易公司 Coinbase 在他们的平台上遇到了扩展性方面的挑战。工程团队主要通过升级和优化 MongoDB、热点流量隔离解决了这些挑战,并构建了捕获和回放工具以应对未来的流量暴增。
在 2017 年 5 月至 6 月间,Coinbase 的客户流量飙升超出了预期的水准,超过了通常最大流量的五倍并导致了停机 。团队首先解决了一些简单的问题:垂直扩展、升级 MongoDB 以提升性能、优化索引以及基于热点的流量隔离。现有的监控系统不足以识别上下文信息,所以团队通过代码 instrumentation 技术进行了增强,以便于记录丢失的数据。
尽管有了这些改善,在 2017 年 12 月比特币价格飙升阶段,Coinbase 还是再次遇到了多次宕机。从此之后,团队致力于通过捕获和回放工具模拟流量的模式来处理更高的流量。
在最初的停机期间,Coinbase 的 Ruby 应用和 MongoDB 都遇到了更高的延迟,在耗时方面,Ruby 和 MongoDB 是大致均等的。为了更好地理解这些跨组件调用的上下文信息,团队通过修改 MongoDB 的数据库驱动记录了额外的数据。这帮助他们将问题的范围缩小至一个未经优化的响应对象,该对象增加了网络负载。这个问题的解决使应用程序的性能得到了很大的提升。
另外,通过在对象 - 关系映射层(Object Relational Mapping,ORM)和驱动层增加基于 Memcached 的缓存提升了大规模读取的吞吐量。增补缺失的索引也改善了响应时间。到 2017 年 6 月,团队已经将 MongoDB 集群升级到 3.2,它拥有更快的 WiredTiger 存储引擎。Coinbase 使用 Redis 来实现限速等服务,这些服务在停机期间曾经受到 Redis 的单线程模型的影响。
为了应对未来可能出现的流量暴增,团队开发了名为 Capture 和 Cannon 的工具,它们可以从生产环境的系统中捕获流量,并根据需要针对新系统进行回放,以测试系统的弹性。Capture 和 Cannon 都是基于 mongoreplay 的,mongoreplay 工具能够从网络接口捕获针对 MongoDB 实例的流量,并记录所调用的命令。这些日志可以基于其他的 MongoDB 实例进行回放。流量能够跨应用服务器进行捕获,然后合并到单个文件之中。捕获到的流量和磁盘快照都保存到了 AWS S3 之中,Cannon 随后能够基于它们进行回放。
Coinbase 维护了一个公开的状态信息页面,地址是 https://status.coinbase.com/。
原文链接:https://www.infoq.com/news/2018/08/coinbase-scaling-challenges
点击下方图片即可阅读
项目方说性能达到百万 TPS,如何测试它的可信度?
8 月 28 日(周二),奖金超 200 万的「金链盟中国区块链应用大赛」的启动仪式将正式在北京拉开帷幕。
启动会上,区块链领域的专家学者们、金链盟及其成员机构包括深圳金融科技协会、微众、腾讯云、深证通等技术专家们将带来他们对区块链核心技术趋势和发展的剖析,以及 FISCO BCOS 开源社区解析及金融行业落地场景初探的分享。
我们诚挚地向区块链从业者,以及对区块链技术感兴趣的朋友们开放部分「首席听众团」名额!扫描图片二维码或者点击阅读原文即可免费报名。