预约演示
预约演示
下载PDF

宏序生物如何将 BLAST 作业计算成本降低 91% ,运行性能提升 31%

客户名称:宏序生物
所属行业:医疗
客户简介:宏序生物专注于生物医学技术和生命科学研究和人类健康领域的应用,致力于在临床医学、生命健康提供一站式、全方位服务和系统解决方案。目前在天津、上海建立了实验室,实验室总面积超5000平米。

客户背景

宏序生物生信团队使用的主要计算分析工具之一是 BLAST,可将输入的核酸或蛋白质序列与数据库中的已知序列进行比对,获得序列相似度等信息。为实现IT资源的弹性伸缩和优化管理,宏序生物的大多数BLAST都已经在云服务器上运行。BLAST 工作负载在运行过程中并不会保持一直占用固定的算力资源比例,而是云资源需求随时波动变化,包括 "高峰"和“低谷”的用量需求。

HonSun

面临的挑战

应对这种业务上的起伏波动,最简单粗放的解决方案是以业务最高峰时的云资源用量来匹配对应的云主机实例,这种方式本质上是一种不顾成本的过度配置。

举个例子,在BLAST 运行过程中的云主机实例按照最高业务压力时刻的配置为 32 个 vCPU 和 64GB 云内存,此时任务可以在 11 小时 44 分钟内完成,成本高达 17.22 美元。而如果考虑成本节省改为较低配置(按照各个时刻的资源消耗的平均值),可以将云主机实例成本降低到 12.63 美元,便宜 27%。但是带来的代价则是性能下降,低配置云主机实例会导致运行时间增加了 53%,达到 18 小时 4 分钟。

另一方面,如果客户为了节省成本而选择Spot云主机实例,在 Spot 云主机实例中运行 BLAST 可以显著降低成本,但也同样存在问题,如果发生 Spot 实例被回收,将停止作业,需要从头开始运行,影响整体生产效率。

我们的解决方案

Memory Machine Cloud 的 WaveRider 功能,能够在应用运行时,根据当前的云主机业务压力,有效的为应用自动更换云主机实例,因此可以有效解决 "高峰" 时对于云资源的弹性需求,无需始终按照最高需求来设置固定的云主机类型。

MemVerge的SpotSurfer技术使得长时间运行的 BLAST 在Spot云主机实例上安全运行成为可能,因为它们可以在 Spot 云主机实例被回收时,将应用运行时刻的状态保护起来,并迁移到新的实例中继续运行。

WaveRider
下图显示了 WaveRider 如何使宏序生物的 BLAST工作负载能够根据业务压力来自动调整云主机实例类型。
HonSun

云主机实例之间的变更和业务迁移是完全自动化的,不需要用户干预。自动化的相关策略(如设置限制最大云主机规格,设置变更时的步长等等)用户可以通过 Memory Machine Cloud的CLI 工具或者基于 Web 的GUI图形来设置。因此,这使得宏序生物团队可以根据需要自行调整 WaveRider 迁移规则以持续优化成本和性能。

Test Cases Time Delta Cost Delta
OnDemand (32 vCPU, 64GB) 11h 44m Fastest $17.22 Highest cost
OnDemand (16 vCPU, 16GB) 18h 4m 53% slower $12.63 27% less cost than 32vCPU
Memory Machine (Spot; 32 vCPU, 64GB) 11h 44m Fastest $1.93 89% less cost than 32vCPU
Memory Machine (Spot; 16 vCPU, 32GB) 18h 4m 53% slower $1.48 91% less cost than 32vCPU
Memory Machine with WaveRider 12h 23m 31% faster than 16vCPU $1.17 91%-93% less cost than OnDemand

WaveRider功能为用户的那些起伏波动的业务,在性能和成本之间提供了完美的平衡,与高规格的云主机类型选项(32vCPU,32GB RAM)相比,成本降低了 93%,但执行时间几乎相同,为 12 小时 23 分钟 vs 11 小时 44 分钟。对于每天在云中运行 1,000 个 BLAST 应用程序的企业来说,使用 Memory Machine Cloud的 WaveRider 功能可以节省每天 16,065 美元,年度节省 4,173,000 美元。