预约演示
预约演示
美味大闸蟹背后的基因科学

美味大闸蟹背后的基因科学

Doris Chu 2023-11-30291

除了美味,中华绒螯蟹(俗称大闸蟹)仍有很多其他迷人之处。对养殖业者而言,它是一项重要的养殖品种,为其带来丰厚的收入。

这种螃蟹对生物学家而言是一种奇迹 —— 它竟然能在淡水和盐水中生存?还能断肢再生?对于遗传学家而言,挑战在于追溯物种典型行为与基因组、转录组水平之间的关系,探究这些行为的遗传基础。

🦀️

中华绒螯蟹原产于中国的湖泊和河流中,在欧洲和北美,它被视为一种入侵物种。中华绒螯蟹主要生活在淡水中,但当它们要繁殖时,会前往盐度较高的半咸水和海水区域(这种螯蟹属于逆溯洄游型)。为了适应这种环境的盐度变化,它们需要一种复杂的机制,叫做渗透调节,来保持体内的离子平衡。

1992年,在旧金山湾首次发现了中华绒螯蟹。之后,它们在切萨皮克湾、哈德逊河和五大湖中都留下了踪迹。它们的踪影遍布整个欧洲,从泰晤士河、泰加斯河、多瑙河一直到威尼斯泻湖都可以找到它们。

大闸蟹繁殖速度快,而且能够承受一些生理上的困扰,比如饥饿和脱水。这些特点让它们成为一种具有破坏河岸稳定性的强大入侵物种。

中华绒螯蟹不仅在烹饪、农业和环境中有影响,还因为它有一项很厉害的本领:能够在脱壳时再生整个肢体。在动物中,无脊椎动物的再生能力通常比脊椎动物更强,而脊椎动物中则似乎有所减弱。鸟类和哺乳动物也有一些细胞和组织再生的能力,这引发了人们对激发再生能力是否可行的医学研究的兴趣。

因此,中华绒螯蟹成为广泛研究的对象,尤其是为了找出支持它独特生理和行为特征的基因表达。关于这种螯蟹的基因组信息在2016年首次报道,而最新的研究成果则于2022年发布。中华绒螯蟹的基因组规模相当大,为1.27 Gb,单倍体染色体数为73,这在节肢动物中算是相对较高的水平,尽管其中包含大量的重复元素。与之对比,人类的单倍体染色体数为23,基因组大小约为3.1 Gb。这些数据为研究者提供了深入了解中华绒螯蟹基因背后的奥秘的工具。

🦀️🦀️

那么,这与Memory Machine Cloud(MMCloud)有什么关系呢?

RNA-seq是一种流行的计算流程,在对中华绒螯蟹的研究中常用于分析基因表达和转录激活,使用来自Illumina、PacBio、Oxford Nanopore Technologies等公司的下一代测序(NGS)机器生成的数据。而像RNA-seq这样的复杂流程需要一个工作流管理器,比如Nextflow,来安排和管理流程中的各个任务。

在使用Nextflow时,每个任务都被分配给一个称为“执行器”的东西,这个执行器提供了运行该任务所需的完整环境。现在,通过使用 nf-float 插件,你可以把 MMCloud 当作这个“执行器”来运行你的工作流程。从 MMCloud 的角度看,Nextflow 分配给它的任务就像是一个独立的作业,运行方式与其他批处理作业一样。对于使用 Nextflow 的用户而言,不需要额外的学习成本,体验基本不变,但可以享受 MMCloud 提供的所有功能,比如 SpotSurfer、WaveRider 和 WaveWatcher 等。

MMCloud 2.3.3 版本增加了一个符合POSIX标准的分布式文件系统,这就意味着现在 Nextflow 管道可以利用高容量存储服务(比如 AWS S3)作为高性能文件系统。这对于那些有个别任务需要在复杂流程中写入和读取中间数据的情况来说非常有用,因为文件系统的性能对这些任务的执行效率有显著的影响。

在MMCloud上运行Nextflow管道非常简单。本次演示我们使用了AWS EC2计算实例,并在来自欧洲核酸库和国家医学图书馆的中华绒螯蟹实验性序列数据上运行了nf-core/rnaseq。

要使用nf-float插件,您需要一个配置文件,并指定执行环境的参数。其中一个重要的参数是VM创建策略。在这个例子中,我们选择了“SpotFirst”,这表示MMCloud会尝试启动一个折扣实例。如果在三次尝试后没有成功启动折扣实例,MMCloud将会启动按需实例。如果AWS回收了正在运行作业的折扣实例,MMCloud会将作业迁移到新实例,并按照相同的策略进行 - 首先尝试折扣实例,如果失败则转向按需实例。

🦀️🦀️🦀️

在成功运行结束时,Nextflow显示了以下信息,显示共有170个任务(作业)完成,无失败。

nf-core/rnaseq的输出中包含了MultiQC,这是一个报告工具,以html格式汇总了从多个分析模块和数据集中获得的统计数据和质量指标。MultiQC在检查流程运行结果是否存在错误和异常方面非常有帮助。

以下是中华绒螯蟹运行的MultiQC输出的示例图。

🦀️🦀️🦀️🦀️

中华绒螯蟹是一个充满惊喜的迷人存在。毫无疑问,这个物种将继续受到关注 —— 出现在菜单上,出现在环境保护部门,成为各种组学研究(例如转录组学)的研究主题。随着研究人员意识到MMCloud的强大威力,许多Nextflow流程将在AWS、谷歌云或阿里云上运行。

Comments