艺术草图可用于以更简单的图像捕捉场景的细节。麻省理工学院的研究人员现在将这一概念引入计算生物学,采用一种新方法,提取大量细胞数据集的综合样本 - 称为“草图”,这些数据集更易于分析用于生物学和医学研究。
近年来,人们对来自各种人体组织和器官(如神经元,肌肉和免疫细胞)的单细胞进行分析,以深入了解人类健康和治疗疾病。最大的数据集包含大约100,000到200万个单元格,并且还在增长。例如,人类细胞图谱的长期目标是描绘大约100亿个细胞。每个细胞本身都含有大量关于RNA表达的数据,可以提供有关细胞行为和疾病进展的见解。
凭借足够的计算能力,生物学家可以分析完整的数据集,但需要数小时或数天。没有这些资源,这是不切实际的。采样方法可用于提取细胞的小子集以进行更快,更有效的分析,但它们不能很好地扩展到大型数据集,并且通常会错过较少的细胞类型。
在下周于计算分子生物学研究会议上发表的一篇论文中,麻省理工学院的研究人员描述了一种方法,该方法可以捕获整个数据集的完全全面的“草图”,可以与其他数据集轻松共享和合并。它不是以相同的概率对细胞进行采样,而是均匀地对来自数据集中存在的不同细胞类型的细胞进行采样。
“这些就像纸上的草图,艺术家将试图保留主要图像的所有重要特征,”麻省理工学院西蒙斯数学教授,电气工程和计算机科学教授,以及其负责人Bonnie Berger说。计算和生物学小组。
在实验中,该方法在几分钟内(而不是几个小时)从数百万个细胞的数据集中生成草图,这些数据集在数据集中的稀有细胞表示更加平等。在一个例子中,草图甚至捕获了其他方法遗漏的罕见的炎性巨噬细胞子集。
“大多数分析单细胞数据的生物学家只是在他们的笔记本电脑上工作,”计算机科学与人工智能实验室(CSAIL)博士生,计算与生物学研究组的Brian Hie说。“草图绘制了一个非常大的数据集的简明摘要,该数据集试图保留尽可能多的生物信息......因此人们不需要使用如此多的计算能力。”
加入Hie和Berger的是:CSAIL博士生Hyunghoon Cho;麻省理工学院和哈佛医学院的研究生Benjamin DeMeo;和麻省理工学院生物工程助理教授Bryan Bryson。
格子覆盖物
人类拥有数百种细胞类别和子类别,每个细胞都表达了多种多样的基因。诸如RNA测序的技术捕获大量表中的所有细胞信息,其中每行代表细胞,每列代表基因表达的一些测量。细胞是散布在庞大的多维空间周围的点,其中每个维度对应于不同基因的表达。
实际上,具有相似基因多样性的细胞类型 - 常见和罕见 - 形成相似大小的簇,占据大致相同的空间。但是这些群集中的细胞密度差异很大:1,000个细胞可能存在于一个共同的聚类中,而同样多样的稀有聚类将包含10个细胞。对于提取单个细胞的目标大小样本的传统采样方法来说,这是一个问题。
“如果你采取10%的样本,并且在一个罕见的群集中有10个细胞,在一个共同的群集中有1,000个细胞,你更有可能抓住大量的常见细胞,但是会遗漏所有稀有细胞,”Hie说。“但稀有细胞可以导致重要的生物学发现。”
研究人员修改了一类算法,该算法在数据集上形成了形状。他们的算法覆盖了整个计算空间,他们称之为“格子覆盖”,就像一个大小相等的网格,但在很多方面。它只放置这些多维正方形,其中至少有一个单元格,并跳过任何空白区域。最后,网格的空列将比占用的列更宽或更瘦 - 因此是“格子”描述。该技术可以节省大量计算量,以帮助覆盖范围扩展到海量数据集。
捕获稀有细胞
占用的方块可能只包含一个单元格或1,000个单元格,但它们都具有完全相同的采样权重。然后,算法通过随机均匀地从每个占用的方格中选择一组单元格来找到目标样本 - 例如20,000个单元格。生成的草图包含更加平等的细胞类型分布 - 例如,来自100个簇的10个常见细胞和来自10个簇的8个稀有细胞。
“我们利用占据相似空间的这些细胞类型,”Hie说。“因为我们根据体积而不是密度进行采样,我们可以更均匀地覆盖生物空间......我们自然会保留稀有细胞类型。”
他们将他们的素描方法应用于大约250,000个脐带细胞的数据集,其中包含两个罕见的巨噬细胞亚组 - 炎症和抗炎。所有其他传统的采样方法将两个子集聚集在一起,而草绘方法将它们分开。研究人员说,对这些巨噬细胞亚群的进一步深入研究有助于揭示炎症的洞察力以及如何调节炎症反应过程中的炎症过程。
“这对于在田野界面工作是有益的,”伯杰说。“我们接受过数学家培训,但我们了解生物数据科学问题是什么,因此我们可以将最好的技术带到他们的分析中。”
标签:大量细胞
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。