要存储人类DNA需要多less内存?

我正在寻找存储单个人类DNA所需的字节数(MB,GB,TB,无论)。 我读了维基百科关于DNA,染色体,碱基对,基因的一些文章,并有一些粗略的猜测,但在公开任何事情之前,我想看看其他人如何处理这个问题。

另外一个问题就是人类DNA中有多less个primefaces,但是这对于这个网站来说是无关紧要的。

我知道这将是一个近似值,所以我正在寻找可以存储任何人的DNA的最小值。

如果你信任这些东西,这里是维基百科声称的(来自http://en.wikipedia.org/wiki/Human_genome#Information_content ):

单倍体人基因组的29亿个碱基对对应于最大约725兆字节的数据,因为每个碱基对可以被编码2位。 由于各个基因组之间的差异小于1%,所以它们可以无损压缩到大约4兆字节。

你不把整个DNA存储在一个stream中,大部分时间是通过染色体存储的

一个大的染色体需要约300 MB的一个小约50 MB


编辑:

我认为,为什么它不能以每比特2比特保存的第一个原因是它会导致一个障碍与数据一起工作。 大多数人不知道如何转换它。 而即使有转换计划,大公司或研究机构的许多人也不可以/不需要问或不知道如何安装程序。

1GB的存储成本没有..甚至下载3 GB只需要4分钟100 MBit和大多数公司有一个更快的连接。

还有一点就是数据并不像你总是被告知的那么简单。

例如Craig_Venter发明的测序方法是一个很好的突破,但也有它的下游网站。 它不能将相同碱基对的长链分开,所以如果有8个A或9个A并不总是100%清楚。 以后你必须照顾的事情..

另一个例子是DNA甲基化 。 这种信息不能以2位表示forms存储。

基本上,每个碱基对需要2位(您可以使用00,01,10,11作为T,G,C和A)。 由于人类基因组中有大约29亿个碱基对,(2×29亿个)比特= 691兆字节。

我不是专家,但是,维基百科上的人类基因组页面声明如下:

原始MB:

  • 男(XY):770MB
  • 女(XX):756MB

我不确定他们的差异来自哪里,但是我相信你能弄明白。

是的,整个人类DNA所需的最小RAM大约是770 MB。 但是,2位表示法是可行的。 它很难search或做一些计算。 因此,一些math家devise了更有效的方法来存储这些碱基序列…并将其用于search和比较algorithm,例如GARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html)。 这个应用程序现在就在我的电脑上运行,所以我可以对你说…实际上它的DNA保存在: 1 563 MB

人类基因组含有29亿个碱基对。 所以如果你把每个碱基对代表一个字节,那么就需要29亿字节或2.9 GB。 您可能会想出一个更有创意的存储碱基对的方法,因为每个碱基对只需要2个位。 所以你可能可以存储每个字节4个碱基对,总共less于一个GB。

有4个核苷酸碱基组成我们的DNA,这些是A,C,G,T因此DNA中的每个碱基占用2位。 大约有29亿个基地,大约700兆。 奇怪的是,这将填补一个正常的数据光盘! 巧合?!?

只是也做了。 原始序列是〜700 MB。 如果使用一个固定的存储序列或一个固定的序列存储algorithm,并且这个变化是1%的事实,我用perchromosome-sequenceoffset-statedelta存储器计算了〜120MB。 这就是存储。

只有两种碱基对,胞嘧啶只能与鸟嘌呤结合,而腺嘌呤只能与胸腺嘧啶结合,所以每个碱基对可以被认为是一个单一的位。 这意味着人类DNA的整个链约30亿比特将是正确的约350兆字节。

Interesting Posts