MongoDB架构devise – 许多小文件或更less的大文件？

背景
我正在将从RDBMS数据库到MongoDB的转换原型化。在反规范化的过程中，好像我有两个select，一个导致许多（百万）较小的文档或一个导致较less（几十万）大文档的select。

如果我可以把它简化为一个简单的模拟，那么这个集合与这样一个更less的Customer文档（用Java）是有区别的：

 class Customer {
    私人string名称;
    私人地址地址;
     //每个CreditCard都有数百个付款实例
    私人设置<CreditCard> creditCards;
 }

或许多像这样的许多付款文件的集合：

class付款{
    私人客户客户;
    私人CreditCard信用卡;
    私人datepayDate;
    私人stream通payAmount;
 }

题
MongoDB的devise是为了select许多小文档还是less用大文档？答案主要取决于我计划运行的查询吗？（即客户X有多less张信用卡？vs上个月所有客户的平均金额是多less？

我查了很多，但是我没有绊倒任何可以帮助我回答我的问题的MongoDB模式最佳实践。

你一定要优化你正在做的查询。

这是我最好的猜测根据您的描述。

您可能想知道每个客户的所有信用卡，因此请保留客户对象内的数组。您也可能希望为每个付款提供客户参考。这将使付款文件相对较小。

Payment对象将自动拥有自己的ID和索引。您可能还需要在“客户”参考中添加一个索引。

这将允许您快速search客户付款，而不必每次都存储整个客户对象。

如果您想回答“所有客户上个月支付的平均金额是多less”这样的问题，那么您将需要为任何相当大的数据集devise一个地图/缩减。你没有得到这个“实时”的回应。你会发现存储一个“参考”到客户可能是足够的这些地图缩小。

所以要直接回答你的问题： 是否MongoDBdevise成偏好许多小文档或更less的大文档？

MongoDB旨在快速查找索引条目。 MongoDB非常擅长在大海捞针中find几根针。 MongoDB 并不是很擅长find大海捞针。因此，围绕最常见的用例构build数据，并为罕见用例编写map / reduce作业。

根据MongoDB自己的文档，这听起来像是为许多小文档devise的。

从MongoDB的性能最佳实践：

MongoDB中文档的最大大小是16 MB。实际上大多数文件是几千字节或更less。考虑文件更像表中的行比表本身。而不是维护单个文档中的logging列表，而是使每个logging成为一个文档。

从MongoDB Schemadevise的6条经验法则：第1部分：

build模一对多

“一对一”的例子可能是一个人的地址。这是embedded的一个很好的例子 – 你将地址放在Person对象的数组中。

一个一对多

“一对多”的例子可能是replace零件订购系统中产品的零件。每个产品可能有多达几百个replace部件，但从未超过几千个左右。这是引用的一个很好的用例 – 您将产品文档中的部分的ObjectIDs放在一个数组中。

一到Squillions

“一对一”的例子可能是事件logging系统，它为不同的机器收集日志消息。任何给定的主机都可以生成足够的消息来溢出16 MB的文档大小，即使您存储在arrays中的所有内容都是ObjectID。这是“父引用”的经典用例 – 您需要为主机创build一个文档，然后将主机的ObjectID存储在日志消息的文档中。

随着时间的推移，大量增长的文件可能正在计时炸弹。 networking带宽和内存使用量可能会成为可衡量的瓶颈，迫使您重新开始。

首先，我们来考虑两个集合：Customer和Payment。因此，粮食是相当小的：每笔支付一个文件。

接下来，您必须决定如何模拟帐户信息，例如信用卡。让我们来考虑客户文档是否包含帐户信息数组，或者是否需要新的帐户集合。

如果账户文件与客户文件分开，则将一个客户的所有账户加载到内存中需要获取多个文件。这可能会转化为额外的内存，I / O，带宽和CPU使用率。这是否意味着账户收集是一个坏主意？

您的决定影响付款文件。如果帐户信息embedded到客户文档中，您会如何参考？单独的账户文件有自己的_id属性。使用embedded式帐户信息，您的应用程序将为帐户生成新的ID，或使用帐户的密钥属性（例如，帐户号码）。

付款凭证是否可以包含在固定时间范围内（例如，每天？）进行的所有付款。这种复杂性会影响所有读取和写入付款文件的代码。不成熟的优化对项目来说可能是致命的。

与帐户凭证一样，只要付款凭证只包含一笔付款，便可轻易引用付款。例如，新的文件types可以参考付款。但是，你会创build一个信用卡collections品，还是将信用信息embedded付款信息？如果你以后需要引用信用，会发生什么？

总而言之，我已经获得了许多小文件和许多collections。我用_id实现引用，只用_id实现引用。因此，我不担心日益增长的文件摧毁我的申请。模式很容易理解和索引，因为每个实体都有自己的集合。重要的实体不会隐藏在其他文档中。

我很想听听你的发现。祝你好运！

MongoDB架构devise – 许多小文件或更less的大文件？

如何将db模式更改为dbo

在空表中查找SQLite列名称

XML属性与元素

YAML模式validation？

在SQL中更改表的模式名称

如何为新语言编写emacs模式？

获取数组中出现次数最多的元素

C（或一般的程序编程）的devise原则，最佳实践和devise模式？

耙db：架构：转储从迁移或数据库本身重新创buildschema.rb？

SQL Server架构有什么好处？