您使用NoSQL数据存储时遇到了哪些可伸缩性问题?

NoSQL是指与关系数据库和ACID保证的历史相关的非关系数据存储。 stream行的开源NoSQL数据存储包括:

  • Cassandra (表格,用Java编写,由思科,WebEx,Digg,Facebook,IBM,Mahalo,Rackspace,Reddit和Twitter使用)
  • CouchDB (文档,用Erlang编写,由BBC和Engine Yard使用)
  • Dynomite (键值,用Erlang编写,由Powerset使用)
  • HBase (键值,用Java编写,Bing使用)
  • Hypertable (表格,用C ++编写,百度使用)
  • 凯 (键值,写在Erlang)
  • MemcacheDB (键值,用C语言编写,由Reddit使用)
  • MongoDB (文档,用C ++编写,由Electronic Arts,Github,NY Times和Sourceforge使用)
  • Neo4j (graphics,用Java编写,由瑞典一些大学使用)
  • Project Voldemort (由Java使用的由Java编写的键值)
  • Redis (键值,用C语言编写,由Craigslist,Engine Yard和Github使用)
  • Riak (键值,用Erlang编写,由Comcast和Mochi Media使用)
  • Ringo (诺基亚使用的Erlang编写的键值)
  • Scalaris (关键值,用Erlang编写,由OnScale使用)
  • Terrastore (文档,用Java编写)
  • ThruDB (文档,用C ++编写,由JunkDepot.com使用)
  • 东京内阁/东京暴君 (密钥值,用C语言编写,由Mixi.jp(日本社交网站)使用)

我想知道您的SO读者已经使用数据存储和您使用的NoSQL数据存储解决了哪些具体问题。

问题:

  • 您使用NoSQL数据存储来解决哪些可伸缩性问题?
  • 您使用了哪些NoSQL数据存储?
  • 在切换到NoSQL数据存储之前,您使用了哪个数据库?

我正在寻找第一手的经验,所以请不要回答,除非你有这个。

我已经将一个小的子项目从MySQL切换到CouchDB,以便能够处理负载。 结果是惊人的。

大约两年前,我们在http://www.ubuntuusers.de/ (这可能是德国最大的Linux社区网站)上发布了一个自编的软件。 该网站是用Python编写的,我们添加了一个WSGI中间件,它能够捕获所有exception,并将它们发送到另一个小型的MySQL网站。 这个小网站使用散列来确定不同的错误,并存储发生的次数和最后一次发生的次数。

不幸的是,在发布后不久,traceback-logger网站就没有回应。 我们的主站点的生产数据库有一些locking问题,几乎每个请求都抛出exception,还有一些其他的错误,我们在testing阶段没有探索过。 我们主站点的服务器集群,每秒钟被称为traceback-logger提交页面几次。 对于托pipe追踪logging器的小型服务器(它已经是一台仅用于开发目的的旧服务器)来说太过分了。

在这个时候,CouchDB非常stream行,所以我决定尝试一下,写一个小的跟踪logging器。 新的logging器只包含一个单独的python文件,它提供了一个包含sorting和过滤选项的错误列表以及一个提交页面。 在后台我开始了一个CouchDB进程。 新软件对所有请求的响应非常迅速,我们能够查看大量的自动错误报告。

有一件有趣的事情是,之前的解决scheme是在旧的专用服务器上运行的,而另一方面,新的基于CouchDB的站点只能运行在资源非常有限的共享xen实例上。 而且我甚至没有使用键值存储的实力来横向扩展。 CouchDB / Erlang OTP处理并发请求而不locking任何内容的能力已足以满足需求。

现在,快速编写的CouchDB-tracebacklogging器仍在运行,并且是探索主要网站上的错误的有用方法。 无论如何,大约每个月一次的数据库变得太大,CouchDB进程被杀死。 但是,然后,CouchDB的compact-db命令再次从几个GB减小到一些KB,并且数据库再次启动并运行(也许我应该考虑在那里添加一个cronjob … 0o)。

总之,对于这个子项目来说,CouchDB肯定是最好的select(或者至less比MySQL更好的select),并且它的工作很好。

我目前的项目实际上。

以规范化的结构存储18,000个对象:跨越8个不同的表格90,000行。 花了1分钟检索并将它们映射到我们的Java对象模型,这是正确的索引等。

使用轻量级文本表示将它们存储为键/值对:1个表,18,000行,3秒,全部检索并重构Java对象。

在商业方面:第一个select是不可行的。 第二个选项意味着我们的应用程

技术细节:针对SQL和NoSQL在MySQL上运行! 坚持与MySQL的良好的交易支持,性能和良好的logging,不损坏数据,扩展相当好,支持聚类等。

我们在MySQL中的数据模型现在只是关键字段(整数)和大的“值”字段:基本上只是一个大的TEXT字段。

我们没有和任何新的玩家(CouchDB,Cassandra,MongoDB等)一起去,因为虽然他们各自提供了很好的特性/性能,但是我们的环境总是有缺陷(比如缺less/不成熟的Java支持)。

(ab)使用MySQL的额外好处 – 我们模型中可以关联工作的位可以很容易地链接到我们的键/值存储数据。

更新:这里是我们如何表示文本内容的一个例子,而不是我们的实际业务领域(我们不用“产品”),因为我的老板射击我,但传达的想法,包括recursion方面(一个实体,在这里一个产品,“含有”其他)。 希望很清楚,在规范化的结构中,这可能是不less表格,例如,将产品join其范围的口味,其中包含其他产品等等。

Name=An Example Product Type=CategoryAProduct Colour=Blue Size=Large Flavours={nice,lovely,unpleasant,foul} Contains=[ Name=Product2 Type=CategoryBProduct Size=medium Flavours={yuck} ------ Name=Product3 Type=CategoryCProduct Size=Small Flavours={sublime} ] 

托德霍夫的highscalability.com有很多NoSQL的覆盖面,包括一些案例研究。

商用Vertica列式DBMS可能适合您的目的(即使它支持SQL):与传统关系型数据库pipe理系统(DBMS)相比,用于分析查询的速度非常快。 参见Stonebraker等人最近的CACM论文将Vertica与map-reduce进行对比。

更新: Twitterselect了Cassandra ,包括HBase,Voldemort,MongoDB,MemcacheDB,Redis和HyperTable。

更新2:Rick Cattell刚刚在高性能数据存储中发布了几个NoSQL系统的比较。 而highscalability.com对瑞克的论文就是在这里 。

我们把部分数据从mysql移到了mongodb,而不是扩展性,更多的是因为它更适合文件和非表格数据。

在生产中,我们目前存储:

  • 2.5万个文件(60GB)
  • 其他1.3亿个“文件”(350GB)

每天的营业额约10GB。

数据库使用mongodb python api(pymongo)在两个节点(6x450GB sas raid10)上与apache / wsgi / python客户端进行“配对”configuration。 磁盘设置可能是矫枉过正,但多数民众赞成我们使用的MySQL。

除了pomongo线程池的一些问题和mongodb服务器的阻塞性质,这已经是一个很好的经验。

由于我没有任何第一手经验,所以我对你的粗体文本表示歉意,但是这组博客文章是解决CouchDB问题的一个很好的例子。

CouchDB:案例研究

从本质上讲, textme应用程序使用CouchDB来处理他们爆炸性的数据问题。 他们发现SQL太慢,无法处理大量的档案数据,并将其移至CouchDB。 这是一个很好的阅读,他讨论了解决CouchDB可以解决什么问题以及如何解决问题的整个过程。

我们已经将我们用来存储在Postgresql和Memcached中的一些数据移到了Redis中 。 关键值存储更适合存储分层对象数据。 与使用ORM将blob映射到RDBMS相比,您可以更快速地存储blob数据,而且开发时间和工作量要less得多。

我有一个开源的C#的redis客户端 ,可以让你存储和检索任何POCO对象与1行:

 var customers = redis.Lists["customers"]; //Implements IList<Customer> customers.Add(new Customer { Name = "Mr Customer" }); 

主要价值商店也更容易“扩展”,因为您可以添加新的服务器,然后平均分配负载以包含新服务器。 重要的是,没有中央服务器会限制你的可扩展性。 (尽pipe你仍然需要一致的散列策略来分发你的请求)。

我认为Redis是一个类固化的“托pipe文本文件”,为多个客户端提供了快速,并发和primefaces访问,所以我现在使用的任何文本文件或embedded式数据库都使用Redis。 例如,为了获得所有服务的实时组合滚动错误日志(这对我们来说是众所周知的艰巨任务),现在只需要几行就可以完成,只需在Redis服务器端列表中预先填写错误即可然后修剪清单,只保留最后的1000个,例如:

 var errors = redis.List["combined:errors"]; errors.Insert(0, new Error { Name = ex.GetType().Name, Message = ex.Message, StackTrace = ex.StackTrace}); redis.TrimList(errors, 1000); 

我没有第一手的经验,但是我发现这个博客很有意思。

我发现将软件域对象(例如aSalesOrder,aCustomer …)映射到二维关系数据库(行和列)需要很多代码来保存/更新,然后再次从多个表中实例化一个域对象实例。 更不用说所有这些连接的性能打击,所有这些磁盘读取…只是查看/操作一个域对象,如销售订单或客户logging。

我们已经切换到对象数据库pipe理系统(ODBMS)。 它们超出了所列的noSQL系统的function。 GemStone / S(Smalltalk)就是这样一个例子。 还有其他ODBMS解决scheme具有多种语言的驱动程序。 一个关键的开发者的好处,你的类层次结构是自动的数据库模式,子类和所有。 只要使用面向对象的语言来使对象持久化到数据库。 ODBMS系统提供ACID级别的交易完整性,所以它也可以在金融系统中工作。

我不。 我想使用一个简单的免费的键值存储,我可以在这个过程中调用,但是这个东西在Windows平台上不存在。 现在我使用Sqlite,但我想使用东京内阁。 BerkeleyDB拥有许可证“问题”。

但是,如果你想使用Windows操作系统,你select的NoSQL数据库是有限的。 并不总是一个C#提供程序

我曾尝试MongoDB,它比Sqlite快40倍,所以也许我应该使用它。 但我仍然希望有一个简单的在线解决scheme。

我使用redis在机器上存储日志消息。 这很容易实现,非常有用。 Redis真的很有趣

我们用一个CouchDB文档数据库replace了一个postgres数据库,因为没有固定的模式对我们来说是一个强大的优势。 每个文档具有可变数目的索引,用于访问该文档。

我从MySQL(InnoDB)切换到cassandra的M2M系统,它基本上为每个设备存储时间序列的传感器。 每个数据按(device_id,date)和(device_id,type_of_sensor,date)进行索引。 MySQL版本包含2000万行。

MySQL的:

  • 在主 – 主同步中进行设置。 几乎没有出现同步丢失的问题。 这是有压力,特别是在开始可能需要几个小时才能修复。
  • 插入时间不是问题,但随着数据的增长, 查询需要越来越多的内存 。 问题是指标被认为是一个整体。 就我而言,我只是使用索引中非常薄的部分来加载内存(只有百分之几的设备经常受到监控,而且是最新的数据)。
  • 很难备份 。 Rsync无法在InnoDB大表文件上快速备份。
  • 很快就很清楚, 无法更新繁重的表格模式 ,因为它花费了太多的时间(小时)。
  • 导入数据需要几个小时 (即使索引最后完成)。 最好的救援计划是始终保留数据库的一些副本(数据文件+日志)。
  • 从一家托pipe公司转移到另一家是非常重要的 。 复制必须非常小心地处理。

卡桑德拉:

  • 比MySQL更容易安装。
  • 需要大量的RAM。 一个2GB的实例无法在第一个版本中运行,现在它可以在一个1GB的实例上工作,但这不是个想法(太多的数据刷新)。 在我们的情况下给8GB就够了。
  • 一旦你明白你如何组织你的数据,存储是很容易的。 请求有点复杂。 但是,一旦你绕过它,它真的很快(除非你真的想,否则你不能真的犯错误)。
  • 如果以前的步骤是正确的,它是和保持超快。
  • 数据似乎被组织起来备份。 每个新数据都被添加为新文件。 我个人,但这不是一件好事,每晚和每次关机前(通常是升级)刷新数据,以便恢复需要更less的时间,因为我们有更less的日志来读取。 它不会创build很多文件,它们是压缩的。
  • 导入数据就像地狱一样快。 而你有更快的主机。 导出和导入千兆字节的数据已经不再是问题了。
  • 没有一个模式是一件非常有趣的事情,因为你可以让你的数据发展,以满足你的需求。 这可能意味着在同一个列族中同时拥有不同版本的数据。
  • 添加一个主机很容易(但速度不是很快),但是我没有在多数据中心设置上完成。

注意:我也使用了elasticsearch (基于lucene的面向文档),我认为它应该被视为NoSQL数据库。 它是分布式的,可靠的,而且通常很快(一些复杂的查询可能performance相当糟糕)。

过去我使用过Couchbase,遇到了重新平衡问题和其他问题。 目前我在几个生产项目中使用Redis。 我正在使用redislabs.com ,它是Redis的托pipe服务,负责缩放您的Redis集群。 我在http://thomasjaeger.wordpress.com上的博客上发布了一个关于对象持久性的video,演示了如何在提供者模型中使用Redis,以及如何将C#对象存储到Redis中。; 看一看。

我鼓励任何人阅读这个试用Couchbase,现在3.0已经出来了。 初学者有200多个新function。 Couchbase服务器的性能,可用性,可扩展性和易pipe理function使其成为一个非常灵活,高度可用的数据库。 pipe理UI是内置的,API会自动发现集群节点,因此不需要从应用程序到数据库的负载平衡器。 虽然我们目前还没有托pipe服务,但您可以在AWS,RedHat Gears,Cloudera,Rackspace,CloudStorage等Docker容器上运行couchbase。 关于重新平衡取决于你指的是什么,但是Couchbase在节点失败之后不能自动重新平衡,但是pipe理员可以为第一个节点的失败设置自动故障转移,并使用我们的API,你也可以访问在使它们处于活动状态或使用RestAPI之前,您可以使用副本vbuckets进行读取,您可以通过监视工具强制进行故障转移。 这是一个特例,但是可以做到。

除非节点完全脱机,永远不会再回来,或者一个新的节点准备自动平衡,否则我们往往不会重新平衡任何模式。 这里有几个指南可以帮助任何有兴趣看到性能最好的NoSQL数据库是什么的人。

  1. Couchbase Server 3.0
  2. pipe理指南
  3. REST API
  4. 开发者指南

最后,我还鼓励你查看N1QL的分布式查询:

  1. N1QL教程
  2. N1QL指南

感谢阅读,让我或其他人知道,如果你需要更多的帮助!

奥斯汀

Interesting Posts