说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

【先锋】事务、高性能,王涛谈打造超越MongoDB的NoSQL

HTML文档下载 WORD文档下载 PDF文档下载
兼顾事务和性能,并通过连接器实现复杂的SQL,NoSQL数据库SequoiaDB有着很多让人眼前一亮的特性。同时,SequoiaDB还能替代HDFS,作为MapReduce任务的数据存储源。

多样性、大容量给数据的存储和处理带来了巨大的挑战,当传统关系型数据库无法应对应用程序的快速迭代时,天生具备弱数据结构模式、易扩展等特性的NoSQL数据库得以飞速发展,在众多网络及新型应用程序中得以部署。然而,基于其分布式的特性,事务成为了大部分NoSQL数据库系统的致命弱项,也造就了NoSQL与任务关键性场景绝缘的这个现状。时至今日,着眼NoSQL领域,如何才能在高性能下兼顾事务以及更多功能已成为当务之急。为此,笔者近日与SequoiaDB创始人兼CTO王涛取得联系,就NoSQL打造进行了简要采访。同时,值得高兴的是,通过王涛得知,SequoiaDB即将开源。

以下为采访实录:


SequoiaDB创始人兼CTO 王涛

CSDN:请介绍你个人和SequoiaDB。

王涛:大家好,我叫王涛,现在是SequoiaDB的创始人兼CTO。之前我一直在IBM的北美数据库实验室做DB2数据库引擎。我们SequoiaDB是2012年正式成立的,每一行代码都是我们从零打造,并没有基于其他的开源数据库引擎。还记得当初我回国之前,大概用了半年的时间和几个IBM出来的兄弟在北美那边一行行地扣代码,最后整个引擎跑通了并且感觉性能不错,才回国成立的公司。我们SequoiaDB的核心产品就是一款文档类NoSQL数据库,从体系结构与应用场景上看和 MongoDB有些类似,因此很多时候我们会被拿出来和MongoDB作比较。

CSDN:你经历多年RDBMS与NoSQL的开发,是否可以从你的角度谈谈NoSQL运动?

王涛:我认为,NoSQL运动是现在应用程序互联网化和移动化的一个产物。过去,关系型数据库做点什么东西都需要进行复杂的数据模型设计和调整,但是在互联网时代这种玩法已经跟不上节奏了。所以,以互联网的标准数据格式JSON进行对象型数据存储成为一种需求,而这种需求同时也弱化了应用程序对关系模型的依赖。

当然,这并不是说NoSQL会在近期完全取代关系型数据库,而是这两者会有一个长期的共存,分别适用于不同的应用领域。现在我们已经看到,很多传统的企业也都开始慢慢接受互联网的思想,包括其业务模式以及后台所采用的技术,包括NoSQL数据库。

CSDN: 能否谈一下SequoiaDB当下都有哪些重量级的用户?数据库的规模达到什么级别?

王涛:我们现在在企业和互联网领域都有不少的成功案例。传统企业中包括像民生银行、海南航空、电信移动企业等;而互联网行业里面也有像蓝汛、蓝港在线这类企业。我们部署在一些客户的系统还是挺大的,比如有一家客户的日志分析集群系统总量超过PB,每天会产生近10TB的数据,都要近实时入库并且做到同时批处理分析和实时检索。这类集群都是百台节点的规模。

CSDN:同为文档类型NoSQL,对比全球排名第五的MongoDB,SequoiaDB的优势/特点是什么?

王涛:从架构上来讲,MongoDB和我们都是使用分片Sharding机制,每个分片里面做数据的复制和同步。而在具体实现中我们则有很大差异。譬如说我们的日志使用的是日志序列号LSN机制,而MongoDB则是一个capped collection,所以我们可以做到很多MongoDB根本不可能做到的事情,例如事务这类操作。除了这些功能点以外呢,我们的性能可以说是一大亮点。过去人们通过MongoDB和CouchDB可能都认为文档类NoSQL的性能比较差,至少和Cassandra这类的宽表库比起来差。但是现在在我们的测评中,很多原本HBase和Cassandra最突出的导入操作都被我们甩在了后面。

CSDN:确实,一般人都认为文档类数据库由于结构复杂,相比起宽表和KV类型的NoSQL来说性能不佳。为什么SequoiaDB在能够提供丰富的数据库操作功能以外还达到这么高的性能呢?

王涛:这个问题就要深入到代码的实现中去了。我想这都要归功于我们代码的精细化设计,尤其是对并发性和锁的这一部分。

在一个并行处理的数据库里面,如果锁控制得不好,会造成很多线程都堵在一个地方。如果大家有兴趣看看mongodb的代码可能会发现,它做了很多非常好的模块化封装,但是相反地对于一些锁的处理则比较粗糙,所以在高并发高压力的情况下总体的吞吐量根本上不去。而我们在设计SequoiaDB的时候,很多代码尽量做到无锁。程序的设计永远秉承一个理念,就是在正常流程下尽可能无锁,异常流程可以使用额外的代码或锁机制保证逻辑正确。所以即使在一个16核、32核的这种大机器下起高压力并发我们也可以把CPU打满,不会在某些代码上造成性能瓶颈。

另一方面,MongoDB实际上很多设计并非最优。譬如说它的日志机制使用了capped collection。可能咋一听起来很新潮很酷,但是实际上会对整体性能有着重大的损害。而我们使用的虽然是比较经典的日志LSN机制,但是正因为这种机制被所有关系型数据库使用了几十年,才从性能和功能上都被完善到了极致。

剩下的还有很多优化细节,譬如说我们在性能敏感的代码里面完全不允许使用string这种STL库,就是避免这种封装得比较深的库会做额外的譬如分配释放内存的操作,造成不必要的损耗。

CSDN:我们知道,分布式数据库和传统的单点数据库相比有很大不同。从技术上能不能简单介绍一下,分布式数据库的难点在什么地方?你们是怎样解决的?

王涛:传统的关系型数据库主要都是单点架构,有数的几个像Greenplum和DB2这种MPP 数据库才能够做到分布式架构。当然,我们说Oracle的RAC算是假的分布式,在存储层还是大统一。所以,我们这里说的分布式是Share Nothing的MPP架构。

在分布式系统里面,有几点是需要注意的。第一,就是数据是否可以做到弹性扩张。这个可能算是所有MPP分布式关系型数据库最大的弱点之一。比如DB2,想要添加个节点,需要做redistribution,遇到一个几十TB的数据库估计要好几天才能搞完。而NoSQL明显不能这么玩,所以我们用的是一致性哈希技术,把数据散列后映射到哈希环上根据范围划分节点,可以做到在增减节点时移动最少的数据。

第二,节点的可用性。现在讲究的大集群基本都是围绕着PC服务器说的,PC服务器的特点众所周知,就是容易坏。那么如果我一个集群里面有1000个节点,三天两头都有可能有机器出故障。如果用关系型数据库那种MPP架构就完蛋了,一个节点坏了可能整个表都挂了。所以,我们要用多数据副本的方式保证即使机器挂了,数据也可以在其他的节点中找到。

第三,就是事务操作。我想事务操作是现在很多NoSQL都不具备的功能。并不是说NoSQL的架构和事务有冲突,而是想要实现事务机制需要太多模块的配合。譬如说日志机制,对于MongoDB的capped collection机制就很难实现事务的提交和回滚功能。我们用的是基于传统的事务日志的机制才能够做到这一点。当然,别忘了还有记录锁、表锁这些机制,还要考虑多副本之间数据根据日志的分发同步,节点失效重新选举后日志的同步等一系列机制。

CSDN:事务一直是分布式数据库实现的难点,就算很多其他世界知名的NoSQL也没有很好地实现。可否详细介绍一下其中存在的挑战,以及SequoiaDB事务的实现途径。

王涛:事务本身其实原理并不难,就是做任何操作都要先写日志,然后把每个会话的日志都有一个链能够往回一条条找到本事务起始的位置,能够对每一个操作做redo和undo就可以了。这个是单点传统数据库的玩法。当然,锁这些机制是另一个故事了,这里先不提。

但是在分布式环境中,这个简单的东西就开始变复杂了。第一,如何确保在可配置的强一致与最终一致性中,事务在复制过程中的完整性。譬如说,主节点A挂了,备节点还没有同步到这个主节点最后的日志,这个时候事务怎么处理?对于我们来说,当然在最终一致性的配置中只能牺牲数据的完整性了,不过在强一致性开启的情况下则是必须要保证这一点。

另外,多个分片之间数据完整性的问题也存在。我们利用很多MPP数据库使用的二段提交(2PC)来玩,可以满足大部分提交回滚的需求。但是如果在二段提交过程中的小窗口处发生问题同样还会造成indoubt transaction,这一块处理也是难点。

还有很多网络问题的检测也和事务息息相关。比如说如果协调节点挂掉了,需要让数据节点能够立刻感知到这个事件,并且确保这个协调节点所属的事务全部进行回滚操作。而如果某一个数据节点掉了,协调节点则必须感知然后通知其他数据节点回滚这个操作。

CSDN:我们看到SequoiaDB提供不少与第三方产品的连接器,能不能介绍一下这些连接器的作用?

王涛:做一个数据库不像搞一个游戏或者应用软件,自己和自己玩就行了。数据库是软件项目基础架构的一部分,需要对接很多第三方的应用和产品,要把生态圈建立起来嘛。所以我们在和其他产品对接这一块也花了不少力气。主要是两个大方向,一个是和Hadoop这块一起玩,一个是和使用关系型数据库的应用这块一起玩。和Hadoop对接相对比较简单,就是Java里串行化的几个函数嘛,对接了以后自然和Spark的对接也有了。另外对于Hadoop生态圈里面其他的Hive和Storm我们也都做了连接器,可以直接利用Hive和Storm从数据库读写数据。

而和使用关系型数据库的应用对接就有点麻烦了。我们想了个方法,先和PostgreSQL对接。PG不是提供一个FDW的机制么,我们就直接写了个库能够串到FDW上,让PG能够定义基于SequoiaDB的外部表,里面定义各个字段和类型。每次查询的时候相关的请求会通过FDW转换成我们认识的东西发送的数据库上,然后返回的记录在格式化成PG需要的格式,在PG里面进行关联啊聚集之类的。

总地来说,我们会不断增强连接器的种类和功能,争取今后和多数主流的产品与第三方应用都能够较轻易地对接。

CSDN:SequoiaDB曾宣布提供开源版本,是否取得了一定的进展,对比商业版,开源版本会弱化哪些方面?

王涛:开源现在是万事俱备,就差最后临门一脚了。我们已经在Github和CSDN CODE平台上都建立好了repository,所有的代码审查和协议注释也都已经完成了。我们将很快在近期就会正式对外开源。

商业版和社区版相比,主要是在企业级服务这块增加了一些内容。譬如说24x7的技术支持啦,定期巡检啦,安全机制啦,还有一些额外的监控机制和工具软件之类的。而从数据库内核的代码上来看企业版和社区版基本区别不大,也并不存在集群规模限制等问题。

CSDN:作为数据库打造的行家,有什么使用经验可以分享给读者的?

王涛:太多经验也谈不上,现在我看到不少程序员和DBA兄弟依然围绕着关系型数据库吃饭,我想大家可以开始适当关注大数据和NoSQL这个领域。因为我觉得今后关系型数据库会成为一个存量市场,就像几十年前的大型机一样不会消亡,但是也不会近期迎来大规模的增长。相反,非关系型数据库与大数据技术正在开始起步,虽然市场上还是一片混战局势未明,但这也正是切入这个领域开始学习的好机会。如果局势都明朗了,基本该占的坑都被占完了,晚来的弟兄们也没啥汤好喝。

CSDN:你有什么需要对读者补充的么?

王涛:作为咱们国内不多的基础数据库软件,我们有信心在开源后和国外的产品进行功能与性能方面的正面抗衡。也希望国内的技术人员圈子多多给我们鼓励,最好能试用一下提出各自的宝贵意见。

中国创新“先锋”企业系列报道
序号 公司名称 成立时间 CEO/CTO 官方微博 公司产品/方向
1. 云适配 2012年 陈本峰
网站适配
2. 友友 2010年 
姚宏宇
@友友微博 C、C++、Java产品研发 
3. 聚合数据
2010年
左磊 
@聚合数据 移动数据服务
4. Anchora 2009年 鲁为民       

MoPaaS和InPaaS 
5. 够快 2012年
蒋烁淼 @够快科技 
云存储
6. 文思海辉
2012年 吴凯
@文思海辉 OpenStack公有云       
7. 搜狐云 2011年 邱英波
SendCloud                  
8. 联想云存储 2009年 罗予晋
云存储
9. 南京讯之智 2012年 谢晚霞
大数据实时分析
10. 上海圣何赛 2012年 
金剑 

云管理、云存储                
11. 国云科技 
2010年
季统凯
@国云科技 云操作系统                
12. SSO365 2012年 赵健                

云安全、云身份认证 
13. ClouDil云方案 2001年
叶滨 @世纪鼎利 
通信运营商                
14. 多备份 
2013年 胡茂华            
@木浪 云备份                 
15. 上海越诚软件 2011年 王炜                  
基于云的建站软件超市 
16. 云智慧 2009年 殷晋 @监控宝 云监控、基于大数据APM
17. 深圳泽云 2012年 何巨彬
高性能存储系统
18. 深圳智冠 2004年 卢慧莉  
手静脉生物识别、虚拟化
19. 北京沃安科技 2009年 曹学武 @沃安科技 移动视频技术提供商
20. 星环信息科技 2013年 孙元浩 @星环科技 大数据分析平台
21. 杭州数云 2011年 宣晓华 @杭州数云 数据挖掘
22. 红象云腾
2012年 童小军 @RedHadoop
基于Hadoop的大数据平台
23. APICloud 2013年 邹达 @APICloud 云API和端API
24. SequoiaDB
2012年 王涛 @SequoiaDB
大数据、云计算、NoSQL
备注:2014年9月16日更新,持续更新中......


备注:云先锋系列文章是由CSDN云计算频道打造的,主要报道国内外在云计算、大数据方面具有独特竞争优势的企业,以传播技术为目的,推动中国云计算技术的发展,只有你有云计算或大数据方面独特的技术、产品和服务,你就可以投稿,欢迎投稿weiwei@csdn.net。

用VB制作即时动态按钮 用VB作浮动式图标提示按钮 用Visual Basic编写托盘程序 用Visual Basic窗体背景花纹的实现 用Visual Basic设计窗体背景花纹 用Visual Basic设计更好的用户界面 用Visual Basic设计三维图形按钮 用VisualBasic制作半透明窗体 运行时改变控件大小的两种方法-VB资料 运行中隐藏/显示窗口标题栏-VB资料 在ListBox适当设定水平滚动条的宽度-VB资料 在VB中利用API实现窗体的平滑显示 在vb中让控件大小和位置随着表单的大小成比例变化的方法 在VB中实现闪动标题栏 在VB中实现位图的透明放置 在VB中使用数据窗体设计器插件 在VB中制作单独程序封面的两种方法 在VB中制作透明按钮 在Visual Basic中如何拖动窗体或控件 在Visual Basic中显示动态运行进度 在菜单中加入图标 -VB资料 在程序中调用关闭Windows对话框-VB资料 在任务栏中显示无边框窗体的图标-VB资料 在系统菜单上添加自定义菜单项 -VB资料 在运行时动态生成多个相同的控件?-VB资料 在最小化状态时提供提示 -VB资料 暂时禁止窗口更新-VB资料 VB怎样得到文本框(TextBox)中的文本行数? 制造出透明的Form -VB资料 VB制作半透明窗体和形状不规则的窗体 VB制作方向按钮 <<VC技术内幕(第四版)>>中应用程序框架示例的程序要怎样才能运行? Win2K的远程访问出现身份验证问题 关于TMediaPlayer缩放,请您赐教 如何显示一个库中所有的表以及显示一个表的结构 能不能使自己画的一个图形,响应鼠标事件? 如何取得数据库某字段中从未出现过的、而且还是最小的数字呢? 关于终端服务器的打印问题!!!!在线等,解决立即给分 怎样才可以在WIN2000下隐藏你的程序 急,请问把一个控件上的内容拖到LISTVIEW1上时,在LISTVIEW1上的一个ITEM上释放,此时如何获得ITEM的caption??? .pdg 类型文件怎么打开? 大家不妨说说二层应用程序转向三层应用的一些经验以及注意事项 为何看不到网络邻居上其它计算机的共享文件夹? 请问大家这种数据表怎样设计最好??? 用listbox绑定数据库的某个字段后,如何通过点击取得相应的值 dbgrid中的mousedown事件怎么触发不了 系统日志的错误信息,谁给分析一下?分不够还可以加 tell me why??有关jdbc for sqlserver VC录音问题 内存分配问题! 我安装上.net后,运行一个asp.net程序,可是出现了下载index.aspx文件的对话框? 菜单总被下拉列表框盖住的问题? 有谁知道Base64编码的规定?十万火急!!! 如何用Filter来过滤时间呢!!! 菜单总被下拉列表框盖住的问题? 一个带变量的JS语句 如何使用jBrokerWeb来做Java Web Service win95下的DLL注册的问题。。。?????? 急!急!关于<form runat=server>的@@@@@ 请进~~~~~~~~~~~~~~(急。。。答出者高分相送) 一个AnsiString 和内存的问题。 极为特殊linux的组网问题!!! 大家都来看看这是为什么? 菜单总被下拉列表框盖住的问题? 请教:如何使用windows定义的打印机打印文件 我安装上.net后,运行一个asp.net程序,可是出现了下载index.aspx文件的对话框? 怎样读文件和写文件?3Q!! 有湖北宜昌去TOP面试了的吗? 火速求助 关于终端服务器的打印问题!!!!在线等,解决立即给分 jbuilder7+WebLogic7 的配置,各位帮忙看一下,急,在线等。 ATL组件注册问题,请指教,不胜感激 新手愚问:为什么我Tquery检索数据库中的数据时,它弹出“××is not a valid component name ”.其中××是所检索出来的值。 弹出确定后 我怎么通过系统存储过程改变用户权限? ATL组件注册问题,请指教,不胜感激 请问那有《UltraDev 4 JSP/XML 高级实例教程》下载? Delphi的Form或Frame问题 如何判断一个数组是否定义。 一个简单的关于类的问题? java.awt.Font字符与操作系统有关吗? 怎样写这个RegularExpression? 关于登录的两个问题,困扰了我很久,所以请教大家。 一件小事初中作文,要求开头结尾要美可以提高悬赏 浅谈如何提高思想品德课堂教学的实效性 文章是怎样描绘紫藤萝瀑布的 描写诸葛亮的成语谁知道啊, 海伦凯勒写作的特点 课文《紫藤萝瀑布》六段依次写了( )和( ) 作文一件小事的开头,今晚就要 1000字爆笑文章 我在海边倾听浪花拍打礁石的声音展开想象 谁能帮我写一篇关于秋的文章,急用!600字左右就行了, 重阳节到了你想对爷爷奶奶说些什么?用一种修辞方法写一段话 赞美老师的作文 标题小学水平,尽量有点诗意,急用! 我要一篇写秋的文章(急)600-700字,半小时之内追加50分~ 重阳节快到了,小英想和同学们一起做几个中国结送给福利院的爷爷奶奶.做一个要用四分之三彩绳,小英想做6个,至少要准备彩绳多少米? 初一课文《紫藤萝瀑布》的最后一段有什么深刻的含义? 求英语作文一篇(题材不限,字数不限), 求文档:赠刘景文古诗每一句话的意思 我为爷爷奶奶过重阳的作文大全四百个字以上 隆中对中诸葛亮为刘备提出了怎样的战略方针 古诗 赠刘景文、山行的意思 隆中对诸葛亮为刘备策划的政治目标是什么 联合国的意思是什么只要意思 那件小事激励着我 作文 小学六年级上册第三单元作文主题:互相关爱 我要在山的那一边课文的读后感 作文:那件小事激励这我!记叙文,请不要去复制粘贴!不用写太好 500字左右.要新的没怎么分了 六年级上册语文第三单元作文,写一件体现人们向互关爱,相互关心的事情.求回答! 求一篇关于 秋天 的作文! 那件小事激励了我 作文600字左右,不要太好的 我要写篇作文`...以`..理发..或者打针...或者买鞋为关键词写一片记叙文`...600字左右`..大锅们谢谢啦`... 在山的那一边本文讲了什么?表达了作者什么样的感情? 托福和雅思的作文区别在哪? 500字作文(随便什么题目都可以) 作文:那件小事激励了我写的是散文,写了三件事,三件事都写了激励,可以吗,非要像记叙文那样写一件小事 里为什么说是“怀着一种隐秘的想望” 随便题材的作文(500字)今天就要,字数看着差不多500字就可以, 谁给我写个作文叫《那件小事激励着我》, 在山的那边 作者为什么对山的那边怀着一种隐秘的想望 围绕爸爸妈妈爷爷奶奶的行为对自己各方面的影响写一篇800字的作文有好有坏。 从百草园到三味书屋中先生的特点快 在山的那边 隐秘的向往指的是什么 为什么说是隐秘的 作文:慰问敬老院里的爷爷.奶奶的演讲稿怎么写? 用自己的语言说一说诗的意思什么时候我还托着腮帮仰望父亲脸上岁月碾过的道道车辙 冥想着 时光的马车呼啸而至 满载着我一个个天真的梦想 什么时候我还趴在母亲的膝旁耳边的故事像山 作文:九九重阳节,浓浓敬老情 我为---------(爷爷,奶奶)做点事是爷爷,奶奶等 更多老年人! 帮忙写一篇800字的作文,关于亲情,和爷爷奶奶的,素材也行 诗中"雨"说了什么话?这些话集中表达了什么意思?注意有俩个问 《在山的那边》:“隐秘的想望”中的“想望”是什麽意思 《我的梦.中国梦》观后感 古诗词比赛的题目我们班要弄古诗词知识竞赛,请大家帮我出十个以上的题目,感激不尽~ 《校园重阳》 作文咋写急 英语创新作文大赛是否值得参加第十一届,我英语成绩不是非常优秀,但也还可以.老师鼓励我们参加,说对以后自主招生有用,想问各位用处多大?心疼200啊啊.并且会不会和竞赛冲突?我安徽的,.好 用简洁易懂的语言说出下列古诗的意思.七步诗 鸟鸣涧 芙蓉楼送辛渐 江畔独步寻花 桃花心木(林清玄)句子理解1、如果无法在这种不确定中汲水生长,树苗自然就枯萎了.2、在不确定中找到水源,拼命扎根的树,长成百年大树就不成问题了. 今年全国创新英语作文大赛什么时候报名通过什么渠道报名?具体时间是什么呢? 《宿建德江》 用简要语言说说全诗所表达的意思宿建德江 移舟泊烟渚,日暮客愁新.野旷天低树,江清月近人. 桃花心木不确定.这句话的理解快啊!不确定中.....努力生长这句话的理解 紫藤萝瀑布主要写了什么? 一件小事作文的开头结尾怎么写? 有关诸葛亮成语 紫藤萝瀑布 文章从哪几个方面描写紫藤树
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘