说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

大数据基准测试专题论坛:基准测试是一把尚未完成的尺子

HTML文档下载 WORD文档下载 PDF文档下载
在2013BDTC上,来自Cisco、俄亥俄州立大学、中科院计算所、西北工业大学、 清华大学、中国人民大学、 华东师范大学的专家们分享了自己这一年在大数据领域的实践结果。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会——2013中国大数据技术大会(Big DataTechnology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。


图:中国人民大学信息学院院长、教授 杜小勇

在12月6日上午进行的大数据基准测试主题论坛中,中科院计算所研究员、博士生导师詹剑锋和中国人民大学信息学院院长、教授杜小勇担任主持。TPC联合主席、Cisco高级工程师Raghu Nambiar,IEEEFellow、俄亥俄州立大学计算机与工程系教授Dhabaleswar K.Panda,中科院计算所研究员、博士生导师詹剑锋,中国人民大学副教授陈跃国,华东师范大学教授钱卫宁针对大数据基准的制定标准分享了他们的经验。

TPC联合主席、Cisco高级工程师Raghu Nambiar:工业大数据基准的过去、现在和未来


图:TPC联合主席、Cisco高级工程师 Raghu Nambiar

Raghu Nambiar具体介绍了合成式基准、应用式基准和产业基准。在谈到产业基准时,他认为,在过去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展。买方可能要选择购买一种系统的同时也会考虑别的系统,所以对他们来讲,良性的竞争是十分重要的。在谈到大数据正在如何改变世界的时候,Raghu列举了四个角度:

  • 在所有垂直行业的IT生态中,大数据扮演的角色的作用正在逐渐完整;
  • 大数据是政府和研究机构谈论最多的话题之一;
  • 大数据的面临的挑战可以总结成5V:Volume(数据量),Velocity(速度),Varity(种类), Value(价值), Veracity(精确);
  • 大数据正在成为3I的核心:Investments(投资), Innovation(创新),Improvization(无固定搭配)。

俄亥俄州立大学教授Dhabaleswar K.Panda:社交网络技术和基准对于Hadoop的冲击


图:IEEE Fellow、俄亥俄州立大学计算机与工程系教授 Dhabaleswar K.Panda

Dhabaleswar K.Panda介绍了社交网络技术和基准对于Hadoop的冲击。同时还单独介绍了RDMA,既远程DMA,它可以把数据直接推到存储器,无需接受器,不用等待适配器,这也是RDMA中非常重要的部分。在提到大数据的未来,他提出了三个期望:

  • 在高层的设计改变问题仍然继续解决;
  • 加速器在大数据中的作用会带来额外的影响;
  • 为了更快速地做出扩展性更高的分析,设计阶段中要更多考虑流行的集群和Hadoop的中间设备。

中科院计算所研究员,博士生导师詹剑锋:系统和体系结构的大数据基准测试程序


图:中科院计算所研究员,博士生导师 詹剑锋

詹剑锋与大家分享了面向系统和体系结构的大数据基准测试程序的经验。他认为,大数据依赖于内存访问,成本的问题很重要。关于TPC,他总结到,TPC现在一半是技术,一半是政治。詹剑锋作为项目发起人在6个月之前进行的Benchmarking,初衷是为了将各种各样的英文术语进行统一。

西北工业大学副教授张晓:大数据存储与访问测试基准


图:西北工业大学副教授 张晓

张晓介绍了海量大数据从产生到大变革和面对变革所要具备的存储和管理方法。他认为,大数据在产生、保存、访问时都对存储系统有较高的要求,这其中包括了高并发、高吞吐量的聚合访问带宽以及高可扩展性。张晓还从四个方面介绍了他们的评测体系构成:

  • 评测指标:建立反映海量存储系统特性的,全面的评测指标;
  • 评测方法:根据指标的定义,确定采用何种方法对存储系统进行测试。包括通用和特有的评测方法;
  • 评测工具:采用国际通用或自行开发的工具进行评测,开发各自的评测工具;
  • 应用场景:包括trace采集结果,IO负载模型,故障和可管理事件模型。

清华大学教授、软件学院副院长王建民:工业大数据测试基准初探


图:清华大学教授、软件学院副院长 王建民

王建民介绍了工业大数据的特点、相应的测试基准并分享了自主研发的测试框架及实践结果。他指出,世界上95%的工业产品已经饱和,200多种工业产品是中国第一。在总结工业大数据的未来时,王建民提到:

  • 工业大数据有它独特的特点,需要具体到每一个问题中;
  • 工业大数据需要低成本的方案;
  • 作为制造业大国,中国应该更多地关注工业大数据。

中国人民大学副教授陈跃国:SQL-on-Hadoop系统的性能测试及比较研究


图:中国人民大学副教授 陈跃国

陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析应用的局限性。近期,陈跃国进行了一次大规模的测试,利用人民大学的云平台,使用50台物理机,虚拟出了100个节点,并用使用TPC-DS生成不同规模的关系型数据,测试了开源大数据分析系统。通过这次测试,他们得出的结论如下:

  • 列存储一般对查询性能提升明显,尤其大表是一个包含很多列的表;
  • 绕开MR计算模型,省去中间结果的持久化和MR任务调度的延迟,会带来性能提升;
  • 使用MPP数据库技术对连接查询有帮助;
  • 充分利用缓存的系统在内存充足的情况下性能优势明显;
  • 数据倾斜会严重影响一些系统的性能。

华东师范大学教授钱卫宁:在线社交媒体分析型查询基准评测初探


图:华东师范大学教授 钱卫宁

钱卫宁从基准评测架构、数据生成、负载生成、度量定义等不同角度介绍了名为BSMA的在线社交媒体分析型查询基准评测,并展示、分析了社交媒体数据分析处理在时间线查询、社交网络查询等方面的挑战。对于社交媒体上的分析型查询处理挑战,钱卫宁总结出以下几点:

  • 社交网络查询耗时、耗内存;
  • 数据分布偏斜,不同参数造成截然不同的查询性能;
  • 绕开MR计算模型,省去中间结果的持久化和MR任务调度的延迟,会带来性能提升。但是,这种优势随着数据量增加和查询变复杂而减弱。

嘀嘀打车发展报告:成全球最大出租车调度平台 又摊上事儿了,Android的MasterKey再次出现bug 比特币挖矿必备工具 硬件性能大比拼 RDBMS vs. NoSQL:反派为什么会得以存活并发展壮大 帮助优化移动网站:谷歌发布新指南和PageSpeed Insights工具 增强Web可用性,你需要避免的七大设计错误 Python六大开源框架对比:Web2py略胜一筹 海外看中国:老外开发者间流传着的7件事儿 京东云峰:电商移动云平台背后的技术 初创公司DigitalOcean:55秒搭建一个云服务器 分布式系统事务原子性的非阻塞实现 IBM发布基于人脑特性设计的全新计算架构和编程语言 16款加速编码的HTML5在线工具 JFrog:开源项目的最大挑战是文档和许可 5个技巧打造完美用户体验,不到两年完成用户万到千万的增长 CDN未来的机遇和挑战 华为S12700全可编程交换机进一步挑战思科 OpenFient创始人:将平台创新进行到底 专访Ubisoft手游团队:“波斯王子”的时光机器 技术大牛Jiva DeVoe:App Store往事追忆录 移动周报:苹果iOS开发者中8位公认的“女神” Paul Graham:创业者如何说服投资人? 【CTO俱乐部深圳站】企业大数据建设案例分享 Gmail新设计影响邮件营销 Fcaebook间接获利 百度高德小米网易杭研讲师登场 SDCC 2013第二批议题发布(图) [开源推荐]JS-Git:一款纯JavaScript实现的Git项目 良心企业Lavabit、Slient Mail相继关闭,美国云安全已死? 一周观察:LXC真的是PaaS的未来吗? [企业开源系列]Google背后的开源力量 合作: “云”潮中淘金的金钥匙 Windows 8.1尚未发布 Build 9471版遭泄露网爆高清大图 哪有jsp写的论坛源程序 大家给个思路了!!! 如何传递两个参数!在线等! 小弟在开发一个软件时踫到了许多问题,想请各位大侠帮助!! 请问:如何从VARIANT类型的数组中取数据? TOMCAT+SQLSERVER连接池配置问题~高分请教 这个问题让我有点晕!——安装与部署项目! 空调有坏了!!!! 安装论坛过程中遇到的问题!!!!!! 关于使用TC35Modem发送短信的问题,用超级终端可以,用N多个程序连接端口都不行。 "native code outside the VM"是什么错误呀 win2000 VPN方式的网络的实现。 datagrid控件的数据绑定问题. 请高手教我如何搭redflag linux下JAVA开发环境,急,另给分 如何删除一个字符串的前10个字符? 资料档案库是用来干嘛的? 用EJB做后台的参数传递。高分请教! 在ASP中对数据库操作是否可以用事务提交啊? TOMCAT+SQLSERVER连接池配置问题~~高分请教~ 请教!!!如何在IntraWeb控制IE? 如何远程对局域网内的某一台计算机(假设其计算机名为comm1)实施关机操作? 为什么连不上CVS服务器? 如何用ASP读取XML中节点的属性值? 如何使用jspsmartupload 一个简单问题请进来look一下 我所知道的论坛常用语,自己以为算得上的可以往上加啊! 如何自画窗体或者PANEL,让小图象在上面排列,然后再根据顺序,一次改变小图象呢? asp.net 上传图片问题? xml中怎么取得这个值呀? 请大家给介绍一本学VC++.NET的书!谢谢 有谁用过solpartwebcontrols.dll控件来建立菜单的,请进! pcanywhere联机方式 高手请进,关于MFC的消息映射。 问一个可能是低级的问题:嵌在网页中的Windows Control能不能打印 请教:我用一个COMBOBOX作为存放表字段名,如何SELECT搜索满足条件 “三个代表”具体是指什么,希望各位JJGGMM帮忙解释一下了,谢谢!(90度鞠躬!!!!~~) 如何将装入到graphi字段的图片压缩?? 看过windows程序设计的朋友请进来 asp调用存储过程问题请教!!!!急!!!! IIS不能使用了该怎么解决? 请教C#问题(1)?? Oracle Intermedia Text支不支持中文的模糊查询 我是ORACLE菜鸟,现有一SQL语句(SQL Server语法),想转换成ORACLE语法,请指点 数据库连接问题??????????? 大虾,请看这里看看? vb中字符串中怎么输入双引号(")或单引号(')? 大家帮忙看看为什么这段代码不工作? ████ 这个帖子骂人,请斑竹秉公处理!!!!!!!████ 怎么样让时间加一个差值; 15, 许嵩的惊鸿一面, goat的意思 许嵩的《惊鸿一面》歌词意境希望能有人好好的表达下,总体意境及每句歌词的意境, goat什么意思 goat是什么意思 网球goat是什么意思? get a 怎样用量筒,水和待测液体,一个密度比水和待测物体小的物体.测出待测液体的密度?是密度比水和待测液体小的物体,请尽快回答. 焓(H)是系统能以热的方式与环境交换的能量. 由两种温度相同的纯液体混合成理想溶液时,无热效应产生.根据△S=Q/T可知,混合熵为零. 专家:消费升级人口基数大 中国车市仍美国北卡州狂欢活动发生意外事故 致5欧盟主席谈隐私 被称暗示美国搞监视是挪威拒绝美国请求 将不接收销毁叙利亚克里叹美政府关门损形象 他国外交官欲德一男子拒绝受审持枪劫持12名亲友终第二届全国茶艺职业技能竞赛在浙江武义吉尔吉斯斯坦:秋至伊塞克湖【高清组图粉丝自制任天堂智能手机惊现网络澳大利亚最老双胞胎长寿秘诀:不与坏男吉尔吉斯斯坦:探访美丽而濒危的猫科动辽宁城市低保平均标准将提高到517元上海金山:沪浙警方联勤协作 来沪车辆右手残疾又无证 车辆脱审被查获史无前例!英超末轮十连发 免费直播一土耳其东南部冲突致8名士兵死亡美俄就反导系统再起争端 各执一词关系重庆警方捣毁网上传销组织 3400余学者:蔡英文模糊回应甚至公然抗拒“九“有进球送电视”激励中超本土球员日本心烦:惧反华联盟被杜特蒂和马英九四川遂宁一男子小区引爆爆炸物致5人伤
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘