说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

大数据基准测试专题论坛:基准测试是一把尚未完成的尺子

HTML文档下载 WORD文档下载 PDF文档下载
在2013BDTC上,来自Cisco、俄亥俄州立大学、中科院计算所、西北工业大学、 清华大学、中国人民大学、 华东师范大学的专家们分享了自己这一年在大数据领域的实践结果。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会——2013中国大数据技术大会(Big DataTechnology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。


图:中国人民大学信息学院院长、教授 杜小勇

在12月6日上午进行的大数据基准测试主题论坛中,中科院计算所研究员、博士生导师詹剑锋和中国人民大学信息学院院长、教授杜小勇担任主持。TPC联合主席、Cisco高级工程师Raghu Nambiar,IEEEFellow、俄亥俄州立大学计算机与工程系教授Dhabaleswar K.Panda,中科院计算所研究员、博士生导师詹剑锋,中国人民大学副教授陈跃国,华东师范大学教授钱卫宁针对大数据基准的制定标准分享了他们的经验。

TPC联合主席、Cisco高级工程师Raghu Nambiar:工业大数据基准的过去、现在和未来


图:TPC联合主席、Cisco高级工程师 Raghu Nambiar

Raghu Nambiar具体介绍了合成式基准、应用式基准和产业基准。在谈到产业基准时,他认为,在过去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展。买方可能要选择购买一种系统的同时也会考虑别的系统,所以对他们来讲,良性的竞争是十分重要的。在谈到大数据正在如何改变世界的时候,Raghu列举了四个角度:

  • 在所有垂直行业的IT生态中,大数据扮演的角色的作用正在逐渐完整;
  • 大数据是政府和研究机构谈论最多的话题之一;
  • 大数据的面临的挑战可以总结成5V:Volume(数据量),Velocity(速度),Varity(种类), Value(价值), Veracity(精确);
  • 大数据正在成为3I的核心:Investments(投资), Innovation(创新),Improvization(无固定搭配)。

俄亥俄州立大学教授Dhabaleswar K.Panda:社交网络技术和基准对于Hadoop的冲击


图:IEEE Fellow、俄亥俄州立大学计算机与工程系教授 Dhabaleswar K.Panda

Dhabaleswar K.Panda介绍了社交网络技术和基准对于Hadoop的冲击。同时还单独介绍了RDMA,既远程DMA,它可以把数据直接推到存储器,无需接受器,不用等待适配器,这也是RDMA中非常重要的部分。在提到大数据的未来,他提出了三个期望:

  • 在高层的设计改变问题仍然继续解决;
  • 加速器在大数据中的作用会带来额外的影响;
  • 为了更快速地做出扩展性更高的分析,设计阶段中要更多考虑流行的集群和Hadoop的中间设备。

中科院计算所研究员,博士生导师詹剑锋:系统和体系结构的大数据基准测试程序


图:中科院计算所研究员,博士生导师 詹剑锋

詹剑锋与大家分享了面向系统和体系结构的大数据基准测试程序的经验。他认为,大数据依赖于内存访问,成本的问题很重要。关于TPC,他总结到,TPC现在一半是技术,一半是政治。詹剑锋作为项目发起人在6个月之前进行的Benchmarking,初衷是为了将各种各样的英文术语进行统一。

西北工业大学副教授张晓:大数据存储与访问测试基准


图:西北工业大学副教授 张晓

张晓介绍了海量大数据从产生到大变革和面对变革所要具备的存储和管理方法。他认为,大数据在产生、保存、访问时都对存储系统有较高的要求,这其中包括了高并发、高吞吐量的聚合访问带宽以及高可扩展性。张晓还从四个方面介绍了他们的评测体系构成:

  • 评测指标:建立反映海量存储系统特性的,全面的评测指标;
  • 评测方法:根据指标的定义,确定采用何种方法对存储系统进行测试。包括通用和特有的评测方法;
  • 评测工具:采用国际通用或自行开发的工具进行评测,开发各自的评测工具;
  • 应用场景:包括trace采集结果,IO负载模型,故障和可管理事件模型。

清华大学教授、软件学院副院长王建民:工业大数据测试基准初探


图:清华大学教授、软件学院副院长 王建民

王建民介绍了工业大数据的特点、相应的测试基准并分享了自主研发的测试框架及实践结果。他指出,世界上95%的工业产品已经饱和,200多种工业产品是中国第一。在总结工业大数据的未来时,王建民提到:

  • 工业大数据有它独特的特点,需要具体到每一个问题中;
  • 工业大数据需要低成本的方案;
  • 作为制造业大国,中国应该更多地关注工业大数据。

中国人民大学副教授陈跃国:SQL-on-Hadoop系统的性能测试及比较研究


图:中国人民大学副教授 陈跃国

陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析应用的局限性。近期,陈跃国进行了一次大规模的测试,利用人民大学的云平台,使用50台物理机,虚拟出了100个节点,并用使用TPC-DS生成不同规模的关系型数据,测试了开源大数据分析系统。通过这次测试,他们得出的结论如下:

  • 列存储一般对查询性能提升明显,尤其大表是一个包含很多列的表;
  • 绕开MR计算模型,省去中间结果的持久化和MR任务调度的延迟,会带来性能提升;
  • 使用MPP数据库技术对连接查询有帮助;
  • 充分利用缓存的系统在内存充足的情况下性能优势明显;
  • 数据倾斜会严重影响一些系统的性能。

华东师范大学教授钱卫宁:在线社交媒体分析型查询基准评测初探


图:华东师范大学教授 钱卫宁

钱卫宁从基准评测架构、数据生成、负载生成、度量定义等不同角度介绍了名为BSMA的在线社交媒体分析型查询基准评测,并展示、分析了社交媒体数据分析处理在时间线查询、社交网络查询等方面的挑战。对于社交媒体上的分析型查询处理挑战,钱卫宁总结出以下几点:

  • 社交网络查询耗时、耗内存;
  • 数据分布偏斜,不同参数造成截然不同的查询性能;
  • 绕开MR计算模型,省去中间结果的持久化和MR任务调度的延迟,会带来性能提升。但是,这种优势随着数据量增加和查询变复杂而减弱。

阻碍创新:谷歌、Facebook请求驳回抽象专利概念 Apple专利战分析:战火不停 创新不止 史上最牛独立开发者:花20美元狂赚100万美元 Twitter VS. Instagram:照片分享大战爆发 第二届“龙芯杯”中国开源软件设计大赛圆满落幕 TUP Masters第六期实录:Jeffrey Richter讲解Win8应用开发与.NET4.5 [简讯]Bootstrap 2.2.2发布 官博宣布新特性 我们正处于API的黄金时代吗? 敏捷开发的26条至理名言 12月10日:1815年首位程序员Augusta Ada出生 TOP30+应用排行榜:十一月国内外综合榜单 抱大腿:Square礼品卡服务进驻Passbook 科技创新剑指开源产业 “龙芯杯”破题自主研发 25GPU的Linux集群6小时内破解标准Windows密码 Lady Gaga与大数据的“火花” 手势才是王道:3款应用捕获3个设计灵感 YouTube的挑战者 JustinTV教你如何打造实时视频网站 黑客挟持160万用户密码 抗议联合国监管互联网 Twitter面对危机火速上线照片滤镜产品 Nike推创业孵化器:每个参与团队获2万美金 傲游发布云浏览器 支持跨终端数据同步 12个git实战建议和技巧 用友UAP产品线总设计师史周军访谈录 IE10新功能解析 支持Media Query(图) 单页Web应用或引领下一代Web新趋势? [CTO俱乐部第89期]新时代的前端开发 [多图]160台Mac mini打造的数据中心机架 是谁动了我的CPU! 欧朋CEO:GPU加速是手机浏览器的新趋势 TOP30专访:Splashtop研发中心总经理Alex Xu 2012Q3国内App开发者半数以上入不敷出 ********杨家将请进********** 求救!!为什么我一打开windows就出现说缺少dll文件,storm.dll,还有load.exe.是为什么呀? 请大虾出手:MFC的DLL工程, 我实现了把一个dll工程的menu装载到我的主工程,但与其对应的ToolBar怎么调出来呢??我很着急! 在mdi表單中調用設為最大化的子表單時,它首先顯示小的子表單,然后才把它最大化,影響美觀,有何辦法解決? 关于在菜单中陷入文本框 20分求助有关SQL数据库的问题(为什么select...into语句无法执行) 哪有里Crystal Reports可以下载(无内容)? Where the 广东外贸外语学院 关于ODBC客户机端配置的问题 谁能给我一个delphi连接access数据库的实例,小弟万分感谢!!!!!!!!!!!!! 我机器里,98,2000装在C盘,XP装在D盘,现在我想只留下XP,不知道该怎么处理???????????????????????????? 如何实现5M以上的文件的上传 从windows进入unix Oracle 中文输入 是否onkeypress和onkeydown不能同时使用呀? Delphi 5下要做一个多 Y 轴的曲线图形,如何实现? 哪有xteamlindows下载?? 万分感谢!!!!! borland 会不会出一个 C# Builder? 乱码,头大了,不知道为什么pb导入excel怎么办 数据统计问题,请大侠门帮忙!急急急!!! 求解ZModem通讯协议源程序----有谁用过CZModemCore 我也不知道对不对! 最高级的问题?搞一个专业的VC程序员基地~~~~~~ 在研究directshow filter的push模式的兄弟请进 800分+工资管理原代码,如何解决ActiveReports打印图片的一个很难题;否则我快下岗了 有两个问题,每题40分,马上给分!!!! 如何使用打印机? 在爱情方面谁能做到这一点? 谁有 file cutter v1.4的注册码? 有急用! 搞一个专业的VC程序员基地~~~~~~谁愿意加入????? 最新发现:原来C++Bilder的项目文件(.bpr)是XML格式的! 关于FAT32和NTSF的问题 如何用VC实现Email的发送? 800分+工资管理原代码,如何解决ActiveReports打印图片的一个很难题;否则我快下岗了! 搞一个专业的VC程序员基地~~~~~~需要网页制作高手!! ADO 的用法 m_pRecordset->Fields->GetItem(index)->GetName() 关于CRichEditCtrl的问题之二,取的当前可见行数? 请问在哪里下载IMAIL SERVER???各位帮帮忙!!! 高手请回答,ADO和BDE到底有什么区别,你选择谁?为什么? 高分求教!!!!!!!!!!!!!!!!怎样得到局域网上所有的机器名?(普通WINDOWS网络,用VB?,好象用WNET API可以的) 如何安装com.ibm.bridge2java.*这个包阿? 有人吗???求救! 你也许也会遇到这样的问题? 800分+工资管理原代码,如何解决ActiveReports打印图片的一个很难题!!! 大虾看过来. 一个access表一万条记录,想转到Mysql下(Mysql在Linux下)用什么方法和什么语言来做好? rs.CursorLocation=aduseclient是什么东西? 800分+工资管理原代码,如何解决ActiveReports打印图片的一个很难题! 简单SQL,免费送分! 用ASP如何上传文件,可以用组件。 历史是什么,它看不见摸不着 0.8吨等于几千克? 在比例尺为1:4000000的地图上A、B两地的距离是5厘米在比例尺为1;4000000的地图上A\、B两地距离5㎝同时从A、B两地相向开出一辆汽车每时行35㎞另一辆汽车每时行45㎞,找这样的速度,两辆车几时才 瓦楞纸板耐破强度得到的KPa怎么转化为磅,边压得到结果KPa怎么转换为磅/英寸 0.01吨等于几千克快来帮帮我 KPa和KN怎么算 海拔三千米是什么意思 0.433吨等于几千克? KPa和KN的换算 一个人从空中三千米的高度掉到海里 身体正面接触海水 接触的瞬间会不会将人拍死《平面掉下来》 MPa 与 kPa 或 Pa 之间换算? KN换算吨 上帝你在哪里?可是,我看不见你! 用一段话写猫睡觉的样子! 填空 一根绳子第一次用去20%,第二次用余下的20%,两次相差2m.这根绳原来的长( )米.一根绳子第一次用去20%,第二次用余下的20%,两次相差2m.这根绳原来的长( )米. 因为天气不好我们看不见下面的东西 猫怎样睡作文 一根绳子第一次剪去全长的30%第二次剪去余下的20%剪了两次还剩下全长的百分之几 一根10米长的绳子,第一次剪去它的一半,第二次减去剩下的1/3,第三次减去剩下的1/4,如此继续下去,第五次剪后,剩下的绳子长多少米? 配制药水9009千克,如果按1克药粉加8千克水来计算,共需要多少千克药粉? 一根绳子第一次用去了20%,第二次又用去了余下的20%,两次相差2米,这根绳原来的长是多少米? 19.5KN换算成kgf是多少? kPa是什么含义是压强,还是压力 一根绳子第一次用去20%.第二次用去25% 两次相差2米.这根绳原来长多少米 有一个绳子10米长,第一次减去一半,第二次减去剩下的一半,剪7次后,剩下多少米 硬度衡量单位KPa,与压力单位kpa是相同的物理意义吗? 在比例尺为1比6000000的地图上,量得南京到北京的距离是15厘米,南京到北京的实际距离大约是多少千米?南京长江大桥全长6700米,如果画在比例尺是100000分之1的地图上,应画多少厘米? 青海玉数海拔三千米缺氧嘛? 在比例尺是1:4000000的地图上量得甲乙两地之间的距离为20厘米两列火车同时从甲乙两地相对开出,甲每小时行55千米,乙车每小时行45千米,几小时两车相距100千米? 在比例尺1:6000000的地图上,量出南京到北京的直线距离是15厘米.一架飞机以每小时900千米的速度飞往北京,几个小时可到达? 在比例尺是1:6000000的地图上,量得南京到北京的距离是15cm.南京到北京的实际距离大约是多少米? 在比例尺是1:4000000的地图上,量得甲、乙两地相距20厘米,实际多少米? K=A的纸箱耐破数据是35.86kgf 纸皮受力面积是50.0cm2,施压面积是3.0cm2 请问如何转换成 lbs/in2 如果我是要转换成kgf/cm2 是不是:35.86/3=11.95kgf/cm2 小明对小红说能用掉一生三分之一时间的东西是什么 1mm²与m²的换算单位 纸箱抗爆破力150LBS-200LBSLBS是什么意思? 大家都在追求什么?世界上什么东西最值得我们花一生时间去追求呢? mW/cm²怎么换算成W/m² K=K 纸箱耐破强度=150LBS/IN 是否标准太低 正确的耐破强度事多少? 人的一生是短暂的,决不能白白把生命浪费掉 这句话对应的名言是什么? ψm与mm单位之间的换算关系 动物一生都要经历哪些时期 真空能不能以绝对压力(绝压,PSIA)为单位?如果不能,下图标出的部分是什么意思? 十斤铁和十公斤棉花哪个重? 动物的一生都要经历 等生长时期 为这么压力传感器的标称值是psia,而psia是压强单位!我想知道传感器的测量范围这么求! 10斤棉花和10斤铁 哪个重 居然有人说一样重 棉花怎么可能比铁重 没常识 动物一生要经历过哪些变化?可以多选什么都行 畦是什么意思?是个单位吗 十斤棉花,和十斤铁那个要重? 不同动物的一生所经历的生命周期一样吗?急 第一次准备去海拔5000米的高原地区,都要注意哪些问题?三月中旬就出发,而且现在还有点感冒! 10斤棉花和10斤铁哪个重? 动物的一生都要经历( )、()、()、( )等生长时期.这些生长时期构成了动物的( )动物的一生都要经历( )、( )、( )、( )等生长时期.这些生长时期构成了动物的( ) 什么东西对于人来说看不见摸不着但很重要? 浪费掉人生三分之一时间的会是什么东西? 10公斤棉花和10斤铁哪个重?我就被难住了 什么东西看不见却摸不到? 在比例尺是4000000分之1的地图上,量的甲乙两地的距离是15cm,一辆汽车以每小时60千米的速度从甲乙两地开要几小时(用比例) 在比例尺是1:4000000的地图上,量得A,B两地的距离是20厘米.在比例尺是1:4000000的地图上,量得A,B两地的距离是20厘米.一辆汽车以每小时80千米的速度从A地到B地,几小时可以到达?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn