说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

专访POWER 8编程挑战赛选手吴亮:集众家之长, 激发算法性能极限

HTML文档下载 WORD文档下载 PDF文档下载
“2014 POWER8极限性能挑战赛”第一期正在火热进行中,目前已有数百名开发者报名参赛。为了让更多的开发者了解大赛进展,日前,我们专访了其中一位参赛选手吴亮,希望通过他的经历,吸引更多技术达人参与到其中。


9月23日,IBM和CSDN联合宣布“2014 POWER8 极限性能挑战赛”正式启动。此次大赛主要面向广大CSDN注册开发者,大赛以云计算的方式为开发者提供了POWER8开发环境,开发者利用POWER8的特性,基于不同场景进行应用开发。此次大赛,不仅使更多的开发者充分利用了POWER8,也为开发者、技术达人提供一个展示自我的舞台。

正如大赛发布仪式上,IBM大中华区副总裁侯淼所言,之所以要支持这样一个大赛,目的就是希望吸引更多的开发者去开发一些新的算法,把整个POWER 8引擎的能力激活开来。

“U Can U Up”是这次挑战赛的口号,开发者可以通过登陆注册、申请资源、完成挑战,主办方最终根据各自的累积评分赢取礼品奖励。在比赛期间,主办方将定期公布挑战题目,采用月度赛制对参赛者进行排名评定。


第一期的挑战题目为“博客反垃圾”,具体任务为CSDN提供海量的博文数据,并按特定比率混入垃圾文章,参赛者需开发相应的系统将垃圾博文从中抽取出来。需要说明的是,大赛主要考察程序的是算法的正确率及处理速度,对开发语言、开发工具并不进行限定。

到目前为止,已经有数百名开发者报名并参加了此次大赛,为了让更多的开发者了解此次大赛的进展情况,日前,我们专访了其中一位参赛选手南京烽火通信公司研究员吴亮,希望通过他的参赛经历,吸引更多的技术达人参与到大赛之中。如果你看过他的回答后,还是感觉不过瘾,那么就赶快点击下面的链接,报名挑战吧!

立即报名:

http://reg.powerlinux.csdn.net/cview/reg/?project_id=973&identy_id=1011 

1. 可否介绍一下你的开发经历?目前,主要关注哪些技术领域?

吴亮:目前,我主要关注的是数据挖掘领域,其他相关领域,如云计算、数据库、数据结构、编程开发等,也略有了解。记得当初,我为了能够更快的实现算法逻辑,一口气就把《算法导论》全部看完了,这些经历也让我印象深刻。

2. 区分垃圾ID数据和正常ID数据的核心关键是什么?可否借此展开描述一下所设计算法的基本思路?

吴亮: 无论是区分什么事物,核心都是特征——各个事物,都有各自不同的特征。真正的问题是能将他们区分开来的特征是什么?又会在哪里体现出来?对此,我的答案是“主题”,垃圾博文的内容主题和正常博文的主体不同,所使用的词汇也将不同,通过分析这些不同点,可以有效区分正常数据和垃圾数据。

3. 这一算法设计思路,主要用到了什么计算模型?有无独特的创新亮点?

吴亮: 如果说分类的模型,最接近的是贝叶斯模型。贝叶斯的方法,是一种以动态模型为研究对象的时间序列预测方法。它做分析的模式是:先验信息+总体分布信息+样本信息→后验分布信息,这一过程中,不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。

至于创新点,我感觉没必要提,毕竟正确率还不到60%,就算创新也是创错了。

4. 相对于其他方式的设计,之所以选择这一模型,主要出于什么考虑?是否还有继续优化的可能?

吴亮: 在设计方案的时候,我只是考虑了正确率,在方法确定之后才去考虑的性能优化。在我开始做的时候其实没什么理由,就是直觉,我相信自己的直觉。当然,如果实在需要一个原因的话,我也可以现编一个,不过最终还靠的是直觉。

5. 基于这一思路的算法设计,能否充分发挥IBM Power8的并发计算优势?信心来自于哪里?

吴亮: 起初设计算法时,“并行”并不在我得考虑之内,但这个算法其实是可以并行化的,因为它不仅能对不同的博客进行打分,使得任务相互之间不造成影响;也能够充分发挥 Power 8的优势,激发它的极限性能。

6. 对于IBM Power 8,你最关注的技术要点是什么?能否谈谈对未来这一领域技术趋势的看法?

吴亮: 我对这块技术了解的并不多,所以不便多谈。其实,我们现在主要使用的是分布式计算、hadoop、hbase、hive等技术。

7. 对于多线程及并发编程技术的发展,你怎么看?你认为还有哪些可以改进的方面?

吴亮: 我感觉多线程这块技术,在数据量较少的时候可能会比分布式计算要强,不过,我很清楚,这是未来的趋势。

8. 参加这次算法挑战赛的感受如何?对这一活动有什么好的建议?

吴亮:非常感谢这次比赛,尽管在某些方面举办方准备的不够充分。不过随着赛程的进行,这些问题都已经很好的解决了。至于算法方面,我建议可以考虑博客本身特征之外的关联特征,或许可称之为“用户反馈”,就如同“协同过滤”一样,能避免很多诸如知识维护、特征提取等问题。还有,就是要有Boosting的思想,集众家之长——保持理性,不要幻想着一个算法解决所有问题。


参赛指南

一、具体的参赛方式及流程如下:

  1. 按特定比率混合了垃圾博文和正常博文,参赛者需要编写算法将垃圾博客的ID分离出来;
  2. 参赛者可以使用任意开发语言完成挑战;
  3. 数据源存放位置:根目录下blog文件夹。

二、评选标准主要有四个方面:

  • 漏判率越低越好;
  • 错判率越低越好;
  • 正确率越高越好;
  • 程序运行时间。

三、参赛选手测试完成之后,需要提交:

  1. 垃圾博客的ID;
  2. 源代码;
  3. 程序运行时间截图。


浅谈Hive vs. HBase 十款最新的JavaScript开发工具 JavaScript Promise启示录 百度携多位安全专家深入探讨安全人才快速培养机制 卡饭技术代表严佳:引入安全人才,企业应遵循S.L.E.E.P、S.T.A.R法则 百度资深研发工程师周晓波:平台+数据 百度培养安全人才的重要思路 代码审查是如何抹杀开发者积极性的? 事件分析平台EventHub开源 云计算智能交通行业论坛:李德毅院士谈智能车 多家知名企业分享应用实践 我伙呆!CRM生死对手微软及Salesforce或将联手 阿里巴巴曾鸣:数据时代来临 OpenStack企业应用之路技术培训:虚机迁移、HA、VDI、跨Hypervisor管理 云计算技术背后的那些天才程序员:KVM之父Avi Kivity 中国气象局联手阿里云:海量气象数据变“活数据” 浪潮首度公布“I2I计划” 全面接盘IBM X业务 一周消息树:Surface Pro 3想替代笔记本太难,微软正逐渐迷失方向 就是要赚钱!NativeX推自定义原生广告交易 继智能手机后的下一个战场:智能家居 鏖战云端——亚马逊的生存法则 如何保住公司的人才:创造良好的学习氛围 主宰全球的10大算法 专访Google数据科学家彭晨:大数据成为潮流走近各行各业! 强横Metal技术来袭,能否取代OpenGL? Swift横空出世,Xcode 6 Beta有了哪些新变化? 《近匠》GameMei:简单易用、快速开发商用游戏 Gartner:2014年一季度浪潮服务器出货量中国第一 【技术博客推荐】张安站:大数据时代下的商业存储 Amazon继续登顶IaaS魔力象限,榜眼是微软而非Google 友盟Q1移动互联网报告:解读三线城市移动互联网用户 智能生活 “视”不可挡——首届TCL杯HTML5智能电视开发大赛等你来挑战 Mobile First!开源HTML5游戏引擎Kiwi.js 1.0正式发布 急,NOTES与SQL SERVER的问题 asp实例 我的Access库文件原来大小是6.78M,我清空所有记录和减少很多记录时,为什么大小没改变? 关于delphi动态加载控件,在线 代人提问:请问.dcu文件是干什么的?如何才能生成该类型文件。 怎么响应Enabled属性 asp.net做网页,运行后,<asp;....></asp:...>字段仍然存在?? 请教VB高手们一个高难问题! 请问,存储过程在VC如何调用,用ADO,ODBC。 怎么实现这个SQL? 没事瞎问~~~黑客软件能走向海外吗?(比如扫描器,键盘记录器,木马等) windows protect --error ,我装不了系统啊 DbEdit里的数据用adoquery如何更新才好? 有没有办法调试存储过程? 我是个菜鸟,请教大家,VC++和C++ Builer的优点和缺点。 请问如何改变显示文本的颜色? delphi 6 的补丁包 浏览器为NS6时如何获取屏幕分辨率? 如何控制 ValueListEditor ?有一个Help这样写道: 各位斑竹请进来,紧急求救呀!!!!! 是否可以把用asa建的数据库转变为access? 在java中如何压缩和解压文件夹? 如何在运行期把最大化,最小化按钮灰掉!? 求一句广告词 请教一个毕业设计的问题,关于在c++buileder中OLe对象调用:怎么样把word中的表格导入到数据库 请问如果在首页中加入一个论坛的登陆对话框? 这样的IIS错误信息,是什么意思,怎么解决? 问一下,vb怎么连接数据库呀`~(access)有代码吧~~给分呀` 如何画箭头? C#进行嵌入式开发,方便吗? 她为什么看上我??! 如何用BCB从mp3文件中得到歌名,歌手名,唱片集,流派等! 各位知道有关于ORACLE系统管理实例方面的书籍吗? ADO访问access数据库,怎样编辑一条记录啊? 请教各位关于win2000默认共享的问题 喜欢德国队的进来,坚韧不拔的意志和不到最后一刻不放弃的精神!!!! 如何判断图像大小 com的参数传递问题 请问:如何将pb数据库中的表倒入vf数据库中???急!!!!!! 大家好,关于数据库的问题请,大家帮忙。 一个关于button的简单问题 有没有将图片设为桌面的api函数,若有怎样用?若没有,怎样实现该功能? 我在adotable中删除数据它老是报错:”键列信息在最后读取中改变“(急用) 如何将CString类型转换为int型? wyx病毒的所有症状表现、危害性、解决方法。 在线等待--100分(很简单的问题) 急急急!! 隐藏任务栏的问题 急急急 我配置的cgi为什么不能访问? 实在不知哪里有问题,csdn....,帮忙up一下好吗。50分捧送。 用热的快在电壶里烧水对电壶有害没?听说那样烧久了壶就不保温了 某同学在做电解水的实验时通电一段时间后,水的质量减少了2.7g(不考虑蒸发),理论上的H2和O2质量分别是多少 在金属活动顺序中H之后的金属都不和酸反应,那么硫酸铜、硝酸银怎么制作出来的?什么叫强氧化性的酸? 电壶烧水,一段时间后发现壶盖在跳动,这种现象中能是整样转化的? 苯酚钠溶液和通入二氧化碳成什么? 下列物质可以由相应的金属和稀酸发生置换反应而制得的是A cuso4 B alcl3(说明理下列物质可以由相应的金属和稀酸发生置换反应而制得的是A cuso4 B alcl3(说明理由,急…给好评呦) 电水壶不烧水时壶身与电座分开放好吗 一根铜导线和一根镍铬合金线.长短粗细都相同.把它们并联在电路里,通过哪根导线的电流大?为什么? 下列物质中,能直接用金属与稀酸反应制取的是A.Agcl B.Feso4C.Fecl3 D .Cuso4哪个正确呢,思路是怎样的,能告诉吗 电壶烧水把电能转化为()能1.2.热能 3.机械能 NaH是一种离子化合物,其中钠显+1价.NaH与水反应放出氢气.下列叙述错误的是A.NaH还原剂,水是氧化剂B.生成的另一种产物是氢氧化钠C.NaH的氧化产物是氢气D.水的氧化产物是氢气请问答案C正确吗, 如果利用金属与酸来制取FeCl3或CuSo4是否可以?为什么? 所有的原电池中是不是都是电解质溶液中的阴离子移向负极,阳离子移向正极? 从化学角度分析,甲醇有哪些特性?有什么通途? 马上就要!硫酸钾与氯化钡反应方程式 春雨的诗句15句 甲醇、丙醇是怎么命名的,就是说有什么特征,为什么这么叫还有甲酸,乙酸还有那个丙三醇, 求 硫酸钾与硝酸钡反应的方程式 电解水反应的化学方程式为 . 氢化锂是制作氢气的来源,反应化学式为LiH+H2O=LiOH+H2↑.计算80g氢化锂与足量水反应产生氢气质量 盐酸与硫酸钾反应方程式互滴法鉴别的......用互滴法鉴别是硫酸钾和盐酸 从电解水的化学方程式 金属氢化物可以快速与水反应制取氢气,如:氢化锂与水反应的化学方程式为LiH+H2O=LiOH+H2.若制取10克氢气,需要消耗多少克氢化锂? 细菌吸收紫外线最快的波长是 电解水的化学方程式 化学上利用氢化锂和水在常温下反应制取氢气同时生成氢氧化锂反应的化学式为LiH+H2O=LiOH+H2↑生成的氢氧化锂能和多少克质量分数为10%的稀盐酸恰好完全反应 水在直流电作用下分解成氢气和氧气属于化学性质还是化学变化 电解水的反应的化学方程式 苯酚,NaOH,CO2怎么反应?生成物好像是水杨酸钠反应式是什么?还有反应条件~ 水在直流电的作用下分解成氢气和氧气,此过程是将——能转化为——能. 采用紫外分光光度计法测定时如何选择分析波长 苯酚与过量的烧碱反应后通入二氧化碳,未出现沉淀的原因可能有哪些 b.在常温下,水可以变成水蒸气 c.水在直流电作用下能分解成氢气和氧气 哪个是化b.在常温下,水可以变成水蒸气c.水在直流电作用下能分解成氢气和氧气哪个是化学性质 ( )C2H6OH+( )O2---点燃---( )CO2+( )H2O 电解铜现在价格? 硼砂、硼酸属于什么行业 一句写春雨的诗句 电解铜价格多少一吨 硫酸铜溶液中提取硫酸铜粉末? 原电池里的盐桥里面的离子能移动到溶液中吗?同时溶液中的离子能通过盐桥吗?如果只是让离子集中在盐桥与溶液接触的部分使两边溶液保持电中性,那么突然拿掉盐桥后,盐桥里面的离子不就 电解铜现在什么价格 向苯酚里面滴加溴水会有沉淀生成吗? 电解质溶液在原电池中有什么用?书上说“原电池一定要形成闭合回路”,我不明白“闭合回路”是什么意思?参考书里说要离子的移动来导电,为什么?电子从负极流向正极,然后在正极和水中的 谁知道2004年7月电解铜价格?准确点的! 酸度和PH值有什么区别?表征实验中什么时候适宜测量酸度,什么时候该测量PH?还是二者皆可呢? 电解水的化学方程式有几个? 物体重30N,用F=50N的力垂直压在墙上静止不动,物体所受的摩擦力是=?N 哪些蛋白质可用紫外吸收法测浓度 电解水化学方程式表示的意义? 亚硫酸钠的水溶液和二氧化硫生成什么 蛋白质中存在着哪三种氨基酸具有紫外吸收特性? 电解水的化学反应方程式 环保甲醇燃料对身体有害吗 Phe、Tyr、Try(p)对紫外吸收峰在多少nm?蛋白质的最大吸收波长为多少nm? 有哪些根据化学结构计算最大紫外吸收波长的经验规则 我们怎样保护环境的理由 298K ,1大气压下.气态水的标准摩尔生产焓减去液态水的差值大约是44KJ/MOL,而水的气化热是40KJ/MOL .求之间的关系! 紫外最大吸收波长是650nm的话,荧光激发波长该选什么?如果激发波长选了650nm,那根据斯托克斯定理,发射波长不是在可见光外面了? A物体重30N.用F50的力垂直压在墙上静止不动则A受到多少摩擦力.物体B重30N.受20N力.水平推力静止不动.物体B受多少摩擦力. 298K,OsO4(S)标准摩尔生成焓为-391,OsO4(s)的标准摩尔升华焓为56,反应OsO4(g)=Os(s)+2O2(g)标准摩尔焓变?这是热化学反应里的一道题,看来下面多数是来混分数的.
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘