说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

专访POWER 8编程挑战赛选手吴亮:集众家之长, 激发算法性能极限

HTML文档下载 WORD文档下载 PDF文档下载
“2014 POWER8极限性能挑战赛”第一期正在火热进行中,目前已有数百名开发者报名参赛。为了让更多的开发者了解大赛进展,日前,我们专访了其中一位参赛选手吴亮,希望通过他的经历,吸引更多技术达人参与到其中。


9月23日,IBM和CSDN联合宣布“2014 POWER8 极限性能挑战赛”正式启动。此次大赛主要面向广大CSDN注册开发者,大赛以云计算的方式为开发者提供了POWER8开发环境,开发者利用POWER8的特性,基于不同场景进行应用开发。此次大赛,不仅使更多的开发者充分利用了POWER8,也为开发者、技术达人提供一个展示自我的舞台。

正如大赛发布仪式上,IBM大中华区副总裁侯淼所言,之所以要支持这样一个大赛,目的就是希望吸引更多的开发者去开发一些新的算法,把整个POWER 8引擎的能力激活开来。

“U Can U Up”是这次挑战赛的口号,开发者可以通过登陆注册、申请资源、完成挑战,主办方最终根据各自的累积评分赢取礼品奖励。在比赛期间,主办方将定期公布挑战题目,采用月度赛制对参赛者进行排名评定。


第一期的挑战题目为“博客反垃圾”,具体任务为CSDN提供海量的博文数据,并按特定比率混入垃圾文章,参赛者需开发相应的系统将垃圾博文从中抽取出来。需要说明的是,大赛主要考察程序的是算法的正确率及处理速度,对开发语言、开发工具并不进行限定。

到目前为止,已经有数百名开发者报名并参加了此次大赛,为了让更多的开发者了解此次大赛的进展情况,日前,我们专访了其中一位参赛选手南京烽火通信公司研究员吴亮,希望通过他的参赛经历,吸引更多的技术达人参与到大赛之中。如果你看过他的回答后,还是感觉不过瘾,那么就赶快点击下面的链接,报名挑战吧!

立即报名:

http://reg.powerlinux.csdn.net/cview/reg/?project_id=973&identy_id=1011 

1. 可否介绍一下你的开发经历?目前,主要关注哪些技术领域?

吴亮:目前,我主要关注的是数据挖掘领域,其他相关领域,如云计算、数据库、数据结构、编程开发等,也略有了解。记得当初,我为了能够更快的实现算法逻辑,一口气就把《算法导论》全部看完了,这些经历也让我印象深刻。

2. 区分垃圾ID数据和正常ID数据的核心关键是什么?可否借此展开描述一下所设计算法的基本思路?

吴亮: 无论是区分什么事物,核心都是特征——各个事物,都有各自不同的特征。真正的问题是能将他们区分开来的特征是什么?又会在哪里体现出来?对此,我的答案是“主题”,垃圾博文的内容主题和正常博文的主体不同,所使用的词汇也将不同,通过分析这些不同点,可以有效区分正常数据和垃圾数据。

3. 这一算法设计思路,主要用到了什么计算模型?有无独特的创新亮点?

吴亮: 如果说分类的模型,最接近的是贝叶斯模型。贝叶斯的方法,是一种以动态模型为研究对象的时间序列预测方法。它做分析的模式是:先验信息+总体分布信息+样本信息→后验分布信息,这一过程中,不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。

至于创新点,我感觉没必要提,毕竟正确率还不到60%,就算创新也是创错了。

4. 相对于其他方式的设计,之所以选择这一模型,主要出于什么考虑?是否还有继续优化的可能?

吴亮: 在设计方案的时候,我只是考虑了正确率,在方法确定之后才去考虑的性能优化。在我开始做的时候其实没什么理由,就是直觉,我相信自己的直觉。当然,如果实在需要一个原因的话,我也可以现编一个,不过最终还靠的是直觉。

5. 基于这一思路的算法设计,能否充分发挥IBM Power8的并发计算优势?信心来自于哪里?

吴亮: 起初设计算法时,“并行”并不在我得考虑之内,但这个算法其实是可以并行化的,因为它不仅能对不同的博客进行打分,使得任务相互之间不造成影响;也能够充分发挥 Power 8的优势,激发它的极限性能。

6. 对于IBM Power 8,你最关注的技术要点是什么?能否谈谈对未来这一领域技术趋势的看法?

吴亮: 我对这块技术了解的并不多,所以不便多谈。其实,我们现在主要使用的是分布式计算、hadoop、hbase、hive等技术。

7. 对于多线程及并发编程技术的发展,你怎么看?你认为还有哪些可以改进的方面?

吴亮: 我感觉多线程这块技术,在数据量较少的时候可能会比分布式计算要强,不过,我很清楚,这是未来的趋势。

8. 参加这次算法挑战赛的感受如何?对这一活动有什么好的建议?

吴亮:非常感谢这次比赛,尽管在某些方面举办方准备的不够充分。不过随着赛程的进行,这些问题都已经很好的解决了。至于算法方面,我建议可以考虑博客本身特征之外的关联特征,或许可称之为“用户反馈”,就如同“协同过滤”一样,能避免很多诸如知识维护、特征提取等问题。还有,就是要有Boosting的思想,集众家之长——保持理性,不要幻想着一个算法解决所有问题。


参赛指南

一、具体的参赛方式及流程如下:

  1. 按特定比率混合了垃圾博文和正常博文,参赛者需要编写算法将垃圾博客的ID分离出来;
  2. 参赛者可以使用任意开发语言完成挑战;
  3. 数据源存放位置:根目录下blog文件夹。

二、评选标准主要有四个方面:

  • 漏判率越低越好;
  • 错判率越低越好;
  • 正确率越高越好;
  • 程序运行时间。

三、参赛选手测试完成之后,需要提交:

  1. 垃圾博客的ID;
  2. 源代码;
  3. 程序运行时间截图。


闪烁的Label-VB资料 设定StatusBar的文字成不同的颜色-VB资料 设计一个可中断循环的按钮-VB资料 设置“执行无用户界面”-VB资料 生成一个透明窗体 -VB资料 求某字符在字符串中的位置!用什么函数? 用户名的问题. 高手来帮我区分一下NAT 和PAT到底有什么不同 怎样获得对方机的绝对路径呢?/ 如何禁止ComboBox的OnChange? 如何向inifile中写入注释? 问大虾一个问题? DBgrid 一个关于html控件的问题 浪琴机械手表高仿的,你说可以买吗, 手表可以用小型超声波清洗机洗吗 超声波清洗机按了开关震动一下就停了,为什么不继续工 晶体从液体结晶和生长过程中为什么需要一定饱和度 向溶解了16g的cuso4的90ml溶液中加入2. 硫酸铜溶于普通水为什么溶液浑浊没有漂白粉,就是农村 我使用超声波清洗机主要用来清洗玻璃仪器的,但指示灯 超声波清洗机的定义? 如何用CaCO3及NaCO3鉴别H2SO4和NaC 叙利亚反对派称统一组团参加日内瓦和平女歌手阿兰因美丽容貌走红 海量清纯照盘点打医生事件:美请FBI培训 日需首条横跨欧亚海底隧道启用 可乘火车从美国有意叫停窃听盟国元首 部门“内讧第13次现身“直播连线”普京直面俄民5月1日~10日西安交大二附院皮肤科外地户籍大学生渭南学车 办不出居住证孙杨1500米自由泳夺冠微信现场摇一摇 现金红包等你拿血路杀神若游之境网游之纵横苍穹百变狂神符逆苍穹鱼嘴分水堤旅游绵阳人民公园旅游雅鲁藏布江旅游绒布寺旅游满拉水库旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘