说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

专访POWER 8编程挑战赛选手吴亮:集众家之长, 激发算法性能极限

HTML文档下载 WORD文档下载 PDF文档下载
“2014 POWER8极限性能挑战赛”第一期正在火热进行中,目前已有数百名开发者报名参赛。为了让更多的开发者了解大赛进展,日前,我们专访了其中一位参赛选手吴亮,希望通过他的经历,吸引更多技术达人参与到其中。


9月23日,IBM和CSDN联合宣布“2014 POWER8 极限性能挑战赛”正式启动。此次大赛主要面向广大CSDN注册开发者,大赛以云计算的方式为开发者提供了POWER8开发环境,开发者利用POWER8的特性,基于不同场景进行应用开发。此次大赛,不仅使更多的开发者充分利用了POWER8,也为开发者、技术达人提供一个展示自我的舞台。

正如大赛发布仪式上,IBM大中华区副总裁侯淼所言,之所以要支持这样一个大赛,目的就是希望吸引更多的开发者去开发一些新的算法,把整个POWER 8引擎的能力激活开来。

“U Can U Up”是这次挑战赛的口号,开发者可以通过登陆注册、申请资源、完成挑战,主办方最终根据各自的累积评分赢取礼品奖励。在比赛期间,主办方将定期公布挑战题目,采用月度赛制对参赛者进行排名评定。


第一期的挑战题目为“博客反垃圾”,具体任务为CSDN提供海量的博文数据,并按特定比率混入垃圾文章,参赛者需开发相应的系统将垃圾博文从中抽取出来。需要说明的是,大赛主要考察程序的是算法的正确率及处理速度,对开发语言、开发工具并不进行限定。

到目前为止,已经有数百名开发者报名并参加了此次大赛,为了让更多的开发者了解此次大赛的进展情况,日前,我们专访了其中一位参赛选手南京烽火通信公司研究员吴亮,希望通过他的参赛经历,吸引更多的技术达人参与到大赛之中。如果你看过他的回答后,还是感觉不过瘾,那么就赶快点击下面的链接,报名挑战吧!

立即报名:

http://reg.powerlinux.csdn.net/cview/reg/?project_id=973&identy_id=1011 

1. 可否介绍一下你的开发经历?目前,主要关注哪些技术领域?

吴亮:目前,我主要关注的是数据挖掘领域,其他相关领域,如云计算、数据库、数据结构、编程开发等,也略有了解。记得当初,我为了能够更快的实现算法逻辑,一口气就把《算法导论》全部看完了,这些经历也让我印象深刻。

2. 区分垃圾ID数据和正常ID数据的核心关键是什么?可否借此展开描述一下所设计算法的基本思路?

吴亮: 无论是区分什么事物,核心都是特征——各个事物,都有各自不同的特征。真正的问题是能将他们区分开来的特征是什么?又会在哪里体现出来?对此,我的答案是“主题”,垃圾博文的内容主题和正常博文的主体不同,所使用的词汇也将不同,通过分析这些不同点,可以有效区分正常数据和垃圾数据。

3. 这一算法设计思路,主要用到了什么计算模型?有无独特的创新亮点?

吴亮: 如果说分类的模型,最接近的是贝叶斯模型。贝叶斯的方法,是一种以动态模型为研究对象的时间序列预测方法。它做分析的模式是:先验信息+总体分布信息+样本信息→后验分布信息,这一过程中,不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。

至于创新点,我感觉没必要提,毕竟正确率还不到60%,就算创新也是创错了。

4. 相对于其他方式的设计,之所以选择这一模型,主要出于什么考虑?是否还有继续优化的可能?

吴亮: 在设计方案的时候,我只是考虑了正确率,在方法确定之后才去考虑的性能优化。在我开始做的时候其实没什么理由,就是直觉,我相信自己的直觉。当然,如果实在需要一个原因的话,我也可以现编一个,不过最终还靠的是直觉。

5. 基于这一思路的算法设计,能否充分发挥IBM Power8的并发计算优势?信心来自于哪里?

吴亮: 起初设计算法时,“并行”并不在我得考虑之内,但这个算法其实是可以并行化的,因为它不仅能对不同的博客进行打分,使得任务相互之间不造成影响;也能够充分发挥 Power 8的优势,激发它的极限性能。

6. 对于IBM Power 8,你最关注的技术要点是什么?能否谈谈对未来这一领域技术趋势的看法?

吴亮: 我对这块技术了解的并不多,所以不便多谈。其实,我们现在主要使用的是分布式计算、hadoop、hbase、hive等技术。

7. 对于多线程及并发编程技术的发展,你怎么看?你认为还有哪些可以改进的方面?

吴亮: 我感觉多线程这块技术,在数据量较少的时候可能会比分布式计算要强,不过,我很清楚,这是未来的趋势。

8. 参加这次算法挑战赛的感受如何?对这一活动有什么好的建议?

吴亮:非常感谢这次比赛,尽管在某些方面举办方准备的不够充分。不过随着赛程的进行,这些问题都已经很好的解决了。至于算法方面,我建议可以考虑博客本身特征之外的关联特征,或许可称之为“用户反馈”,就如同“协同过滤”一样,能避免很多诸如知识维护、特征提取等问题。还有,就是要有Boosting的思想,集众家之长——保持理性,不要幻想着一个算法解决所有问题。


参赛指南

一、具体的参赛方式及流程如下:

  1. 按特定比率混合了垃圾博文和正常博文,参赛者需要编写算法将垃圾博客的ID分离出来;
  2. 参赛者可以使用任意开发语言完成挑战;
  3. 数据源存放位置:根目录下blog文件夹。

二、评选标准主要有四个方面:

  • 漏判率越低越好;
  • 错判率越低越好;
  • 正确率越高越好;
  • 程序运行时间。

三、参赛选手测试完成之后,需要提交:

  1. 垃圾博客的ID;
  2. 源代码;
  3. 程序运行时间截图。


备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘