说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

专访POWER 8编程挑战赛选手唐刚:大数据计算永远是主角

HTML文档下载 WORD文档下载 PDF文档下载
在大家的热切期盼下,我们又迎来了极限算法挑战赛第二期,本期挑战赛的题目是“敏感词大文本过滤”,具体任务为由CSDN提供博客数据与敏感词词库,参赛选手编写算法将含有敏感词的博客分离出来。

由CSDN和IBM联合举办的 2014 Power 8极限性能挑战赛 ”自正式启动以来,受到了许多编程爱好者及程序员们的关注。 该大赛以云计算的方式为开发者提供了Power 8开发环境,开发者将利用Power 8的特性,基于不同场景进行应用开发。

此次大赛主要面向广大CSDN注册开发者,大赛以云计算的方式为开发者提供了Power 8开发环境,开发者利用Power 8的特性,基于不同场景进行应用开发。此次大赛,不仅使更多的开发者充分利用了Power 8,也为开发者、技术达人提供一个展示自我的舞台。

第一期“博客反垃圾”挑战赛已顺利结束,共有1072人参赛。我们采访了部分参赛选手( 专访一)、( 专访二)、( 专访三),他(她)们表示:参赛不仅让自己得到了更好地锻炼,而且还把IBM Power 8独特的并发优势发挥到了极致,收获颇丰。

POWER8

这不,在大家的热切期盼下,我们又迎来了极限算法挑战赛第二期,本期挑战赛的题目是“敏感词大文本过滤”具体任务为由CSDN提供博客数据与敏感词词库,参赛选手编写算法将含有敏感词的博客分离出来。需要说明的是,大赛主要考察程序的是算法的正确率及处理速度,对开发语言、开发工具并不进行限定。

到目前为止,已经有数百名开发者报名并参加了此次大赛,为了让更多的开发者了解此次大赛的进展情况,日前,我们专访了其中一位参赛选手北京理工大学 唐刚,希望通过他的参赛经历,吸引更多的技术达人参与到大赛之中。

1.可否介绍一下你的技术开发经历?目前,主要关注哪些技术领域?

唐刚:我一直在从事语音识别算法研究,目前主要关注:自然语言处理、文本数据挖掘、分布式计算架构。

2.关于您算法设计的思路,主要用到了什么计算模型?请简单描述一下所设计算法的基本思路?

唐刚:看了本期的要求和数据,已经对数据进行分析和基本判断,数据:三个字段(id、body、title),总共微博数量是62549还有一条为空,id是微博号所以没有重复,就只有一条有title,然后给了222条敏感词表。方法1:非监督的学习方法,规则匹配(222*62549次匹配吧,给出相应敏感词语的得分(先验概率))。再给出敏感词表全部累计得分。然后给出最后结果。方法2:借助别的语料库来完成,二值分类(该博客是或者不是)。

3.相对于其他方式您之所以选择这一模型,主要是源于哪方面的优势?是否还有继续优化的可能?

唐刚:并发实现:没试过这么大的匹配会是怎么样的性能,但是本次提供免费的服务器操作,我觉得还是很有可能的。

4.基于这一思路的算法设计,能否充分发挥IBM Power8的多线程计算优势?您是否尝试过比较多线程与单线程的性能差距?(请简单描述您的感想)

唐刚:必须能,从看到这数据我就感觉,不用想得太复杂,可能就是一个并发的实现。

5.对于IBM Power8,你最关注的技术要点是什么?能否谈谈对未来这一领域技术趋势的看法?

唐刚:并发承载量,这和机器对并发量的承载和数据的计算分不开,因此现在乃至未来,基于大数据的计算和并发都是非常重要的。

6.对于多线程及并发编程技术的发展,你怎么看?你认为还有哪些可以改进的方面?

唐刚:多线程及并发编程技术将会成为主流,我希望未来能有一个公共平台可以免费给用户提供硬件环境。

7.参加这次算法挑战赛的感受如何?对这一活动有什么好的建议?

唐刚:一开始觉得描述性文档有点少,但是自己分析了一下数据,觉得规则还是挺简单的,文本内容本身很复杂很神秘。我建议开通一个公共平台:实时发布一些Q&A。


POWER8

了解更多大赛内容,请访问大赛官网:http://reg.powerlinux.csdn.net/

第一期挑战赛精彩回顾:

  • 专访POWER 8编程挑战赛选手黄文超:非科班生的编程算法之路
  • 专访POWER 8编程挑战赛选手吴亮:集众家之长, 激发算法性能极限
  • 专访POWER 8编程挑战赛选手侯伟婷:大数据助力多线程及并发编程技术发展
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘