说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

专访POWER 8编程挑战赛选手吴亮:集众家之长, 激发算法性能极限

HTML文档下载 WORD文档下载 PDF文档下载
“2014 POWER8极限性能挑战赛”第一期正在火热进行中,目前已有数百名开发者报名参赛。为了让更多的开发者了解大赛进展,日前,我们专访了其中一位参赛选手吴亮,希望通过他的经历,吸引更多技术达人参与到其中。


9月23日,IBM和CSDN联合宣布“2014 POWER8 极限性能挑战赛”正式启动。此次大赛主要面向广大CSDN注册开发者,大赛以云计算的方式为开发者提供了POWER8开发环境,开发者利用POWER8的特性,基于不同场景进行应用开发。此次大赛,不仅使更多的开发者充分利用了POWER8,也为开发者、技术达人提供一个展示自我的舞台。

正如大赛发布仪式上,IBM大中华区副总裁侯淼所言,之所以要支持这样一个大赛,目的就是希望吸引更多的开发者去开发一些新的算法,把整个POWER 8引擎的能力激活开来。

“U Can U Up”是这次挑战赛的口号,开发者可以通过登陆注册、申请资源、完成挑战,主办方最终根据各自的累积评分赢取礼品奖励。在比赛期间,主办方将定期公布挑战题目,采用月度赛制对参赛者进行排名评定。


第一期的挑战题目为“博客反垃圾”,具体任务为CSDN提供海量的博文数据,并按特定比率混入垃圾文章,参赛者需开发相应的系统将垃圾博文从中抽取出来。需要说明的是,大赛主要考察程序的是算法的正确率及处理速度,对开发语言、开发工具并不进行限定。

到目前为止,已经有数百名开发者报名并参加了此次大赛,为了让更多的开发者了解此次大赛的进展情况,日前,我们专访了其中一位参赛选手南京烽火通信公司研究员吴亮,希望通过他的参赛经历,吸引更多的技术达人参与到大赛之中。如果你看过他的回答后,还是感觉不过瘾,那么就赶快点击下面的链接,报名挑战吧!

立即报名:

http://reg.powerlinux.csdn.net/cview/reg/?project_id=973&identy_id=1011 

1. 可否介绍一下你的开发经历?目前,主要关注哪些技术领域?

吴亮:目前,我主要关注的是数据挖掘领域,其他相关领域,如云计算、数据库、数据结构、编程开发等,也略有了解。记得当初,我为了能够更快的实现算法逻辑,一口气就把《算法导论》全部看完了,这些经历也让我印象深刻。

2. 区分垃圾ID数据和正常ID数据的核心关键是什么?可否借此展开描述一下所设计算法的基本思路?

吴亮: 无论是区分什么事物,核心都是特征——各个事物,都有各自不同的特征。真正的问题是能将他们区分开来的特征是什么?又会在哪里体现出来?对此,我的答案是“主题”,垃圾博文的内容主题和正常博文的主体不同,所使用的词汇也将不同,通过分析这些不同点,可以有效区分正常数据和垃圾数据。

3. 这一算法设计思路,主要用到了什么计算模型?有无独特的创新亮点?

吴亮: 如果说分类的模型,最接近的是贝叶斯模型。贝叶斯的方法,是一种以动态模型为研究对象的时间序列预测方法。它做分析的模式是:先验信息+总体分布信息+样本信息→后验分布信息,这一过程中,不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。

至于创新点,我感觉没必要提,毕竟正确率还不到60%,就算创新也是创错了。

4. 相对于其他方式的设计,之所以选择这一模型,主要出于什么考虑?是否还有继续优化的可能?

吴亮: 在设计方案的时候,我只是考虑了正确率,在方法确定之后才去考虑的性能优化。在我开始做的时候其实没什么理由,就是直觉,我相信自己的直觉。当然,如果实在需要一个原因的话,我也可以现编一个,不过最终还靠的是直觉。

5. 基于这一思路的算法设计,能否充分发挥IBM Power8的并发计算优势?信心来自于哪里?

吴亮: 起初设计算法时,“并行”并不在我得考虑之内,但这个算法其实是可以并行化的,因为它不仅能对不同的博客进行打分,使得任务相互之间不造成影响;也能够充分发挥 Power 8的优势,激发它的极限性能。

6. 对于IBM Power 8,你最关注的技术要点是什么?能否谈谈对未来这一领域技术趋势的看法?

吴亮: 我对这块技术了解的并不多,所以不便多谈。其实,我们现在主要使用的是分布式计算、hadoop、hbase、hive等技术。

7. 对于多线程及并发编程技术的发展,你怎么看?你认为还有哪些可以改进的方面?

吴亮: 我感觉多线程这块技术,在数据量较少的时候可能会比分布式计算要强,不过,我很清楚,这是未来的趋势。

8. 参加这次算法挑战赛的感受如何?对这一活动有什么好的建议?

吴亮:非常感谢这次比赛,尽管在某些方面举办方准备的不够充分。不过随着赛程的进行,这些问题都已经很好的解决了。至于算法方面,我建议可以考虑博客本身特征之外的关联特征,或许可称之为“用户反馈”,就如同“协同过滤”一样,能避免很多诸如知识维护、特征提取等问题。还有,就是要有Boosting的思想,集众家之长——保持理性,不要幻想着一个算法解决所有问题。


参赛指南

一、具体的参赛方式及流程如下:

  1. 按特定比率混合了垃圾博文和正常博文,参赛者需要编写算法将垃圾博客的ID分离出来;
  2. 参赛者可以使用任意开发语言完成挑战;
  3. 数据源存放位置:根目录下blog文件夹。

二、评选标准主要有四个方面:

  • 漏判率越低越好;
  • 错判率越低越好;
  • 正确率越高越好;
  • 程序运行时间。

三、参赛选手测试完成之后,需要提交:

  1. 垃圾博客的ID;
  2. 源代码;
  3. 程序运行时间截图。


把文件置入到Text或RichText中 -VB资料 避免按 [ENTER] 回车键产生的“嘀”声 -VB资料 避免使用全局变量-VB资料 避免装载多份应用程序-VB资料 不定个数的参数 -VB资料 不在任务栏中显示,只能在Ctrl+Alt+Del对话框中显示或者干脆什么也不显示数 -VB资料 处理 Dropdown List型 Combo的录入问题-VB资料 VB创建和删除快捷方式 从程序中生成 exe 文件 -VB资料 打开和关闭CD-ROM 驱动器 -VB资料 打开和关闭其他应用 -VB资料 打开一个超连接 -VB资料 当前操作系统的语言集-VB资料 当前系统目录-VB资料 得到磁盘上剩余空间的值-VB资料 调用“添加打印机”对话框 -VB资料 调整分辩率和取当前分辩率 -VB资料 定义全局热键-VB资料 动记录应用软件工作时间-VB资料 动态改变屏幕设置-VB资料 读取档案的建立时间及存取时间 -VB资料 多个参数的属性 -VB资料 发现剪帖板的秘密 -VB资料 发现拖(Drap)过来的信息 -VB资料 防止打开同个VB应用多个实例 分割图像的原理 -VB资料 封面的设计 -VB资料 改变 Win95 的 Shell -VB资料 改变墙纸 -VB资料 格式化磁盘 -VB资料 跟我学用ActiveBar-VB资料 请大家讲一讲 用asp做OA系统,合适吗????? 一个遍历所有局域网内的机器IP,并将一个文件COPY 《三思科学》电子月刊第6期 为什么总是猪? apache装了怎么用? 用vb做个小型数据库,怎么用不了access2000啊??? 关于post问题,请大家帮帮忙!! 怎样取得server的时间日期?????????? asm用宏好还是用子程序好? 怎么在VB中调用treeview,我的VB里面怎么没有这个控件啊? vb6做数据库怎么才能用acess2000???大侠帮我! sty是什么格式的文件?用什么软件能打开?? ---强烈建议开一个创业者论坛,支持者来此!---- 为什么不开个人工智能的专题呢?? 在VC中,如何实现按回车键从一个EDIT控件到另一个EDIT控件的转换????? 哪儿有pl/sql的技术资料以及oracle的专业论坛? C#中难道没有动态数组吗?如果有,怎么声明?怎么改变维数?? 河南的高程在网上如何查分 我快受不了了,D5下的程序在D6下为什么出现那么多的错误?释放也出错,请问这是为什么?谢谢! ??怎么使用ADO存储长字符串? 想用Update函数更新数据窗口。但提示DataWindow Does no have Update Capablity,怎么办? 一个串口及组波的题目~ kao,现在人怎么动不动就精通什么什么的,这么牛?!还精通好几样呢,ft 请问如何取得DBGRID当前选定行的内容,包括该行所有的列。一定给分。 如何写文件上传程序?? jbuilder6的破解!!!!!!!(可用60000天) Apache Web Server + Apache Jserv上System.out.println()的问题 如何取得DBGRID当前选定行的内容,包括该行所有的列。一定给分。 请问电力的《java与XML》翻译得如何呢? 我快受不了了,D5下的程序在D6下用为什么会出现那么多的错误?释放也出错。请问这是为什么?谢谢! ---------------COM---------------- 在读数据文件时如何强制性地使程序中断本行数据的读取,接着从下一行开始读取其他数据 为什么我的outlook可发送,不可接收和发送,注意是可发不可收,不是可收不可发 用JBuilder5开发WebApplication: 如何在WEB-INF目录中建立自已的目录? 一本C++/面向对象好书????(kingofark) 用JBuilder5开发WebApplication的问题? 我讨厌控件,有意者跟进! VB请教 关于打包war文件的问题(用JBuilder5开发)? 耶稣与撒旦比赛写程序 怎么多行注释,怎么创建多个表? 对C++有深刻理解的高手请进!!!!初学者更应进,否则可以困扰你好久..... clsid 问题 如何将VB5工程移植到VB6环境中(很急)!!! 关于封装war文件的问题? 在websphere 下应该将我自己的类放在哪里才能让我的jsp程序访问到??? 关于《c#完全手册》的URL 怎样取得server的时间日期?help!!!11111 在websphere 下应该将我自己的类放在哪里才能让我的jsp程序访问到?? 谁遇到过这种怪现象:我在DW中输入数据,居然DEBUG时不进入EDITCHANGED事件,反倒进入其它事件并且再也不能DEBUG了? 碘的相对原子质量是多少.还有钾的 银的 磷的相对原子质量是多少? 关于生物遗传学为什么遗传学认为G 、C比较低时变异度高呢? 镁的相对原子质量是多少O.O氧化镁是什么颜色的?什么状态的~ 如何把这些数据用Excel画出折线图,X轴的数值要一致,比如10,20,30,40,50min...实验时测得数值没有按一定规则.因为还有其他数据,求教程. excel在绘制折线图时,数据标记(圆圈,方块,三角等等)可以筛选出些在图中显示出来吗?原有折线保持不变.这么做主要原因是标记太多,图又太小,会显示不出来的.数据标记如图 怎样在Excel的一个坐标上画多条(x,y)曲线?比如我现在有(1,2),(5,6); (3,4),(7,8)这两组数据(也就是两条直线),要在同一坐标上画出这两条直线,怎么操作? 钾的相对原子质量是多少? 怎样用excel绘制三角坐标系的图怎样用excel绘制三角坐标系的图或者说是有其他是什么软件可以绘制,怎么绘制.怎么绘制.我早都试了.那里头没有三角坐标图说了,是三角坐标的图说白了就是我 如何用excel在一张图表中画多条曲线 ,纵横坐标均不同? 钾的相对原子质量 豌豆杂交试验中,去雄的时机是什么时候 Excel如何用画图工具画曲线就比如我要画一段铁轨 磷的相对原子质量为多少? 急得高二生物题答案(关于基因分离定律)!玉米开单性花,进行异株异花传粉与同株异花传粉,把黄和白玉米隔行种植在一块试验田里,让它们在自然的条件下传粉,结果黄玉米结出的果穗上子 关于遗传学的生物概念请人分别将DNA含量 DNA数目 染色体数目 染色单体数目 染色体组数 同源染色体 等位基因 这些名词的概念一一列出 怎么用EXCEL制作一个散点图,然后在散点图上根据散点作一条有函数关系的直线?重点是可以求出该直线的斜率? 在杂交育种时,稳定遗传的品种是指__________.符合要求的良种是指___________.稳定遗传的个体自交,后代是否发生性状分离?_________ 生物遗传学概率计算有什么技巧?(要全面)谢谢各位大虾帮我解疑答惑 1.如果在一个种群中基因型AA的比例为25%,基因型为Aa的比例为50%,基因型aa的比例为25%.已知基因型aa的个体失去求偶和繁殖的能力,则随机交配一代后,基因型aa所占的比例为多少?2.已知小麦抗锈 高二生物:基因的分离定律1.基因型为Aa的植物产生的雌、雄配子间的数量是( ) A.雌配子:雄配子=1:1 B.雌配子:雄配子=3:1 C.A雌配子:a雄配子=1:1 D.雄配子很多,雌配子很少2.给你一粒黄 生物遗传学的实质是什么? 如何用excel把几条函数线画在一张图中 正弦函数图像正弦函数的最低点可以表示成(2kπ-π/2,-1)那么可不可以表示成(2kπ+2π/3,-1)呢?这两个有区别吗? 化学相对原子质量某二价金属氧化物中,金属元素与氧化物的质量比为5;2,则该金属氧化物的相对分子质量为多少! 该地区PKU发病率为1/10000,基因型为Aa的男子与当地一正常女子结婚,生病孩子的概率为多少?PKU是常隐遗传病 即a的基因频率为1/100,即a=1/100,A=99/100.请问这个表现型正常的女的应该 是AA 或者Aa对吧 什么软件可以用来画正弦函数图像 【化学】相对原子质量我国制造的“人造太阳”是用A原子(含1个质子和2个中子)和D原子(含3个质子)聚变生成E原子(含2个质子),获得大量能量.下列说法错误的是( ) A、A原子核外有3个电子B、A 如果在一个种群中,基因型AA的比例占25%,基因型Aa的比例为50%,已知aa的个体失去繁殖能力,在随机交配产生的后代中,具有繁殖能力的个体所占比例为多少?\x0c\x0c\x0c\x0c求详解! 正弦函数的图像有什么特点 关于化学相对原子质量在计算中经常用相对相对原子质量或式量计算,而不是用实际质量式或分子质量计算的原因是 怎样算原子量?公式我知道,问题是中子数为6的碳原子的质量的1/12是多少? 铜的原子量是多少? 关于相对原子质量某元素一个原子的质量为a克,NA代表阿伏伽德罗常数,为什么该原子的相对原子质量数值上是aNA 原子量是怎么计算的? 用气体还原剂还原ag CuO,最终得到bg Cu,若氧的相对原子量为16,则铜的相对原子量为多少?(直接写答案) 化学的相对原子质量A原子与B原子的质量比为a:b,而B原子与作为相对原子质量标准的碳12原子的质量比为m:n,则A原子的相对原子质量为_____麻烦写明过程,急用 计算原子量溶质的质量分数为20%的某二价金属的硫酸盐溶液200克,其中含硫元素8克.此二价金属的原子量为 铜有两种同位素63Cu和65Cu,前者原子量为62.9296,后者原子量为64.9278,前者所占百分比为69.2%,计算铜元素的原子量. 在excle中,利用什么函数公式可以使下面两图的计算成功?请以这张图片为准,第1张图片的第2个工作表少写了备注, 金属的相对原子量计算问题有一题是这样的7g某种金属和稀硫酸发生反应,生成了19g的金属化合物.并生成了氢气,则金属的相对原子质量为多少.( )A.24 B,40 C.56 D.65我希望大家帮我解决问题后,能 如何做正弦函数图像?麻烦举个例子, 关于遗传学与进化的问题,最好是专家级的关于“哈代-温伯格平衡”的矛盾.假设在一个种群中A和a的基因频率都为50%,种群足够大,不考虑自然选择不考虑基因突变等等总之在完全理想状况下, 在excel作图中,怎样使x轴从零开始,Y轴不是,就是希望图像和y轴有交叉,附图 正弦函数图像问题如下图为正弦函数y=A sin(ωx+φ)(A>0,ω>0,|φ| 1、如果红色豌豆花对白色豌豆花是显性,那么两株开白花的豌豆杂交,后代(单选1分)A、一定都开红花 B、一定都开白花 C、可能都开红花,也可能都开白花 D、红花和白花各50% E、红花占75%,白 excel作图问题 如何将两列数值分别作为图的X轴和Y轴网上的教程都是选中两列,一作图自动作为XY轴,但我的excel不管怎么操作都是将两列分别作为Y轴,X轴是编号,就是说会有两条曲线,很奇怪,不 如何计算一种元素的原子量? 生物竞赛遗传学如果还多年生物竞赛的试卷以及答案解析,可发给我吗, 怎样在excel中作图,要求左右两个Y坐标轴,图中两个不同系列.想做一个图形,有两组数据,对同一组数据作图,但是这两组数据相差较大,因此项设置两个Y坐标轴,两者的最小刻度不一样,这样画出来 目前发现的原子量最大的元素是什么,理论推算的不算,以实际出现(人工的也算)的为准 基因的连锁和交换定律是指?能举个例子吗 一种碳原子和镁原子的相对原子质量分别是12和24,则碳原子和镁原子的质量比是A 2:1B 1:2C 1:24D 24:1 用EXCEL作图,已知相关数据,在坐标轴上做出直线图.已知(x1,y1)、 (x2,y) 、(x3,y3)...然后在EXCEL中自由生成一条直线,当然这些数据不在一条直线上,有点上下波动.我也不知道自己有没有说清楚,不 关于一道基因连锁交换定律的问题?无芒白颖小麦与有芒红颖小麦杂交,F1表现无芒红颖,F2出现无芒白颖 199株、有芒红颖204株、无芒红颖299株、有芒白颖38株.问控制芒颖这两对基因是否连锁?若 EXCEL函数IF的问题:怎么写公式?如果B13是“纱窗”,并且P13的值 锂的相对原子量 碘 钾 的相对原子质量 Excel函数if的问题:公式怎么写?如果B13是“纱窗”,并且P13的值 K的相对原子量是多少
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn