说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

女神程序员的一天:暴力测试social爬虫代码

HTML文档下载 WORD文档下载 PDF文档下载
作为女性程序员,往往会被低估,但简雅楠却是团队中的绝对核心。作为友盟社会化组件,UMTrack以及友盟指数的后端研发工程师。她不仅仅喜欢coding,更知道如何享受程序人生。这天,她就在暴力测试social爬虫代码。

简雅楠,友盟社会化组件(社交分享),UMTrack以及友盟指数的后端研发工程师,她喜欢coding和创新,也经常开一些无厘头程序员玩笑。 因为她每天像夜猫子一样自愿加班到深夜,在项目多的时候也能按优先级有条理的处理好,大家都叫她女神。 

作为女性程序员,往往会被低估,但她却是团队中的绝对核心,不仅因为她coding的能力很强,还因为她可以用音乐让大家身心放松。钢琴十级的她很喜欢古典音乐,给大家推荐曲目的同时也会提及怎样欣赏作品。作为一位研发女生,每天要面对哪些难题?又要怎样处理多条产品线并发的关系?让我们来看看简雅楠的一天。


09:00 起床查邮件。

09:30 买早餐,走在上班的路上,理清思路。

第一件事: 今天需要把社交分享项目的爬虫架构再完善一下,现在是借鉴scrapy的架构写的,每个平台的middleware中还要按照平台的特征,切换proxy或加入proxy被封了之后的sleep以及重置状态码,这之后鲁棒性就不错了。这些大概会花费30至60分钟,11:00之前可以搞定。

第二件事:社交分享项目社交平台的抓取流程复杂,除了主工程之外,还需要整理其他辅助脚本,这个要补充到文档里,需要1小时左右,下午3点前应该可以搞定。

第三件事:社交分享项目社交平台的数据挖掘 (给用户按照兴趣分类) 目前的三个工程除了主工程,还需要整理导数据脚本,因为不能影响服务性能,所以数据库做了很多优化,这些脚本也是因为优化了数据库才必须要用到。目测需要2小时,加上休息时间和小组讨论时间,下午6点前应该可以搞定。

第四件事:指数需要更新,目前算法要支持多维度数据的平滑,这里还需要调整一下,跑数据需要40分钟,目测调整算法需要3小时多。这个恐怕需要分一部分给明天了,今天晚上10点前做好两个维度的数据平滑就好了。

第五件事:UMTrack的数据实验框架还没有想好,需要补充文档,把目前想到的架构补充进去。这个留作思考题,可以在晚上10点之后想想,睡前补充文档,下周再请教team的人一起看看,商量一下。

09:50 到公司,加入透明proxy的按使用计数switch的方法,以及在特殊情况下,被禁止访问后的sleep,嗯,像预想中的那样,11点完事。

11:00  暴力测试social爬虫代码,盯着数据。

12:00  吃饭,继续观察social爬虫运行状态和数据。嗯,有问题。调整代码,继续暴力测试。

13:00  开始打桌上足球!今天要尽可能减少被虐。


13:30  去楼下买个冰激凌,调节心情,显然是桌上足球被虐的太惨不忍睹了。

14:00  吃完冰激凌,嗯,爬虫是OK了,开始整理脚本,搞定的比预想要快一些,嗯,好,可以调整一下social数据挖掘中的TF-IDF算法,分析出10w条结果之后要做一次权重计算。先不管流程,跑一下权重看看先。

15:00 已整理完脚本,还在调权重,这比我想象中复杂。嗯,这样行不通,还需要加词库黑名单。匹配频率高的词中,有的词在我们的系统里还不能降低权重,因为它不是干扰词,确实是反应了用户的兴趣。

16:00  今天TF-IDF算法的优化是做不完了,先整理脚本吧,记一下日志,调算法这地方明天是重点。和team中的人讨论脚本整理和流程简化的问题。

17:00  吃点零食,继续讨论,这流程现在看起来比较合适,该简化的部分都完成了,再仔细想想看,这些脚本的执行频率会不会对其他模块有影响。

18:00  不行,这些脚本的运行频率都需要再调整一下,数据库插入和查询的语句需要优化,不然锁数据库进程,查询会慢,用不到索引的查询就更不用说了,还好索引已经做了优化。

19:30  呼呼,终于搞定了,去吃个饭先!

20:30  嗯,指数的数据平滑倒是比较好做的,先拣两个最容易的维度做吧。

22:00  OK啦,回家!

22:30  先吃点水果,据说新版笑傲江湖不错,公司很多同事说东方不败很好看。好,那就看看有东方不败的片段。

===零点===

00:01  完全没有睡意啊!嗯,想到track的数据验证了,有一部分可以借鉴social数据挖掘中的架构,好,先写上。

1:30  good,躺着去,上网随便看看,同时听一会Piano Guys的曲子,这群家伙太牛了,简直是乐坛奇迹,创造力极强,一台钢琴模仿了一个乐队的效果,各种膜拜后,入眠了。(责编/张宁)

开发者的一天系列:

程序员的一天:台湾个人移动游戏开发者

APP运营人的一天:宫爆老奶奶产品运营

女神程序员的一天:暴力测试social爬虫代码

《开发者的一天》系列文章,聚焦在移动应用开发领域,欢迎移动互联网圈里的朋友们踊跃投稿,投稿请联系@CSDN张宁。

本文为CSDN网友投稿,并不代表本网观点与立场。如需转载请联系market@csdn.net。

备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘