纯手工打造[博客园-闪存数据分析]总结报告_.NET_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > .NET > 纯手工打造[博客园-闪存数据分析]总结报告

纯手工打造[博客园-闪存数据分析]总结报告

 2013/8/23 18:04:01  Beyond-bit  博客园  我要评论(0)
  • 摘要:有点闲时间就想跟”博客园过意不去“,每天逛博客园赶脚闪存挺好,就是"常驻人口"众多,其他偶尔来一次,大家交流也是挺方便的,于是乎我就想看看闪存"常驻人口"有哪些?根据他们发闪的频率来判断他们的状态。呵呵,所以就想到了抓取数据分析,本来想弄个c#版,但是c#不是我的强项,时间关系我就搞了一个java多线程抓取+highcharts报表生成,其实也就是对我的知识巩固一下、当中确实又领悟了不少的编程思想、下面我先汇报一下我的统计报告,然后再做技术方面的分享,两个方面
  • 标签:总结 数据 博客 分析

有点闲时间就想跟”博客园过意不去“,每天逛博客园赶脚闪存挺好,就是"常驻人口"众多,其他偶尔来一次,大家交流也是挺方便的,于是乎我就想看看闪存"常驻人口"有哪些?根据他们发闪的频率来判断他们的状态。呵呵,所以就想到了抓取数据分析,本来想弄个c#版,但是c#不是我的强项,时间关系我就搞了一个java多线程抓取+highcharts报表生成,其实也就是对我的知识巩固一下、当中确实又领悟了不少的编程思想、下面我先汇报一下我的统计报告,然后再做技术方面的分享,两个方面。废话不多说我们通过数据说话,数据完全真实可靠(由于博客园闪存最多翻页到167页,所以数据时间段是从2013-8-1日到2013-8-22日差不多刚好一个月的样子)。

一:统计结果分析:

1.1闪存总人数:

总人数

1.2发布消息最多的排行——top20

发布数量最多排行

看看那些人都在明星榜单?呵呵呵,哈哈,我也在,dudu,也在江湖再见你发的有点多了哦。top1(8-1到8-22本来想弄个ps的通缉令想想算了。分享知识重要)

1.3回复数量最多的一条闪(没有抓内容,所以不知道这个家伙说神马了)

截图01

看到这个我有点不相信我的眼睛,是不是看错了,我的乖乖,回复65,这个是扣扣聊天?于是乎我想知道他是谁?这么大的魅力,看下面就是他、

截图02

这个要是微博这家伙绝对火了、哈哈哈,绯闻一大堆了、

1.4回复数量排行榜top20

回复top20

看看谁都在名人榜上,呵呵呵呵、人气很高啊、闪存明星,欧码噶的,都有我、

1.5刷星能手top20排行榜

下面来让我们看看闪存的刷星能收排行榜,看看谁在22天的时间里刷到的星星最多,不废话,看图、

截图03

哈哈,看看谁都在,欧码噶的,第一果不其然是枕头妹子啊,你牛逼了、我当时统计的时候我也心里想应该是她,厉害啊!昨天晚上有人(二十三号同学)问我,问我那人也说是枕头、

好了,到这里我们粗略的统计了一下,下面我们通过报表的形式展现、也是我今天新鲜出炉的highcharts(前端报表库)下面看图。

2.1刷到星星和没有刷到星星占总人数比重(饼图)

luck占总人数

2.2消息得到回复和没有得到回复的占总人数的比重(饼图)

MessageReply占总人数

2.3新人老人占总人数比重

新人占比重

2.4每天的发消息量(8-1日到8-22日)

每天的发帖量

其中x轴是日期(8-1日到8-22日)y轴是每天的发消息量。翻看黄历低峰都是休息的时候、

2.5每天星星出来的数量

每天星星出来的数量

其中x轴是日期(8-1日到8-22日)y轴是星星每天出来的数量

2.6每天新人数量

每天新人数量

其中x轴是日期(8-1日到8-22日)y轴是新注册的人每天来的数量

好了,到这里就结束了我的分析,大概就考虑到了这点,你从上面的数据报告中能得到神马信息?可以回复文章中以供大家观摩。我这里多做点评。其实我打造的这个再完善点就可以作为闪存分析工具(本地mysql数据库保存数据,爬虫解析采用线程池,5k数据我划分了3个线程,大概几十秒搞定)可以永久对闪存做每月或者每个季度的行为分析,潜在的商机不言而喻,通过这次分析,我发现数据的魅力很大、数据就是一个软件的灵魂,而商业化点数据就是金钱,潜在的商机、欧码噶的,google记录的数据不知道能不能绘制一个蓝图?dudu我可不可把我的分析系统卖给你?哈哈哈(说这话我赶脚真不要脸,哈哈哈!)有时候我们coder更多的还是需要沟通,这样有利于我们团队建设,团队合作的能力、闪存的魅力到此结束、先发布分析报告,技术的分享我稍后补上,这里不方便再写了。

发表评论
用户名: 匿名