手机知识 | 游戏攻略 | 常用软件 | 摄影教程 | 杀毒软件 | photoshop | 办公软件 | 电子商务 | 室内设计 | QQ教程 |

“偷了”腾讯三千万QQ用户数据,总结出的有趣独家报告

 这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。

 

      目前已经爬到我的第7圈好友(depth=7)共3000万数据。

 爬虫主程序运行界面:

 

爬虫程序设计:

大致设计思路是模仿工厂的生产车间,使用三大独立循环线程组(GetWaitList,CrawlerQQInfos,SaveData)。

详细设计图:

 

再看看,我根据这份数据生成的一些有趣的统计图吧!

内存已经爆了,不能怪我。  谁赞助台服务器吧

 

1、大家一般都在啥时候发说说呢?   

 从图中看出一天最冷门的时候是凌晨4点,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点到11点,人们都喜欢睡前看看别人的空间,发条说说。中午12点左右也有一波小高峰。

 

2、中国人都喜欢在几月生小孩呢?

    

 从图中可看出1月和10月出生的人最多,4月的最少。总体来说上半年的出生率比下半年的低。分析可得,1月多是因为很多人填的是默认的1月1号。4月少,是因为中国人不喜欢4这个数字。10月出生率最高,是因为那时天气不冷不热,秋收后也不是太忙了的原因。

 

3、这是我目前爬取的数据人群地区分布   

 

4、数据人群的年龄分布

      如上两张图,整好和我的信息相吻合。我是湖南人,在江苏读的书,而湖南大部分人都在广东打工。所以地区分布中,这三个省整好排在前四名当中。而我又是1990年出生的,对应年龄分布图1990年的用户最多。从目前的数据来看,无论是分布地区以及年龄阶段与我的关联还非常大,随着数据量的不断增加这种关联会逐渐变小,统计图也会逐渐接近全国用户的真实情况。

 

5、数据人群性别分布

      男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我爬取的数据中男生居多。

 

 

6、下面系列图是根据一些“关键字”在说说中出现的频率统计出来的,相当有意思。

       单个用户的行为是很难看出规律的,大数据的意义在于它会不断矫正那个平衡点,从而得出反应宏观现象最真实的情况。数据量越大,平衡点动荡的幅度便越小。进而能够根据当前的数据趋势预测后续的发展,为决策提供有力依据!

6.1 图说股市      

下图是我通过股民所发说说中包含涨、红、开心表情等数据计算出的股民乐观指数,从图可看出乐观指数和上证指数是呈正相关的。所以股民行为数据在股市预测这块也相当值得研究。

       现在我们拥有海量的互联网社交数据,如QQ的说说,sina的微博数据。我觉得这些数据拥有惊人的利用价值,这非常值得我们去研究,去挖掘。我想,用它们来做一些股市或者其它方面的分析预测是可行的,准确度应该也是非常高的。

    将股票中的关键字做海量数据分析,比如会得出当日讨论股票热度排行榜。进而能得到海量讨论股票的用户,再通过市场的实际反馈找出股票上涨及下跌的正相关因子,再对这些海量数据进行分析计算得出最靠谱股票推荐大神排行榜。对这些用户分级,分优先度及抓取密度来拿数据。用这些数据分析出哪些是靠谱的股票肯定靠谱!

 

 

6.2 群众讨论最多的明星排行榜,还是很靠谱的。(我爱汪峰哥,我也爱Jay! ---信仰在空中飘扬)

插播汪峰头条:素不相识,光听新闻的片面之词就断下结论,那是完整的真相吗?背后的故事又有谁了解多少?实在反感那些破口大骂的,更是可恶一些媒体就事三番五次的戏谑。

祝峰哥幸福,我很喜欢你的歌!

 

 

6.3 最为用户喜爱的手机品牌

 

6.4 人们最喜欢谈论的互联网公司,阿里之所以这么低估计是大家都喜欢叫它淘宝或者天猫吧。

 

6.5 QQ空间中讨论的最为频繁的社交平台排行榜。

 

6.6 生活的统计图

爱>恨; 开心>伤心; 笑声>叹气声; 吃货很多;  谁特么说中国不幸福了,这满满的都是正能量数据啊。

好了,其实还可以做很多其它的分析。如果大家有什么有趣的数据分析想知道的,那就给我留言吧。

 

       技术不多说了,程序不难,多线程数据库操作却是把我搞苦了。还好,现在程序差不多稳定了。过程也是很有意思的,有空我再写个程序升级过程中的那些趣事吧。我觉得一个美妙的程序一定是高度模拟现实的,就像飞机模仿蜻蜓,雷达模仿蝙蝠一样。 这次的程序设计就是模拟的工厂的生产线。

  • “偷了”腾讯三千万QQ用户数据,总结出的有趣独家报告 相关内容:
  • word 2010 数据丢失的找回方法
  • word是现在这个时代中被广泛运用的三大办公软件之一,word里面有各种各样的功能可以帮助用户进行数据编辑以及处理,其中找回丢失数据功能为常用,下面是小编带来的关于word 2010 数据丢失的找回方法,希望阅读过后对你有所启发!word 2010 数据丢失的找回方法(一)步骤1:Word 2007或...

  • word 2010标记数据的方法
  • word是现在这个时代中被广泛运用的三大办公软件之一,word里面有各种各样的功能可以帮助用户进行数据编辑以及处理,其中数据标记功能为常用,下面是小编带来的关于word 2010标记数据的方法,希望阅读过后对你有所启发!word 2010标记数据的方法:标记数据步骤1:选中要设置格式的数...

  • Word2007怎么制作数据图表
  • 在之前,我们已经一贯想法认为,使用Word来编辑文档,使用Excel来处理数据生成数据图表。然而,在Word2007中,我们也完全可以制作数据图表的功能,并且还在数据图表的装饰和美观上进行修改设置。下面随小编一起看看吧。Word2007数据图表制作步骤选择图表类型—整理原始数据&md...

  • 在wps表格中如何导入外部数据
  • 我们在使用wps表格处理数据的时候,经常会将外部的数据导入其中,具体的操作是怎样的呢?下面就让小编告诉大家在wps表格中如何导入外部数据。在wps表格中导入外部数据的方法在源工作表所在工作簿关闭的情况下,用wps表格打开新的目标工作簿。选择需要导入的开始位置单元格。选...

  • wps表格如何用星号代替数据
  • 在wps表格中处理数据的时候,为了防止机密数据泄露,我们可以用星号来代替,下面就让小编告诉大家wps表格如何用星号代替数据。wps表格用星号代替数据的方法在表格打印区后面,选择单元格,输入电话号和卡号。这样在打印时就不会显示这个数据,也不会造成表格混乱。这里选择的是H2和...

  • wps表格如何排序数据
  • 在wps表格中对数据进行排序是很基本的操作,但对于新手来说,可能就不知所措了,下面就让小编告诉大家wps表格如何排序数据。wps表格排序数据的方法首先打开一个WPS表格!比如我们要对化学分数进行排序,我们可以将鼠标在化学列中点击一下!然后点击数据菜单中的升序降序就可以对...

  • wps表格怎样为数据添加批注
  • 对于比较重要的数据来说,我们一般都需要为其添加批注,那么,在wps表格中,怎样为数据添加批注呢?下面就让小编告诉大家wps表格怎样为数据添加批注。wps表格为数据添加批注的方法1、鼠标先移到需要添加批注的单元格,然后在工具栏中找到”插入“命令按钮。2、接着在弹...

  • wps演示怎样制作数据汇报表
  • 在工作中,经常会用到数据汇报表,那么在wps演示中,怎样制作数据汇报表呢?下面就让小编告诉大家wps演示怎样制作数据汇报表。wps演示制作数据汇报表的方法插入文本框,写上大标题,为文本框添加进入-上升。再插入文本框,写上小标题,文本框加上粗边边框。复制小标题文本框,输入小标题...

  • 查看更多>>

    QQ教程