终于可以交份像样的作业了,每次都是想好好的完成的,奈何技术还没有入门,很多想法没有办法付出实践(之前总以为会操作就不怕困难了,现在看来最困难的不是害怕困难本身,而是没有办法把你的困难给描述出来寻求帮助。好无奈。。。比如本次作业中州下面的县太多,每个都统计不管采取什么样的图表视觉上也不会好看到哪里去,毕竟有2000多个县,而且这么大的数据在图中也把图形最重要的功能给淹没了。所以拿到数据的第一反应就是以大州为单位进行数据分析,但是,,,,关键是,,,数据中都是以每个县为单位的,我得以州为单位把州下面的数据汇总,就这一个问题也是捣腾了好久,甚至还想到用excel建立数据透视表,,,)
导入数据
数据的详细信息
从上图可以看到本次数据共包含2711行,分别以state,state_abbreviation,county,fips,Hillary Clinton,Donald Trump,population,education,income等为列索引。由于数据行数过多,本次分析均以州为单位进行分析。
对数据的前几行进行查看,在括号内输入任意数字可查看任意行的数据,如果想查看末尾数据可以使用df.tail()对数据的末尾进行查看。
这里对数据二等列索引进行简化
这里可以看到Clinton,Trump,popu,edu,income数据的最大值,最小值,标准差,平均值和分位数,了解的数据的总体情况。
这里统计了各个州下面的县,这个结果可能不够简化,下面用条形图展示。
利用州的数量建立X数组,用数组与州进行对应,建立以州的名称为横坐标的条形图,如上所示,该条形图展示了各个大州包含的县的情况。
这里统计了各个州下面的人口分布情况。。
这里的条形图展示了各个州对Clinton和Trump的投票情况,红色表示支持Clinton,绿色表示支持Trump。从这个图形上看来似乎是Trump 占优势。
这里展示了各个州受教育的平均值(教育水平在高中以上)
这里统计了各个州的平均收入情况。。。
数据与图形结合,能更好的诠释。上面代码的意思分别是支持Clinton的总票数,支持Trump的总票数,各大洲的总人口数和参加投票的人口数,未参加投票的人口数,最后一个数据表明未参加投票的比例,这里可以看到没有参加投票的比例高达90%以上,可以初步判定这份数据应该是投票早期。
这里是各个大州的总投票数量
用图形展示更直观。
这里是各个大州没有投票的人口情况。下面是各个大州的总人口情况
从这里也可以看出大多数人未参与投票。
对各个大州的人口,投票情况,受教育情况以及收入情况进行描述之后,下面就对受教育情况,收入情况与投票情况进行对比,看教育情况和收入情况与投票情况是否有联系。
这里是收入情况与投票情况的关系,图中的泡泡的大小表示收入情况的高低,从图中可以看到收入水平的高低与投票情况没有直接相关的关系。
从图中可以看到受教育情况与投票情况也没有相关的关系。
上面饼形图中分析各州支持Clinton和Trump的投票比例情况。
结论
从上述分析可以得出以下结论:
1. 大多数人没有参与投票
2.Clinton与Trump的票数并没有相差太多
3.受教育情况和收入情况与投票情况没有太大联系。
注:美国公民满18周岁才具有投票权,本次分析中默认年龄均为18周岁以上。
补充:分别分析支持Clinton和Trump的受教育情况以及收入情况之后进行对比,使数据更有说服力。