简单的招聘信息图表分析

准备年后出门找工作,上招聘网站浏览了一下,发现浏览招聘信息很难得到我想要的信息,于是就有了这个项目。

需求

三年时间自己创业,基本是要用什么就学,导致现在个人的技术栈十分的杂乱,所以我想要知道不同职位(当前)的就业情况和薪资水平。

其次,具体要去哪个城市也还没有确定,所以想知道城市之间相同职位的薪资水平。

最后是对于招聘信息要求技术栈的分析,希望通过分析企业的招聘信息的具体信息,提取关键字,分析出职业相关技术的热度。

使用技术

也算是抱着学习新技能的心态去写的,所以大部分都是本人最近没有使用过的技术或没有学习过的技术:

  1. 后端 koa(一直在使用 express,egg 也使用过,koa 居然直接跳过了,补一波)
  2. 数据库本来是使用 mongodb 的,但是发现其实没有必要使用数据库。
  3. 模板引擎 arttemplate
  4. 前端就直接导入 Boostrap 和 jQuery,这个是真的好久不见了,使用惯了 MVVM 框架,再写 jQuery,忆苦思甜啊!
  5. 分词 jieba,这个最后还是出了点问题,导致第三个需求没法完成了。
  6. 还有简单的 node 爬虫,就是用 superagent+cheerio 实现了。
  7. 图表 highchart

实践过程

step.1 爬取数据

确定需要的信息为:职位名称、职位月薪、工作地点、详情链接,f12 查看页面结构,读取页面后使用 cheerio 获取需要的信息。代码在 getData.js 中,具体可以参考10 分钟教你撸一个 nodejs 爬虫系统

step.2 处理数据

分析薪资结构,我直接以 1 万与 1.5 万划分为上中下三部分,对于获取的数据做简单的判断统计,就可以了。展示形式为饼图。

step.3 数据对比

可以同时获取不同的职位或不同城市的信息,并列显示,不过以饼图显示,可以看出薪资分布情况但是要比较数量就很不直观了。所以将已查询到的职位信息数量放到同一张条形图中,进行对比。

step.4 关键词技术名词分析(未完成)

原本的思路是使用结巴分词,获取关键词,结果发现招聘详情的关键词是‘js’‘前端’‘服务端’,具体的技术名词多只出现一次,是自己想法上出现偏差,把自己关注的词当做是文本的关键词了。现在应该先分析出那些是技术名词,然后作为字典去分析权重。如何分析技术名词这个没有思路,最直接的方法应该是直接 Google 得到相应的字典,但是没有找到,这个功能就暂时放弃了,等有了好的方法再完成。

更多思考

  1. 关于数据库:现在每次使用查询都是先去爬取网页,这个的好处是每次都能获取到最新的数据,但是每次都耗费了相对的时间,理想的情况应该是每次查询时,查询预先获取的数据,这样查询就不会出现时间过长的问题,而服务器每隔一段时间爬取最新的数据,并且删除之前的数据;不过这样就不太可能不限制查询的职业与城市,数据太多但是服务器的流量有限,这个功能需要考虑。
  2. 关于不同招聘网站:不同招聘网站的页面结构可能都不一样,所以如果要爬取不同网站的信息只能一个个去设置,但是更困难的问题是去判断不同网站相同公司相同职业的重复问题,假设相同公司的相同职业,公司名相同,职业名相同,这就比较好处理。不过实际生活中公司应该都会不同网站同时招聘,所以查询一个招聘网站就应该足够了。
  3. 关于技术名词:暂时不知道是否可行,需要更多的思考和资料。

其他

github:https://github.com/x007xyz/jobs

服务器:http://95.163.201.100:3000
[图片上传失败...(image-c6fb11-1518845832562)]

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容

  • //我所经历的大数据平台发展史(三):互联网时代 • 上篇http://www.infoq.com/cn/arti...
    葡萄喃喃呓语阅读 51,216评论 10 200
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,077评论 25 707
  • 我打马过你窗前,月光也一并跟来,那人儿如玉,和心上的影子一模一样。 你抬头的瞬间,月光却故意躲藏,它不愿你被分享。...
    天生风格阅读 169评论 2 2
  • 今天晚上,我们在做手工,妈妈在手机上面找,找了好久。首先找到了做拖鞋的手工,拖鞋是人字拖, 上面的人字就是珠子串起...
    淡然无忧阅读 277评论 0 3
  • 你认识的自己 和别人认识的你 在你眼前相遇 就像 草稿和完稿 彩排和演出 睡衣和西装 摆在你眼前一样。 你夹在它们...
    水无名阅读 115评论 0 0