流程:
1.DrissionPage采集知音漫客约2万条国产动漫数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现
可选装:推荐系统、预测系统、知识图谱、后台管理等。
计算机毕业设计吊打导师hadoop+spark+hive动漫分析可视化大屏 动漫推荐系统 漫画推荐系统 漫画爬虫 漫画推荐系统动漫爬虫 知识图谱 大数据毕业设计
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 开发技术: spark hadoop hive 装杯显摆虚拟机Linux敲命令炫酷吊打 flask echarts...
- 流程: 1.Python爬虫采集中华健康网约10万医生数据,最终存入mysql数据库; 2.使用pandas+nu...
- 流程 selenium爬取慕课网的课程、章节、评论数据集分别存两个地方:mysql数据库[便于后期选装推荐、预测算...
- 流程:1.Python爬取去哪儿网全站旅游数据约10万+,存入mysql;2.使用pandas+numpy/had...
- 流程1.爬取17k的小说数据约5-10万,存入mysql数据库;2.使用mapreduce对mysql中的小说数据...