文本数据可视化 有下面三种
1. 基于文本内容的可视化
基于词频的可视化和基于词汇分布的可视化
常用的有词云、分布图和 Document Cards
2. 基于文本关系的可视化
研究文本内外关系,帮助人们理解文本内容和发现规律
常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和 Word Tree 等
3. 基于多层面信息的可视化
研究如何结合信息的多个方面,帮助用户更深层次理解文本
常用的有地理热力图、ThemeRiver、SparkClouds、TextFlow 和基于矩阵视图的情感分析可视化等
代码举例
1. 词云
wordcloud=WordCloud(font_path=simhei,background_color="white",max_font_size=80)
2. 关系图
用连线图来表示事物相互关系的一种方法。
安装 Matplotlib、NetworkX
DG = nx.DiGraph()
DG.add_nodes_from(nodes)
DG.add_edges_from(weights
nx.draw(DG,with_labels=True, node_size=1000, node_color = colors)
3. 地理热力图
通过分词得到城市名称后,将地理名词通过转换成经纬度
使用 Folium 库进行热力图绘制地图
map_osm = folium.Map(location=[35,110],zoom_start=5)
HeatMap(data1).add_to(map_osm)
学习资料:
《中文自然语言处理入门实战》