1、歌词预处理
- 去除无关歌词的句子:比如 作曲、作词等
- 分词处理,比如 jieba
- 去除停用词
2、歌词特征的提取
- TFIDF
- word2vec:采用 word2vec 进行文本特征提取,使用数据集训练 word2vec 词向量模型,词向量维度设置为 300 维。
3、CNN 结构的设计
输入层——CNN 卷积层——池化层——CNN 卷积层——池化层——全连接层
4、总结
对音乐的句子数目做了统计,以句子为对象,通过 word2vec 将句子表示成对应的句子量并将每一条音乐样本表示为 m*n 的二维矩阵的形式输入到卷积神经网络模型中。