这篇是香港理工大学李恒云老师团队的研究,主要使用机器学习方法对餐厅进行生存预测,主要创新在于考虑了评论波动(方差)还有评论来源(专家和非专家)对预测的影响。
标题:
Restaurant survival prediction using machine learning: Do the variance and
sources of customers’ online reviews matter?
理论基础:
这篇研究主要基于:
可访问性诊断理论Accessibility-diagnosticity theory(用来解释评论差异对预测的影响);
信号理论(解释评论来源对预测的影响)
主要研究内容:
这篇文章主要采用分类预测的算法来进行餐厅生存预测,使用的模型基于统计的机器学习(朴素贝叶斯分类器 [Bayes]);基于内核的机器学习(支持向量机 [SVM]);基于神经网络的模型(多层感知器 [MLP]);和一种集成方法(eXtreme gradient boosting [XGBoost])。
文章的预测分疫情前后两个时间段,预测分了一步和多步:
类似一步向前预测:用2014年以前的预测2015年的餐厅生存情况,然后2015年以前的数据预测2016年的以此类推,这是预测未来一年;
类似多步向前预测:用2014年以前的数据预测2016年的情况,这就相当于2步向前,预测2017年就是3步向前,2018年为4步向前,2019年为5步。
Kaplan-Meier 曲线:
研究采用 Kaplan-Meier (KM) 曲线分析特定变量对餐厅生存的影响。具体来说,KM 曲线描述了给定影响因素的情况下,随着时间的推移而生存的餐厅的比例。X 轴表示餐厅的生存时间(以月为单位),定义为从初始观察到餐厅关闭的持续时间,而 Y 轴表示存活率——即餐厅在给定观察时间内生存的概率。
注意:研究是通过对特定变量分组进行画图来研究不同变量的影响,例如餐厅评分,根据中位数划分成2组,高于中位数的是一组,低于中位数的是一组,然后一个图里就有两条线,如本研究分别为蓝色和橘色线,如果两条线随着生存时间越长靠得越近说明,这个因素的干扰不大,相反,如果两条线随着时间距离越来越远,说明这个因素高低对餐厅生存影响大。(即两条线彼此越近,高变量与低变量对餐厅生存的影响差异就越小;相反,两条线之间的差距越大,高变量与低变量对餐厅生存率的影响就越明显。)
敲黑板: 主要在变量构造方面,
1、对于评论的情感分析使用了ABAS-BERT计算美味、服务、位置、价格和环境五个方面的情感均值和方差。
2、周围竞争者的衡量:考虑每年具有相同邮政编码的餐厅数量来计算给定年份餐厅的竞争对手数量。然后计算自餐厅成立以来的平均竞争对手数量以反映竞争格局。
3、用户参与度:因为使用是是yalp的数据,每条评论的“funny”、“useful”和“cool”投票的总和。
注释:
由于数据属于非平衡数据,倒闭的餐饮店样本量极少(类似于垃圾邮件),所以作者采用了SMOTE方法进行了过采样,使正负样本平衡。
可访问性诊断理论:这一理论解释了人们如何评估信息的相关性和可靠性。可访问性指的是信息容易在记忆中提取的程度,而诊断性指的是信息能够准确区分不同选项的程度。当人们做决策时,他们倾向于依赖那些既容易想起又能够有效区分选项的信息。
信号理论:信号理论是在生物学和社会科学中用来解释个体如何通过信号传递信息,以及接收者如何解释这些信号的理论。在经济学和市场营销中,信号理论常用来分析如何通过产品特性、价格、广告等信号来传达产品质量或企业实力,从而影响消费者行为。