以下两种描述分别对应哪两种对分类算法的评价标准?()
(a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b) 描述有多少比例的小偷给警察抓了的标准。
答案:Precision(准确率), Recall(召回率)当决策树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,导致模型__________
答案:过拟合熵是为消除不确定性所需要获得的信息量,投掷均匀正八面体骰子的熵是______
答案:3比特在一次分类挖掘任务中,获得的结果是TP(truepositive)=100,TN(truenegative)=89,FP(falsepositive)=25,FN(falsenegative)=23,那么该数据集中预测样本为正样本(positivesample)的准确率为____,负样本的召回率是______。
答案:80/100,89/(89+25)数据线性可分的含义
答案:可以画出一条直线(超平面)来将数据区分开关联分析中三个重要指标
答案:最小支持度、置信度指标,另一个重要指标是lift(提升度)指标ID3算法是一个著名的决策树生成方法,它采用( ) 来选择能够最好地将样本分类的属性。而同样为决策树生成方法的C4.5算法采用( )来选择能够最好地将样本分类的属性。
答案:信息增益 信息增益比决策树是用_______ 作为结点,用_______作为分支的树结构。
答案:属性 属性值当决策树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,导致模型 。
答案:过度拟合聚类算法有哪些分类
答案:基于划分的聚类、基于密度的聚类、层次聚类方法、基于网格的聚类方法、基于模型的聚类方法
K-Means聚类(基于划分的聚类)、DBSCAN(基于密度的聚类)评价聚类有效性的外部指标
答案:Jaccard系数(Jaccard Coefficient,JC)、FM指数(Fowlkes and Mallows Index,FMI)、Rand指数(Rand Index,RI)和标准化互信息(normalized mutual information)软二分类(soft binary classification)给出预测样本属于某个类的概率,其典型的评价指标有( ),典型的软二分类算法有( )。
答案:AUC, Logistic回归线性回归是用( )来求解回归方程最优系数值的。
答案:最小二乘法Hadoop 2.x 中HDFS默认块的大小为( )MB。
答案:128MBHadoop安装方式:
答案:单机模式、伪分布模式和分布模式Hadoop框架中最核心的设计是为海量数据提供存储的( )和对数据进行计算的( )。
答案:HDFS MapReduce设X={A,B,C, D}是频繁项集,则可由X产生( )个关联规则。
答案:14个下列哪个程序通常与 NameNode 在一个节点启动? ( )
A. SecondaryNameNode B. DataNode
C. TaskTracker D. Jobtracker
答案:Dk折交叉验证一般k取( )
5或10HDFS 中的 Block 默认保存几份?( )
A. 3 份 B. 2 份 C. 1 份 D. 不确定
答案:A决策树中不包含下列哪种结点?
A. 根结点 B. 内部结点 C. 外部结点 D. 叶结点
答案:C下面()不是常用的知识表示形式
A.规则 B. 知识基 C. 网络权值 D. 神经网络
答案:D属于分类器评价或比较尺度的有:
答案:预测准确度 、召回率和计算复杂性以下哪个算法不是分类算法 ( )
A DBSCAN B C4.5 C Naïve Bayes D Logistic回归
答案:A熵是为消除不确定性所需要获得的信息量,投掷均匀正八面体骰子的熵是:
答案:3比特关于Hadoop的SecondaryNameNode哪项是正确的? ( )
A. 它是 NameNode 的热备分
B. 它对内存没有要求
C. 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间
D. SecondaryNameNode应与NameNode部署到一个节点
答案:C通过聚集多个分类器的预测来提高分类准确率的技术称为 ()
A 组合(ensemble) B 聚集(aggregate)
C 合并(combination) D 投票(voting)
答案:A在现实世界的数据中,元组在某些属性上缺少值是常有的。处理该问题的各种方法有( )
答案:忽略元组、使用一个全局常量填充空缺值、使用属性的平均值填充空缺值、使用最可能的值填充空缺值等。( )、数据规模、稀疏性和( )等数据特性都对聚类分析具有很强影响。
高维性、噪声和离群点数据预处理中的ETL指的是()、()和() 。
抽取 转换 装载关于K均值和DBSCAN的比较,以下说法不正确的是( )。
A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
答案:A下列算法属于聚类算法的是( )
A. DBSCAN B. KNN C. ID3 D. Apriori
答案:A。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法下列哪项通常是集群的最主要瓶颈( )
A. CPU B. 网络 C. 内存 D. 磁盘IO
答案:D将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( )
A. 频繁模式挖掘 B. 分类和预测
C. 数据预处理 D. 数据流挖掘
答案:CHadoop Client 端上传文件的时候下列哪项正确( )
A. 数据经过 NameNode 传递给 DataNode
B. Client 端将文件切分为 Block,依次上传
C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D. Client 只上传数据到多台 DataNode,然后由 DataNode 负责 Block 复制工作
答案:B分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)
答案:√
-
简述K均值算法的聚类过程
答案:
(1)任意选择k个对象作为初始的簇中心;
(2) repeat
(3) 根据簇中对象的平均值, 将每个对象(重新)赋给最类似的簇;
(4) 更新簇的平均值, 即重新计算每个簇中对象的平均值;
(5) until 不再发生变化
通常, 采用平方误差准则作为收敛函数, 其定义如下
其中, mi是簇Ci的平均值
该准则试图使生成的结果簇尽可能紧凑, 独立 KDD过程不包含( )。
A.数据准备 B.数据建模
C. 数据挖掘 D. 结果的解释和评估
答案:B为什么说naïve Bayesian分类法是naïve(朴素)的?
答案:朴素贝叶斯分类法假定一个属性值对给定类的影响独立于其它属性值。这个假定称为类条件独立性。作此假定是为了简化所需要的计算,并在此意义下成为“朴素的”。
关联分析中具有较高支持度的项集必然具有较高的置信度。
答案:×聚类方法DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
答案:√离散属性总是具有有限个值。
答案:×Boosting的一个优点是不会过拟合
答案:×Hadoop 支持数据的随机读写。
答案:×分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
答案:√离群点可以是合法的数据对象或者值。
答案:√Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。
答案:×
简述大数据的4V特征?
答案:
4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
1)数据体量巨大(Volume)。大数据典型的容量已在TB级,而一些大企业的数据量已经接近EB量级。
2)数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
3)价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
4)处理速度快(Velocity)。从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。-
下表中给出一组年薪数据,其中X表示大学毕业生毕业后的工作的年数,而Y表示对应的年收入,我们采用一元线性回归表示年薪和工作年数之间的关系,回归系数采用最小二乘法求解,请求解出大学毕业生年薪与工作年数之间的线性回归方程,并用该方程预计出毕业10年的大学生的年薪为多少,给出计算过程?
-
决策树分类算法ID3是用信息增益来做属性选择度量的,下表是一个关于在某种天气条件下打网球的例子,请用信息增益计算方法求出属性outlook的信息增益值。如果知道Gain(Temperature)=0.029,Gain(Humidity)=0.151,Gain(Wind)=0.048,应该用哪个属性做决策树的根节点。这里,Outlook---天气,Overcast---阴天,Humidity---湿度
答案:
- 数据集中包含14个样本,其中8个正样本(yes),6个负样本(no)。则这些元组的期望信息(即熵)为:
Info(D)=-8/14log2(8/14) -6/14log2(6/14)= 0.9852 - 现在观察每个属性的期望信息需求。
在属性Outlook中,对于sunny,正样本数为2,负样本数为3;
对于属性overcast,正样本数为4,负样本数为0;
对于属性rain,正样本数为3,负样本数为2。
按照Outlook划分样本得到的期望信息为:
5/14 * ( -2/5log22/5 –3/5log23/5) + 4/14 * ( -3/4log23/4-1/4log21/4) + 5/14 * ( -3/5log23/5 –2/5log22/5)=0.3467+0.2318+0.3467=0.9252
Gain(outlook)=0.9852-0.9252=0.06 - 比较其它属性的信息增益值,最大的是属性Humidity,应以它为根节点。