广东专升本数据科学导论历年真题模拟试卷及参考答案
一、单项选择题。
1.以下哪一项不是特征选择常见的方法?()
A.过滤式
B.封装式
C.嵌入式
D.开放式
2.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差
B.最小化残差平方和
C.最大化信息熵
D.最小化标准差
3.以下哪些不是缺失值的影响?()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
4.下列两个变量之间的关系中,哪个是函数关系?()
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
5.哪一项不属于规范化的方法?()
A.最小—最大规范化
B.零—均值规范化
C.小数定标规范化
D.中位数规范化
6.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
7.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5};假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
8.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A.1
B.2
C.3
D.4
9.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
10.以下哪一项不属于数据变换?()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
二、多选题。
1.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
2.系统日志收集的基本特征有()。
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
3.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
4.距离度量中的距离可以是()。
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
5.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
6.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
7.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
8.什么情况下结点不用划分?()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
9.数据科学具有哪些性质?()
A.有效性
B.可用性
C.未预料
D.可理解
10.下面例子属于分类的是()。
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
三、判断题。
1.剪枝是决策树学习算法对付“过拟合”的主要手段。
2.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
3.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
4.分拆方法是自底向上的方法。
5.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
6.在数据预处理时,无论什么情况,都可以直接将异常值删除。
7.对于项集来说,置信度没有意义。
8.给定关联规则A→B,意味着:若A发生,B也会发生。
9.信息熵越小,样本结合的纯度越低。
10.聚合方法是自底向上的方法。
四、简答题。
1.数据科学的三大支柱与五大要素是什么?
2.如何辨证看待“大数据”中的“大”和“数据”的关系?
3.怎么理解科学的范式?今天如何利用这些科学范式?
4.从人类整个文明的尺度上看,IT和DT对人类的发展有些什么样的影响和冲击?
5.大数据时代的思维方式有哪些?
6.请列举出六大典型思维方式;
7.简述冯·诺依曼计算机工作原理。
8.二进制系统是如何实现的?
9.解释比特、字节和十六进制表示。
10.请辨析现象、数据、信息和知识这几个概念。
感谢您阅读广东专升本数据科学导论历年真题模拟试卷及参考答案,本文出自:诚为径统招专升本网,转载需带上本文链接地址:https://tzzsb.cwjedu.com/mnst/66024
- 温馨提示:
- 因考试政策、内容不断变化与调整,诚为径教育网站提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准!