英特尔（Intel）数据分析岗面试题库及面试流程

2022-09-14 17:00

Intel Data Scientist的面试流程是什么样的？针对常见现场面试题目，面试者又应该如何回答？Uoffer下面为大家详细分享一下。

英特尔数据分析岗面试流程

Intel数据科学岗有以下三个面试流程：

（1）与HR的面试

面试者需要与HR或是招聘经理进行电话面试。面试中的问题基本上围绕面试者的的简历和背景经历展开。

（2）技术面试

这一轮的技术面试同样为电话面试，应聘者将与两到三名来自不同团队的数据科学家进行面试。

（3）现场面试

在简单参观公司之后、现场面试之前，面试者可以选择展示一到两个最近参与的项目（博士生必须做presentation，硕士生可以选择是否做presentation）。

随后，面试者将与数据科学团队的成员，包括团队负责人和首席数据科学家，进行三次一对一的面试，每次约45分钟。

接下来，Uoffer就带大家来了解英特尔DS的面试真题及答案解析。

面试题目类及真题汇总

通常情况下，Intel的面试因角色和团队而异，但数据科学家的面试通常遵循一个相当标准化的过程。在英特尔数据科学家面试过程中，最常见的问题类型是机器学习、统计学和SQL语言。

（1）机器学习

例题参考：

- Explain the working of a Random Forest Machine Learning Algorithm.

- Describe K-Means Clustering.

- How do you parallelize machine learning algorithms?

- How is logistic regression done?

- How do you build a random forest model?

- How can you avoid overfitting your model?

- How do you find RMSE and MSE in a linear regression model?

- After studying the behavior of a population, you have identified four specific individual types that are valuable to your study. You would like to find all users who are most similar to each individual type. Which algorithm is most appropriate for this study?

- What is the goal of A/B Testing?

- Which is your favorite machine learning algorithm and why?

- Have you ever created an original algorithm? How did you go about doing that and for what purpose?

（2）统计学

例题参考：

- What is the law of large numbers?

- What are the confounding variables?

- What is selection bias?

- What are the types of biases that can occur during sampling?

- What is survivorship bias?

- Difference between Point Estimates and Confidence Interval

- How can outliers be treated?

（3）SQL

例题参考：

- Write a basic SQL query that lists all orders with customer information.

- You are given a dataset on cancer detection. You have built a classification model and achieved an accuracy of 96 percent. Why shouldn't you be happy with your model performance? What can you do about it?

- We want to predict the probability of death from heart disease based on three risk factors: age, gender, and blood cholesterol level. What is the most appropriate algorithm for this case?

常见面试真题参考答案及解析

我们挑选部分Intel经典面试真题进行解析，答案仅供参考。

原题：How do you build a random forest model?

随机森林由若干决策树（decision tree）组成。如果将数据拆分为不同的pakages，并在每个不同的数据组中创建一个决策树，那么随机森林就将所有这些树合并在一起。

创建随机森林模型的步骤：

1.在m个总特征中随机选择k个特征，k<m

2.在所选出来的k个特征中，使用最佳分割点（best split point）计算节点D

3.再次利用最佳分割点将节点分割为子节点

4.重复第二和第三步，直到叶节点完成

5. 重复第一到第四步n次，从而创造n个随机树，形成随机森林

原题：How can outlier values be treated？

当异常值（outlier）是垃圾值时，没有任何意义时，我们可以删除它。

比如说，一个成人身高为abc英尺。这个数值就有问题，因为身高不能是字符串值。在这种情况下，我们可以删除异常值。

如果异常值有极值，也可以将其删除。例如，如果所有数据点都聚集在0到10之间，但有一个点位于100，那么我们可以删除该点。

如果无法删除异常值怎么办呢？我们可以尝试以下操作：

（1）试试另一种模型。被线性模型检测为异常值的数据可以用非线性模型进行拟合。

（2）尝试规范化数据。这样，极端数据点就被拉到一个类似的范围中，不再是异常值。

（3）也可以使用受异常值影响较小的算法，比如使用随机森林。

原题：What are the confounding variables?

混淆变量（Confounding variable）在统计学中是一个非常重要的概念，是指与自变量和因变量均相关的变量，该变量使自变量和因变量间产生虚假的关系。

例如，年龄混淆了年收入和罹患癌症几率之间的关系。

随着年龄增加，年收入增加，同时患癌症的几率增加，年收入与癌症之间的关系完全是由年龄造成的。这种情况经常用来解释相关不等于因果关系，因为可能存在第三个变量同时影响两者。

简单来说：混淆变量是无法控制的变量，也可以称为额外变量。

原题：What is selection bias?

选择性偏差指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差，包括自选择偏差（self-selection bias）和样本选择偏差（sample-selection bias）。

自选择偏差是指解释变量不是随机的，而是个体选择的结果，而这个选择的过程会使对主效应的估计产生偏差。

例如研究是否上大学对收入的影响，我们将上大学的和没上大学的人进行简单比较，我们会发现大学生的平均工资比没上过大学的人的平均工资高。

事实上，这种简单比较就存在严重的自选择问题，因为在这里比较的两类人在自身特质方面可能存在很大差异，上大学的孩子可能本身就很出色（更聪明、有毅力、能力强...），因而更有可能获得更高的收入。

样本选择偏差是指样本选择不是随机的，使样本不能反映总体的某些特征，从而使估计量产生偏差。

比如，很多大学生为了课程作业、毕业论文、亦或是所谓的学术科研调查活动，在网上发布调查问卷，然后转到空间、朋友圈。

这种调查方式本身就存在样本选择问题，因为还有一大部分人群不在你的朋友圈（你的好友列表都是你的同学啊、朋友），还有一大部分人群根本不使用互联网，或者说根本不会看到你发布的问卷。

因此，所选择的样本本身的差异性可能就并不是特别大，没有办法反应一个更大的群体的特征。

Uoffer为求职者们准备了100道大厂数据分析岗面试真题，帮助你成功拿到数据岗offer。

标签：英特尔（Intel）数据分析岗面试Intel数据分析面试流程

上一篇: 亚马逊（Amazon）数据分析面试题及面试流程

下一篇: 前端怎么刷leetcode题？leetcode前端刷题技巧

U培计划

私人订制求职服务，匹配不同求职者的核心需求

归航计划

专为留学生海归求职打造，名企实习保offer录取

简历优化

精修简历中的每个细节，打造学员背景亮点

面试诊断

面试官帮你全方位诊断，梳理重点，提升面试方案