编程学习网 > IT圈内 > 面试了100人后发现大家有点“眼高手低”:想做数据科学家,但怎么连SQL都不熟?
2022
11-19

面试了100人后发现大家有点“眼高手低”:想做数据科学家,但怎么连SQL都不熟?

最近和几家大厂的面试官们聊天,有好几位都在吐相同的槽:数据科学家岗位的很多申请人都“浮在云端”,连最基本的分析基础都不牢靠。

学习数据科学之前是非常有必要学习数据分析的。面试官们表示:在正式开始数据科学工作之前,有数据分析的实习,或初级数据分析师的岗位有很多好处,甚至即便只是参与一些有关数据分析的在线课程,也能给你的数据科学打下基础。但有很多人毫无数据分析的基础,就直接进入到了数据科学的领域,这其实是在揠苗助长啦!
今天这篇文章就来谈一谈,对于想从事数据岗位的你来说,应该打好哪些在面试官眼里是必须要打的“基础”

1. 探索性数据分析是一切分析的基础

当你做数据分析的时侯,你常常会探索性分析数据。作为数据科学家,这通常是数据科学过程的第一步。所以,如果你跳过实践这个步骤,模型可能会导致错误、混乱和误导性结果。直接将数据扔给机器学习算法,并不意味着它能回答眼前的业务问题。干净的数据才能给出更准确的结果。

你需要在原始数据中找到异常,聚合,缺失值,转换,预处理等。首先你要了解原始数据,因此成为数据分析的高手至关重要。有一些Python(以及R)的library可以自动化完成此任务。

比如说以下这个library:

from pandas_profiling import ProfileReport

profile = ProfileReport(df, title="Pandas Profiling Report")

profile.to_widgets()

# or you an do the following

df.profile_report()

可以在Jupyter笔记本中查看Pandas profiling。这个library的一些独特功能包括但不限于类型推断、唯一值、缺失值、描述性统计信息、频繁值、直方图、文本分析、文件以及图像分析。

总体而言,除了这个library之外,还有许多种方法可以进行探索性数据分析,如果你还没有相关的经验,可以找一门课程去系统性地学习探索性分析数据的方法。

2. 和利益相关者合作才是数据从业者的真实职场

数据科学家可以很快地学习复杂的机器学习算法,但是学习如何高效地和业务相关人员沟通却并没有那么容易一蹴而就。一个合格的数据科学家需要成为将商用转换为数据科学模型的大师。产品经理或其他利益相关者不会主动提出具体要求,比如,以80%的准确性创建受监督的机器学习算法。他们只会给你一些数据,以及他们不断看到的问题。你必须自己提出回归,分类,聚类,增强,装袋等概念。你还必须与他们一起工作,建立成功的标准。以及你如何解决这些需求,并将其转化为对利益相关者有意义的业务问题。

那么,你该如何学习协作呢?与数据科学家相比,事先作为数据分析师的工作通常需要更多的协作。数据分析师几乎每天或至少每周与他人合作来创建指标,进行可视化并分析,给出建议。这种做法对于成为一名优秀的数据科学家至关重要。通过数据分析的角色,与利益相关者协作实践的好处有:

  • 商业理解

  • 问题定义

  • 成功标准的建立

3. SQL能力捉急,还怎么调取数据?

数据科学家需要执行特征工程,分离出有助于模型预测的关键特征。在学校或任何学习过数据科学的地方,可能已经为你准备了一个完美的数据集,但是在现实世界中,你得自己使用SQL查询,查找必要的数据。除了表中已有的列之外,你还需要制作新的列。通常,这些是可以合并指标,例如,每位用户的点击次数。数据分析师最常用的就是SQL了。而作为一名数据科学家,如果你只会使用Python或R,那你就有麻烦了,因为你不能一直依赖于Pandas,而且当你不知道如何有效查询数据时,你甚至都没办法开始建模。同样,你可以通过数据分析练习,创建上述子查询和指标。

4. 掌握数据可视化,才能更有效地分享你的结果

数据分析师通常是数据可视化的大师,因为他们必须以一种易于公司中其他人容易理解的方式来呈现结果。一个充满数字的复杂表格,可能会令人不知从何看起。因此,能够突出显示重要的指标,洞察力和结果的能力对于数据科学家也非常重要。同样,当你完成了用于构建最终模型的复杂机器学习算法时,可以流畅地分享你的成果。其他人也能了解重点和要点。

通过可视化完成这个过程的最佳方法,以下是创建这些可视化的一些工具:

  • Tableau
  • Google Data Studio
  • Looker
  • Seaborn library
  • MatPlotLib

除此之外还有很多工具,但这些是最常用的可视化工具。通过可视化表达见解和结果,还可以帮助自己更好地学习过程并取得业务见解。

回到最初的问题,在成为数据科学家之前,我应该首先成为数据分析师吗?

我的答案是:Yes,或者至少是某种形式,无论是实习,工作,类似业务分析师的类似工作,还是在数据分析课程中获得认证。除了我上面讨论的四个好处之外,要强调的另一个好处是,如果你的简历上具有Data Analytics的头衔或经验,它肯定可以帮助你找到数据科学家的工作。

以上就是“面试了100人后发现大家有点“眼高手低”:想做数据科学家,但怎么连SQL都不熟?”的详细内容,想要了解更多IT圈内资讯欢迎持续关注编程学习网

扫码二维码 获取免费视频学习资料

Python编程学习

查 看2022高级编程视频教程免费获取