想当数据科学家的你这13个错误可别犯

发布时间：2018-08-16 01:28:33 所属栏目：教程来源：佚名

导读：副标题#e# 技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战前言当你看这篇文章的时候，我们知道你已经决定把数据科学当作你的工作。当下越来越多的企业需要数据支持其决策，世界也变得越来越紧密，几乎每个企业都需要大量的数据

这是近来数据科学家们最大误解之一。竞赛和黑客马拉松提供了相当干净、一尘不染的数据集(好吧，说得是有点过了，懂我的意思就好)。你下载它们然后着手解决问题。即使这些数据集有一些缺失数值的数据列也不会多么麻烦，找到一种插补技术然后填空就好。

不幸的是真实世界里的项目并不这样。真实世界中有一条涉及与一群人一起工作的端到端的流程。你几乎总得和混乱、未清洗的数据打交道。俗话说得好，“花费你 70-80% 的时间，收集、清洗数据”是一点也不为过的。你会(很可能)不喜欢这个令人筋疲力尽的过程，但它最终会变成你日常工作的一部分。

此外还有一点我们将在下文中详谈，那就是简单的模型要优先于任何复杂的、堆砌的集成模型。准确性不总是最终目标，这是你会在工作中学到的最矛盾的事。

如何避免这个问题?

令人尴尬的是避开这个误区的重要因素是经验，你获得越多经验(这种情况下实习会大有助益)，你越能区分这两者。这就是社交媒体的方便之处：多跟数据科学家们聊聊，问问他们的经验。

另外，我建议看看这个 Quora 问题，来自世界各地的科学家就这个问题在上边表达了他们的看法。竞赛排行榜确实适合衡量你的学习进度，但面试官想知道的是你怎样去优化一个算法来产生影响，而不是为优化而优化。学习一个数据科学项目如何运转，一个团队里有哪些不同的角色(从数据工程师到数据架构师)，基于你的理解构建你的回答。

5. 注重模型的精度胜过其适用性和可解释性

来源：Design Shack

正如以上所述，精确度并不总是业务所追求的。固然一个能以 95% 的精确度预测贷款违约的模型相当不错，但若你无法解释这个模型如何做到这一点，什么特性使其如此，以及你在建构模型时的思路是什么，你的客户就会拒绝这个模型。

极少地，如果有的话，你会看到深度神经网络用于商业应用中。向客户解释一个神经网络(更别说深度神经网络)是如何利用其隐藏层、卷积层等来得到其结果是不可能的。首要且必须考虑应该是我们能够理解模型之下发生着什么。如果你没法判断年龄、家庭成员数目、抑或此前的信用记录是否与拒绝信贷申请有关，你该如何向你的客户做出建议让他们能改进他们的业务?

另一个关键方面是你的模型能否契合组织业已存在的框架。如果开发环境不能支持你使用的 10 种不同的工具和库，这将相当失败，你将不得不用一种更简单的方法从零开始重新设计并重建模型。

如何避免这个问题?

避免这个错误的最好方法便是与业界人士交流，没有比经验更好的老师。选择一个领域(金融，人力资源，销售，运营等)并与他们联系，了解他们的项目是如何运转的。

除此之外，练习构建简单的模型并向非技术人员解释它们。随后提升模型的复杂度并继续这么做，直到即使是你也不能理解其表层之下发生着什么。这将教会你何时停止，以及为何现实世界的应用中简单的模型总是更受青睐。

（编辑：网站开发网_安阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/6

首页

尾页

台式电脑显卡驱动安装	修复word表格两页断开
大白菜u盘装系统win10	电脑系统还原怎么设置