想当数据科学家的你这13个错误可别犯
|
这是近来数据科学家们最大误解之一。竞赛和黑客马拉松提供了相当干净、一尘不染的数据集(好吧,说得是有点过了,懂我的意思就好)。你下载它们然后着手解决问题。即使这些数据集有一些缺失数值的数据列也不会多么麻烦,找到一种插补技术然后填空就好。 不幸的是真实世界里的项目并不这样。真实世界中有一条涉及与一群人一起工作的端到端的流程。你几乎总得和混乱、未清洗的数据打交道。俗话说得好,“花费你 70-80% 的时间,收集、清洗数据”是一点也不为过的。你会(很可能)不喜欢这个令人筋疲力尽的过程,但它最终会变成你日常工作的一部分。 此外还有一点我们将在下文中详谈,那就是简单的模型要优先于任何复杂的、堆砌的集成模型。准确性不总是最终目标,这是你会在工作中学到的最矛盾的事。 如何避免这个问题? 令人尴尬的是避开这个误区的重要因素是经验,你获得越多经验(这种情况下实习会大有助益),你越能区分这两者。这就是社交媒体的方便之处:多跟数据科学家们聊聊,问问他们的经验。 另外,我建议看看这个 Quora 问题,来自世界各地的科学家就这个问题在上边表达了他们的看法。竞赛排行榜确实适合衡量你的学习进度,但面试官想知道的是你怎样去优化一个算法来产生影响,而不是为优化而优化。学习一个数据科学项目如何运转,一个团队里有哪些不同的角色(从数据工程师到数据架构师),基于你的理解构建你的回答。 5. 注重模型的精度胜过其适用性和可解释性 ![]() 来源:Design Shack 正如以上所述,精确度并不总是业务所追求的。固然一个能以 95% 的精确度预测贷款违约的模型相当不错,但若你无法解释这个模型如何做到这一点,什么特性使其如此,以及你在建构模型时的思路是什么,你的客户就会拒绝这个模型。 极少地,如果有的话,你会看到深度神经网络用于商业应用中。向客户解释一个神经网络(更别说深度神经网络)是如何利用其隐藏层、卷积层等来得到其结果是不可能的。首要且必须考虑应该是我们能够理解模型之下发生着什么。如果你没法判断年龄、家庭成员数目、抑或此前的信用记录是否与拒绝信贷申请有关,你该如何向你的客户做出建议让他们能改进他们的业务? 另一个关键方面是你的模型能否契合组织业已存在的框架。如果开发环境不能支持你使用的 10 种不同的工具和库,这将相当失败,你将不得不用一种更简单的方法从零开始重新设计并重建模型。 如何避免这个问题? 避免这个错误的最好方法便是与业界人士交流,没有比经验更好的老师。选择一个领域(金融,人力资源,销售,运营等)并与他们联系,了解他们的项目是如何运转的。 除此之外,练习构建简单的模型并向非技术人员解释它们。随后提升模型的复杂度并继续这么做,直到即使是你也不能理解其表层之下发生着什么。这将教会你何时停止,以及为何现实世界的应用中简单的模型总是更受青睐。 (编辑:网站开发网_安阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


