人工智能时代前沿技术社区

首页 > 大数据 > 热点

你理当避免的5个数据科学错误

人工智能、机器学习和分析不仅仅是最新的流行语;大大小小的企业组织都在关注人工智能工具和服务,希望通过大数据、预测分析和自动算法系统

作者: | 2018-07-08 19:36:21 | 来源:搜狐

人工智能、机器学习和分析不仅仅是最新的流行语;大大小小的企业组织都在关注人工智能工具和服务,希望通过大数据、预测分析和自动算法系统改善业务流程、客户支持和决策制定。据IDC预测,到2018年将有75%的企业和ISV开发人员将在至少一个应用中使用人工智能或机器学习。

但是数据科学方面的专业知识并不像利用数据来制定决策和改进结果那样普及。如果你的业务刚刚开始采用数据科学,那么你需要注意避免犯下一些常见的错误。

37_副本.jpg

1、 假设你的数据准备就绪了——而且这些数据都是你所需要的

你需要检查收集来并准备使用的数据的质量和数量。“常你要花80%的时间在获取数据和清理数据上,”data.world数据科学家兼知识工程师Jonathan Ortiz这样说。“而且这是假设你正在追踪数据科学手头工作所需要追踪的情况。

如果你追踪的数据没错,那你有可能无法正确地记录这些数据,或者记录这些数据的方式会随着时间而改变,或者你收集数据的系统可能在你收集数据时发生了变化。

如果每个月都有变化,那么当你进行分析或者建立模型的时候,你就不能使用这一整个月的数据,”Ortiz警告说,因为系统本身已经发生了变化。

TechTarget首席营销官John Steinert解释说,即使你正在收集数据的数据没错,较少的数据量和较多的自变量也让我们很难为B2B营销和销售等业务领域创建精准的预测模型。 “数据科学越好,你拥有的数据就越多;预测模型越强大,数据就越多。由于交易率低,影响交易的自变量很多,因此你的数据集很小,而且交互复杂,这就削弱了预测模型的力量。”

有一种选择,就是购买像采购意向数据这样的数据集,只要你可以找到适用于你业务领域的数据集。另一个选择是模拟数据,但必须要小心谨慎,Avanade高级顾问数据科学家Chintan Shah这样警告说。“实际上,数据可能不会按照你一开始的假设那样行事,”Shah说。

2、 在开始工作之前不事先探索数据集

你可能会对你的数据集有某些理论或者直觉,但数据团队应该在使用这些数据训练数据模型之前花一些时间详细研究数据的细节。

Ortiz说:“如果你发现一些违反直觉的事情,那么你的假设可能是不正确的,或者数据是错误的。我所做的最重要的事情就是查看数据、绘制数据以及探索性分析。很多人完成这些过程的速度非常快,甚至是完全绕过这些过程,但你需要了解数据的情况。你可以事先做一些探索,以更快地确定数据是否能够告诉你所需的信息。”

3、 期待太多

围绕人工智能的各种炒作让很多人相信“如果我们将数据用于计算机算法中,它就会自行计算出所有的东西,”Shah警告说。“虽然企业拥有大量数据,但仍需要专业人员的专业知识才能将数据转换为可用的格式。”

Steinert指出,只看到自己公司之前已经做了什么并不能让你发现新的机会,只是能让你更有效地处理曾经做过的类似工作。Steinert说:“你越是利用过去作为未来的唯一预测因素,就越不好找到新的途径。即使你引入第三方数据来找出产品或者服务的需求,也无法保证你能够真的完成这些销售任务。“数据模型可以告诉你有一家公司与你所提供的产品相匹配,但它无法告诉你该公司现在是否有需求,”他补充说道。

“人们开始在这方面进行投资,并将充分信任数据科学家,这和以前是大不相同的。他们正在投入资源并期望用一套方案回答所有问题。他们现在非常虔诚地相信数据科学家和使用数据来回答问题和推动决策,“Ortiz说。

Ortiz建议,数据科学家应该从小型项目开始着手,并通过取得快速胜利来向企业组织展现其价值。“先摘下那些唾手可得的成果;不要从技术漏洞入手并且花一个月时间参与一个你认为具有巨大价值的大项目,”他说。

4、 不使用控制组来测试你的新数据模型

如果你花费了不少时间和金钱来建立数据模型,那你肯定希望能在任何地方使用这个模型从而最大限度利用这笔投资。但如果你这样做了,你就无法衡量模型的实际效果。另一方面来说,如果用户不信任这个模型,他们可能就不会使用它,然后你无法测试它,Steinert说。有没有解决方案?Steinert补充说,解决方案就是变更管理项目,可以确保采用该模型,以及设置一个不适用该模型的控制组。设置一个随机小组专门看模型确定的机会,并且设置一个控制组“按照他们一贯的方式,自我赋权、体验式的”。

5、 从目标开始,而不是假设开始

寻找可以实现特定改进的数据模型是很诱人的,例如,在48小时内完成80%的客户支持案例,或者在一季度内获得10%的业务增长,但这些指标还不够。

Ortiz说:“最好先从假设开始。通常你会看到一条曲线或一条线作为整体度量标准,你希望推动这条线;这是一个伟大的商业目标,但很难想象你需要采取哪些措施才能做到这一点。”通过控制组或者探索数据来验证你关于做什么可以改善情况的假设。“如果你可以在控制组进行分组测试,并且都是具有代表性的样本的情况下运行测试,那么你可以实际上确定你正在使用的方法是否真的影响到了你希望影响的。如果你只是在事实后查看数据,从假设开始可以帮助缩小范围。我需要将这个指标增加10%:对于可能带来的影响,我的假设是什么?然后[我可以]对数据进行探索数据分析以便进行追踪。清楚地知道你要问的问题,以及你正在测试的假设,这可以帮助减少你花在这些事情上的时间。”