发表于2017/03/16

数据出现问题

10bet娱乐成代理沟通|数据出现问题
我们经常假设数据是无可救药的,虽然这远离真相,但更好地了解数据分析所需的假设 - 以及对用户的观察和批判性思维的承诺 - 可以帮助避免陷阱。

数据出错的是与方向盘出现问题。也就是说,它不是你想做的,特别是在超越高速公路时。

但不是数据通常可靠?数据不难问吗?事实证明,不幸的是,它比你想象的更容易。

首先是免责声明:数据可能是非常有价值的,提供了一个在决策中使用的伟大工具。我与Chmura经济学和分析的团队合作,数据处于我们业务的核心,我们的口头禅是为质量决策提供质量数据。然而,与所有数据有关的不确定性;你欣赏的越多,你就越能让你的汽车正直放在人行道上。

最常见的数据形式不确定性之一是通常在政治民意调查中引用的统计不确定性。关于这种类型的不确定性的重要信息是它只代表了整体不确定性的一部分。

我们不必回顾才能找到一个出错的选举预测的例子。2016年美国总统选举民意调查将希拉里克林顿称为最受欢迎的胜利,即使是广泛的保证金,在战场状态,她最终丢失了。所以,出了什么问题?

答案以不确定性的形式隐藏,通常甚至没有讨论。当提出轮询号时,它们通常引用误差统计边际,例如“加上或减少四个百分点”。问题是,如果分析中使用的所有假设都是正确的,这种形式的不确定性仅占据不确定性。

此外,由于缺乏先例,更有不同的东西是,由于缺乏先例,可能会出现问题。如果2016年大选在巴拉克奥巴马和米特罗姆尼之间进行了一名重新启动,则结果将更容易预测,因为Pollsters将有足够的数据,关于选民如何与这些候选人有关。至于实际的2016年候选人,为选民最终会为他们投票而言,几乎没有先例 - 例如哪种人口统计学更有可能投票。

数据出错的另一种方法是思考您实际上没有正确的数据集。例如,当公司考虑新设施的位置时,他们通常会查看区域劳动力供应数据,以确保将有足够大,熟练的劳动力,从中吸取潜在的员工。这些公司定期为我们的客户。事实上,我们曾经有机会与以此以前经历过这一形式的数据不确定性挑战的公司合作。

此客户希望在大都市区找到新的设施。在收到他们正在考虑的大都市区的劳动力可用性数据后,他们看到它看起来足够并与项目进行。然而,当雇用员工时,填补职位非常困难。什么地方出了错?

事实证明,数据集本身可能很好,但它根本不是它们所需要的数据集。它准确,但它并不相关。设施位置位于大都市区的稀疏性部分,周围地形拥有诸如主要水体之类的运输障碍。因此,使用整个大都市区域作为潜在的绘图池不是一个好的起点。在这种情况下,基于网站的位置运行实际的驱动时间分析将更加准确。

当然,当数据本身有不准确时,问题也会出现问题。我们使用非常大的数据集,并找到了我们在向公众提供修复的Bloopers的份额。例如,在与政府合同数据合作的同时,我们曾经遇到过的似乎是达到6亿美元的合同。在进一步检查后,我们注意到了显示合同价值的数字和描述公司九位邮政编码的数字恰好互相匹配!它可能是一种巧合,但它更有可能是数据输入错误 - 而且它足以完全抛弃所产生的分析。

今天许多业务合作并依赖于所谓的“非结构化数据”,这意味着直到首先从文本或其他模糊源中提取的信息。提取数据的过程肯定会引入进一步的不确定性,因为不确定性是在这些数据的核心。

Chmura经济学和分析与IS在线招聘广告的非结构化数据集的一个例子。数据集的本质需要使必要的假设转变为有意义的东西。例如,这些广告通常从数千个网站收集。在此过程中,经常发现相同广告的重复项。确定两个广告是否彼此重复是直接的?嗯,是的,有时;但是,当您每天处理数百万广告时,不可避免地将成为一些落入灰色区域。使用非结构化数据时,此挑战是典型的。需要在某处绘制黑白线路,并且必须弄清楚绘制它的位置。

这些假设有时可以是无害的。其他时候,他们可以开始造成问题,然后,你知道的下一件事,你把你的车赶到了一个沟里。

那么决策者是什么?一起避免数据?

没有 - 有时数据可能是我们必须使用的全部导航。但有两个重要的事情可以有所帮助。首先,当您使用数据时,在房间中拥有一个数据人员 - 有人能够解释所做的假设以及数据集的限制。除此之外,还可以使用自己的眼睛聪明。花时间看看某种类型的真实世界的挡风玻璃,以及数据是否朝着正确的方向转向或某种东西,某个地方是非常错误的。

打印友好,PDF和电子邮件

为什么您的非传统部门需要优先考虑其系统

如何提供自助服务工具可以从好的伟大中获取非信贷分歧

在这里阅读