事实表明糟糕的数据将会扼杀卓越的人工智能

数据科学家指出,数据准备对于任何一个人工智能系统的成功都至关重要。即使是最好、最复杂的分析技术采用低质量、集成度低、设计草率或基本上不相关的数据,最终的结果也是不可靠的。

分析和探讨人工智能和机器学习用途的文章有很多,但关于人工智能系统基础——高质量的数据的文章则很少。以下介绍有助于确保企业的人工智能系统不会由于数据质量问题而受到阻碍的五个规则。

规则1.少即是多

有些企业很难知道哪些数据对其业务重要,所以使用尽可能多的数据构建人工智能系统,人们会发现重要的见解隐藏在其中。但是,企业的人工智能系统采用大量无关或糟糕的数据,最终将面临失败。一篇名为《机器学习系统中隐藏的技术债务》的文章指出,未充分利用的数据、提供很少或没有增量收益的数据,将使人工智能系统受到不利的影响,其后果有时是灾难性的。剔除无关数据使人工智能系统更易于测试、运行、扩展和维护。

企业遇到的问题是——哪些数据子集是包含所有或几乎所有信号的精简数据集?这可能不容易确定。有一些数据科学技术可以确定特定数据功能的重要性,但它们不一定能说明全部情况。虽然有些数据可能非常重要,但仅限于某些情况。或者一些数据可能只有在与其他数据结合使用时才重要。弄清楚使用哪些数据以及要消除哪些数据是一个棘手但关键的步骤,在企业急于实现人工智能的过程中,这一步常常被忽略。

规则2.仔细寻找数据来源

在设计人工智能解决方案的原型或创建实验时,数据通常有着不同的来源。数据集成和准备可能是临时的,只要人工智能系统做好了准备,企业就可以利用适合其目的的所有自动化和控制来实现特定的流程工业实力。

在某些情况下,人工智能开发人员从更加简单便捷的来源获取数据,但这不一定是最好的来源。例如在一个案例中,开发了一个来自未经协调和处理的数据模型,其结果证明该模型与公布的财务数据完全不一致。对于概念证明,这样的错误可能是可以接受的。但在实施之前,其数据应该来自支持良好的平台,这些平台需要具有控制能力强、可靠性和可用性高的特点。

通常情况下,必须将来自不同来源的数据汇集在一起​​,然后为采用人工智能的目的进行整合和组合。考虑这些组合来自不同系统的客户数据、产品数据和交易数据。将这些数据放在一起进行建模是一个重要的步骤。这可能会以快速的方式进行实验,但在实施之前,需要对流程进行适当的设计和测试。

然而在设计良好的人工智能系统之前,允许使用实验人工智能系统的诱惑是强烈的,必须加以抵制。当然,只是定期使用的人工智能(例如用于月度报告)可能需要更少的数据,以便在业务运营中持续使用。人工智能的高风险使用(例如损失预测、信贷批准、欺诈检测)比低风险使用(例如营销活动、客户细分、潜在客户优先级)要求更严格。

规则3.确定数据良好的程度

在商业环境中,完美的数据是罕见的。因此,不可避免地存在需要修补数据中的漏洞、需要清理的数据中的错误或需要在使用前解决不一致的问题。

数据达到100%准确率的成本可能很高,有时甚至无法实现。但在某些情况下则要求完全准确,例如使用人工智能来预测贷款损失,那么其记录贷款损失的历史数据最好是100%完整的。但对于欺诈检测模型来说,如果额外的2%的数据会阻碍模型的实施,那么达到98%的准确率就足够了,这将为企业减少大量欺诈损失。对于市场营销而言,85%的准确率已经足够了。

dawei

【声明】:九江站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。