事实表明糟糕的数据将会扼杀实用的人工智能
分析和探讨人工智能和机器学习用途的文章有很多,但关于人工智能系统基础——高质量的数据的文章则很少。以下介绍有助于确保企业的人工智能系统不会由于数据质量问题而受到阻碍的五个规则。
规则1.少即是多ASP站长网 有些企业很难知道哪些数据对其业务重要,所以使用尽可能多的数据构建人工智能系统,人们会发现重要的见解隐藏在其中。但是,企业的人工智能系统采用大量无关或糟糕的数据,最终将面临失败。一篇名为《机器学习系统中隐藏的技术债务》的文章指出,未充分利用的数据、提供很少或没有增量收益的数据,将使人工智能系统受到不利的影响,其后果有时是灾难性的。剔除无关数据使人工智能系统更易于测试、运行、扩展和维护。
企业遇到的问题是——哪些数据子集是包含所有或几乎所有信号的精简数据集?这可能不容易确定。有一些数据科学技术可以确定特定数据功能的重要性,但它们不一定能说明全部情况。虽然有些数据可能非常重要,但仅限于某些情况。或者一些数据可能只有在与其他数据结合使用时才重要。弄清楚使用哪些数据以及要消除哪些数据是一个棘手但关键的步骤,在企业急于实现人工智能的过程中,这一步常常被忽略。
规则2.仔细寻找数据来源 在设计人工智能解决方案的原型或创建实验时,数据通常有着不同的来源。数据集成和准备可能是临时的,只要人工智能系统做好了准备,企业就可以利用适合其目的的所有自动化和控制来实现特定的流程工业实力。
在某些情况下,人工智能开发人员从更加简单便捷的来源获取数据,但这不一定是最好的来源。例如在一个案例中,开发了一个来自未经协调和处理的数据模型,其结果证明该模型与公布的财务数据完全不一致。对于概念证明,这样的错误可能是可以接受的。但在实施之前,其数据应该来自支持良好的平台,这些平台需要具有控制能力强、可靠性和可用性高的特点。
通常情况下,必须将来自不同来源的数据汇集在一起,然后为采用人工智能的目的进行整合和组合。考虑这些组合来自不同系统的客户数据、产品数据和交易数据。将这些数据放在一起进行建模是一个重要的步骤。这可能会以快速的方式进行实验,但在实施之前,需要对流程进行适当的设计和测试。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |