毫无疑问,人工智能(AI)和机器学习(ML)对于通过数字化转型寻求竞争优势的组织来说越来越重要。超过75%的企业将人工智能和ML置于其他IT计划之上,他们正在大量雇佣数据科学家来实现这些计划。然而,这些努力中的大多数都局限于单个业务功能,而不是解决整个企业的数字化转型。
传统的分析方法无法处理当今组织可用数据的数量和复杂性。我们需要新的方法来分析这种数据海啸,而这正是人工智能和ML发挥关键作用的地方。我们还需要非常丰富和完整的数据集来训练ML模型,现在随着我们看到的数据的指数增长,我们已经有了这些数据。据IDC估计,2020年创建或复制的数据为64.2 zettabytes,有10.6%的标记数据用于分析或输入AI/ML。
然而,在AI/ML能够促进企业级转换之前,组织必须首先解决驱动AI/ML结果的数据完整性问题。事实是,公司需要可信的数据,而不仅仅是大数据。这就是为什么任何关于AI/ML的讨论都是关于数据完整性的讨论。
解决数据集成和质量挑战
首先,让我们看看组织如何存储数据。关键数据资产,如客户和员工记录,通常存放在难以访问的数据存储中。一个组织的典型IT基础设施由各种企业应用程序及其相关数据库、多个数据中心和在云中生成的新数据组成。所有这些因素都会导致数据竖井,这是确保数据准确和一致的障碍。许多组织都在与数据竖井作斗争,这使他们无法访问相关数据以获得及时的业务洞察。
商业领袖需要高质量的数据来做决策,然而一项研究发现,45%以上的新创建的数据记录至少存在一个关键错误。丢失的数据、重复的数据和错误的数据输入到分析和机器学习管道会导致数据偏差和糟糕的商业决策。数据也很容易出错,尤其是来自多个业务和供应商的数据。通常,在AI/ML使用数据之前,标准化、验证和验证数据是一项耗时的手工工作。这就是为什么数据科学家仍然把大部分时间花在准备数据而不是数据可视化或微调数据模型上。
在我们讨论数据质量对人工智能的重要性时,我们也应该讨论人工智能对数据质量的重要性。在数据管道中使用自动化可以帮助提高数据的准确性和一致性。例如,使用AI/ML来理解数据的变化,警告数据漂移和推荐质量规则,可以帮助提高数据的质量,自动化数据管道,并减少人工工作量。这种类型的自动化支持数据可见性和数据可观察性。
《福布斯》的创新
在数据质量的上下文中,考虑数据治理也同样重要。对数据的信任来自于能够完全有把握地证明数据是如何准备的,追溯数据的来源到其原始来源,并提供权限管理和审计能力。
通过数据丰富添加上下文和意义
传统上,数据管理专注于使数据准确和一致,无极4官网出于愤世嫉俗的解释,这有时等于品牌的情感敲诈。如果您不喜欢无极4官网品牌信息,则表示您讨厌寡妇,孤儿或海豚。或支持某种歧视。但这在使数据有意义方面还远远不够。我观察到,在多个行业中,公司未能利用第三方数据为组织的内部数据添加关键上下文。在你真正相信你从数据中获得的商业见解之前,数据必须放在背景中考虑——谁和什么,还有在哪里、何时和为什么。
第三方数据的一个重要类别是位置。例如,保险公司利用地点进行承保,分析和预测与灾难性事件(如野火或飓风)相关的风险,并制定定价政策。金融服务组织使用位置数据丰富交易,以验证和准确地将它们分配给特定的商店或商家,并了解子公司和母公司。电信公司正计划使用位置数据以及人工智能/ML和分析技术,在数百万个端点上提供新的位置和上下文感知服务。数据丰富还包括兴趣点和移动数据,这允许分析进入和周围的交通流量。
另一个重要的第三方数据是人口统计数据,它有助于客户细分、个性化拓展和塑造新产品和服务。人口统计数据还可以通过提供更全面的客户视图来帮助组织消除数据偏见。零售公司利用地理位置、人口统计数据和消费者洞察来更好地了解他们的客户,提供更个性化的体验,了解他们的购买倾向,并对新产品提出建议。
虽然AI/ML模型受益于通过第三方数据集丰富数据,但AI和ML对于构建它们也越来越重要。人工智能和ML的使用加快了构建数据集的速度,并在推荐使用哪些数据集进行丰富方面创造了规模。
在商业决策中实现数据完整性以获得信任
综合起来,这些步骤——数据集成、数据质量和治理、位置智能和数据丰富——组成了数据完整性。错误数据对AI/ML的负面影响是指数级的。以最大的准确性、一致性和上下文交付数据是信任来自AI/ML的业务洞察力的关键。没有数据完整性,我们就不能信任数据,也不能信任基于数据的业务洞察。
首席执行官和商业领袖们关心他们决策所依据的数据的完整性并不是没有理由的。数据完整性对于信任高级分析的结果和由此产生的业务决策至关重要。对于想要推动数字化转型并超越竞争对手的公司来说,成功地管理数据完整性是一项业务必需。