分析十三种流行的数据处理工具
发布时间:2021-12-10 12:53:56 所属栏目:大数据 来源:互联网
导读:数据分析是对数据进行摄
数据分析是对数据进行摄取、转换和可视化的过程,用来发掘对业务决策有用的洞见。ASP站长网 在过去的十年中,越来越多的数据被收集,客户希望从数据中获得更有价值的洞见。他们还希望能在最短的时间内(甚至实时地)获得这种洞见。他们希望有更多的临时查询以便回答更多的业务问题。为了回答这些问题,客户需要更强大、更高效的系统。 批处理通常涉及查询大量的冷数据。在批处理中,可能需要几个小时才能获得业务问题的答案。例如,你可能会使用批处理在月底生成账单报告。 实时的流处理通常涉及查询少量的热数据,只需要很短的时间就可以得到答案。例如,基于MapReduce的系统(如Hadoop)就是支持批处理作业类型的平台。数据仓库是支持查询引擎类型的平台。 流数据处理需要摄取数据序列,并根据每条数据记录进行增量更新。通常,它们摄取连续产生的数据流,如计量数据、监控数据、审计日志、调试日志、网站点击流以及设备、人员和商品的位置跟踪事件。 图13-6展示了使用AWS云技术栈处理、转换并可视化数据的数据湖流水线。 ▲图13-6 使用数据湖ETL流水线处理数据 在这里,ETL流水线使用Amazon Athena对存储在Amazon S3中的数据进行临时查询。从各种数据源(例如,Web应用服务器)摄取的数据会生成日志文件,并持久保存在S3。然后,这些文件将被Amazon Elastic MapReduce(EMR)转换和清洗成产生洞见所需的形式并加载到Amazon S3。 用COPY命令将这些转换后的文件加载到Amazon Redshift,并使用Amazon QuickSight进行可视化。使用Amazon Athena,你可以在数据存储时直接从Amazon S3中查询,也可以在数据转换后查询(从聚合后的数据集)。你可以在Amazon QuickSight中对数据进行可视化,也可以在不改变现有数据流程的情况下轻松查询这些文件。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |