加入收藏 | 设为首页 | 会员中心 | 我要投稿 焦作站长网 (https://www.0391zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

分析十三种流行的数据处理工具

发布时间:2021-12-10 12:53:56 所属栏目:大数据 来源:互联网
导读:数据分析是对数据进行摄
数据分析是对数据进行摄取、转换和可视化的过程,用来发掘对业务决策有用的洞见。ASP站长网
 
在过去的十年中,越来越多的数据被收集,客户希望从数据中获得更有价值的洞见。他们还希望能在最短的时间内(甚至实时地)获得这种洞见。他们希望有更多的临时查询以便回答更多的业务问题。为了回答这些问题,客户需要更强大、更高效的系统。
 
批处理通常涉及查询大量的冷数据。在批处理中,可能需要几个小时才能获得业务问题的答案。例如,你可能会使用批处理在月底生成账单报告。
 
实时的流处理通常涉及查询少量的热数据,只需要很短的时间就可以得到答案。例如,基于MapReduce的系统(如Hadoop)就是支持批处理作业类型的平台。数据仓库是支持查询引擎类型的平台。
 
流数据处理需要摄取数据序列,并根据每条数据记录进行增量更新。通常,它们摄取连续产生的数据流,如计量数据、监控数据、审计日志、调试日志、网站点击流以及设备、人员和商品的位置跟踪事件。
 
图13-6展示了使用AWS云技术栈处理、转换并可视化数据的数据湖流水线。
 
 
 
▲图13-6 使用数据湖ETL流水线处理数据
 
在这里,ETL流水线使用Amazon Athena对存储在Amazon S3中的数据进行临时查询。从各种数据源(例如,Web应用服务器)摄取的数据会生成日志文件,并持久保存在S3。然后,这些文件将被Amazon Elastic MapReduce(EMR)转换和清洗成产生洞见所需的形式并加载到Amazon S3。
 
用COPY命令将这些转换后的文件加载到Amazon Redshift,并使用Amazon QuickSight进行可视化。使用Amazon Athena,你可以在数据存储时直接从Amazon S3中查询,也可以在数据转换后查询(从聚合后的数据集)。你可以在Amazon QuickSight中对数据进行可视化,也可以在不改变现有数据流程的情况下轻松查询这些文件。

(编辑:焦作站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读