好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

AWS的“数据湖”观

【IT运维网原创】随着大数据时代的到来,越来越多的人意识到,世界上最有价值的资产就是数据,企业也纷纷踏入数字化转型的浪潮中来。

但众所周知,大数据具有数据类型繁多、数据价值密度相对较低、处理速度快、时效性要求高等特点,想要吃到这一美味的[蛋糕]可不是那么容易的事。如何充分利用好数据的价值才是关键所在。

AWS首席云计算企业战略顾问张侠认为,数字化转型包含很多方面的内容,其中很重要的一个内容就是把企业的数据化资产使用好。
 
把数据用[活]

万物互联时代下,各行各业,各种设备及应用都在不断产生大量数据,IDC统计显示,全球近90%的数据将在这几年内产生,预计到2025年,全球数据量将比2016年的16.1ZB增加十倍,达到163ZB。数据的海量与多元化决定了从数据中获取有用的价值变得越来越困难,如果无法从数据中获得益处,那么数据价值就无从谈起。

传统方法上,数据从产生到分析处理及使用总要经历这样的过程:数据通过一些底层交易型的数据库,经过整理后形成中间层的数据仓库,再到上层的商务智能BI。如果这些多元的数据无法被其它应用所使用,那么这一过程不可避免地会形成数据孤岛,以至于无法满足数据量迅速增长的需求。

张侠表示,用户期盼从数据中获取价值。而传统数据分析方式无法快速地将这些多元数据展示出来,那么从中获取价值当然也就难以实现了。
 
数据湖彰显数据价值

虽然说数据湖的概念出现已有将近十年时间了,而近年来不断被提起,足见其价值所在。数据湖可以看作是一个中心数据存储的容器,将各类设备及应用所产生的原始数据进行存储成为数据[仓库],进而可以进行查询或分析等操作。与传统所称的数据仓库不同的是,数据湖中存储的是原始的数据,可以是结构化的,也可以是非结构化的,借助云计算技术可以快速的缩放存储海量数据,还可以实现进一步的查询、分析及处理能力,通过应用机器学习与人工智能技术实现商业智能,预测分析等。张侠表示,数据湖在实现高可用、高持久、EB级数据的同时,还可满足安全、合规、审计等要求。

当然,不同的服务商对数据湖有不同的理解,AWS对数据湖也有着自己的理解和应用。2006年发布的Amazon S3是全球第一款公有云服务,在Amazon S3中可以存储包含结构化和非结构化的数据,以及进一步的各种预测分析等等。

数据湖平台在实现数据仓库、大数据处理、交互查询、实时分析、预测分析等能力时,需要有不同的产品服务用以支撑。例如, Amazon RDS服务是一个云托管的关系型数据库,用以托管的、支持6种常用数据库引擎的关系型数据库服务,Amazon Aurora 云原生的关系型数据库,可自动执行各种耗时的管理任务。通过Amazon Redshift数据仓库,客户可以对大规模的结构化数据执行复杂的查询,并获得超高速的性能等等。
 
AWS 新增数据湖平台服务功能,为中国用户赋能

近期,AWS宣布AWS Glue与Amazon Athena在由西云数据运营的AWS中国 (宁夏) 区域正式上线。其中,Amazon Athena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据。AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。



 

查看更多关于AWS的“数据湖”观的详细内容...

  阅读:19次