09/11/2020
Seguindo um bom plano, existirá a governança dos dados, a onde os dados serão avaliados e etiquetados de forma lógica e acessível, lembre-se do Data Swamp a onde comentei o armazenamento de dados que não fazem sentido e vão gerar um custo desnecessário. Uma criação de camadas dentro do seu Data Lake vai ajudar a evitar esses casos.
*Landed: Zona feita para dados de curta duração, mas por quê curta duração? Curta duração pois essa zona grandes dados em sua forma raiz serão armazenados, ou seja o dado bruto, mas esse dado dentro das fases não pode ser esquecido e abandonado dentro dessa zona, para evitar a criação de pântanos(Data Swamp).
*Raw: Zona a onde os dados serão preparados, ou seja, criar índices, máscaras, otimizações diferentes de índices, particionamento, tokenização e até mesmo data science, ou seja, essa etapa será usada mais ativamente, essa camada pode ser muito utilizada por cientistas que vão criar experimentos com os dados, eles podem fazer isso pois já não se preocupam com a captura de dados e sim com sua manipulação.
*Modeled: Zona a onde os dados da camada raw começando a serem integrados a Data Warehouses, essa fase os dados já são fontes de dados confiáveis para serem consumidas por áreas interessadas nos dados. Essa etapa temos um fenômeno nos dados chamados de dados frios esses dados são pouco ou nada utilizados, mas devido a importância de novos insights futuros ou porque já tiveram importância um dia serão mantidos no data lake, mas pelo fato de serem baratos de serem mantidos, mas não caracteriza um data swamp ou dark data, pois existe o conhecimento desses dados. Essa etapa é também conhecida por criar os catálogos dos dados para as áreas interessadas, ou seja um sumário de tudo que tem disponível para consumo.
"Big Data tem o objetivo de entregar valor ao negócio por meio de análise de dados"