domingo, 3 de novembro de 2013

Detalhando o processo de ETL - (PARTE 2 - Transformação e Carga)

Na semana passada eu falei da etapa de extração do processo de ETL.

Nessa postagem irei falar das etapas seguintes, transformação e carga dos dados.

Como eu disse no post sobre extração dos dados, a informação vem do ambiente transacional, e de diversas origens, portando vem com inconsistências, com padrões diferentes de armazenamento, e com tipos de dados diferentes:

















A etapa de transformação tem como objetivo garantir a consistência da informação.

Primeiramente é definida qual a informação vai para o DW, como dito anteriormente, somente o que é pertinente para a analise de negócio é levado para o DW.

Os dados recebem um tratamento antes de ir para o DW, são padronizados, as métricas são resumidas de acordo com a necessidade, e a integridade dos dados é garantida.


Resumo da informação.

Irei usar com exemplo os dados de venda.

No sistema transacional uma ou mais tabelas que guardam os dados da venda de produtos, essas tabelas possuem milhares de linhas, cada linha dessa tabela corresponde a uma venda de produto, ou seja, uma transação, essa tabela tem todos os dados da venda: Data do pedido, Data da confirmação, ID do cliente, ID da loja, valor da venda e etc.

Mas ao ir para o DW, essa informação precisa está resumida mensalmente(por exemplo), ou seja, valor da venda mensal, e também se faz necessário visualizar a quantidade vendida por loja, por estado, por cidade e etc. Para que seja possível tomar decisão através da analise dessa informação, e o resumo facilita a visualização para quem toma decisão.

Talvez o que foi descrito acima fique mais claro ao assistir essa video aula.

Padronização

Ao chegar ao Data Warehouse, a informação deve ter um padrão comum.

Exemplos:

1. Um dos sistemas da organização guarda o sexo do cliente com 'M' ou 'F' já o outro guarda 'MASCULINO' ou 'FEMININO'.

2. Um dos sistemas da organização guarda o CPF ou CNPJ com pontos, hífen e barras.

EXEMPLO: 67.494.508/0001-64

E o outro guarda somente os números.

EXEMPLO: 67494508000164


Surrogate Key(Chave substituta)

Deve-se avaliar também a necessidade da criação de chaves substitutas, para identificação da informação no DW, assim facilitando o cruzamento da informação e ganhando performance e consequentemente um tempo de execução de consultas mais rápido.


Carga

É necessário definir a frequência de importação dos dados, e se haverá acumulo histórico de informação, ou se ela será atualizada(sobregravada).Tudo isso depende da necessidade do cliente,

Enfim pessoal, é isso, espero que tenham gostado, até mais...

Nenhum comentário:

Postar um comentário