Extração de Dados para Data Warehouse

Como o próprio nome sugere, o livro Extração de Dados para Data Warehouse do Marcio Gonçalves é focado no processo ETL (Extraction, Transform and Load). Esse processo é executado antes de serem feitas análises nos dados ou a aplicação de algoritmos de Inteligência Artificial para descoberta de conhecimento. Consiste basicamente em extrair informações de diversas fontes de dados, transformá-las em um padrão adequado para análise e depois carregar esses dados para o data warehouse.

O Capítulo 2 apresenta os conceitos relativos aos data warehouses, mostrando exemplos práticos e principalmente aplicações que as empresas podem utilizar para auxiliar na tomada de decisão. É feita também uma breve discussão sobre as diferenças entre as bases de dados transacionais e as bases de dados propícias para análise, mostrando como o processo ETL pode ser utilizado nesse contexto. O autor também mostra alguns temas relativos à arquitetura dos data warehouses, como por exemplo: granularidade, carregamento, transformação e filtros.

O Capítulo 3 não tem muita relação direta com o processo ETL, sendo voltado aos sistemas multiagente. Esses sistemas fazem parte da área da IA denominada de Inteligência Artificial Distribuída, que diz respeito ao uso de agentes inteligentes para a resolução de problemas complexos. Neste contexto, ao invés de utilizar uma inteligência única dentro do sistema, a inteligência é segmentada em vários agentes com pouca inteligência, porém, quando todos eles são unidos é criada uma inteligência coletiva. Um exemplo proveniente da natureza são as formigas, ou seja, somente uma formiga possui pouca inteligência, mas quando todas as formigas são agrupadas com um objetivo em comum elas conseguem carregar folhas grandes ou construir formigueiros. Aqui comentei um pouco sobre esse tipo de sistema para que você consiga entender melhor o contexto deste assunto no livro, pois esta é uma área muito vasta da IA e existem muitas pesquisas relacionadas a este tema.

O Capítulo 5 utiliza os conceitos de agentes para apresentar a ferramenta de ETL que é descrita no livro, que é o Data Warehouse Extractor. O autor argumenta que a utilização de agentes é uma abordagem adequada para a extração de dados, apresentando para isso vários agentes com as seguintes funções: extração, compactação, segurança, transporte, recepção, carga, sincronismo e programação. Nesta ferramenta, cada um desses agentes é responsável por uma função e a união do comportamento e habilidade de cada um torna o sistema inteligente; assim como citado no exemplos das formigas. Esse é o maior e principal capítulo do livro, sendo que o objetivo principal do livro é mostrar justamente a viabilidade da utilização de sistemas multiagentes em ferramentas para ETL!

No Capítulo 4 é mostrado um review sobre as ferramentas de ETL existentes no mercado, e o autor discute sobre  as principais características encontradas nelas. A parte interessante é que tem uma tabela comparativa dos recursos de cada uma, o que pode facilitar a escolha quando houver a necessidade de escolher alguma ferramenta. Por fim, o Capítulo 6 compara o Data Warehouse Extractor com as ferramentas de mercado e também promove alguns insights sobre novas funcionalidades que poderiam ser implementadas. No Apêndice A é encontrado um breve referencial teórico sobre os modelos para data warehouse (modelo estrela e floco de neve) e no Apêndice B uma metodologia para o desenvolvimento de agentes.

O livro é bastante rápido de ser lido e como comentei antes, o principal foco é mostrar a ferramenta que foi desenvolvida pelo autor. O ponto positivo é que podemos ter uma boa ideia de como funciona na prática o processo ETL, mas por outro lado, o forte do livro não é no referencial teórico ou em conceitos sobre data warehouse. Recomendo o livro para quem deseja iniciar neste assunto e gostaria de começar com um material mais básico e prático sobre o assunto. Abaixo os dados completos do livro

Título: Extração de Dados para Data Warehouse
Autor: Marcio Gonçalves
Editora: Axcel Books
Ano: 2003
Páginas: 150

4 Comentários

  1. Fábio Spak said:

    Gostei do seu artigo, vou providenciar este livro, principalmente no que se refere aos capítulos 3 5.

    2 de março de 2017
    Responder
    • Valeu Fábio! O livro é bem simples e na verdade o tempo de leitura não deve dar mais de duas horas. Dependendo para o que você precisa talvez não encontrará muito material avançado

      4 de março de 2017
      Responder

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *