Data Mining um guia prático

O livro Data Mining: um guia prático apresenta uma ótima visão sobre o processo KDD (Knowledge Discovery in Databases), desde a conceituação teórica até exemplos práticos do mundo real. Como os autores já desenvolveram vários projetos práticos e comerciais, algumas das explicações apresentam dicas e orientações que podem ser úteis para o cotidiano de quem trabalha nesta área.

Os dois primeiros capítulos são sobre o referencial teórico do processo KDD, explicando basicamente suas principais etapas. Inclusive existe um apêndice no livro sobre Data Warehouse, que é um conceito muito importante e que está diretamente relacionado à extração de conhecimento de bases de dados. Também no Capítulo 7 os autores apresentam uma metodologia própria de KDD baseada em suas experiências práticas, que vale a pena conferir antes de você iniciar seu projeto de mineração de dados!

Para extrair conhecimento de bases de dados normalmente é utilizado o processo KDD, que é composto de uma série de etapas que envolve a preparação dos dados para a aplicação dos algoritmos de aprendizagem de máquina. Além disso, ele abrange também a análise e interpretação dos resultados para que os mesmos possam auxiliar no processo de tomada de decisão e serem utilizados como vantagens competitivas pelas empresas. Uma das etapas mais importantes do processo KDD é a fase do pré-processamento, que consiste em tratar os erros e inconsistências das bases de dados. Com relação a esse assunto, o Capítulo 3 aborda em detalhes a maior parte das técnicas que podem ser utilizadas, ou seja: seleção, limpeza, codificação, enriquecimento, normalização, construção de atributos, correção de prevalência e partição do conjunto de dados.

Na minha opinião, este capítulo é o principal do livro por mostrar vários exemplos didáticos de cada uma dessas técnicas, inclusive alguns deles são apresentados utilizando a linguagem SQL. Com isso, o entendimento de como realizar o pré-processamento em uma base de dados transacional é facilitado! Em alguns exemplos deste capítulo são mostrados os cálculos estatísticos, dessa forma é fácil entender as fórmulas e transcrevê-las para SQL, por exemplo. Em suma, esse capítulo é valioso por ensinar como tratar as inconsistências de uma base de dados transacional que necessita ser transformada para um padrão propício para análises.

Por outro lado, o Capítulo 4 é voltado para as principais técnicas de mineração de dados, que são: associação, descoberta de sequências, classificação, regressão, sumarização, agrupamento, previsão de séries temporais e detecção de desvios. Os autores apresentam uma visão geral sobre cada uma delas e citam vários exemplos práticos.

Eu escrevi um ebook gratuito sobre como profissionais de tecnologia da informação podem utilizar essas técnicas para abrirem novas oportunidades de negócio. Se tiver interesse você pode baixá-lo neste link: http://iaexpert.com.br/index.php/ebook-aprendizagem-maquina/.

No Capítulo 5 são abordados os métodos da mineração de dados, ou seja, é dado foco no funcionamento dos seguintes algoritmos: redes neurais, algoritmos genéticos, métodos estatísticos, aprendizagem baseada em instâncias, árvores de decisão e lógica nebulosa. As explicações não são muito didáticas e não é muito fácil entender o funcionamento deles. Desta forma, se para você é importante o entendimento de como eles funcionam eu não recomendo este capítulo! Aliás, eu vejo isso como um problema na maioria das publicações sobre funcionamento de algoritmos, ou seja, a maioria delas não são muito didáticas e requerem um nível muito elevado de conhecimento de matemática/cálculo para seu entendimento!

O Capítulo 6 também é bastante interessante, pois ele apresenta uma tabela das principais funcionalidades das ferramentas para KDD, tais como: SPSS, Clementine, Polyanalyst, Weka, Darwin, Intelligent Miner, Wizrule, Bramining, SAS Enterprise Miner e Oracle Data Mining. Como o livro é de 2005, algumas delas já foram descontinuadas e hoje em dia existem várias outras opções!

O Capítulo 8 é interessante por mostrar exemplos de aplicações reais que os autores trabalharam, sendo abordados projetos práticos na área de telefonia, educação, medicina e área financeira. Por fim, o Anexo V é útil porque apresenta um tutorial sobre a ferramenta Bramining que foi desenvolvida pelos próprios autores, sendo apresentadas a maioria das técnicas de pré-processamento abordadas no Capítulo 3. O livro vem acompanhado de um CD que possui o instalador desta ferramenta, porém, infelizmente ela foi descontinuada e funciona somente em versões mais antigas do Windows. Desta forma, esse apêndice é interessante somente para visualizar na prática os conceitos sobre pré-processamento.

O presente review está abordando a edição de 2005, contudo, os autores fizeram uma nova edição atualizada que abrange muitos outros assuntos sobre mineração de dados. Aguarde para ler um review sobre o novo livro em breve! Segue os dados completos do livro:

Data Mining: Um Guia Prático – Conceitos, técnicas, ferramentas, orientações e aplicações
Ronaldo Goldschmidt e Emmanuel Passos
Editora Campus
2005
261 páginas

It's only fair to share...Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

4 Comentários

  1. Jhonathan said:

    Já saiu o review sobre o novo livro?

    20 de setembro de 2016
    Responder
    • Olá Jhonathan,

      Ainda não recebi o livro para ler e fazer o review. Minha previsão é postar até o final do ano 🙂

      O próximo review será sobre o livro “Inteligência Coletiva”, que estou terminando de ler

      Valeu,

      Jones

      20 de setembro de 2016
      Responder
      • Jhonathan said:

        Eita, vai demorar. rsrsrsrs

        Estou iniciando um mestrado agora e gostaria de algumas indicações, eu vi este livro e achei interessante, li o primeiro capítulo na página da Amazon. Quais livros você me recomenda para ler para que eu possa delimitar melhor meu tema e também conhecer mais sobre a área?

        20 de setembro de 2016
        Responder

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *