Machine learning resolve debate de 170 anos sobre autoria de peça de Shakespeare

Em 1850, o analista literário James Spedding sugeriu que uma das peças de William Shakespeare, intitulada Henrique VIII, era na verdade um trabalho cujo roteiro o famoso poeta inglês dividiu com outro proeminente dramaturgo da época, John Fletcher. Fletcher foi o dramaturgo que substituiu Shakespeare na companhia King’s Men. Desde então, muitos estudiosos se dedicaram a resolver esse mistério. Durante décadas, ficou claro que algumas sequências da peça tinham estilos diferentes entre si, sendo um dos estilos diferentes daquele dos demais trabalhos de Shakespeare. Um terceiro nome inclusive chegou a entrar no páreo, o do dramaturgo Philip Massinger. Mas somente agora um trabalho foi publicado fornecendo evidências de que a teoria de Spedding estava correta.

O pesquisador Petr Plecháč, da Academia de Ciências da República de Praga, acaba de publicar seu trabalho onde ele aplica técnicas de processamento de linguagem natural para não só apoiar a teoria, mas revelar quais partes do texto podem ser atribuídas a Shakespeare, e quais são de autoria de Fletcher. Ele elencou features do texto que já são consolidados como característicos de texto na forma de poesia e que ainda fossem relevantes à tarefa de classificação, e aplicou métodos de machine learning para chegar às conclusões apresentadas.

No seu primeiro experimento, o texto foi considerado em suas cenas separadas, sendo cada uma caracterizada pela frequência dos 500 tipos rítmicos mais frequentes, e das 500 palavras mais frequentes. Esse conjunto de dados foi comparado com aqueles obtidos para peças sabidamente escritas por apenas um dos três autores sob investigação. O modelo de machine learning foi o de Support Vector Machines (SVM). A validação interna resultou em uma precisão de 0.81 a 1.00 para os features relacionados à versificação, e 0.95 a 1.0 para os features baseados em palavras; os features combinados alcançaram precisão de 0.96 a 1.0, com média de 0.99, sendo portanto selecionados para o modelo final. Quando o texto de Henrique VIII foi usado para predizer a autoria das cenas, os resultados mostraram uma combinação de sequências escritas em revezamento tanto por Shakespeare quanto por Fletcher, mas nenhuma com a participação de Massinger.

Na sequência, o autor aplicou a abordagem chamada de atribuição por rolagem, onde o texto é analisado através de uma janela móvel, e não separado por cenas ou capítulos. Na etapa de validação, quatro trabalhos individuais de Shakespeare e Fletcher foram divididos em 100 partes contendo 5 linhas cada, com sobreposição de duas partes adjacentes. Os resultados encontrados demonstram probabilidades baixíssimas de que esses textos tenham sido escritos pelos dois autores, confirmando a autoria conhecida. Entretanto, quando o texto de Henrique VIII é analisado pelo modelo, a dupla autoria fica evidente. Os autores se revezaram na produção da maioria das cenas, a mudança de estilo fica evidente onde as cenas iniciam/terminam. Mas a cena 3.2 parece ter sido escrita por ambos, começando com Shakespeare e terminando com Fletcher. A figura abaixo sumariza os resultados.

Determinação da autoria da peça Henrique VII pelo método de atribuição por rolagem. Os valores na parte de baixo da figura representam a linha correspondente no texto. Os valores na parte superior indicam o início das cenas correspondentes. Os valores no eixo y indicam a probabilidade de o texto ter sido escrito por Shakespeare (em roxo, valores positivos) ou por Fletcher (em verde, valores negativos). Créditos: Petr Plecháč.

Até então, a dúvida sobre a autoria da peça teria permanecido como um eterno debate. Mas esse trabalho demonstra que o uso de técnicas de machine learning pode resolver problemas de natureza tão distinta quanto a produção de trabalhos de literatura.

2 Comentários

  1. Joab Santana disse:

    Excelente aplicação!!

    4 de dezembro de 2019
    Responder
    • Denny Ceccon disse:

      Também achei muito interessante Joab, obrigado pelo comentário.

      4 de dezembro de 2019
      Responder

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *