Prever o futuro assistindo TV?

Recentemente, pesquisadores do MIT (Massachusetts Institute of Technology) e da Universidade de Maryland desenvolveram uma tecnologia de Inteligência Artificial para prever o futuro assistindo televisão! É claro que esse sistema não tem o objetivo de prever grandes eventos futuros da humanidade ou algo assim! Trata-se de uma tecnologia de Visão Computacional que é capaz de antecipar interações humanas em um segundo no futuro. Em outras palavras: dado o posicionamento corporal de duas pessoas no instante T, o objetivo é prever quais interação elas terão no instante T + 1. No vídeo abaixo você pode conferir uma demonstração prática! Assim você pode ter uma ideia mais clara do funcionamento da previsão, que foi focada nas seguintes interações entre pessoas: aperto de mãos, abraços, beijos e tapas com as mãos.

A Visão Computacional é um campo de estudo que tem o objetivo de fazer as máquinas enxergarem, ou seja, são sistemas artificiais inteligentes que recebem como parâmetro vídeos e/ou imagens e conseguem interpretá-los e tomar decisões. Segundo os pesquisadores, um problema nessa área é a criação de máquinas que consigam antecipar ações antes que essas ações sejam de fato executadas. Mas uma questão que talvez você esteja pensando é a seguinte: será que existe aplicação prática para isso? Como isso pode ser usado no mercado? Vamos lá! Alguns exemplos são: robôs podem prever ações humanas para fazerem melhores planos e interações, sistemas de recomendação podem sugerir produtos ou serviços baseado na antecipação do que uma pessoa irá fazer, e talvez a aplicação mais interessante: encontrar situações anormais em vídeos de vigilância e alertar a emergência. Essa última aplicação poderia, por exemplo, identificar uma briga prestes a acontecer na saída de um jogo de futebol e alertar a polícia antes dos fatos ocorrerem!

Neste exemplo da briga, talvez seja fácil para um humano prever um acontecimento deste tipo. Mas e para as máquinas? Como dar a elas habilidades e acesso a esse tipo de conhecimento? De acordo com um dos pesquisadores, Carl Vondrick, os humanos aprendem automaticamente a antecipar ações por meio de experiência, fato que os motivou a embutir nos computadores esse mesmo tipo de inteligência. Com isso, eles quiseram mostrar que somente assistindo uma grande quantidade de vídeos, um computador pode adquirir conhecimento suficiente para fazer previsões consistentes sobre seu ambiente.

E para chegar neste objetivo, eles utilizaram aprendizagem de máquina e uma técnica que está ganhando bastante espaço no campo da Inteligência Artificial ultimamente, ou seja, a “aprendizagem profunda” (deep learning); que utiliza redes neurais artificiais para ensinar computadores a encontrarem padrões por si próprios em enormes quantidades de dados. Foram utilizadas mais de 600 horas de vídeos do Youtube relacionados à séries da TV como Desperate Housewives e The Office para o treinamento da rede, para que ela pudesse prever representações de 1 a 5 segundos no futuro. Em suma, a rede profunda utiliza os vídeos para aprender a prever os frames no futuro! Ainda com relação aos vídeos, os mesmos são compostos de pessoas fazendo tarefas do dia a dia, como comendo, dirigindo e interagindo com objetos e outras pessoas. A figura abaixo mostra um pedaço da base de dados utilizada!

O trabalho traz ainda uma novidade sobre outras abordagens similares que é a utilização de representações ao invés de detecção de pixels. A maioria dos trabalhos existentes são focados na previsão futura somente de alguns pequenos pixels de uma imagem, ou seja, em predizer o valor de cada um, como por exemplo: o pixel A será azul e o pixel B será verde. Por outro lado, as representações são mais complexas e revelam uma informação sobre uma porção inteira de uma imagem, como por exemplo: um determinado conjunto de 3000 pixels representa o rosto de uma pessoa.

O título do trabalho é “Anticipating Visual Representations from Unlabeled Video” (Antecipando Representações Visuais de Vídeos não Rotulados), o que quer dizer que trata-se da abordagem não-supervisionada da aprendizagem de máquina. Isso indica que os vídeos não foram rotulados (unlabeled), ou em outras palavras, não existiu a figura de um supervisor humano que fizesse a indicação de cada um dos quatro eventos (aperto de mãos, abraços, beijos e tapas com as mãos) para que a rede pudesse aprender. Desta forma, o algoritmo teve que encontrar por si próprio esses padrões!

Como resultado, essa abordagem foi 19% melhor do que métodos parecidos e foram utilizados os algoritmos baseados em máquinas de vetores de suporte (SVM) e de vizinho mais próximo. O melhor resultado foi de 43.6% de acerto (testando com validação cruzada com 25 folds) com o algoritmo de vizinho mais próximo com K = 3, o que indica que foram selecionados os três vizinhos mais próximos na base de dados. Apesar dessa porcentagem não ser tão expressiva e ainda ter muito a evoluir, esse resultado é bastante relevante e representa um grande avanço sobre as técnicas já utilizadas anteriormente. Os pesquisadores ainda fizeram um estudo com humanos, pedindo para um conjunto de voluntários indicar que ação seria tomada no futuro. Neste experimento chegou-se a um resultado de 71%, que representa uma diferença de 27.4% da abordagem manual para a abordagem automática (71 - 27.4).

Além desse experimento, os pesquisadores também fizeram um estudo para prever qual objeto apareceria cinco segundos depois em um cenário. Por exemplo, supondo-se que uma pessoa está na frente de um micro-ondas, o próximo objeto que poderia aparecer pode ser um copo de café! Neste estudo os percentuais de acerto foram bem mais baixos, chegando a no máximo 10.7% de precisão.

Para finalizar, podemos observar que é visível o progresso nessa área! E isso se deve ao fato da significativa melhora de 19% dessa abordagem para métodos anteriores, o que pode representar grandes avanços em um futuro breve. Por mais que o trabalho apresente previsões somente de um segundo no futuro para as interações humanas, certamente dentro de pouco tempo veremos esse número aumentar e talvez daqui alguns anos poderemos estar em contato com os primeiros produtos oriundos dessa tecnologia!

Sê o primeiro

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *