Vantagens e desvantagens da utilização dos softwares de reconhecimento e identificação da expressão facial
A capacidade de identificar expressões faciais em rostos com os mais variados traços e formas é uma habilidade desenvolvida a partir de muito treino (pelo menos 100 horas de treinamento, segundo Paul Ekman). Além do tempo de treino, o tempo gasto na análise individual de cada rosto faz com que a codificação da face seja demorada e cara.
Os sistemas de reconhecimento e identificação da expressão facial (aqui e aqui) têm aprimorado, a cada nova versão, os algoritmos e por consequência tornando mais precisas as identificações das Action Units (AUs). Ainda assim estes sistemas apresentam muitas restrições.
Em geral as restrições são relacionadas à eficiências dos algoritmos em faces de bebês menores que 4 meses de idade, crianças com faces das etnias do leste da Ásia, à inclinação do rosto diante das câmeras. Estes softwares também requerem que algumas condições de iluminação e exposição da face sejam respeitadas. Exposições parciais da face, presença óculos e barba podem comprometer a análise.
Diferentemente da codificação realizada por humanos a codificação por estes sistemas só identifica uma parte das AUs. No caso do FACEREADER® (que é o software que eu utilizo) são identificadas apenas 20 AUs.
Mas se são tantas desvantagens, por que usar estes softwares?
Talvez a grande vantagem desses sistemas seja o tempo total gasto nas para que as codificações sejam realizadas. É possível em alguns minutos codificar mais de mil vídeos.
Se por um lado o custo destes softwares ainda é elevado (aproximadamente U$10000,00) a quantidade de faces processadas num curto espaço de tempo diminui consideravelmente o custo da codificação.
Outra vantagem é que é possível dar um tratamento estatístico adequado para avaliar as emoções, valências ou ainda testar quatificativamente variáveis relacionadas à resposta emocional obtida diante da exposição a cada estímulo.
Essa possibilidade pode permitir análises das emoções e AUs em populações muito grandes. É possível, por exemplo, testar um vídeo comercial, com uma amostra populacional muito mais abrangente e com medidas muito mais precisas que os atuais grupos de foco normalmente utilizados.