|
Diretor da Vocal L ab, o professor Alexandre Maciel fala sobre as possibilidades e os desafios envolvidos no processamento de voz, tecnologia na qual é especializado. A trajetória da empresa, incubada do NECTAR, e seus projetos, como o Framework FIVE e o Avatar Vocálico, também têm lugar nessa entrevista. Dividido entre o meio acadêmico e o mercado, Maciel destaca a importância da convergência entre o conhecimento produzido nas duas áreas.
Portal NECTAR – Quem é o professor Alexandre Maciel?
Professor Alexandre Maciel – Fiz minha graduação em Ciência da Computação na UNICAP (Universidade Católica de Pernambuco). Após um ano de formado, me candidatei ao mestrado no Centro de Informática da Universidade Federal de Pernambuco (CIn/UFPE) e fui aprovado, tendo sido orientado pelo professor Edson de Barros Carvalho de 2005 a 2007. Como já tinha feito iniciação científica na área de processamento de voz, optei por seguir o mestrado nessa linha de pesquisa também. Estudamos os formatos de diálogo em aplicações com interface de voz, fundamentalmente baseado na tecnologia VoiceXML para comunicação por telefone. Como resultado do mestrado, tive um artigo selecionado para o SIGMAP 2007 (International Conference of Signal Processing and Multimedia), congresso realizado em Barcelona. No evento, surgiu a oportunidade de trabalhar em um projeto de pesquisa na Universidade de Coimbra. Paralelamente à minha candidatura ao doutorado no CIn, trabalhei por um ano em Portugal no projeto Tecnovoz. Hoje atuo como diretor da Vocal Lab, empresa incubada do NECTAR, e fui admitido como professor pela UPE (Universidade de Pernambuco).
Portal NECTAR – Que tipo de influência esses contatos no exterior trouxeram para o seu trabalho?
Professor Alexandre Maciel – Foi uma experiência interessante e bastante válida. Até então, trabalhava como programador em empresas de TI (Tecnologias da Informação), envolvido com aplicações estritamente comerciais. Em Coimbra, passei a trabalhar como bolsista pesquisador e adquiri uma visão bem diferente. Tanto com relação aos prazos, já que pesquisas demandam um tempo maior e vários experimentos, quanto na questão cultural de conhecer um novo país e uma nova forma de trabalhar.
Portal NECTAR – Como foi o seu primeiro contato com o NECTAR?
Professor Alexandre Maciel - O fato de ter trabalhado com o Tecnovoz, que me tirou um pouco do meio comercial e fez com que eu me voltasse mais para o convívio acadêmico, me despertou a ideia de criar uma empresa, pois parecia um momento propício para isso. Quando voltei de Portugal para iniciar meu doutorado em Recife, no final de 2008, junto com o professor Edson e um outro aluno concluinte de mestrado dele, Weber Campos, que também fez sua tese em processamento de voz, decidimos fundar a Vocal Lab. A intenção era trazer para o mercado esse conhecimento desenvolvido ao longo de todo esse tempo ligado à Universidade. Como os dois já tinham uma relação com o NECTAR, optamos por incubar a empresa aqui mesmo. Por motivos pessoais, alguns meses depois, Weber teve de deixar a sociedade, mas continuamos tocando o projeto.
Portal NECTAR – Qual foi o primeiro projeto desenvolvido pela Vocal Lab?
Professor Alexandre Maciel - Focando ao mesmo tempo na minha tese de doutorado e num produto-chave para a Vocal Lab, decidimos pela criação de um framework. Assim surgiu o FIVE (Framework for Integrated Voice Environment), onde podemos construir uma interface nos três âmbitos da área de processamento de sinais de voz: reconhecimento de fala, reconhecimento de locutor e síntese de fala. Conforme ia desenvolvendo essa ferramenta no meu doutorado, fomos trazendo essas aplicações para a empresa. Hoje o FIVE é o principal produto da Vocal Lab. Ele ainda está em desenvolvimento e acreditamos que assim ficará por muito tempo, por estarmos sempre o aperfeiçoando, vislumbrando melhores resultados técnicos. O FIVE é tão importante para a empresa, que nem cogitamos negociá-lo como produto, pois se trata do nosso grande diferencial.
Portal NECTAR – Qual é o principal diferencial do framework FIVE?
Professor Alexandre Maciel - Atualmente existem uma série de ferramentas e bibliotecas que auxiliam no desenvolvimento dessas tecnologias, mas que trabalham de forma isolada, voltadas para necessidades e plataformas específicas (às vezes Linux, às vezes Windows). Elas não possuem um passo a passo, um formalismo que facilite a vida de quem vai desenvolver um produto as utilizando. Por serem concebidas mais por engenheiros do que por cientistas da computação, têm também um viés muito matemático e não contam com uma boa interface gráfica. A nossa proposta foi criar uma metologia que permita ao usário criar de forma integrada uma interface de voz. O FIVE é ao mesmo tempo mais simples e mais completo. Mais simples porque o visual é mais amigável e mais completo por conjugar as 3 tecnologias de processamento em uma só, de forma integrada.
No final de 2009, fomos contemplados com o Programa Prime (Primeira Empresa Inovadora) da FINEP (Financiadora de Estudos e Projetos), que prevê recursos da ordem de 120 mil reais para serem investidos com pessoal e consultorias especializadas. O projeto submetido à FINEP foi o Avatar Vocálico, que é uma aplicação da utilização do FIVE. Para esse projeto especificamente, temos trabalhado com reconhecimento e síntese de fala.
Portal NECTAR – Como foi investida a verba destinada pelo Prime?
Professor Alexandre Maciel – O Prime foi fundamental, tanto para o desenvolvimento do Avatar Vocálico, quanto para a melhoria do próprio FIVE, pois as demandas na criação da aplicação se refletiam na necessidade de tirar cada vez mais do framework. Os benefícios foram vários. Por exemplo, constatada a viabilidade do negócio, procedemos à contratação de pessoal, pois no início eu trabalhava praticamente sozinho. Outra melhoria foi a contratação de um gestor de negócios. Optamos por alguém com perfil de Administração, mas que também tivesse atuação na área de Informática. Alguém que entendesse a nossa tecnologia, para que soubesse posicionar melhor a empresa no mercado.
Contratamos também duas consultorias. A de mercado, realizada pela Hélice, do Rio de Janeiro, foi importantíssima dentro do contexto de uma empresa nascente. Foi feita uma pesquisa para saber como o mercado recebe a tecnologia que desenvolvemos. Optamos por não centralizar essa avaliação no produto Avatar, mas sim na área de tecnologia de voz como um todo. A partir disso, conseguimos segmentar mercados e identificar os que são mais favoráveis ao uso dessa tecnologia. A segunda consultoria é de gestão e está sendo realizada pela 3E, daqui de Recife. Eles fizeram um diagnóstico do nosso modelo de gestão e, até o fim do ano, estamos seguindo um plano de ações para melhorar a administração da empresa no que se refere a plano de vendas, marketing, gestão de RH, todas essas áreas que envolvem conceitos de uma boa gestão empresarial.
Portal NECTAR – Qual é o estágio atual do Avatar Vocálico?
Professor Alexandre Maciel – A verba do Prime deve ser utilizada pelo prazo de um ano, sendo que começamos oficialmente o projeto em 18 de dezembro de 2009. Portanto, estamos agora em sua reta final. Já tínhamos um protótipo, que era a versão para desktop, mas na última quinta-feira (10/11) lançamos no site da Vocal Lab uma versão para web do Avatar, como um case a ser apresentado a possíveis interessados em sua utilização. Os resultados vêm sendo muito bons. Nossa taxa de reconhecimento por palavra isolada está girando em torno de 98%. Fizemos um investimento na contratação de um casal de locutores sem vícios de linguagem e com boa dicção para gerar a fala sintetizada. Depois de vários experimentos, essa voz se mostra bem natural, permitindo um bom entendimento por parte do usuário.
Já existem personagens animados na Internet, mas eles não tratam propriamente de reconhecimento e síntese de fala, esta é a nossa inovação. Pensamos no avatar como uma aplicação que atende a variados segmentos de mercado, podendo ser utilizada em qualquer site ou blog. Um produto de baixo valor financeiro, mas de alto valor agregado. Nossa intenção agora é espalhar esse produto pelo mercado e, conseqüentemente, dar visibilidade à Vocal Lab para a realização de projetos futuros. Estamos desenvolvendo planos onde os interessados poderão fazer um aluguel mensal ou anual da aplicação. Só então começaremos um processo de vendas do produto. A ideia é que ele tenha um valor acessível, para que ganhemos na quantidade. Essa primeira versão apenas sintetiza voz, mas até o fim do ano esperamos que passe também a reconhecer, o que permitirá um tipo de interação, respondendo por exemplo, a um FAQ. Por enquanto ele se destina mais a apresentar o conteúdo do site visitado.
Portal NECTAR - Quais são os maiores desafios para quem trabalha com processamento de voz?
Professor Alexandre Maciel - O maior desafio em um sistema de reconhecimento de fala é o ambiente em que ele está sendo executado, se ruidoso ou não. Temos trabalhado em algoritmos que procuram minimizar esse ruído através da implementação de filtros. A voz humana trabalha numa faixa de freqüência diferente dos ruídos. Os filtros eliminam tudo que está fora da faixa desejada, garantindo que no resultado final, só a voz seja ouvida. Outro fato complicador é o das diferenças de fala e pronúncia, na questão dos regionalismos, exigindo de todo sistema de reconhecimento de fala uma base de dados muito grande. Mas nesse aspecto o FIVE nos atende muito bem. Por exemplo, com ele podemos ser mais específicos, colocando determinado ramal telefônico para atender as chamadas de determinada região. É um processo simples, mas que causa um efeito muito positivo na taxa final de reconhecimento. Hoje só temos uma base de dados de nordestinos. Mas caso ganhemos uma certa escala, pretendemos fazer um trabalho específico para cada região.
Em termos de síntese, a maior dificuldade é tornar a fala o mais natural possível. Existem várias técnicas para gerar fala, mas todas o fazem de forma um tanto artificial. Estamos trabalhando também com filtros pra que essa voz perca aquele som robotizado. São dificuldades inerentes a todo esse processo. Quem consegue contorná-las de forma mais ampla tem um produto mais avançado e, consequentemente, mais requisitado.
Portal NECTAR – Como essa tecnologia poderá ser utilizada em atividades como a TV Digital e o EAD (Ensino a distância)
Professor Alexandre Maciel – Como parte do meu doutorado, estou desenvolvendo um projeto experimental junto à disciplina de Percepção e Reconhecimento de Padrões do CIn para a utilização de comandos de voz como forma de interagir com a TV digital e também com sistemas mobile. É uma questão puramente técnica que estamos tentando resolver, mas as aplicações possíveis são infinitas. Qualquer serviço que você ofereça hoje na TV digital, como compras online, jogos, enquetes e precise de um controle remoto para interagir, poderá no futuro utilizar a voz como ferramenta. Para ensino a distância, acredito na utilização do Avatar como uma espécie de instrutor, respondendo as dúvidas mais freqüentes dos estudantes. Traria assim uma interface mais amigável, tornando o curso mais atraente para os alunos.
Portal NECTAR – O que é possível tirar da relação entre meio acadêmico e mercado quando se trabalha simultaneamente em um mesmo projeto nessas duas áreas?
Professor Alexandre Maciel – É complexo, até psicologicamente falando. Há momentos em que você se vê como uma empresa dentro da Universidade e em outros como um laboratório dentro da empresa. Você não sabe exatamente se é acadêmico ou empresário, até se dar conta de que não é possível separar as duas coisas. Eu acho que as atividades se completam.
Dentro da faculdade você está inserido em um meio de excelência e você tem um network muito favorável. Isso lhe dá uma credibilidade para não chegar no mercado sozinho. O outro lado da moeda é poder trazer do mercado para o meio acadêmico a realidade, as necessidades que o futuro profissional deverá suprir quando se formar. O estudante tem de sair da faculdade preparado para o mercado. Na Universidade, temos não só de ministrar o conhecimento teórico, mas também trazer a realidade para a sala de aula e estando no mercado, isso se torna muito mais fácil. Estou começando minha carreira como professor na UPE e seguirei meu trabalho na Vocal Lab. Não me vejo tendo de optar por um ou por outro.
Portal NECTAR – A Vocal Lab está inserida em um sistema regional de inovação do Recife, forte pólo de Informática. Existem parcerias com outras empresas?
Professor Alexandre Maciel – Sim. Para a Vocal Lab, a realização de parcerias com outras empresas, principalmente de TI, são fundamentais. Trabalhamos na camada de Interface, ou seja, seremos sempre uma empresa “meio”, que oferece serviços de interatividade para aplicações já existentes. Um exemplo disso é a parceria que desenvolvemos com a Agilware, empresa incubada aqui também no NECTAR. Estamos desenvolvendo uma biblioteca digital gratuita chamada ENKI na qual serão disponibilizadas obras da literatura nacional com recursos de redes sociais e de acessibilidade. No caso, leitor de PDF por meio de síntese de fala. Temos grandes expectativas em relação a este projeto.
Portal NECTAR – Quais são os planos da Vocal Lab para o futuro?
Professor Alexandre Maciel – O futuro da Vocal Lab segue por três linhas. A primeira é aproveitar o lançamento do Avatar para ganharmos visibilidade e divulgarmos a nossa marca. Outra linha é a de projetos estruturadores. A intenção é trabalhar em parceria com grandes empresas em propostas para a inclusão de interfaces de voz em sistemas já existentes nessas corporações. A terceira linha é a de financiamentos públicos. Não deixaremos de lado a nossa atuação em PD&I (Pesquisa, Desenvolvimento e Inovação). Estamos sempre pensando em projetos inovadores para submeter a agências como a FINEP e o CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico). Portal NECTAR – Para encerrar a entrevista, qual a importância da relação entre o NECTAR e a Vocal Lab?
Professor Alexandre Maciel – O apoio concedido pelo NECTAR à Vocal Lab durante todo esse tempo de incubação, primeiro virtual (em 2009) e depois física (a partir de 2010) foi fundamental para nos auxiliar com conhecimentos acerca da administração de uma empresa. Orientações em questões fiscais e tributárias, oferta de infraestrutura, todo esse suporte permitiu à empresa uma zona de conforto para poder se dedicar com mais afinco ao desenvolvimento da tecnologia e dos produtos, sem que tivéssemos o foco desviado por problemas administrativos.
|