Jornal Estado de Minas

Comando por voz começa a ficar indispensável em nos equipamentos

Tecnologia tida como a terceira revolução da informática é mostrada pela Motorola, com o novo Moto X

Silas Scalioni

Novo modelo da Motorola agrada pelo design e pela praticidade de uso - Foto: MOTOROLA/DIVULGAÇÃODiz-se que a primeira revolução da informática foi a miniaturização do computador, que passou a caber em uma mesa (a era do PC). A segunda ocorreu com a introdução do mouse e da interface gráfica, que descomplicou o uso do equipamento. E a terceira revolução tecnológica se completará quando os computadores conseguirem entender a voz humana e obedecer a comandos verbais. Com o reconhecimento de voz inteiramente dominado, não só os computadores (e aí se enquadram os smartphones) terão seu uso facilitado, como também eletrodomésticos, carros, elevadores, automóveis etc.

Os programas que possibilitam à máquina reconhecer a voz humana tiveram grandes avanços nos últimos anos, e um exemplo são os recursos embarcados em smartphones como o Moto X, lançado na semana passada no Brasil pela Motorola. “Eu saí da Apple, porque considero os aparelhos com o sistema Android mais fáceis de usar. Tudo é melhor”, disse durante o lançamento do Moto X o consultor da Motorola Guy Kawasaki, que foi importante nome na empresa da maçã durante anos. “O sistema permite todos os aplicativos rodando ao mesmo tempo e os programas são fáceis de encontrar. Tudo é mais fácil e mais rápido.” Na avaliação do consultor, as pessoas não compram mais smartphones pelas especificações, e sim pela unidade do aparelho.

A máquina ainda não é capaz de entender uma pergunta, uma vez que ela não compreende o que falamos. Mas já é capaz de ouvir e transcrever algo com um grande índice de acerto baseada em dados armazenados em sua memória. Por isso é necessário que se faça antes um cadastramento da voz do usuário. O programa solicita que se pronuncie um conjunto de palavras de forma pausada e clara. Esse conjunto será armazenado em um banco de dados do software, para que o ele possa ter um perfil de comparação vocal.

Assim, quando o usuário fala, o software identifica o timbre das palavras pronunciadas e compara com a sua base de dados para identificar, com o máximo de precisão, o que foi dito. O segredo de reconhecimento de voz ocorrer é porque há em tempo real uma comparação entre a palavra pronunciada e a palavra do banco de dados. Pelo fato de haver diferentes biotipos vocálicos humanos, é preciso que se crie um novo perfil para cada pessoa que for usar a máquina.

Diferença É bom saber que há uma significante diferença entre reconhecimento de voz e de fala. O primeiro caso ocorre quando, por exemplo, o cão reconhece a voz do dono. trata-se de algo mais sofisticado, pois se baseia no timbre de voz da pessoa, levando em conta até mesmo a acústica vocal e os timbres de cada fonema. Já o reconhecimento da fala (entendido como o reconhecimento do que foi discursado ) é mais simples, pois somente se identificam os fonemas, que são os mesmos que todos falam em um mesmo idioma, sem levar em conta timbres e sotaques.

Na fala existe uma complexidade, que é o reconhecimento da gramática e do contexto, ou seja, o que a frase quer dizer. Num atendimento bancário, por exemplo, o cliente pode estar ao telefone dizendo: sacar cem. Como há várias possibilidades e variedades de discurso, como retirar cem reais, pagar cem reais, depositar cem reais, é necessário que o sistema de reconhecimento identifique o pedido de uma maneira não ambígua e devolva a frase completamente reconhecida. O sistema então deve perguntar: “Você quer retirar da sua conta-corrente cem reais? É isso ? Por favor diga sim ou não”.

O engenheiro elétrico e consultor de tecnologia Erik de Britto conta que anos atrás foi ao Vale do Silício, na Califórnia (Estados Unidos), como representante de uma empresa brasileira que comercializava sistemas de reconhecimento de fala para bancos e para uma concessionária de telecomunicações. Iria conhecer e discutir o sistema da Nuance. “A empresa nasceu do Stanford Research Institute (SRI) durante a Guerra Fria e buscava ferramentas que verificassem a autenticidade de uma voz do outro lado de um telefone. Na época, ainda não se conseguia reconhecer a voz ou a assinatura vocal de 10% da população mundial, e o carro-chefe da Nuance era, e ainda é, o reconhecimento da fala ou do discurso”, diz.

Com essa ferramenta, a empresa consegue hoje, segundo o consultor, montar um grupo de servidores para um atendimento de call center eletrônico, no qual o cliente discursa para um sistema digital de entendimento de fala, que o encaminha para as tarefas e opções até então identificadas e existentes no sistema. “O serviço consegue gravar dados, preencher formulários e despachar ações e pedidos simplesmente ouvindo o comando vocal humano”, completa.

Google investe na ferramenta


Muito do que o Moto X é capaz de fazer deve-se ao sistema de busca do Google, que oferece alguns recursos por voz bem interessantes. Com um celular equipado com Android (importante verificar se a versão do sistema no seu aparelho atende tais serviços) você pode acessar o Google Maps e fazer uma pesquisa por voz. Diga, por exemplo, Shopping Diamond Mall, ou o endereço do lugar, que a aplicação abre um mapa informando a localização e as opções para chegar lá. Outra é o Google Tradutor. Não apenas o serviço pode traduzir oralmente a pesquisa que o usuário faz, como também põe o interlocutor falando com a máquina. Por exemplo: você pode estar no Japão e querer dizer boa-dia para alguém. O serviço vai lhe dizer então como falar. Mas você pode ainda pedir para alguém dizer alguma coisa em japonês para seu aparelho, e a tradução para a sua língua nativa é feita automaticamente por escrito.

Aposta em recursos aperfeiçoados

As primeiras impressões relativas ao aparelho foram bem positivas. E depois de alguns recursos testados, dá para afirmar que ele é realmente bom. O Moto X não é um celular grande nem pesado. Tem tela de 4,7 polegadas, que é, segundo a Motorola, o tamanho limite para um uso confortável, e nisso ela tem certa razão, pois com tais medidas é possível sem grandes problemas usar o smartphone com apenas uma mão (tirar fotos ou acessar funções, por exemplo). Seu peso (130 gramas) e dimensões mostram enorme diferença se comparados, por exemplo, com os de um Galaxy S4. E se colocado diante de um Nexus 4 (da Google), que tem o mesmo tamanho de display, a sensação é de que ele é menor. Deve-se isso ao fato de ele apresentar uma borda bem fina, que reduz a largura do aparelho. Além disso, o novo smartphone da Motorola se adapta melhor à mão por causa do corpo anatômico, que é menos largo e ainda tem uma curvatura na parte traseira.

Para Guy Kawasak, as pessoas hoje compram aparelhos baseando-se na sua unidade e não mais em suas especificações - Foto: MOTOROLA/DIVULGAÇÃOO design do aparelho não chega a ser um primor, mas não deixa de ser bonito. Nesse aspecto, entretanto, saímos perdendo em relação aos Estados Unidos, uma vez que ele aporta aqui apenas nas cores preta e branca. O MotoMaker, função desenvolvida pela Motorola que permite escolher as cores do dispositivo, ainda não está disponível no Brasil nem tem data para chegar (se chegar). Além disso, o vidro (tela) do smartphone não fica no mesmo nível do restante do seu corpo (de plástico), deixando a impressão de que o gadget está envolvido por uma espécie de capa. Fica, portanto, um minúsculo degrau entre o vidro (visor) e o plástico (borda) do equipamento.

Voz e movimento Grande aposta da Motorola para o novo modelo é realmente seu recurso de reconhecimento de voz, que está inteiramente adaptado à língua portuguesa. Nisso, a ferramenta Google Now se torna o cérebro do aparelho. Para acionar o serviço, depois de devidamente cadastrada a voz do usuário, basta dar o comando “OK, Google Now”. Em seguida, basta fazer qualquer pergunta ou pesquisa para ter seu pedido atendido pela ferramenta de busca do Google. É possível, por exemplo, receber orientações a respeito do trânsito do Google Maps, respostas para contas matemáticas e até sugestões de lugares.


Com boa vontade, pode-se dizer que o Moto X é o aparelho mais inteligente no Brasil. Conta com um chip exclusivo para computação contextual. Assim, com pouca luminosidade o aparelho reconhece quando está no bolso ou bolsa e sabe quando é retirado de lá. Percebendo o movimento, mostra na tela as horas sem ser preciso pressionar nenhum botão. E se houver alguma notificação, ele também a mostra, também sem ser necessitar pressionar nada. O modelo é ainda capaz de reconhecer quando está sendo usado em um carro calculando movimentos mais rápido pelo seu GPS. Nessa situação, suas funções se adaptam para possibilitar seu uso sem distrações ao volante e sem precisar encostar nele. Caso alguém ligar, basta você falar “atender” para completar a ligação. Se não for aceitar, diga “ignorar” que a chamada é cancelada. E se você falar “mensagem”, um SMS automático é enviado, avisando que não pode atender. Ainda: se você receber uma mensagem de texto, pode pedir ao aparelho que a leia em voz alta.

Ele carrega ainda na sua câmera um truque interessante: com duas chacoalhadas, mesmo com a tela bloqueada, o celular a ativa automaticamente, diminuindo bem o tempo necessário para tirar uma foto. E basta tocar a tela em qualquer lugar para fazer a foto. A câmera não chega a fazer frente às de outros equipamentos de ponta (como a do Lumia 920), mas é boa. E se sai bem em ambientes com pouca iluminação, faz imagens com resolução de 10MP e conta com uma lente frontal que faz fotos de 2,2MP.

O Moto X tem processador dual core de 1,7 GHz e 2GB de RAM, que ajudam a rodar vários apps simultaneamente sem travamentos. Carrega a versão 4.2.2 do Android, o que o torna mais leve. A capacidade de armazenamento do celular é de 16GB de espaço livre, o que não é suficiente para suportar um uso mais intenso do aparelho. Também a falta de um slot para cartão micro-SD chega a ser um incômodo do Moto X

Já o Google Now, que funciona muito melhor em inglês, mas que foi bem adaptado para o Moto X em português, retorna para o usuário telas de vários tipos de buscas do dia a dia feitas por voz, como horários do voos, condições de trânsito, condições do tempo etc. Mais abrangente é o serviço Google Search, pelo qual o usuário pode fazer pesquisas das mais variadas pela intenet usando o microfone do aparelho como se estivesse falando para o buscador Google. Diga à máquina, por exemplo, “farmácias de manipulação na região da Floresta em Belo Horizonte” que a ferramenta vai abrir na tela as opções que encontrar.