Home > Notícias

Veja como a Nuance está construindo um assistente digital capaz de amar

Para a empresa a criação de uma personalidade com o qual o usuário possa se identificar, e até discordar, é um ponto crucial no desenvolvimento da tecnologia.

Mark Hachman, PCWorld EUA

20/08/2013 às 16h04

Foto:

“Quero aprender tudo sobre tudo”, sussura Scarlett Johansson.

Estas não são as palavras de uma ambiciosa atriz de Hollywood. São ditas por “Samantha”, o “primeiro sistema operacional inteligente” no mundo. Com nada mais do que o domínio da linguagem, curiosidade e entusiasmo pela vida virtual, Samantha leva seu tímido e desajustado usuário a se apaixonar.

Ridículo? Não na mente de Spike Jonze, que escreveu Her, um filme que chega aos cinemas nos EUA em dezembro (veja o trailer) e é estrelado por Johansson e Joaquin Phoenix. Por coincidência, criar laços emocionais com os usuários é a chave da estratégia que está sendo usada pela Nuance Communications para competir com o Siri, da Apple e o Google Now, da Google, os principais assistentes pessoais digitais na atualidade.

nuance_her_phoenix-580px.jpg
Em 'Her' o escritor Theodore, interpretado por Joaquin Phoenix, se apaixona por uma assistente virtual

Apple, Google, Nuance e outras empresas imaginam um serviço que “conhece” o clima, seu calendário, as condições do tráfego e outras informações, e pode apresentá-las a você em seu smartphone, seu computador, sua TV e eventualmente até em seu carro. Na Apple e Google, a abordagem está focada nos dados: coletá-los e agrupá-los.

Mas na Nuance, eles estão virando esta idéia de ponta cabeça. Os dados podem esperar. É o relacionamento que tem que ser estabelecido em primeiro lugar. Enquanto a Apple e a Google estão tentando criar agentes inteligentes, a Nuncance quer criar uma “personalidade” inteligente. E a tecnologia é baseada nas ferramentas de reconhecimento de fala e linguagem natural que a Nuance adquiriu ou desenvolveu ao longo dos anos.

“Imagine que estou no carro, ouvindo ao jogo de futebol. Estamos no intervalo, chegou em casa e digo pra TV ‘coloca no jogo’. Isso não deveria ser algo tão difícil”, diz Gary Clayton, que foi “Chief Creative Officer” da TellMe Networks, uma pioneira em síntese de voz, e hoje ocupa o mesmo cargo na Nuance. “Esta é nossa noção de inteligência: um sistema com o qual podemos interagir através de uma conversa. Porque a partir do momento em que você começa a conversar com um sistema, há a sensação de que há um ser inteligente do outro lado. E quanto mais perto você chega deste ponto, mais forte a crença nisto, mais forte a relação”.

Para ser honesto, eu não entendi o conceito à primeira vista. A Google, com sua frota de carros do Google Street View, smartphones Android e milhares de cópias do navegador Google Chrome, estabeleceu que os dados são o rei. E que se você não tem eles, está destinado ao fracasso. Esta não é necessariamente uma posição com a qual a Nuance discorda, ela só não acredita que tem que dominar os dados por conta própria.

A ScanSoft, que adquiriu as pioneiras em voz Lernout & Hauspie e Dragon Systems, se fundiu à Nuance Communications em 2005, tomando seu nome. Desde então a nova Nuance fez mais de 40 aquisições, muitas delas relacionadas à sintese e reconhecimento de voz, mas também de utilitários como o teclado virtual Swype e um dos primeiros assistentes digitais, o Vlingo.

A Nuance agora tem divisões focadas em áreas como saúde, mobilidade, empresas e processamento de imagens, e conta com empresas como a Amazon, Ford, HTC, Samsung e Subaru como suas clientes. Todas usam a Nuance para o reconhecimento de voz. Até mesmo os “atendentes virtuais” que conversam com você em alguns sites são provavelmente baseados em uma tecnologia da Nuance chamada NINA. Entre seus talentos estão a capacidade de interpretar TEXTO EM MAIÚSCULAS como um sinal de irritação e de “representar uma marca” através de várias personalidades.

nuance_dragonmobile-500px.jpg

Dragon Mobile, para Android

Se você quiser, pode experimentar a primeira geração de assistentes digitais da Nuance para o Android. O Dragon Mobile Assistant está disponível gratuitamente no Google Play. Basta dizer uma palavra-chave (“Hey Dragon”) e perguntar pela previsão do tempo, enviar mensagens de texto, tweets, compartilhar sua localização com seus amigos e saber a deles.

O problema é que a Google, obviamente, domina sua própria plataforma, então a Nuance terá de ir um passo além. É aqui que entra o Wintermute.

Wintermute, a primeira IA da Nuance

A Nuance começou a mostrar uma forma rudimentar de sua tecnologia de “agente inteligente” durante a CES em janeiro deste ano. Batizada com o infeliz nome de “Wintermute” (o mesmo da IA psicótica no livro Neuromancer, de William Gibson) ela combina o Dragon Mobile Assistant com o serviço Dragon TV, projetado para uso em TVs, e também alcança o PC. Neste sentido ela tem uma vantagem sobre a Apple e Google em termos de alcance de hardware, embora o Wintermute ainda possa ser considerado uma “versão alpha”, ou seja, ainda em estágio preliminar de desenvolvimento.

nuance_dragontv-580px.jpg

O Wintermute se integra à plataforma Dragon TV, permitindo comandar a TV com a voz

Infelizmente a demonstração não funciona muito bem mesmo no ambiente artificial dos laboratórios da Nuance. Sim, o conceito é sólido. Na demonstração Tony Sheeder, um designer de experiência de usuário na Nuance, começou em um PC com Windows demonstrando alguns recursos básicos, usando apenas sua voz. Um momento de destaque foi quando Sheeder pediu à máquina para tocar algo dos Rolling Stones e ela respondeu dizendo “It’s only rock and roll, but I like it” (É apenas rock and roll, mas eu gosto), fazendo uma piadinha com uma música do grupo gravada em 1974. A resposta foi pré-programada, admite Sheeder, mas serve a um propósito.

“Por um lado, se usada de forma adequada, pode ser uma agradável forma de implicar que a personalidade é inteligente o suficiente para entender o conceito da conversação e elaborar uma perspectiva em relação ao conteúdo. Um ponto de vista”, disse Sheeder em um e-mail. “Por outro lado, acredito que isto ajuda a ‘suavizar’ a experiência. Tanto no sentido de que faz com que ela pareça menos mecânica, quanto no de que ajuda a camuflar os limites da tecnologia, fazendo com que a experiência pareça mais abrangente do que realmente é de um ponto de vista puramente funcional”. 

No futuro, diz Sheeder, os usuários serão capaz de fazer login em um sistema usando apenas sua voz, que será reconhecida e associada a um perfil personalizado. Não é algo muito difícil em um smartphone, que assumimos que pertence a uma só pessoa. Mas em um PC público a tarefa é muito mais complexa.

Infelizmente, quando pedimos a Wintermute para tocar a playlist dos Stones em um outro aparelho, a IA tropeçou. Também tivemos problemas com alguns outros comandos baseados em dados.

Mas dados são só o produto que a Nuance está comprando e vendendo. Profissionais de marketing falam em serviço ao consumidor. A Nuance quer construir um relacionamento com uma inteligência “do outro lado”.

De acordo com Clayton, a Nuance não está necessariamente dependendo apenas de sua própria tecnologia para adquirir os dados de que necessita. Ela está disposta a acessar bancos de dados e fontes públicas de informações, e a trabalhar junto com os clientes que já tem. Isto coloca suas parcerias já estabelecidas em indústrias como a médica e automotiva, por exemplo, sob uma nova luz. Uma questão é se a Nuance quer tomar a liderança no desenvolvimento de uma fundação na qual os dados poderão existir, algo que a empresa afirma estar discutindo, diz Clayton.

nuance_wintermute_smart-580px.jpg
Wintermute em um smartphone Android

De um ponto de vista técnico, o que a Nuance precisa integrar cai em quatro categorias, diz Clayton. Entrada e Saída, incluindo síntese de voz em tom conversacional, toques e gestos, Canais, ou a transferência da personalidade e os dados sobre os quais ela age de um dispositivo a outro, através da nuvem, os Pontos Finais, como equipamento médico, e Captura de Sinal, como a obtenção da localização de um usuário via GPS.

“Temos que nos tornar a ‘língua franca’ de todas estas coisas? Não acredito que esta decisão tenha sido tomada”, diz Clayton.

A conexão emocional

No momento o Wintermute tem a aparência de um objeto circular, da mesma forma como a Siri tem a aparência de um microfone. Victor Chen, Vice-Presidente de estratégia e design da Nuance, que supervisiona a equipe que está desenvolvendo o Wintermute e outras tecnologias, diz que a empresa está ciente do fenômeno conhecido como “Uncanny Valley” (Vale da Estranheza), que faz com que as pessoas se afastem de algo que está próximo demais da aparência humana, mas não é completamente humano.

De acordo com Chen o próximo passo é a emoção, tanto a capacidade de interpretar as emoções do usuário como ser capaz de responder de forma adequada. Isto pode ser algo tão simples como mudar a fonte ou cor de fundo da interface da personalidade para refletir uma mudança no humor. 

Mas há uma fina linha entre uma personalidade com o qual o usuário pode se relacionar e uma que acaba como uma piada em um talk show. Os americanos podem simplesmente não entender o conceito. “Esperamos que na Ásia as pessoas sejam mais receptivas a algo assim”, diz Chen, referindo-se a um local onde bichinhos virtuais são comuns.

nuance_wintermute_notebook-580px.jpg

Um pouco de personalidade ajuda os usuários a se relacionar com assistentes como o Wintermute, e até esconde limitações do sistema

Isso não significa que um assistente virtual não poderá introjectar uma personalidade, como a de uma mãe afetuosa. “Durante o uso de mapas, por exemplo, podemos adicionar uma frase como ‘Não se esqueça do dinheiro para o pedágio’”, diz Chen. Ou em outro caso o assistente pode dizer “Não se preocupe, você chegará lá com tempo de sobra”. 

“Se você começa a fazer isso cada vez mais, os usuários podem ter a sensação de que o assistente está cuidando deles”, diz Chen.

A Nuance poderia parar por aí. Mas Sheeder diz que há uma facção que acredita que um assistente digitarl deve - acredite ou não - discordar de você. Sim, a maioria dos pesquisadores ainda acredita que os assistentes devem ser inofensivos, mas esta é uma experiência sem profundidade, diz Sheeder.

“Eu respeitosamente discordo desta visão majoritária. O prazer que temos em interagir com outra pessoa é, em minha opinião, em boa parte o resultado da descoberta e exploração das qualidades e características únicas desta pessoa”, diz Sheeder. “Quando moldamos esta outra pessoa, ou personalidade, em algo que nós mesmos projetamos, eliminamos esta capacidade para o deleite. É a diferença entre jogar pôker e jogar paciência”. 

“Acredito que dar a esta personalidade um ponto de vista diferente lhe dá muito poder”, diz Sheeder. “Não só lhe ajuda a fortalecer os laços entre o serviço e o usuário, como lhe dá um “vetor” no mundo”.

Será que a visão da Nuance irá se tornar realidade? O mercado de tecnologia já ouviu várias promessas que nunca se realizaram, de como o Segway iria dominar ao mundo passando pela jogabilidade “emergente” de games como Black & White e Spore às declarações da Infinium de que seu console Phantom iria tornar o PlayStation e o Xbox irrelevantes.

Mas a Nuance não está prometendo o impossível. Os executivos da empresa estão bastante cientes do trabalho duro que tem pela frente. E a Nuance não pode ir sozinha, já que simplesmente não tem os recursos para isso. Mas se ela irá ter sucesso na construção de uma interface para convencer os consumidores e fabricantes de dispositivos a contribuir dados, e dólares, para sua causa é uma questão em aberto. Por enquanto deixaremos as últimas palavras com o apaixonado Theodore, personagem de Joaquin Phoenix:

“Amo a forma como você pensa sobre o mundo”, diz ele a seu sistema operacional.

Tags

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter por e-mail Newsletter por e-mail