Home > Notícias

Apple deixará de ouvir usuários pela Siri. Mas isso muda alguma coisa?

É hora de enfrentar uma dura verdade sobre aprendizado de máquina e inteligência artificial: para melhorar, as pessoas precisam estar envolvidas

Jason Cross, da Macworld (EUA)

04/08/2019 às 12h33

Foto: Shutterstock

Uma semana depois de uma reportagem no The Guardian ter revelado que humanos do programa Siri estavam ouvindo atividades privadas e ilegais, a Apple anunciou que vai suspender a ação para realizar uma revisão. A empresa também trabalha em uma atualização de software para oferecer aos usuários a opção de desativar por completo esse "monitoramento".

A Apple divulgou uma declaração simples: “Estamos comprometidos em fornecer uma ótima experiência da Siri, protegendo a privacidade do usuário. Enquanto conduzimos uma revisão completa, estamos suspendendo a classificação da Siri globalmente. Além disso, como parte de uma futura atualização de software, os usuários poderão optar por participar ou não da classificação".

Essa é a coisa certa a fazer, mas isso me faz imaginar qual é o caminho a seguir. Porque, embora a maioria das pessoas não perceba, o aprendizado de máquina (machine learning - ML) e a inteligência artificial (IA) são construídos sobre uma base de "classificação" humana e não há uma boa alternativa à vista. E com a Siri sendo criticada por estar um ano ou dois atrás de seus rivais, não será fácil para a Apple acompanhar esse progresso, ao mesmo tempo que protege nossa privacidade.

Todo mundo faz isso

O que é esse programa de monitoramento da Siri? Basicamente, toda vez que você diz "E aí, Siri", o comando que você escreve é ​​processado no seu dispositivo, mas também semi-anonimizado e enviado para a nuvem. Uma pequena porcentagem desses dados é usada para ajudar a treinar a rede neural que permite que a Siri (e o recurso de ditado da Apple) entenda com precisão o que você está dizendo. Alguém, em algum lugar do mundo, está ouvindo alguns dos comandos do “E aí, Siri” e anotando se a assistente entendeu a pessoa corretamente ou não.

Em seguida, a rede de aprendizado de máquina é ajustada e reajustadas várias e várias vezes por meio de milhões de permutações. As alterações são testadas automaticamente contra essas amostras “monitoradas” até que um novo algoritmo ML produza resultados mais precisos. Então essa rede neural se torna a nova linha de base e o processo se repete.

Simplesmente não há maneira de treinar algoritmos de ML, seja para reconhecimento de voz ou reconhecimento de fotos ou para determinar se sua câmera de segurança viu uma pessoa ou um carro, sem que um treinamento humano seja feito dessa maneira. Ainda não existe um algoritmo de computador que pode sempre determinar com precisão se a inteligência artificial está certa ou errada.

Apple, Google, Amazon, Microsoft e qualquer outra empresa que produza assistentes de IA usando algoritmos de aprendizado de máquina para reconhecer fala ou detectar objetos em fotos ou vídeos ou quase qualquer outra coisa estão fazendo isso. Eles estão ouvindo suas consultas de assistentes, eles estão olhando suas fotos, eles estão assistindo suas câmeras de segurança.

Ou quase isso.

Na verdade, o Google também suspendeu as análises de suas gravações de idiomas depois que uma investigação alemã revelou que os contratados vazaram informações confidenciais para a imprensa.

Você certamente pode treinar algoritmos de ML usando um monte de fotos, vídeos e amostras de voz adquiridas e licenciadas comercialmente. E muitas empresas fazem isso. Para realmente tornar sua IA confiável, é necessário ter as mesmas fotos, vídeos e gravações de qualidade tirados nos dispositivos de sua empresa. Ela precisa de um discurso bagunçado e cheio de sotaque, a dois metros de distância, no microfone do seu smartphone, com ruído de vento e um cortador de grama ao fundo.

O treinamento humano de IA não é um evento raro, é uma prática comum. As capacidades de autocondução da Tesla estão sendo construídas com seres humanos treinando uma rede neural, observando os dados da câmera dos carros de seus clientes e marcando sinais, pistas, outros carros, bicicletas, pedestres e assim por diante. Você não consegue treinar um algoritmo de aprendizado de máquina de alta qualidade sem que os humanos revisem os dados.

Anônimo, mas não totalmente

Como simplesmente não é possível treinar um algoritmo de IA de alta qualidade destinado a ser usado por milhões de pessoas sem revisão humana, a maioria das empresas, pelo menos, tenta torná-lo semi-anônimo. Antes de qualquer humano ouvir uma gravação, ela é desprovida de qualquer dado que possa ser usado para identificar um usuário preciso. Pelo menos, é isso que as empresas nos dizem que fazem.

Mas uma certa quantidade de dados além da gravação de voz real ou foto/vídeo geralmente é necessária, por isso não pode ser completamente anônima. Não há como um sistema automatizado saber que sua transcrição estava errada, porque isso é algo que uma pessoa poderia dizer. Então, um ser humano tem que rever essas coisas, e eles precisam saber mais ou menos onde eu estava quando fiz o pedido.

Da mesma forma, uma pessoa revendo vídeos para diferenciar carros em movimento e pessoas precisa saber se eles estão vendo imagens de uma câmera externa (que vê muitos carros) ou de uma câmera interna (que deve ver apenas carros pelas janelas).

Divulgar o que tem sido feito é fundamental

É difícil saber exatamente como os consumidores reagiriam ao modo como seus dados podem ser usados ​​para treinar algoritmos de inteligência artificial se soubessem exatamente como isso funciona e exatamente o que estava sendo feito para proteger sua privacidade. Tenho a sensação que a maioria estaria bem com isso (se as pessoas estivessem preocupadas com informações pessoais e privacidade, o Facebook não seria usado por 1,2 bilhão de usuários).

Mas eles não sabem, e nenhuma das empresas envolvidas parece interessada em explicá-lo. Declarações curtas para a imprensa não são o mesmo que informar centenas de milhões de usuários. Escondendo declarações permissivas em seu acordo de Termos de Serviço não conta. Essa falta de divulgação é uma falha fundamental.

Um dos maiores problemas é o fato que os assistentes virtuais geralmente registram coisas que não deveriam. Siri, Alexa e Google Assistente estão basicamente sempre gravando. Eles ouvem alguns segundos de cada vez em um buffer constante no dispositivo, não enviando nenhuma informação em lugar nenhum até ouvirem a frase de ativação. Somente depois disso, eles ativam a conexão de rede e enviam seus dados para a nuvem.

Como todos sabemos, às vezes essas frases não funcionam e, às vezes, são acionadas mesmo quando ninguém as fala. Esses falsos gatilhos são o que faz com que os “graduadores” humanos ouçam trechos de conversas privadas, tráfico de drogas, atividade sexual e assim por diante.

Mais uma vez, não há solução simples. Esses assistentes não vão ficar perfeitos ouvindo suas frases de despertar, a menos que os seres humanos realmente digam quando entendem errado.

Nós mesmos fazendo o trabalho

Isso não significa necessariamente que tenhamos que passar nossos dados para outras pessoas. Nós poderíamos fazer o treinamento e nos classificar. A Apple poderia mudar o iPhone para que, a cada vez que Siri fosse convocado, recebêssemos simples botões "corretos" ou "incorretos". Se o usuário marcar um incorreto, talvez eles possam oferecer mais informações - a frase correta ou a maneira como a resposta recebida não foi a esperada.

Alto-falantes inteligentes podem receber frases que nos permitem fazer a mesma coisa com a nossa voz, talvez usando um telefone conectado para fazer as correções.

Em seguida, o algoritmo ajustado, mas nenhum de nossos dados pessoais, poderia ser enviado de volta à matriz para ser combinado com todos os outros e incorporado na próxima versão do software. Algumas empresas já usam esse método para certos tipos de algoritmos ML, como texto preditivo inteligente em teclados (onde, por sua própria natureza, todos nós corrigimos erros).

A grande maioria dos usuários nunca se preocuparia em avaliar e corrigir seu assistente virtual, é claro. O objetivo deles é evitar esse tédio, e quem quer rever todos os gatilhos de movimento erroneamente diagnosticados em sua câmera de segurança inteligente ou uma foto errônea em um álbum de fotos com IA? Isso é trabalho. Isso é o oposto do que é a inteligência artificial.

Mas com uma audiência grande o suficiente, a Apple pode certamente reivindicar que, com mais de um bilhão de dispositivos em uso, até mesmo uma pequena porcentagem fracionária de usuários ativos treinando seus dispositivos seria uma grande amostra para se extrair. Pode até ser o suficiente para fazer da Siri uma excepcional assistente de IA, o que atualmente definitivamente não é.

Uma empresa como a Apple estaria disposta a ir além? Para manchar seu design e aparências "simplesmente funciona" com uma interface de fácil acesso que, por sua própria existência, implica que algo não funciona o suficiente? Provavelmente não. A Apple provavelmente concluirá rapidamente sua revisão do programa de classificação e a restabelecerá com um alternador nas configurações de privacidade para desativá-lo. É a coisa mais simples de fazer, mas é uma oportunidade perdida de transformar pelo menos uma pequena parte de centenas de milhões de usuários da Siri em melhoradores ativos da assistente.

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter por e-mail Newsletter por e-mail