Home > Notícias

Novo método ultrapassa 99% de precisão em textos digitalizados

Pesquisadores criam versão de processo que protege sites de bots para transcrever com eficiência conteúdo de livros e jornais.

Redação do IDG Now!

18/08/2008 às 18h17

Foto:

Pesquisadores da Universidade Carnegie Mellon desenvolveram um método que permite a digitalização de livros com mais de 99% de precisão, por meio de uma releitura do sistema de segurança CAPTCHA.

O trabalho dos cientistas foi batizado de reCAPTCHA. O método visual protege os sites de bots, pedindo que o usuário decifre um código distorcido que uma máquina não seria capaz.

Segundo a instituição, diariamente milhões de usuários de computadores transcrevem, coletivamente, cerca de 160 livros, sem saber que estão fazendo este trabalho. A versão da Carnegie Mellon, em seu primeiro ano de operação, teve 1,2 bilhão de ‘captchas’ resolvidos - mais de 440 milhões de palavras foram decifradas, o equivalente a 17.600 livros.

A Universidade afirma que o reCAPTCHA está sendo usado para digitalizar obras para o Internet Archive, além das edições impressas do The New York Times.

Os sistemas tradicionais, que transformam o texto usando reconhecimento óptico de caracteres, falham porque quando a tinta está fraca, o software não reconhece as palavras - o que este método é capaz de fazer.

Para criar o reCAPTCHA, os cientistas usaram imagens de palavras de textos antigos que os softwares tradicionais não conseguiram ler. O reCAPTCHA pode ser usado gratuitamente pelos sites interessados.

Tags

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter por e-mail Newsletter por e-mail