Home > Notícias

Ferramenta da Google permite busca segmentada de textos

Pesquisar por palavras em 500 anos de literatura e separar conteúdo por nível de profundidade são algumas das ferramentas novas

IDG News Service/Nova York

17/12/2010 às 16h06

Foto:

A Google acaba de introduzir novas ferramentas que permitem
a descoberta, pelos usuários, de maneiras para analisar sintaticamente um conjunto
extenso de informações públicas.

Um dos recursos, por exemplo, ajuda a revelar a incidência de
determinada palavra-chave (um ou mais termos) na coleção de mais de 500 anos de
literatura digitalizados. Outra ferramenta permite a segmentação dos
resultados de busca de acordo com seus níveis de dificuldade de leitura.

Biblioteca
Batizada de Books
Ngram Viewer
, a primeira ferramenta mencionada possibilita encontrar determinado
termo na vasta base de livros digitalizados. Os resultados de tal busca devem
apresentar um atalho para a obra original e uma linha cronológica que exibirá a
taxa de incidência da palavra buscada.

A ferramenta executará uma busca na base de 500 bilhões de palavras
de 5,2 milhões de obras literárias digitalizadas pela Google. Todos os livros
digitalizados foram publicados entre os anos de 1500 e 2008 nos idiomas Chinês,
Inglês, Alemão, Francês, Russo ou Espanhol.

O propósito da Google com esse recurso é apresentar uma nova
forma de realizar análises quantitativas para o meio acadêmico. Estudos que
evidenciem o surgimento de um ideário ou de uma tendência ao longo dos 508 anos
de registros escritos.

Com base em levantamentos realizados a partir do uso desse
recurso podem auxiliar na identificação da evidência de determinados
acontecimentos e sua repercussão.

Guerra mundial
Depois de pesquisado,  o termo “World War One” (primeira guerra
mundial, em tradução livre do inglês), por exemplo, revelou que ele passou a
ser adotado apenas meses antes da eclosão da Segunda Guerra Mundial. Consequentemente,
a expressão “The great war” (a grande guerra), usada para se referir à Primeira Guerra Mundial, deixou de ser usado em meados dos anos 50.

A segunda ferramenta permite separar os resultados de busca
de acordo com a dificuldade da leitura da informação. É uma busca avançada que
segmenta os resultados em níveis básico, intermediário e avançado.

Uma pesquisa pela palavra SEO (search engine optimization,
ou otimização de sites para buscadores em tradução livre do inglês) resultou em
2.970.000 resultados de páginas com informações de leitura básica, 7.320.000
URLs com conteúdo intermediário e outras 534 páginas com informações
consideradas avançadas sobre o assunto.

Como?
Não está evidente que fatores o Google analisa na hora de
avaliar a dificuldade de leitura de uma página. Estima-se que considere o
volume de texto em cada frase e/ou quantas letras ou sílabas são encontradas em
média por frase. Deve partir do princípio de que o comprimento das frases
denota maior dificuldade de leitura.

Na documentação
do Google
estão as diretrizes para o uso da segmentação.

Tags

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter por e-mail Newsletter por e-mail