Projeto 'explora' internauta para digitalizar livros

Ver o tópico anterior Ver o tópico seguinte Ir em baixo

Projeto 'explora' internauta para digitalizar livros

Mensagem por Admin em Qui Jan 03, 2008 5:26 am



Projeto 'explora' internauta para digitalizar livros
Palavras que não foram identificadas corretamente por scanner viram 'captcha'.
Sem saber, usuário identifica letras distorcidas, que vão para biblioteca virtual.
Do G1, em São Paulo entre em contato

'ReCaptcha' troca códigos aleatórios por palavras que não foram identificadas corretamente por scanners de texto
As letras distorcidas que você identifica para validar um cadastro on-line, seja ao criar um e-mail ou se registrar em uma rede social, podem ajudar a digitalizar livros na internet.



A relação parece improvável, mas o "ReCaptcha" já fez a idéia sair do papel.



Com o slogan "Acabe com o spam. Leia Livros", o projeto usa o conceito de "captchas" (Completely Automated Turing Test To Tell Computers and Humans Apart) para aproveitar a crescente "mão-de-obra" gratuita na internet em nome do conhecimento.



Em vez de utilizar códigos aleatórios de letras e números para testar se o internauta que preenche um cadastro é realmente humano (e não uma máquina controlada por spammers), o "ReCaptcha" coloca na salada de letras palavras reais, extraídas de livros de verdade.



São palavras que não puderam ser identificadas corretamente pelo sistema de Reconhecimento Ótico de Caracteres (OCR - Optical Character Recognition), muitas vezes devido ao estado de conservação irregular de certas obras no papel.





Palavras que não puderam ser reconhecidas pelo sistema OCR são transformadas em 'captchas' e apresentadas ao internauta. Se ele as identifica corretamente, elas passam a integrar o conteúdo de um livro on-oline


Com o "ReCaptcha", uma palavra que não é identificada corretamente pelo OCR é automaticamente enviada aos geradores de "captcha" do sistema. Essa palavra é apresentada a um internauta que esteja, por exemplo, escrevendo seu comentário em um blog. Se ele identifica a palavra corretamente, ela é devolvida a seu lugar de origem, corrigida.



Segundo o site "The Real Captcha", cerca de 60 milhões de "captcha" são solucionados diariamente em toda a internet. São códigos aleatórios envolvendo letras e números que, quando identificados, deixam de existir. Se esse "exército" de digitadores fosse usado para corrigir as falhas do sistema OCR, 150 mil horas de trabalho de digitalização de livros seriam poupadas diariamente, calcula o site do projeto.



O sistema mostra as palavras em pares, e oferece a versão em áudio para que deficientes visuais também possam identificar o texto. Para "passar pelo teste", o internauta deve identificar corretamente as duas palavras - uma já conhecida do sistema, e outra inédita.



O usuário que quiser incluir o sistema "ReCaptcha" em seu site ou blog pode conferir os requerimentos necessários no site do projeto. Por enquanto, as palavras identificadas são utilizadas para ajudar a digitalização de livros do site "Internet Archive", organização sem fins lucrativos que desde 1996 transforma livros de papel em textos na internet.
avatar
Admin
Admin
Admin

Masculino Número de Mensagens : 311
Idade : 27
Localização : São Gonçalo\Rio de Janeiro
Data de inscrição : 10/12/2007

Ver perfil do usuário http://forumevagelico.forumeiros.net/portal.htm

Voltar ao Topo Ir em baixo

Ver o tópico anterior Ver o tópico seguinte Voltar ao Topo

- Tópicos similares

 
Permissão deste fórum:
Você não pode responder aos tópicos neste fórum