divendres, de juny 29, 2007

OCRopus, un OCR lliure de la mà de Google

Encara que de moment no hi ha cap paquet executable, el seu estat de desenvolupament és força avançat.

Si en algun camp de la informàtica l'evolució del programari lliure s'ha vist frenada, aquest és sens dubte el dels reconeixedors òptics de caràcters (OCR per les seves sigles en anglès, optical character recognition). Google, impulsora de molts projectes en la modalitat de programari lliure, sembla voler aportar el seu granet de sorra a aquesta evolució amb OCRopus.

Un OCR funciona d'una forma teòricament molt simple: s'escaneja un full escrit (manualment o d'impremta, impressora, fax,...) per convertir-lo en un conjunt de bytes a l'ordinador. Aquest full escanejat és interpretat pel programari de la màquina com una imatge -de fet, s'emmagatzema en un format d'imatge com ara JPG o TIFF-.

Amb un programa adequat -l'OCR- aquesta imatge digitalitzada és interpretada d'una forma pseudo-intel·ligent (gràcies a algoritmes matemàtics) mitjançant la qual el programari intenta interpretar el seu contingut per passar-lo a un format de text manejable per qualsevol programari de processament de paraules.

D'aquesta forma és possible "recuperar" el text d'articles publicats en revistes -i que no estiguin disponibles en format digital- o bé manuscrits per poder-los manipular informàticament, alterar-los, realitzar-ne còpies o penjar-los a Internet.

Tot i que la tecnologia emprada pels programes d'aquesta mena no queda fora de l'abast dels usuaris finals (de fet, la majoria dels petits escàners personals que es venen en establiments especialitzats i grans superfícies inclouen un programari d'aquest tipus), curiosament no han florit alternatives fortes en el terreny del programari lliure als productes comercials, a diferència del què passa -per posar un exemple- en el camp dels paquets ofimàtics en el qual tenim a contendents com OpenOffice.

OCRopus consisteix en un sistema de reconeixement i interpretació de caràcters que beu de les fonts d'un projecte dut a terme per l'Oficina del Cens dels Estats Units a mitjans dels anys noranta i de posteriors eines d'anàlisi.

Inicialment, aquesta eina es dirigeix a un tipus d'usuari amb necessitat de processar grans quantitats de documentació, encara que per al futur a llarg termini no es descarta la seva adaptació a altres tipus d'usuari, com per exemple el domèstic.

Encara no disposem d'executables d'OCRopus per a cap plataforma, ni tan sols en fase beta. La seva plataforma de desenvolupament és Linux (concretament Ubuntu 6.10) per a plataforma x86 i x86/64, però en estar escrit en C++ i Python és fàcilment migrable a altres plataformes maquinari/programari.

En canvi, el codi font de l'aplicació sí està disponible, i ens podem apuntar a l'equip de desenvolupament en ser aquest obert com en tot projecte de programari lliure, encara que aquest sigui esponsoritzat per una multinacional com Google.

Per al futur d'aquesta eina, i un cop hagin vist la llum els primers paquets compilats i utilitzables, és disposar de plug-ins per al reconeixement de diversos conjunts de caràcters o alfabets, de manera que pugui ser adaptat a la majoria de les llengües del món i les seves corresponents formes d'escriptura.

Més informació:

Lloc web d'OCRopus
http://code.google.com/p/ocropus/

Entrada en el bloc oficial de Google sobre OCRopus
http://googleblog.blogspot.com/2007/06/google-and-open-source-ocr.html