Un OCR molto comodo.




Andiamo a presentare un OCR software per il riconoscimento dei caratteri, molto utile per chi lavora con i testi: Tesseract, sponsorizzato da Google, ma vediamo di cosa si tratta.


Tesseract è un software libero per il riconoscimento ottico dei caratteri (OCR) .
Sviluppato originariamente come software proprietario dalla Hewlett-Packard tra il 1985 e il 1995, non venne più aggiornato nel decennio successivo. Fu poi rilasciato come open source nel 2005 da Hewlett Packard e dall'Università del Nevada, Las Vegas, e rilasciato con la licenza Apache, versione 2.0. Lo sviluppo di Tesseract è attualmente sponsorizzato da Google.
Come tutti i programmi OCR, anche Tesseract serve a convertire il testo contenuto in un'immagine, ottenuta di solito per mezzo di uno scanner, in caratteri comprensibili ad un elaboratore di testi. I risultati sono molto buoni per quanto riguarda il riconoscimento dei caratteri; manca invece la capacità di mantenere il layout delle pagine, per esempio le tabelle o le colonne. Inizialmente limitato ai soli caratteri ASCII, nell'ottobre 2011 Tesseract supporta i caratteri UTF-8 e riconosce 33 lingue.
Un'altra limitazione di Tesseract è quella di accettare solo immagini Tagged Image File Format, con l'estensione «.tif». Il software inoltre è attualmente utilizzabile da riga di comando digitando, in una finestra di terminale, il seguente comando:
tesseract <percorso del file TIFF> <nome del file di output>
Sarà generato automaticamente un file di testo con estensione «.txt».


code.google.com/tesseract-orc



Commenti

Post popolari in questo blog

L'igiene dell'apparato scheletrico. Anatomia.

INSTAFETCH - Android -

I pesci abissali. Zoologia marina.