evadare.ro

OCR: Recunoasterea optica a caracterelor

Cateva programe care permit scanarea inteligenta a documentelor.


OmniPage Professional 15

MniPage se adreseaza celor care cunosc adevarata valoare a timpului, permitandu-le sa transforme foarte repede documente printate in documente virtuale. Programul recunoaste caracterele si forma grafica a paginilor, cu tehnologia Logical Form Recognition. Documentele pot fi transformate in fisiere PDF, carti audio sau documente cu semnatura electronica. In pachet sunt incluse programele ScanSoft PDF Create si PDF Converter. Documentele pot fi salvate in 30 de formate, citite de programe precum Internet Explorer, PowePoint, Word, Excel. Este posibil si traseul invers, de la PDF, la forma complet editabila specifi ca programului din care s-a facut printarea. Sunt recunoscute chiar si PDF-urile salvate ca image-only. O alta trasatura atractiva este convertirea paginilor scanate direct in pagini web ce pot fi transferate pe un server. Producatorul, Nuance, se lauda cu o crestere in acuratete de 25% a actualei versiuni a programului, valabila pentru nu mai putin de 119 limbi. Au fost imbunatatite dictionarele specializate, cu termeni din domeniul juridic sau medical. O unealta cunoscuta din Photoshop este Despeckle, aceasta permite estomparea unui fundal colorat sau incarcat pentru o mai buna focalizare pe textul propriu-zis. Programul este capabil sa indeplineasca mai multe functii simultan, de pilda conversia de tip OCR in timp ce noi pagini sunt scanate.

Simple OCR

Simple OCR are avantajul ca este singura aplicatie de acest gen complet gratuita. Rezultatele sunt, pe alocuri, direct proportionale cu valoarea investitiei, altfel spus programul mai are multe neajunsuri. Dictionarul pe care il foloseste este de 120.000 de cuvinte, putand suporta adaugiri din partea utilizatorului. Unele caracteristici ale formatarii initiale sunt retinute: dimensiunea caracterelor, sublinierile, caracterele italice sau aldine. Pentru a rezulta un document cat mai apropiat de forma initiala sunt pastrate si imaginile la locul lor, nemaifiind nevoie sa fi e importate cu ajutorul altor programe. Prezumtivele erori din cadrul textului sunt subliniate. Simple OCR are si capacitatea de a scana doar un mic fragment dintr-o pagina, atunci cand textul intregului document nu prezinta suficient interes. Versiunea testata de noi s-a dovedit destul de pretentioasa in privinta formatului documentelor importate – doar fisiere primite de la un scaner TWAIN, sau TIFF alb-negru.

ABBYY Fine Reader 8, Professional Edition

Noua versiune permite o recunoastere inteligenta a documentelor imprimate, fotografi ate cu aparate digitale, capturile de ecran, sau chiar cele primite prin faxuri de joasa rezolutie. Au fost imbunatatite si metodele de protejare a fisierelor PDF. Programul integreaza dictionarul folosit de Microsoft Word si poate fi imbunatatit cu alte dictionare tematice. O premiera este capacitatea amintita de a recunoaste imagini obtinute fara un scaner, cu o camera foto digitala. Pentru rezultate optime este recomandata o rezolutie de cel putin 4 megapixeli. La examinarea unui document PDF, ABBYY Fine determina daca textul e inclus in imagine sau pe un layer separat, in functie de acest lucru, folosind motorul OCR sau o simpla extragere a textului. Aceasta examinare prealabila a fi ecarui bloc de text permite chiar dublarea vitezei de finalizare a operatiunii. Sunt recunoscute chiar si datele din proprietatile documentului – titlu, subiect, autor sau cuvinte cheie, toate fiind transferate documentelor rezultate, de format DOC, RTF, XLS, HTML, PDF sau LIT. Versiunea curenta include si un modul de recunoastere rapida, util pentru documentele voluminoase de la care nu se doreste decat o indexare rapida intr-o baza de date a continutului, sau pentru documentele simple, scanate la rezolutii foarte bune.


(articol publicat in revista LAPTOP, septembrie 2006)

evadare.ro
May 2nd, 2008
Mai multe despre: Articole Publicate

Scriu mult mai des pe Facebook: Reacțiunea.