Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
crazy_hell_angel la Simpatie.ro
Femeie
25 ani
Gorj
cauta Barbat
25 - 53 ani
Forum Romania Inedit / Totul despre cărți - About e-books / Abbyy 9 vs. Abbyy 11 Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini: 1
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

          Abbyy 9 vs. Abbyy 11



        Cred că e cazul să discutăm câteva lucruri despre cele două versiuni ale ABBYY FineReader.

        Personal folosesc ambele versiuni, cu prioritate Abbyy 9
        Vreau să menţionez din start că nu pot aprecia că Abbyy 11 este mai bun decât Abbyy 9 sau invers, deoarece fiecare are avantajele şi dezavantajele sale.
        În funcţie de ceea ce dorim să facem putem alege una din variante.
        De pildă, dacă dorim să facem doar scanarea unei cărţi va fi mai indicată folosirea lui Abbyy 9; dacă dorim extragerea unui OCR din imagini cu probleme este mai indicată folosirea lui Abbyy 11.
        Ca o primă concluzie, cred că un user este bine să aibă instalate ambele versiuni.


        Un pic de istorie: Abbyy 9, Abbyy 10, Abbyy 11
        Abbyy 10 a apărut cu câteva modificări notabile faţă de Abbyy 9:
                - a schimbat interfaţa programului;
                - au apărut opţiuni noi, printre care cea mai importantă este posibilitatea de corectură a geometriei imaginii [corectarea imaginii sub formă de trapez];
                - a schimbat structura folderului Abbyy sau ceea ce numim FineReader Document.

        Cea mai importantă este schimbarea structurii FineReader Document.
        FineReader Document sau folderul Abbyy este un folder în care Abbyy îşi salvează toate informaţiile cu privire la o carte scanată sau un alt document; în acest folder vom regăsi imaginile scanate şi toate salvările specifice.
        Acest folder este complet diferit la Abbyy 9 faţă de versiunea Abbyy 10.
       
        Abbyy 9: există un singur folder fără subfoldere componente; în acest folder, în afară de 2-3 fişiere specifice, există pentru fiecare imagine câte două fişiere: un fişier "frf" care păstrează diferitele setări ale fiecărei pagini şi un fişier de tip imagine "tif".
        Imaginile "tif" pot fi vizualizate direct în acest folder, pot fi copiate sau încărcate în diferite programe, printre care şi Scan Tailor.
        Avantajul principal este că putem folosi aceste imagini în forma lor originală, fără să avem pierderi de convertire. Acesta este marele avantaj al Abbyy 9.

      Abbyy 10: FineReader Document este un folder care conţine un număr de subfoldere specificice şi câte un subfolder pentru fiecare imagine în parte;
      Subfolderul creat pentru fiecare imagine în parte conţine numai fişiere de tip "frdat", specifice Abbyy. Iată ce conţine un subfolder al unei imagini din Abbyy 10: bwPage.frdat, converters.frdat, metadata.frdat, parameters.frdat, preview.frdat, properties.frdat
      Este uşor de constatat că nu mai putem vizualiza imagini şi singura posibilitate de salvare a imaginilor este prin intermediul meniului programului.
      Este de menţionat că practic, atunci când dorim să salvăm imagini cu Abbyy, acesta face şi o convertire a imaginilor din formatul "tif" în formatul "jpg" sau "png"... etc.
      Convertirea are calitatea 90-95% a imaginii tif.

      Abbyy 11 este practic un Abbyy 10 îmbunătăţit, păstrând toate caracteristicile acestuia.

      A doua concluzie:
          - dacă folosim Abbyy doar pentru scanare, atunci este mult mai bine să folosim Abbyy 9 la care se poate face setarea ca Abbyy să nu mai facă şi recunoaşterea textului, ci numai salvarea imaginii, ceea ce va reduce timpul de scanare.
          - dacă folosim Abbyy pentru scanarea şi extragerea OCR a unei cărţi de calitate este recomandat tot Abbyy 9.
          - dacă folosim Abbyy pentru extragerea OCR din imagini cu probleme de scanare, carte învechită, cu tiparul decolorat etc... etc... este indicată folosirea lui Abbyy 11, care realizează o recunoaştere mai fidelă a caracterelor, cu erori mai puţine decât fraţii săi mai mici.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      ABBYY FineReader 9.0.0.724 Professional Edition

      AB9RI.rar
     
      pass: romania_inedit


      Abbyy FineReader 11 [cu mulţumiri lui calincalin]

    torrent:
     
sau
     

      Toate variantele funcţionează fără probleme şi sunt însoţite de fişiere txt cu informaţii despre modul de instalare şi fişiere pentru activarea licenţei.


      Câteva sfaturi despre instalarea şi setările Abbyy pot fi găsite în tutorialul:
      [T1] Instalare şi setări ABBYY 9 [V1.0].pdf
     

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Wait.... wait.... wait.... Abby 11 poate fi setat sa faca doar scanare si atat. Fara ocr, fara despartirea paginii sau orice altceva.





pus acum 12 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Mulţumesc Seven.

Încă n-am instalat programul dar vreau să ştiu dacă îţi
permite să faci crop diferit, adică să aplici un anumit tip de decupare
tuturor paginilor pare, şi un alt tip celor impare. Eu am scaner A4 şi aliniez
paginile la margine, în mod diferit. Paginile pare la o latură,
cele impare la cealaltă latură a scanerului, pentru a proteja cartea.
Este vorba evident, de formate mai mari decît A5.
Adobe îţi permite la sfîrşitul scanării efectuarea decupărilor
despre care am vorbit mai sus.

Modificat de uciN (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
@utilitasetveritas
    Şi... am spus eu că nu poate?
    Cred că din alt motiv am recomandat Abbyy 9 pentru scanare.

@uciN
     Am încercat mai multe variante şi softuri şi m-am stabilit la Abbyy.
     Am scanner tot din familia HP, şi după câte singur ai putut constata, softul de la HP este ceva pe cât de stufos pe atât de neplăcut.

     Ştiu ce scanezi şi-ţi recomand scanul de sub Abbyy 9.
     Abbyy 9 postat mai sus poate fi instalat în varianta custom, este mai mic, consumă mai puţine resurse... şi... cel mai important, poţi impotta imaginile direct din folderul său.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Mmmm... oarecum...

" - dacă folosim Abbyy doar pentru scanare, atunci este mult mai bine să folosim Abbyy 9 la care se poate face setarea ca Abbyy să nu mai facă şi recunoaşterea textului, ci numai salvarea imaginii, ceea ce va reduce timpul de scanare."

Daca te refereai la avantajul de a avea direct in folderul de proiect, acele imagini ale scanarii, atunci te-am inteles gresit.


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Exista vreo posibilitate de salvare a textului, dar care sa pastreze boldul si italicul, si care nu introduca notele de subsol a cartii ca note de subsol, in documentul final?

De 2 saptamani incoa, atat Abby 11 cat si 9, imi scoate texte cu note de subsol.
Am folosit mult timp optiunea Formatted Text si nu am patit asta niciodata. Notele faceau intotdeauna corp comun cu textul.

Dar de 2 saptamani incoa, mereu am trezesc cu note de subsol in ocr.
Singura rezolvare gasita a fost sa folosesc Plain Text, dar nu ma incanta pentru ca pierd boldul si italicul.

Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Două sunt motivele pentru care încă folosesc şi Abbyy 9.
     Unul este modul de afişare al imaginilor în Abbyy 9, direct în format tif, ceea ce permite prelucrarea lor fără pierderi de calitate în Scan Tailor sau alt program.
     Cel de-al doilea motiv era faptul că în varianta de salvare RTF - Formatted text, Abbyy 9 păstrează antetul şi nota de subsol în componenţa textului, timp în care în Abbyy 11 [cred că aşa era şi la Abbyy 10] antetul şi nota de subsol nu se mai păstrează în text, ci se duc exact în locul rezervat de Word pentru Headers şi Footers, adică în afara paginii.
     Pentru mine, care obişnuiesc să păstrez numerele de pagină cu rol de coordonate pentru căutarea mai uşoară în pdf, acest lucru mă încurcă cel mai mult. Acesta era al doilea motiv pentru care folosesc Abbyy 9.

     Practic nu înţeleg de ce la tine şi Abbyy 9 se comportă ca şi Abbyy 11.
     E posibil ca Abbyy 9 să fi făcut un update? sau să fi preluat ceva din setările lui Abbyy 11? Nu mă pricep la probleme de genul ăsta.
     La mine Abbyy 9 păstrează notele de subsol în text la salvarea documentului ca RTF - Formatted text. Concret am instalat mai întâi Abbyy 9 într-o variantă custom, iar mai apoi Abbyy 11.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
OK. Merci.
E bine de stiut ca nu sunt nebun
Downgrade to Abby 9 si stergerea tuturor fisierelor cu Abby in denumire


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Problema lamurita. In Abby 9, cel putin.

Tools > Document > trebuia bifat Read as plain text formated with spaces

Banuiesc ca asta era problema si la Abby 11, dar nu mai am chef sa mai instalez nimic.
Se salveaza textul formatat (bold, italic, etc.) si cu notele de subsol integrate in text.

Seven, tu ai optiunea asta bifata? Eu nu imi amintesc sa fi umblat la ea.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Nu, nu am această opţiune bifată.
     Nici eu nu cred să fi umblat vreodată la această opţiune. A rămas nebifată, aşa cum a instalat-o Abbyy.
     Am făcut chiar acum două probe de salvare în varianta RTF - Formatted text, dar şi în varianta Word - Formatted text; nu sunt probleme nici în varianta Word.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Cred ca bag un Windows nou, in curand.
E asa cum spui tu. Am trecut Abby pe setarile default, si optiunea cu pricina nu e bifata.


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Dupa ce am reinstalat Windows-ul, totul a revenit la normal.
Am ramas pe Abby 9, pe moment.


pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
Antetul şi nota de subsol SE PASTREAZA in oricare ABBYY FINEREADER, cu 3 conditii ce trebuie indeplinite IMPREUNA:

1. - verificati MANUAL pagina cu pagina  - zonarea facuta automat de ABBYY,
si separati zona de subsol, ca zona distincta, de RESTUL TEXTULUI NORMAL.

2. - stergeti MANUAL (sau eliminati la scan tailor) numarul paginii - daca e in partea de jos - in footer...,
altfel, unele note de subsol ''zboara'' spre/la finalul doc, sau raman integrate in textul normal.

3. - salvati doc word din abbyy ca EDITABLE COPY.
(amanunte ref. la bifarile optiunilor de salvare gasiti in tutorialul OCR de la A la Z).

Chiar si asa, in cazul img prost tiparite sau prost scanate, vreo 10 la suta din note se duc aiurea.


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Nu despre asta era vorba. Eu le voiam (o bere lui Cosimo) integrate in text, ci nu separate ca header sau footer.
Oricum nu stiu ce are Abby 11, am instalat windows-ul si iarasi face la fel.
Si am mai vazut ca la cartile lui Panait sunt unele pagini care sunt facute varza cu carne de Abby 11, in timp ce, pe aceleasi pagini, Abby 9 nu prea are probleme.


pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
Daca scanul original a fost

- pdf searchable, black and white, la 72 - 300 dpi, pe care le introduceti de obicei DIRECT in FINEREADER, fara prelucrare de imagine,
- scan imagine jpg/tif, sub 350 dpi,
- scan imagine jpg/tif - prost scanat, de rezolutie joasa - trecut prin scan tailor/ACDSEE

Abbyy 11 NU POATE FI PACALIT de rezolutia ''urcata'' de noi la 600 dpi,
(operatie executata CHIAR cu ABBYY 11 sau cu ajutorul programelor de editare imagine)....
si sare paragrafe, sau pagini intregi.

Solutie:

1. Introduceti in Abbyy 11 cateva pagini de proba
DAR DEBIFATI
enable image preprocessing.

Apoi, umblati la EDIT IMAGE si detectati REZOLUTIA paginii FARA a o URCA la 600 - va veti convinge ca REZOLUTIA a fost ''urcata'' artificial de programele anterioare - ABBYY 11 va spune ca rezolutia e = 250 dpi (sau 300, 350)
sau CA NU POATE DETECTA REZOLUTIA IMAGINII.

2. In multe cazuri, ABBYY 11 va sugereaza COBORAREA REZOLUTIEI, si va spune SI CIFRA la care trebuie sa o setati.

Setati, ACUM,  rezolutia CAT MAI APROAPE DE CIFRA SUGERATA DE ABBYY 11,  COBORAND din nou rezolutia la 350, 300, sau 250 dpi, care o fi fost
de fapt,  rezolutia INITIALA a scanului original.

Daca nu va sugereaza, SETATI-O dv la 300 dpi.

3. SĂRPRAIZZ!
Veti reusi OCR de calitate.

Abbyy 9 si 10 nu dau gretzurile astea, cum le da abbyy 11.


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Asta zic si eu. Abby 9 ramane baza.
Si vorba aia, eu am folosit Abby 11 pe niste scanuri-oglinda, gray si 600 dpi, dupa cum se vede si in djvu-uri. Dar corpul de litera mic si uneori sters, a stricat unele pagini.

La utimul ocr facut, mi-a scos aproape toata cartea in bold. Si nu, nu am umblat la stiluri si nici nu erau scrise cu bold acele pagini.
Abby 9 a trecut prin ele fara sa comenteze prea mult.
Acum fac corectarea initiala direct din Abby 9, are problemele lui, dar textul e cu mult mai curat decat cel lasat de Abby 11.


pus acum 12 ani
   
meridiane
Online
MEMBRU VIP

Inregistrat: acum 12 ani
Dar Abby 10 ce are? De ce nu-l fokositi?

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Nu am avut chef de schimbari, iar atunci cand mi-a venit cheful, aparuse Abby 11.

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

utilitasetveritas a scris:

Seven, stiai de setarile astea din Abby 9? Intra direct pe youtube si lasa-l fullscreen.






_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

jullien_alphonse a scris:

   
Setarea de mai sus s-a folosit la OCR pentru MIRCEA ELIADE,
- in cazul recunoasterii DE CALITATE a simbolurilor echivalate din sanskrita
(transpuse in caractere latine - EXTENDED).

E vorba de CREAREA de catre user, a unei USER LANGUAGE, care VA CONTINE ulterior - LITERE cu DIACRITICE provenind din diferite LIMBI/encodinguri.

Simplu de executat si Foarte util in cazul OCR pt opere/fragmente tiparite
ce contin in cadrul aceleiasi pagini
caractere si diacritice din mai multe limbi, cum ar fi:
GREACA, EBRAICA, RUSA plus celelalte limbi europene moderne - franceza, italiana, spaniola, etc.

Avantaje:

1. RECUNOASTERE DE CALITATE SUPERIOARA pt textele multi-lingve.

2. Se poate face TRAINING pentru TOATE simbolurile continute in USER LANGUAGE.

in cazul nefolosirii:
   --- ABBYY refuza trainingul - daca LIMBA de recunoastere setata de dv
        NU CONTINE caracterele respective, sau
   --- RECUNOASTEREA poate substitui literele ce au diacritice EXOTICE - cu
        diacritice romanesti - ceea ce va obliga CORECTORUL la folosirea manuala (simbol cu simbol) a Character Map.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

utilitasetveritas a scris:

Cosmin, am nevoie de dictionarele din AutoCorect Clasic, in format text.

Vreau sa le folosesc impreuna cu Abby 9 deoarece imi semnaleaza zeci de erori pe pagina din cauza grafiei vechi.
E suficient sa le schimb extensia?


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

ciuperca_cosmin a scris:

Mai exact despre care dictionare vorbesti, ca AutoCorect are multe...?

PS: sa inteleg ca vrei sa folosesti dictionarul de ortografie din Clasic in Contemporan..?


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

utilitasetveritas a scris:

Da, cel de ortografie.
Abby 9 salveaza dictionarele intr-un text:

DICTIONARY_PROPERTIES=USE_CONFIDENCE
atat 100
bătrîni 100
c-am 100
Ce-o 100
d-tale 100
fetiţa-i 100
gheboşită 100
gîndurile 100
gînguritul 100
Iehova 100
mănînci 100
mîine 100


Dar vad ca e o problema cu textul, fiecare cuvant e urmat de 100.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Am cotrobăit un pic prin Abbyy... am încercat mai multe variante de realizarea a dicţionarului pe care l-ar putea folosi Abbyy şi am, deocamdată, câteva constatări:

      ■ 1. Abbyy nu subliniază foarte multe cuvinte ca fiind necunoscute; cred că el are deja un dicţionar pentru limba română; cel de care are nevoie ar trebui să fie un dicţionar suplimentar. Rezultă că dicţionarul ce ar trebui creat nu trebuie să cuprindă toate cuvintele din limba română, ci doar unele dintre ele: eu am constatat că cele mai multe cuvinte necunoscute sunt cele scrise cu cratimă.

      ■ 2. Dicţionarele despre care vorbim vor fi salvate în calea de căutare următoare:
                – în Windows 7, Windows Vista:
„C:\Users\NUME*\AppData\Roaming\ABBYY\FineReaser\9.00\UserDictionaries\”
                – în Windows XP:
C:\Documents and Settings\NUME\Application Data\ABBYY\FineReaser\9.00\UserDictionaries\”

      ■ 3. Dicţionarul pe care trebuie să-l realizăm este unul de tip "CUSTOM.DIC" din Word, deci un fişier cu extensia "dic", sistem de codare Unicode, în care cuvintele sunt înregistrate în ordine alfabetică unele sub altele. Acest dicţionar se poate realiza în Word şi se poate edita în WordPad, folosind funcţia Copy&Paste din alte programe, cum ar fi Excel.
      În folderul de instalare al Abbyy 9, există trei fişiere: "Roman.amd", "Roman.amn" şi "Roman.amt". Cred că ceea ce conţine dicţionarul "CUSTOM.DIC" se converteşte special într-unul dintre aceste fişiere...

      ■ 4. În momentul în care în Abbyy avem cuvinte necunoscute subliniate, punem cursorul maus pe cuvânt şi la acţionarea click dreapta, apar mai multe opţiuni, printre care "Add to Dictionary". Folosim această opţiune şi Abbyy adaugă cuvântul necunoscut în dicţionarele sale.
      În acest moment în calea de căutare menţionată mai sus, apar două fişiere speciale Abbyy, numite "Roman.ame" şi "Roman.pmd". [A nu se confunda cu cele 3 din folderul de instalare]. Cred că acestea sunt dicţionarele pe care le foloseşte Abbyy în momentul în care face recunoaşterea, când face "citirea".

      ■ 5. Deşi am adăugat doar câteva cuvinte într-un "Custom.dic" şi alte cuvinte prin varianta "Add to Dictionary", la o testare făcută am constatat că Abbyy şi-a micşorat viteza de citire foarte-foarte mult.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani

Seven a scris:

      ■ 5. Deşi am adăugat doar câteva cuvinte într-un "Custom.dic" şi alte cuvinte prin varianta "Add to Dictionary", la o testare făcută am constatat că Abbyy şi-a micşorat viteza de citire foarte-foarte mult.


Cam de cate ori scade viteza (nu trebuie un numar 100% precis ci aproximativ)?
Daca dublezi numarul de cuvinte adaugate, cam de cate ori scade?
Incerc sa-mi dau seama cat din viteza e luata de faptul ca trebuie sa caute in alt dictionar si cat ia cautarea propriuzisa (ca sa-mi dau seama de metoda de cautare).


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani

Seven a scris:

Salutare!

     Şi da şi ba...
     Pattern-urile de care m-am ocupat, le-am numit "dicţionare", dar ele sunt altceva; acestea nu cuprind cuvinte, ci o corespondenţă între imagini ale unor caractere şi codul lor grafic... în sfârşit e altceva.

     Datorită curiozităţii tale excesive şi un pic contagioase, m-a prins şi pe mine curiozitatea şi m-am apucat de cotrobăit prin Abbyy... cred că am găsit drumul bun spre realizarea dicţionarului care să funcţioneze în Abbyy... doar că trebuie lucrat în echipă...

     Fiind vorba despre Abbyy, am să încerc să mut postările din acest topic care se referă la Abbyy în topicul Abbyy 9 vs, Abbyy 11 şi acolo am să postez ceea ce am descoperit până în acest moment.



Dar ce s-ar intampla daca s-ar umbla prin lista aia de simboluri din clipul meu?
Mai exact, ce s-ar intampla daca s-ar sterge chestiile ciudate, gen romburi si patratele negre, si s-ar lasa doar semnele de baza a punctuatiei?
Eu nu vad decat 2 posibilitati:
- Abby e nevoit sa bage unul dintre simbolurile ramase in lista. Deci in loc de patratel negru sa apara Emdash sau ceva de genul.
- Abby sa nu mai introduca nimic in text cand peste unul din simbolurile sterse din lista.

Dar nu ma bag in chestia asta, am avut dureri prea mari de cap cu toata seria Abby 9, 10, 11.

Am impresia ca eu procedez altfel cu dictionarele din Abby. Eu folosesc corectorul ortografic din Abby si butonul Add.
Iar cuvintele adaugate de mine apar, dar doar ele, atunci cand vizualizez dictionarul roman de la spellcheck (corectorul ortografic ce poate fi folosit dupa citirea textului de catre Abby)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

ciuperca_cosmin a scris:

Cam de cate ori scade viteza (nu trebuie un numar 100% precis ci aproximativ)?

     Cred că în legătură cu viteza am tras o concluzie pripită...  am continuat testarea fără accesarea dicţionarelor cu aceeaşi carte... viteza mică este dată de calitatea scanului şi a prezenţei masive a textului în două limbi... am folosit la testare cartea Cinci ani la Auschwitz, care este una foarte dificilă.
     Am să încerc să găsesc un scan de calitate medie, care conţine numai text în limba română şi am să refac textele.

     Mă gândeam la realizarea unui dicţionat "Custon.dic", în următoarea variantă:
     Mă voi folosi de dicţionarele AC care conţin înregistrări de cuvinte întregi la ambele capete.
     Dicţionarele le voi copia în Excel, unele sun altele. Voi păstra numai coloana "înlocuieşte cu", deci cuvintele în forma corectă.
     Fac sortarea în ordine alfabetică a cuvintelor, după care voi elimina "dublurile" [acestea vor fi foarte multe, dar se poate rezolva].
     La final copiez coloana rezultată într-un fişier WordPad şi de aici în "Custom.dic".
     Cred că dicţionarul "Custom.dic" rezultat, ar putea fi o bună bază de plecare.


utilitasetveritas a scris:

Dar ce s-ar intampla daca s-ar umbla prin lista aia de simboluri din clipul meu?

     Cred că ar fi foarte bine, doar că pe mine nu mă lasă Abbyy să intervin acolo. Toate opţiunile sunt inactive... Poate dacă am încerca "inventarea" unei noi limbi pe baza limbii române?...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Ahmmm... ok... pe moment fac niste dvd-uri. Revin cu detalii, sa vad cum e la mine meniul in Abby.

E buna si ideea cu inventarea limbii. Adica diacritice (ambele tipuri) si semnele de punctuatie.


Mda. Se pare acel meniu e doar pentru afisare.
Daca s-ar fi putut modifica simbolurile ce pot aparea la inceputul sau la sfarsitul unui cuvant, simbolurile care nu poata aparea in interiorul unui cuvant si lista de simboluri interzise, ar fi fost ok.



Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Mă gândeam deşi nu ştiu dacă raţionamentul meu este corect, că dacă în acel "Custom.dic" am înregistra cuvinte de genul celor din dicţionarele AC care corectează cifra 1 şi 0, poate că am micşora numărul de cuvinte recunoscute eronat.
     Dacă am pune în "Custom.dic", cuvinte precum [al, a-l, că-l, dacă-l, dă-l, dă-le, dă-ni-l, D-l, d-l, du-l, du-le, el, fă-l, fă-le, iată-l, i-l, încă-l, la, l-ai, l-am, l-ar, l-aş, l-aţi, l-au, le, li-l, li-l, li-o, l-o, mi-l, mi-o, mi-oi, mi-or, ni-l, ni-o, să-l, şi-l, şi-o, ţi-l, ţi-o, vi-l, vi-o...], e posibil ca aceste cuvinte să nu mai apară scrise în forma [a1, a-1, că-1, dacă-1, dă-1, dă-1e, dă-ni-1, D-1, d-1, du-1.... ]


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Vezi ca am modificat postarea mea de mai sus.

Da, se poate sa ai dreptate.
Daca Abby foloseste custom.dic pentru citirea efectiva, poti spune ca ai dat lovitura


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Deci, aici:

C:\Users\LXXX\AppData\Roaming\ABBYY\FineReader\9.00\UserDictionaries

Eu nu am decat 2 fisiere:
- Roman.pmd 7.63 kb
- Roman.ame 17.4 kb

Roman.ame se deschide cu Notepad, dar e de neinteles.
Roman.pmd se deschide cu Notepad si contine doar cuvintele adaugate de mine prin intermediul corectorului ortografic din Abby 9. Acest fisier poate fi exportat ca text direct din meniul corectorului.

Am impresia ca trebuie sa sap prin Program Files.

Si in Program Files, singurul fisier ce pare sa contina cuvinte in romana e Roman.amm
Dar arata ca dracu cand e deschis in Notepad.

Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
meridiane
Online
MEMBRU VIP

Inregistrat: acum 12 ani
Am scris un mesaj mai lung despre Abby, si cind l-am trimis s-a taiat conexiunea

Asa ca voi pune numai concluzia:

In Abby Tools/ Options.../ Language editor, in fereastra cu limbile, se selecteaza ultima optiune User languages.

In New language or group - Crate a new user.... selectam Romanian, apoi OK.

In Language properties, selectam User disctionary. EDIT...

In fereastra noua, cu comanda IMPORT, puteti adauga fisiere cu extensia TXT si DIC.

Va las placerea de a descoperi restul.

Modificat de meridiane (acum 12 ani)


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Meridiane  a nimerit la fix.
Daca se creaza un dictionar nou bazat pe cel roman deja existent, se pot modifica toate cele 4 campuri din clipul video.
Se pot adauga sau scoate caractere.


Seven, vezi pdf-ul asta, pagina 40-41


Dictionary  The dictionary that ABBYY FineReader will use to perform OCR on your document and to check the recognized
text. The following options are available:
●None
No dictionary will be used.
●Builtin dictionary
The dictionary supplied with ABBYY FineReader will be used.
●User dictionary
A user dictionary will be used. Click the Edit… button to add words to the dictionary or to import an existing user
dictionary or text file in Windows (ANSI) or Unicode encoding. The words in the text fileyou wish to import must be
separated by spaces or other nonalphabetic characters.
Note: The words from the user dictionary may occur in the recognized text in the following capitalizations: 1) lowercase
only, 2) uppercase only, 3) first letter capitalized, 4) as spelt in the user dictionary. The fourpossibilities are summed up in
the table below.

Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Seven, o intrebare legata de folosirea paternurilor din Abby 9.

Cand ma opresc din recunoasterea asta?


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Nu este obligatorie realizarea unui pattern, decât în situaţii în care recunoaşterea Abbyy se face cu dificultate. Nu e cazul pentru cărţile noi cu un scan de calitate.
      În principiu, este indicat a se crea un pattern atunci când avem un ciclu de câteva volume care au aceleaşi caracteristici de tipar etc... deoarece facem patternul o singură dată şi-l aplicăm la toate volumele din serie.
      Se poate realiza şi pentru un volum la care recunoaşterea cu setările default dau multe erori.

      Când ne oprim?
      Asta depinde de cât de repede îşi însuşeşte Abbyy ceea ce-i sugerăm. Dacă nu mai propune caractere eronate, înseamnă că antrenamentul trebuie încheiat.
      Sunt cărţi la care vor exista propuneri eronate ale Abbyy, indiferent cât de mult antrenament am face.

      La o carte veche, cu probleme de calitate a tiparului şi hârtiei [dar scanată de mine, adică numai cu rezoluţii de 300 dpi], eu merg până la un 3%, adică vreo 10 pagini la o carte de 300 de pagini. Dacă nu se face suficient antrenament în 10 pagini, înseamnă că nu prea sunt şanse de realizare a unui antrenament mai eficient.

      În timp fiecare îşi dă seama cam de cât antrenament este nevoie... mai ales dacă-şi face singur scanurile, pentru că în acest caz reuşim mai uşor să cunoaştem posibilităţile Abbyy la o calitate dată a scanului.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Sa ma lamuresc....

Abby inceteaza sa te bata la cap cu recunoasterea caracterelor din propria lui vointa? Sau trebuie sa i se zica sa inceteze?

Daca dupa 10 pagini, Abby inca mai propune caractere, corecte totusi, cum fac sa opresc recunoasterea si sa ma folosesc de baza ei de date?

Mai pe scurt:
- cum pornesti recunoasterea.
- cum o opresti, daca nu inceteaza dupa 10 pagini sa zicem.
- cum poti folosi acele caractere recunoscute in cadrul ocr-ului celorlalte pagini.

Nu e nevoie sa raspunzi in topic. Poti sa adaugi direct in tutorial.


Si o intrebare diferita.
Vreau sa fac un stil unic de text si sa fie folosit doar el.
Dar nu reusesc. Am folosit editorul de stiluri din Options. Le-am modificat manual, le-am sters pe toate si am lasat unul singur, degeaba. In fereastra de text din Abby, imi afiseaza alte stiluri in continuare.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Hai să plecăm de la tutorialul "[T3] Extragerea OCR - V1.30.pdf"  care se află în folderul mediafire de tip deschis "ABBYY" de la adresa:
     Tutorialul cred că este un pic depăşit şi ar trebui actualizat, dar deocamdată se pot găsi în el informaţii care stau bine pe picioare.

     Capitolul §2. Pregătirea Abbyy pentru extragerea OCR arată modul de declanşare şi realizare a antrenamentului [acomodării] Abbyy.
     Toate conversiile sunt salvate într-un fişier cu extensia "ptn". În folderul Abbyy există deja "(Default).ptn", iar la crearea unui nou patern, se va adăuga un nou fişier "pnt", care are acelaşi nume cu patternul.

      Important: pe timpul antrenamentului, cu fiecare literă acceptată cu butonul "Train", Abbyy salvează în fişierul "ptn" corespondenţa dintre imagine şi codul de caracter propus de noi.
      Este bine să nu întrerupem antrenamentul decât la sfârşitul paginii, atunci când dispare automat fereastra Pattern Training; se poate, totuşi, întrerupe şi înainte de terminarea unei pagini, folosind butonul "Close" şi apoi butonul pentru accptarea salvării.

      În legătură cu momentul încheierii antrenamentului...
      Deşi pe timpul antrenamentului în fereastra "Pattern Training" majoritatea propunerilor Abbyy sunt corecte, din timp în timp Abbyy greşeşte, ori prin selectarea incorectă a suprafeţei unei litere, situaţie în care trebuie să mărim sau să reducem această suprafaţă, ori greşeşte prin redarea unui alt caracter decât cel real, moment în care edităm caracterul corect.
      Pe timpul antrenamentului unele dintre erori [să zicem selectarea incorectă a suprafeţei literei "m"] se vor împuţina sau vor dispărea definitiv. Antrenamentul se opreşte atunci când numărul de erori ar putea fi considerat acceptabil.
      Atât timp cât avem activă opţiunea Tools --> Options --> 2.Read --> Training --> „Train user pattern”, antrenamentul Abbyy va continua.
      Ca să întrerupem antrenamentul se dezactivează „Train user pattern” şi se activează "Use user pattern".
     
      E posibil ca în timpul antrenamentului, din motive de neatenţie sau oboseală să acceptăm o propunere eronată; din acest motiv este bine să facem o verificare, eventual editare a patternului. Am să revin cu nişte imagini privind verificarea şi editarea "Pattern".

      Despre cum se foloseşte un pattern editat în cazul altor volume.
      După stabilire după dorinţă a tuturor opţiunilor, inclusiv editarea definitivă a patternului, se salvează aceste setări folosind:
           Tools --> Options --> Advances --> Save Options [setările se vor salva într-un fiţier cu extensia "fbt"]
      Pentru folosirea şi la alte volume a setărilor respective <deci şi a patternului editat> vom deschide fişierul "fbt" în care sunt salvate setările, astfel:
           Tools --> Options --> Advances --> Load Options [vom încărca fişierul "fbt" care corespunde dorinţei, astfel încât nu mai este nevoie să mai facem altă muncă în plus].

      LE: Nu se poate scăpa de stilurile Abbyy. Chiar dacă sunt şterse cele existente, Annyy va crea altele.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
Caz particular:
De-a lungul timpului am facut training pt OCR la
vreo 15 volume - dictionare tiparite,  scanate si OCR-izate.

In cazul un dictionar WEBSTER care avea aprox 2.900 pag,
am lucrat 8 ore sa fac training, dar a meritat.

Am un comentariu:

Pastrarea TRAININGURILOR si refolosirea lor SI LA ALTE carti
este indicata NUMAI in cazul in care
scanurile PROVIN DIN ACEEASI TRANȘĂ DE SCANARE,
adica POZELE au aceleasi caracteristici de IMAGINE -
- acelasi FORMAT tif, (sau JPG),
aceeasi adancime de culoare, de rezolutie, de inaltime-proportii JPG-TIF.

Trainingurile nu sunt luate in consideratie la OCR in ABBYY
daca sunt facute (anterior) PE SCANURI de alte rezolutii/caracteristici
(si re-utilizate).

SOLUTIA RECOMANDATA pentru un OCR de calitate RAMANE
prelucrarea de imagine facuta corect
si executarea operatiilor OCR - cu simtz de raspundere, si nu pe automat.


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Cum se foloseste Abby 11 si cum se prelucreaza ocr-ul.
Pentru mai multe detalii legate de setarea/folosirea AutoCorectului folositi topicurile cu pricina.
Intrati pe Youtube, fullscreen, rezolutie maxima.




_AqBUkUT3N50vjG3ZHMA&index=1&feature=plcp


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Pentru uciN

      Astăzi am făcut o descoperire interesantă.
      Eu am trei variante de setare a driverului scannerului în Abbyy



      Prima variantă afişată, HP Scanjet G2710 ≠ 2 TWAIN (TWAIN) nu permite setarea suprafeţei de scanare; mai exact permite setarea, dar scanează întregul ecran fără a ţine cont de setare.

      Celelalte două variante de setare WIA-HP Scanjet G2710 (TWAIN) şi HP Scanjet G2710 (WIA) permit setarea zonei de scanare şi după setarea acesteia scannerul scanează doar această zonă.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
In Abby 11 atunci cand se scaneaza, in interfata programului e afisata mereu ultima imagine scanata, schimbarea/derularea listei de imagini facandu-se automat.
In Abby 9 nu e asa, interfata afiseaza doar ultima imagine vizualizata de utilizator.
Exista vreo setare care sa se ocupe de asta?


pus acum 12 ani
   
gekrido
Membru Gold

Inregistrat: acum 17 ani
Stiu ca topicul este despre abbyy, le-am folosit, dar cred ca daca incercati Nuance Omnipage o sa va schimbati parerea

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Permite-mi sa te contrazic. O fila de carte din 1968.

Asa arata in Omni 1.8:



Asa arata in Abby 9:



Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
gekrido,
   dacă vrei, n-ar fi rău să deschizi un topic special despre Nuance Omnipage şi să dai câteva detalii despre el.
    Dacă tu spui că e mai bun, e posibil să ai dreptate.
    L-am testat un pic în urmă cu vreo doi ani, dar atunci nu mi-a făcut o impresie prea bună. Poate că nu am ştiu să fac setările cele mai bune?...
    Mă gândesc că între timp lucrurile poate s-au mai schimbat.
    Oricum, e foarte vine să avem mereu câte o alternativă de rezervă.
    Cum noi nu-l folosim, tu ai fi cel mai în măsură să ne vorbeşti despre el.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Uite o problema pe care am intalnit-o destul de des in cadrul cartii la care lucrez.




Abby 9 sare portiuni de text, acum ceva timp mi-a sarit o jumatate de pagina, desi era cam stearsa ce e drept.
Pe pagina atasata mai jos mi-a sarit 2 zone CLARE de text, printre care si cea de mai sus.

Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Problema asta au întâlnit-o adeseori cei ce lucrează cu scanuri cu probleme, mai ales când este vorba de scanarea unor cărţi vechi, cum ar fi cele din "BPT" ediţiile de 5 lei, tipărite pe hârtie de ziar de proastă calitate.

      Din cauza unor astfel de situaţii, apar OCR cu zone de text lipsă şi din aceste motive a apărut metoda de corectare a celor care ar putea fi numiţi "conservatori"; mă refer la corectura cu două ferestre pe ecran: scan de control şi document de corectat.

      Întrebarea mea ar fi următoarea:
      Ai încărcat aceleaşi imagini în Abbyy 11 ca să vezi dacă se menţine problema? sau Abbyy 11 este cu adevărat mai puternic şi dă mai puţine erori chiar şi la imaginile care ridică probleme în Abbyy 9?


utilitasetveritas a scris:

Cum pot sa introduc ghilimele romanesti din tastatura in Abby 9?
In cadrul ocr-ului adica.

       La întrebarea asta pusă pe un alt topic, pregătesc un răspuns care va fi gata în circa 30 ÷ 45 de minute.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

                  ═════════    Adăugarea unei limbi „Romanian 2” în Abbyy     ═════════



     Am ales să exemplific cu Abbyy 11, dar metoda de adăugare a unei limbi modificate este similară în toate variantele ale programului Abbyy folosite în acest moment [Abbyy 9, 10 şi 11].
     Pentru a fi mai uşor de urmărit, am marcat color butoanele sau numele opţiunilor pe care le vom folosi.
     În Abbyy ferestrele opţiunii se deschid în cascadă, adică ultima fereastră se afişează peste cea afişată înaintea ei.

     Din fereastra de bază Abbyy accesăm opţiunea „Tools > Options > Document”



     În fereastra Document, acţionăm butonul Edit languages… care va deschide fereastra Language editor.
     În fereastra „Language editor” acţionăm butonul „New…” şi apare fereastra „New language or group”
     În fereastra „New language or group”,programul propune ca noua limbă să se bazeze pe caracteristicile limbii române; acceptăm, acţionând butonul „Ok” şi mergem mai departe.

     Va apărea fereastra „Language Properties”
     Să analizăm fiecare element din această fereastră:



     Language name: programul va propune o limbă numită „Copy of Romanian” – edităm numele şi punem „Romanian 2” sau alt nume dorit.
     Source language: Romanian – corect,rămâne aşa;
     Alfabet – în mica fereastră sunt afişate caracterele alfabetului românesc, la care sunt adăugate în faţă apostroful drept, cratima şi punctul, iar la sfârşit apare apostroful românesc.

     Începând de la această fază este bine să ne ajutăm de un editor de text precum Word sau alt editor unde să „ducem” caracterele din ferestre pentru vizualizare şi editare.
     În editor vom mări toate caracterele la o mărime de cca 20 – 26 puncte pentru a putea analiza foarte bine fiecare caracter în parte.

     Revenim la Alfabet:
     Marcăm toate caracterele din fereastră şi le copiem într-un fişier Word, şi putem analiza fiecare caracter în parte.
     Putem adăuga caractere care ne sunt necesare într-o anume carte, cum ar fi litere specifice limbii franceze sau germane etc., precum < č é ä ü > sau putem elimina apostroful drept, păstrând doar apostroful românesc, ca să nu mai avem probleme cu el.

     Atenţie la caractere străine adăugate! Este posibil ca Abbyy să le pună şi în locuri nedorite de noi, adică în cuvinte româneşti. Adăugarea este doar o posibilitate tehnică, dar nu este neapărat recomandată.
     După ce am stabilit caracterele pe care vrem să le folosească Abbyy în alfabetul noii limbi „Romanian 2”, cu metoda Copy&Paste, ducem din fişierul Word în fereastra Abbyy caracterele stabilite.

     În această fereastră se pot seta dicţionare suplimentare, dar deocamdată nu analizăm acest lucru, aşa că trecem peste asta şi acţionăm butonul „Advanced”
     Se va deschide o nouă fereastră denumită „Advanced Language Properties”



     Aici procedăm ca şi în cazul Alfabetului: mai întâi copiem toate caractere din fiecare fereastră, le ducem într-un fişier Word, stabilim care dintre ele dorim să rămână şi adăugăm caractere pe care dorim să le folosim – dacă este cazul.
     În aceste ferestre putem elimina apostroful drept şi parantezele drepte, precum şi apostrofurile şi ghilimele sub forma cifrei 6, lăsând doar pe cele sub forma cifrei 9.
     Se pot scoate toate caracterele „răgălii” de care suntem siguri că nu ne sunt necesare.
     Vom adăuga ghilimele româneşti în variantele Abbyy care nu conţin cele două variante de ghilimele româneşti.

     Vom verifica şi edita fiecare fereastră în parte, după care salvăm setările,ieşind cu butoanele „OK” din fiecare fereastră.

     Atenţie: în Abbyy 9 [este posibil şi în altă variantă Abbyy], la antrenamentul Abbyy, atunci când îi „spunem” lui Abbyy despre ce fel de ghilimele este vorba nu vom putea folosi tastatura, ci vom folosi metoda Copy&Paste dintr-un fişier doc, txt etc.
     Un alt necaz la antrenamentul Abbyy este faptul că după folosirea unui apostrof sau ghilimele româneşti de sfârşit, caracterele din fereastra de editare de la antrenamentul Abbyy se micşorează şi sunt greu de urmărit, fapt pentru care uneori este necesar să întrerupem antrenamentul, salvăm şi reluăm de la altă pagină.
     
     Concluzia întrebării iniţiale: Se poate antrena Abbyy 9 să folosească ghilimele româneşti dar rezultatul nu este totdeauna foarte bun.
     Oricum folosirea unei limbi modificate este foarte folositoare,chiar şi pentru micşorarea numărului de „răgălii”.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Daca vreti sa vedeti de ce Abby 11 este superior lui Abby 9, procesati imaginea din link:


Asa se face citirea in Abby 9:



In Abby 11 textul este complet.
Mai am un proiect inceput in Abby 9, dupa care renunt complet la program.
Daca nu as fi facut verificarea manuala a fiecarei pagini, e posibil sa nu imi fi dat seama ca lipseste text.
Si cazul asta e aparut in urma unei zonari manuale a textului.
Ironia e faptul ca in Abby 11 nu mai este vizibila citirea randurilor de text asa cum apare in Abby 9. Totul se petrece in fundal si nu e vizibil.


Daca va pune dracu sa lasati programul sa isi faca zonarea automat, puteti sa aruncati rezultatul la gunoi si sa va mai cumparati 4 combine frigorifice pentru cei care vor corecta munca voastra facuta la misto.
Aviz celor care scaneaza la metru si la kilogram si fac ocr-uri in acelasi fel.



Modificat de utilitasetveritas (acum 11 ani)


pus acum 11 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
PRELUCRAREA de imagine ANTE-OCR, cu ACDSEE, este NECESARA in 90%  din cazuri (exceptie: scanurile PERFECTE, cu contrast si rezolutie FOARTE BUNE)

AVANTAJE PRELUCRARE de IMAGINE cu ACDSEE:

1. ACDSEE poate elimina backgroundul ceţos, gri-pătat, si poate uniformiza CONTRASTUL SI STRALUCIREA, astfel incat ABBYY (indiferent de versiune) sa poata face ZONAREA AUTOMATA cat mai bine.

- Asa cum specifica utilitas, ORICUM E MUSAI NECESARA VERIFICAREA manuala a ZONARII automate, intrucat va permite SI RE-ORDONAREA ZONELOR (text-picture-table) in ORDINEA fireasca de recunoastere-citire a paginii.

2. Dupa prelucrarea de imagine cu ACDSEE, introduceti SCANUL si in SCAN TAILOR, program care va executa MULT MAI BINE zonarea-chenăruirea pentru CROP.
În caz contrar, Scan tailor fixează chenarul exterior MULT in afara textului propriu-zis, luand in considerare orice PETE-LINII-ARTEFACTE PREGNANTE necurăţate, de pe manşeta paginii.

Modificat de luiz25 (acum 11 ani)


pus acum 11 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Folosesc Abby 11 si pana acum cele cateva carti care le-am ocr-izat si prelucrat le-am corectat manual. Dar vreo doua probleme devin suparatoare si anume: reconoasterea literei mari <<Î>>, care e tot timpul recunoscuta litera mica si recunoasterea lui <<c>> ca fiind <<e>> din cuvantului <<ca>>.
V-ati lovit de problemele astea pana acum sau e la mine o problema si gresesc undeva?

multumesc

abbyy vs. abbyy folosesc abby pana acum cele cateva carti care le-am ocr-izat prelucrat le-am

63.2KB


pus acum 11 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Problema e intalnita des.
Poti folosi OCR+ pentru corectarea majoritatii erorilor de recunoastere.


pus acum 11 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Ştiu că topicul ăsta e depăşit în multe privinţe, dar m-am gândit că e mai practic să discutăm aici, decât să mai deschid un nou topic.
      Aş vrea să schimbăm câteva impresii despre formatul sub care salvăm OCR în Abbyy 11 & 12.

      Menţionez că această postare are caracter informativ. Problema concretă o voi detalia în postarea următoare.

      Formatul OCR în Abbyy 11 & 12

      Sunt două aspecte pe care trebuie să le luăm în consideraţie înainte de a alege formatul de salvare:
      - a. Complexitatea formatării cărţii în lucru, altfel spus dacă volumul căruia îi extragem OCR are text formatat simplu sau complex;
            - dacă tot textul este cu font drept [eventual, câteva cuvinte italice pe ici pe colo] putem salva RTF Plain Text;
            - dacă avem un volum cu o formatare complexă, atunci trebuie salvată formatarea şi este de preferat să salvăm în RTF Exact Copy.

      - b. dispozitivul pe care vom face corectura;
            - dacă vom corecta direct pe computer, atunci e bine să păstrăm nr. pagină pentru o mai uşoară orientare în scan-control. Pe timpul corecturii manuale vom şterge nr.pag şi unim paragrafele de pe cele două pagini;
            - în cazul în care corectăm pe Reader/Tabletă nr.pag. ne încurcă, aşa că nu-l vom salva.

      Lucrurile ar putea fi mult detaliate, dar în acest moment nu este acesta subiecul pe care-l propun.

      În principiu, noi ne-am oprit la RTF Exact Copy, deoarece acest format salvează toate formatările, şi poate salva nr.pag.


      RTF Exact Copy vs. DOC Exact Copy
     
      Vă propun o discuţie despre formatul DOC Exact Copy, deoarece salvează şi formatări pe care RTF Exact Copy nu le salvează şi mă refer în primul rând la:
           - în format DOC se salvează codul pentru cratimă opţională folosită la despărţirea cuvintelor la capăt de rând, timp în care în format RTF aceste coduri dispar.
           - n-am verificat, dar este posibil ca în DOC să se salveze codul pentru întrerupere manuală a liniei [rândului], ceea ce în mod concret numim rupere paragraf.

      Mă opresc la cratima opţională pentru despărţirea la capăt de rând.
      Dacă ne uităm atent în Abbyy la o pagină care are cuvinte despărţite la capăt de rând, vom observa în fereastra OCR că în cele mai multe cazuri apare semnul pentru cratimă opţională, deci Abbyy arată şi salvează această cratimă opţională. În acelaşi timp, în Abbyy unele cuvinte despărţite la capăt de rând au cratimă obişnuite: dintr-un motiv sau altul Abbyy nu vede că acolo este vorba de o cratimă opţională şi nu de una obişnuită.
      Deci în Abbyy nu toate cratimele opţionale sunt văzute ca atare, dar cele mai multe sunt văzute corect.

      La salvarea în format DOC codul/setarea pentru cratimă opţională din Abbyy este preluat de Word şi mai apoi poate fi înlocuită cu "nimic", lipind cuvintele.
      La salvarea în RTF semnul de cratimă opţională nu va fi preluat şi acest cod va fi "convertit" în perechea "cratimă obişnuită urmată de spaţiu".
      Reamintesc că în RTF, perechea "cratimă urmată de spaţiu" apare în 3 situaţii:
           - în cazul unui cuvânt rupt la capăt de rând şi cuvântul trebuie "unit";
           - în cazul unui cuvânt care se scrie cu cratimă şi va trebui să ştergem spaţiul şi să păstrăm cratima;
           - în caz complet eronat în care cratima apare în locul unui spaţiu dintre două cuvinte şi rezolvarea se face prin ştergerea cratimei şi păstrarea spaţiului.

      Dat fiind că dacă salvăm în DOC Exact Copy avem un număr mare de cratime opţionale care pot fi înlocuite cu o singură comandă Find&Replace, deci timpul de rezolvare este foarte scurt, vă propun să salvăm din Abbyy în format DOC Exact Copy.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



Chiar te rog.
Am intalnit astazi un Exact Copy de vreo 600 de pagini la o carte obisnuita. Mi-a scos peri albi.
Imi bloca pana si Wordul.
Iar de dat copy/paste din Word in AC... nu mai zic.

L-am rezolvat cu un macro. Dar m-a facut sa ma sui pe pereti pana sa reusesc sa ii simplific formatarea.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Presupunem că suntem de acord că salvarea în format DOC Exact Copy are mai multe avantaje.
     Ceea ce propun mai jos este valabil pentru toţi userii, inclusiv pentru cei care folosesc AC.

     Caracteristic formatului Exact Copy este faptul că fiecare "Arie de citire" din Abbyy este redată în Word sub formă de text încadrat în Chenare/Frames.
     În afară de acest lucru în Exact Copy se păstrează setări care deranjează şi anume: formătări pe secţiuni, coloane, pagină nouă, caracter bullet în loc de carater text...
     Vom mai avea: taburi în loc de spaţiu, spaţii multiple, spaţii înaintea semnelor de punctuaţie... enţpe mii de stiluri.. etc...

     Practic nu putem trece la corectură fără să facem o serie de înlocuiri şi convertiri.
     Cei care folosesc AC OCR+ rezolvă toate aceste probleme în Abbyy, după ce au convertit textul din DOC în RTF, dar amintesc că la convertire vom pierde câteva setări, precum cratima opţională.

     Există un mod de rezolvare mai complet decât în AC OCR+ şi această rezolvare se poate face direct în formatul DOC - este vorba de un pachet de macrouri.
     Am mai spus pe topicul despre Constatări şi sfaturi în Word că avem posibilitatea rulării unui pachet de subrutine cu o singură comandă [practic o subrutină în care stabilim să se ruleze rând pe rând "următoarele subrutine".

     Deci putem crea câte o subrutină pentru una sau mai multe convertiri - nu detaliez acum acest lucru.
     Partea cea mai importantă şi pentru care vă cer ajutorul este să stabilim împreună ordinea de rulare a macrourilor [subrutinelor].

     Menţionez că unele subrutine pot rezolva mai multe probleme, timp în care altele permit rezolvarea unei singure probleme.
     De exemplu, conversia "caractere bullets în caratere text" nu se poate cumula cu altă rutină; acelaşi lucru se întâmplă şi la eliminarea Chenare/Frames.

     Plecând de la ordinea de rulare a pachetelor din AC, eu m-am gândit la următoarea ordine:

     A - PACHET ELIMINARE FORMATĂRI - similar pachetului 1 din AC.
          a. eliminare Chenare/Frames
          b. conversie sfârşit de secţiune [coloană, pagină...] cu sfârşit de paragraf.
          c. Conversie Bullets in Text
          d. eliminare cratimă opţională [lipire cuvinte despărţite la capăt de rând]; Tot aici voi testa repararea rândurilor rupte - cod pentru sfârşit de linie;
          e. Convertire tab-uri în spaţii, convertire spaţii multiple într-un singur spaţiu, eliminare spaţii la început de paragraf, eliminare spaţii la sfârşit de paragraf.

     Tot în cadrul acestui pachet se poate continua cu
                - eliminarea stilurilor create de Abbyy şi păstraea doar a unui stil Normal şi alte câteva.
                - formatare pagină, formatare stil Normal, deci font, mărime font, paragraf etc.

     Mai departe:
            B. o subrutină pentru rezolvare sumară a punctuaţiei
            C. convertire limbaj clasic în limbaj contemporan.
            etc... etc...

     Avantajul folosirii macrourilor de mai sus:
     Cei ce folosesc AC, îl vor folosi în continuare doar că vor "sări" peste opţiunile din pachetele 1 şi 3, şi parţial o parte din opţiunile de la pachetul 2, ceea ce înseamnă o scurtare considerabilă a timpului de rulare, dar şi un text mult mai bun.
     Pentru cei ce nu folosesc AC OCR+ avantajul folosirii macrourilor este şi mai clar.

     Ordinea rulării subrutinelor din pachetul A - ELIMINARE FORMATĂRI
     Este foarte important să ne gândim foarte bine la ordinea de rulare a primelor 5 subrutine din acest pachet. Mă refer la cele notate cu a, b, c, d, e.
     Dacă din neatenţie nu stabilim ordinea cea mai bună, este posibil ca o subrutină să anuleze sau să micşoreze efectul rulării altei rutine.

     Vă rog să vă gândiţi dacă la primele 5 subrutine mai trebuie adăugat ceva ce eu nu am prevăzut... dacă ar trebui să separăm sau să unim unele subrutine, dar mai ales la ordinea lor de rulare.
     ...şi orice alte aspecte care să ne ajute...

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



Ce inseamna:
c. Conversie Bullets in Text?

Ordinea pare ok.
Nu merge folosita ordinea deja existenta in OCR+?


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     "c. Conversie Bullets in Text"

     Caracterele Bullets sunt toate caracterele de la început de paragraf ce nu pot fi editate. Principalele bullets din OCR sunt linii de dialog de orice formă [Emdash, Endash, Horizontal Bar, Cratimă], dar şi diverse caractere de diverse forme [pătrate, triunghiuri, cercuri etc...] şi care nu sunt litere sau cifre; uneori în cazul unor documente ştiinşifice caracterele bullets pot lua forma unor litere sau cifre urmate de punct... pentru marcarea paragrafelor unor clasificări etc.
     Cea mai mare problemă este că la o eventuală formatare într-un nou stil [formatare pe care o facem şi când credem că nu lucrăm cu stiluri] toate caracterele Bullets dispar din text, timp în care aceleaşi caractere de tip Text vor râmâne indiferent de câte formatări şi reformatări vom face.

     În AC OCR+ sunt convertite doar liniile de dialog, deoarece trebuiau trecute în cod fiecare tip de bullets în parte.
     Prin macroul care are linia de cod [ActiveDocument.ConvertNumbersToText] se convertesc în caractere text - deci caractere editabile - TOATE tipurile de bullets. De aceea am spus că macroul este mai complet decât opţiunea din AC OCR+.

     De ce nu folosim pur şi simplu ordinea din AC?
     Pentru că la ordinea din Ac n-a fost o adevărată consultare. Am propus-o eu, nu m-a contestat nimeni şi Cosmin a purces la scrierea codului.
     Acum, dacă tot suntem la început mă gândesc că părerea mai multor oameni este mult mai corectă decât părerea unui om.

     În altă ordine de idei, unele opţiuni din AC se pot înlocui perfect cu macrouri, în alte cazuri un macrou este chiar mai bun decât opţiunea din AC şi în multe cazuri Ac este net superiot macroului.

     Iată un exemplu: vom folosi un macrou pentru corectare sumară a punctuaţiei, dar nu vom renunţa la pachetul 2 din AC, deoarece opţiunea AC este mult mai complexă. Macroul îi va rezolva o parte din situaţiile incorecte şi practic îi va scurta timpul de rulare, dar opţiunea trebuie rulată.

     În cazul convertirii limbaj clasic în limbaj contemporan, se va elimina rularea opţiunii din AC, pentru că cea din macrou este mult mai rapidă şi nici nu face corecţii ortografice de genul "nici un >> niciun" şi "nici o >> nicio". Mai mult decât atât macroul poate fi rulat de mai multe ori, inclusiv în cazul în care după corectarea cuvintelor rupte vor apărea noi cuvinte scrise în limbaj clasic. [Ex: dacă am avea un cuvânt rupt la modurile "stăpî- nirea" "stăp- înirea", acel "î" nu se converteşte în "â", iar după lipire am avea un cuvânt clasic. Nu am găsit un exemplu despărţit corect, dar ideea este că pot apărea astfel de situaţii].

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am primit pe MP următoarea întrebare:

     Exista vreo optiune in Abbyy 12 sa selectez textul inainte de Read dar pentru toate paginile odata si nu pagina cu pagina..pe genul select text in prima pagina si apply to all aceeasi selectie?
     Sunt cărţi la care trebuie reselectat textul in aproape fiecare pagina, altfel la citire exista foarte multe situatii in care textul ocr-izat nu se aranjeaza corect in pagina...


     Din câte ştiu eu, nu există o astfel de opţiune. Este adevărat că folosesc în principal Abbyy11 şi mai rar Abbyy12.

     Recomandare: dacă folosiţi frecvent Abbyy, atunci e bine să folosiţi un maus cu 6 butoane.
     Mausul cu 6 butoane, are două butoane lateral stânga cu ajutorul cărora se poate defila din pagină în pagină, înainte şi înapoi. Această funcţie este deosebit de utilă şi funcţionează perfect în Abbyy, iar defilarea din pagină în pagină [din imagine în imagine] este foarte rapidă.
     Pe de altă parte, selectarea automată a ariilor de citire are foarte rar erori la o pagină unde textul este continuu de sus până jos.
     Erorile de încadrare apar în principal în paginile în care avem mai multe blocuri de textm, ca de exemplu: trecere la capitolul următor, pagini cu spaţii sau steluţe/asterisc între blocuri de text, pagini cu text şi imagini, text şi titluri etc. Rezultă că nu e nevoie să verificăm toate paginile, ci în principal cu cele care conţin mai multe blocuri/arii de text.

     Aaaa! şi am omis un aspect: cele mai mari probleme apar la imaginile nesplituite, deci imaginile care conţin două pagini. În aceste situaţii apare ceea ce noi numim "rocade ale suprafeţelor de citire", situaţii în care uneori Abbyy citeşte mai întâi o arie sau mai multe din pagina din dreapta şi apoi suprafeţe din pagina din stânga.
     Recomandare mea este să evitaţi să faceţi citirea înainte de a splitui imaginea; în caz contrar este necesar să verificaţi ordinea de citire a ariilor de citire.

     Dacă sunt colegi care au alte păreri decât cele expuse, îi rog să le posteze.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



Nu sunt sigur ca am inteles problema descrisa.
Exista si o functie de sablon a zonei de citire in Abby.
Se creaza un sablon, adica o zona de citire, apoi poate fi aplicata pe toate paginile deodata.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Câteva afirmaţii ale mele de pe topicul de reactualizare dicţionare AC au contrariat câţiva colegi de pe forum.
      Pentru că o parte dintre aceste afirmaţii sunt legate de extragerea OCR din Abbyy, am ales să le explic pe acest topi; unele lucruri le-am mai postat şi mai sus, dar încerc să revin fără a plictisi.

      ♦ De ce folosesc Abbyy 11 şi nu folosesc Abbyy 12?
      Abbyy 12 este incontestabil superior lui Abbyy 11, în special în zona prelucrare imagini, fapt pentru care recomand folosirea lui Abbyy 12.
      Eu folosesc Abbyy 11 dintr-un motiv personal: am avut câteva zeci bune de scanuri primite de la diverse persoane [majoritatea au vrut să rămână anonime]; foarte multe dintre aceste scanuri nu sunt încă finalizate şi se găsesc în diverse etape de prelucrare în Abbyy 11; mai mult decât atât, o parte din scanuri le-am primit în format Document Abbyy 11.
      Deci am multe fişiere în format Abbyy 11, unele dintre ele destul de vechi; dacă aş folosi exclusiv Abbyy 12, la deschidere ar trebui să pierd timpul cu convertirea din format Abbyy 11 în format Abbyy 12.
      Din acest motiv folosesc - de regulă - Abbyy 11.
      Folosesc şi Abbyy 12, dar numai pentru prelucrarea unor imagini cu geometrie puternic deformată.

      ♦ De ce salvez OCR cu Header & Footer?
      Să stabilim clar un lucru: citesc cărţi pe eReader sau Tabletă, dar corectez numai şi numai pe computer. Cred că e clar pentru toată lumea că a face corectura pe computer este un pic diferită de corectura pe eReader/Tabletă, iar textul trebuie să fie formatat diferit.
      De ce corectez exclusiv pe computer?
      E vorba în special de prima corectură.
      Din garda veche sunt câţiva useri, printre care mă număr eu şi BlankCD, dar nu numai, care corectează exclusiv pe computer deoarece preferăm să putem confrunta permanent textul OCR cu scan- controlul, chiar şi atunci când textul pare în regulă, fapt pentru care avem afişate permanent pe monitor atât textul cât şi scan-controlul; în stânga scanul, iar în dreapta textul de corectat.
      Experienţa ne-a arătat că uneori, deşi un text poate suna perfect, e posibil să lipsească un fragment din el, sau ca unele cuvinte să fie înlocuite de un paronim.

      Să dau câteva exemple:
            - lucram la o carte de Zevaco; una dintre pagini [să presupunem că era vorba de pag.175, se termina cu un dialog- întrebare la care răspunsul putea fi "— Da" sau "— Nu"; pagina următoare [176] începea cu un răspuns "— Da". Undeva în pagină se relua o afirmaţie pe care n-o întâlnisem în prima sa formă, fapt pentru care am consultat scanul. Totul părea corect la prima vedere, dar problema mi se părea neclară, aşa că am reluat de mai multe ori scanul şi OCR... Într-un final am constata că-mi lipseau două pagini din scan, pag 176 şi 177. Din păcate, pag 176 şi 178 începeau cu aceeaşi afirmaţie-dialog "— Da". Textul meu părea corect; dialogurile se purtau între aceleaşi personaje; cu toate acestea îmi lipseau două pagini. Dacă aş fi citit cu o viteză puţin mai mare sau aş fi fost mai puţin atent, aş fi postat o corectură cu două pagini lipsă. Din acest motiv, chiar dacă nu simt nevoia confruntării, din când în când fac confruntarea voluntară.

            - înlocuire cu paronime; Paronimele sunt cuvinte cu formă aproape identică (uneori diferă un singur sunet) şi cu sensuri diferite. Uneori avem în text câte un cuvânt ceva mai exotic şi mai puţin cunoscut. E posibil ca el să fie redat eronat sub forma unui cuvânt mult mai cunoscut, recunoscut de corectorul Word ca fiind corect; doar o foarte bună atenţie ne ajută să descoperim astfel de situaţii, iar confruntarea cu scanul este de mare folos.
      Perechea de cuvinte convingere-constrângere nu este chiar un exemplu de paronime, dar l-am ales spre exemplu deoarece sensul lor este total diferit: Dacă Popescu lucrează peste program din "convingere" este una şi alta e prin "constrîngere"; nu mai vorbesc că între a accepta să faci dragoste din "convingere" şi prin "constrângere" sunt mulţi ani de [lipsă de] libertate...

      Să revenim la Header&Footer.
      Salvez OCR cu Header&Footer pentru a păstra în text numărul de pagină. Având numărul de pagină în text ştiu exact la ce pagină să merg în scan pentru a face confruntarea şi pot defila rapid prin scan-control oriunde în acesta.
      Uneori mă uit în scan chiar şi pe timpul unor modificări cu confirmare din AC, aşa că defilez rapid la distanţă de multe pagini. Alteori fac confruntarea în Word, înainte de corectura propriu-zisă, atunci când formatez titluri sau fac corecturi pe diagonală. În sfârşit, pe timpul corecturii propriu-zise, se întâmplă ca scanul să rămână în urmă şi având numărul de pagină în text merg rapid la pagina respectivă din scan. Deci numărul de pagină are rol de coordonată şi îmi foloseşte pentru a şti exact la ce pagină să mă deplasez în scan pentru a confrunta un anume fragment de text.

      Pe timpul corecturii pentru [V1.0], numărul de pagină dispare [este şters], iar paragraful care începe la sfârşit de pagină este unit cu partea de la începutul paginii următoare.
      Ştergerea numărului de pagină şi unirea paragrafului este relativ simplă atunci când corectezi direct pe computer, dar încurcă mult lucrurile atunci când corectura se face pe eReader/Tabletă.
      Cam ăsta este motivul pentru care prefer să păstrez în OCR numărul de pagină până realizez prima corectură.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Cu mai mult timp în urmă, într-o discuţie de pe forum, am ajuns la concluzia că dacă în Abbyy salvăm un fişier în format PDF, vom obţine în realitate un OCR în format PDF.
     Din păcate, eu personal nu am mai studiat problema, rămânând convins că salvarea ca PDF va salva doar un OCR, astfel că pentru a obţine un PDF_SCAN am folosit exclusiv formatul PDF/A.

     În urmă cu câteva zile un tânăr colaborator [căruia îi mulţumesc din suflet], mi-a deschis ochii. Este vorba de un tânăr dintre dintre aceea care-mi trimit scanuri şi vor să rămână anonimi şi pe care eu i-am numit în joacă „Sukyana„”, ceea ce înseamnă „Scaner” în japoneză.

     M-am apucat să fac testări şi am ajuns la concluzia că afirmaţia la care am făcut referire la început este o afirmaţia parţial corectă, dar este INCOMPLETĂ.
     În realitate, prin salvarea în format PDF obţinem 4 variante de PDF Searchable.
     La rezultatele acestor teste mă voi referi în postările următoare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Înainte de a reveni la formatul PDF din Abbyy să discutăm un pic despre PDF Searchable.

     Un PDF Searchable, adică un PDF "cu căutare" conţine două straturi de informaţii:
            – stratul imagine – salvează imaginile paginilor tipărite;
            – stratul text – salvează textul din pagini [în variantă OCR în cazul ABBYY].
     Trebuie menţionat următorul aspect: cele două straturi se află unul sub/peste altul şi cu ochiul liber se vede doar primul strat, deşi întotdeauna există şi cel de-al doilea strat.
     Fiecare dintre cele două straturi poate ocupa poziţia de deasupra sau de dedesupt, astfel:

          Prima variantă: PDF la care stratul imagine se află deasupra şi stratul text se află dedesupt; în acest caz, cu ochiul liber se vede imaginea paginii tipărite, iar dedesupt se află textul OCR; deşi stratul OCR-text nu este vizibil cu ochiul liber, el se află acolo şi putem face căutare de cuvinte în text cu opţiunea "Find/Căutare", putem selecta fragmente de text sau selecta şi copia fragmente de text... etc.
          A doua variantă: PDF la care stratul imagine se află dedesupt, iar stratul text se află deasupra. În acest caz la vizualizarea cu ochiul liber vedem textul OCR cu fonturile şi mărimile apropiate de original, iar stratul imagine apare doar ca fundal de culoare, apropiat de culoarea texturii hârtiei.

     Despre calitatea straturilor:
     Calitatea stratul text este aceeaşi în orice format, indiferent dacă el se află deasupra sau dedesupt.
     Calitatea stratul imagine poate fi diferită de la un format la altul şi aici trebuie discutat mai mult, dar nu este momentul acum. Reţinem doar un aspect: stratul imagine poate păstra imaginile la rezoluţia din Abbyy sau imaginea poate fi condensată, iar rezoluţia diminuată.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Să analizăm câteva din setările pentru salvarea în format PDF.
     Ceea ce vom analiza la formatul PDF este valabil şi la formatul PDF/A.
     Deşi există câteva diferenţe între fereastra de setare Save PDF Abbyy 11 şi fereastra Save PDF Abbyy 12, cele două opţiuni pe care le vom analiza sunt identice la ambele versiuni Abbyy.
     Din meniul Abbyy accesăm "Tools → Options... → Save PDF".



     Să ne uităm la eticheta "Default paper size":
     Păstrăm opţiunea implicită "Automatic" sau putem alege opţiunea "Use original image size"; eu prefer să rămân la opţiunea implicită.

     Pentru detalii puteţi citi mai departe sau puteţi trece la postarea următoare.

     DETALII: La eticheta "Default paper size" avem următoarele opţiuni:
          Opţiunea nr.1: "Automat" [este opţiune implicită] – programul va alege automat mărimea de pagină în funcţie de mărimea paginilor documentului;
          Opţiunile 2-7 prezintă o serie de formate de pagină prestabilite: A3, A4, A5, Legal, Letter, Executive;
          Opţiunea nr.8, opţiunea "Custom" cuplată cu "Set custom paper size", ne dă posibilitatea să stabilim dimensiunile de pagină pe care o dorim;
          Opţiunea nr.9: "Use original image size" foloseşte mărimea imaginii originale.

     Atenţie! Marea majoritate a cărţilor au pagină de format mic şi mediu, mai mic decât formatele prestabilite. Dacă vom alege un astfel de format, programul va adăuga margini false la pagina reală până la umplerea formatului de pagină.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Să ne uităm acum la eticheta "Save mode":



     În imagine am pus în dreapta şi tradurea celor 4 opţiuni pe care le vom analiza în continuare şi pe care le-am notat a, b, c, d.


     1. Text and picture only [Numai text și imagine]
     Dacă alegem această opţiune vom obţine un PDF care conţine UN SINGUR STRAT, şi anume stratul TEXT.
     PDF-ul obţinut va conţine textul OCR plus imaginile încorporate [care au fost setate ca Picture sau Baground Picture la setarea ariilor de citire]. Acest PDF va fi identic cu ceea ce conţine un OCR DOC Exact Copy.
     Fişierul nu are nicio legătură cu un scan_control.


     2. Text over the page image [Text peste imaginea paginii]
     Dacă alegem această opţiune vom obţine un PDF care conţine DOUĂ STRATURI: stratul Text şi stratul Imagine, cu menţiunea că stratul text se află la vedere [stratul de deasupra], iar strul imagine se află dedesupt, cu menţiunea că stratul imagine este un strat fals deoarece el nu conţine imaginea reală a paginii, ci doar un fundal color, fundal care reprezintă culoarea difuză a texturii hârtiei.
     Acest format este cel mai periculos deoarece imită foarte mult un PDF_SCAN, dar el este doar un OCR cu fundal color.


     3. Text under the page image [Text sub imaginea paginii]
     Dacă alegem această opţiune vom obţine un PDF care conţine DOUĂ STRATURI: stratul Imagine deaupra, deci la vedere şi stratul Text dedesupt. Acesta este un PDF Searchable în sensul cunoscut al cuvântului şi calitatea este comparabilă cu a fişierului de tip PDF/A.

         – el este mult mai mic în comparaţie cu un PDF/A; din testările mele are valori sub 10% din valoarea unui PDF/A.
         – calitatea imaginii este comparabilă cu cea din PDF/A, cu următoarele menţiuni: substratul de imagine care conţine literele din imagine are aceeaşi calitate cu imaginea literelor dintr-un PDF/A; diferenţa este făcută de detaliile texturii hârtiei; dacă într-un PDF/A textura hârtiei se vede în detalii foarte mici, la un PDF obţinut cu accesarea acestei opţiuni, textura hârtiei nu mai este redată în detalii, ci este oarecum difuză. Aspectul paginii este comparabil cu acela dintr-un fişier DjVu.

     Acest fişier este cel mai indicat pentru un PDF scan_control, deoarece textul se vede foarte bine, iar faptul că textura hârtiei este difuză nu ne deranjează; ba mai mult, difuzia culorii texturii face uneori ca textul să fie mai vizibil.


     4. Page image only [Numai imagine pagină]
     Dacă alegem această opţiune vom obţine un PDF care conţine UN SINGUR STRAT, şi anume stratul IMAGINE.
Acest PDF nu mai este un PDF Searchable, ci un simplu PDF din imagini.
Deoarece acest PDF nu mai conţine stratul Text el este un pic mai mic decât PDF obţinut la opţiunea "c".

**************************************

     În concluzie:
         – PDF-ul obţinut cu opţiunea "3. Text over the page image [Text peste imaginea paginii]" este cel mai PRACTIC şi UTIL dintre toate variantele de PDF;
         – PDF-ul obţinut cu opţiunea "4. Page image only [Numai imagine pagină]" ar fi VARIANTA SECUNDĂ de lucru. Totuşi, faptul că poate fi cu 1MB mai mic decât "c" nu compensează lipsa posibilităţii de căutare în text.

         – PDF-ul obţinut cu opţiunea "1. Text and picture only [Numai text și imagine]" este complet INUTIL deoarece el conţine un simplu OCR; mai mult decât atât, datorită formatului PDF în care este salvat, textul nu poate fi editat/corectat.
         – PDF-ul obţinut cu opţiunea "2. Text over the page image [Text peste imaginea paginii]" este INUTIL şi PERICULOS. Este inutil deoarece conţine un OCR needitabil şi este PERICULOS deoarece se poate confunda cu un PDF_SCAN deoarece fundalului color care imită textura hârtiei.

     Dacă este nevoie, într-o postare ulterioară pot posta imagini pentru fiecare tip de PDF în parte, care să clarifice mai bine cele afirmate în această postare.

Modificat de Seven (acum 7 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani
   
tuf
Vizitator



O versiune speciala de Finereader:(for_OCR_old___rare_books

pus acum 7 ani
   
maxxro2007
Membru Senior

Inregistrat: acum 17 ani
Abyy 14 pentru test
download  de pe torrent
7c0d0cc32aba51b58ebed34de80b12ad75af411a

Modificat de maxxro2007 (acum 6 ani)


pus acum 6 ani
   
Stelevadris
Moderator

Inregistrat: acum 19 ani
In arhiva de crack exista fisierul PYG.dll.
Antivirusul l-a sters, iar pe virustotal.com cam jumatate din lista AV il considera ca fiind mallware.

Lasand la o parte acest aspect, am descarcat de pe abby.com versiunea Corporate, iar crackul functioneaza.
La pornirea programului antivirusul a intrat in functiune si l-a sters. Dar programul pare sa fie ok.

Stiu ca e crack, stiu ca e normal sa fie detectat de o buna parte din AV-uri, dar riscul va apartine.


_______________________________________
Totul despre cărți - About e-books - Tehnici de scanare, sfaturi, proiecte etc. - Support, future projects, etc.

pus acum 6 ani
   
maxxro2007
Membru Senior

Inregistrat: acum 17 ani
Ce antivirus aveti ?
La downloadare windows defender a sters fisierele "medicinale" acum trebui sa reiau downloadul dupa ce dezactivez antivirusul

Modificat de maxxro2007 (acum 6 ani)


pus acum 6 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Eu n-am reuşit cu niciuna dintre versiunile crăcuite... şi am încercat câteva...
      Am testat în toamna anului trecut [deci în 2017] una dintre variantele trial.
      După ce au expirat cele 15 zile, l-am dezinstalat, am căutat toate "rădăcinile" din app.data şi din alte locuri şi le-am şters. Am "dat" cu tot felul de softuri care curăţă regiştrii etc. etc...
      Cu toate astea, de câte ori încerc o variantă neortodoxă, deşi pun crakurile acolo unde trebuie, la prima deschidere Abbyy îmi spune că programul a expirat în 2017 şi îmi cere noul serial pentru înregistrare. Data de expirare este exact data la care a expirat trialul.
      Ba mai mult decât atât, îmi arată şi cele două fişiere pe care le-am lucrat atunci.
      Înseamnă că băieţii ăştia de la Abbyy au băgat una sau mai multe şmecherii pe undeva, dar n-am nici cea mai vagă idee care sunt aceste fişiere şi unde se află ele.
      Concluzia: rămân deocamdată la Abbyy 12...     


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 6 ani
   
Pagini: 1  

Mergi la