Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Lista de useri | Cauta | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
angela31 Profile
Femeie
25 ani
Buzau
cauta Barbat
27 - 60 ani
Forum Romania Inedit / Totul despre cărți - About e-books / Abbyy 9 vs. Abbyy 11 Moderat de Seven, Stelevadris, cuculean, uncris  
Autor
Mesaj Pagini:  1 2 3
onlyra
Membru Junior

Inregistrat: acum 7 ani
Folosesc Abby 11 si pana acum cele cateva carti care le-am ocr-izat si prelucrat le-am corectat manual. Dar vreo doua probleme devin suparatoare si anume: reconoasterea literei mari <<Î>>, care e tot timpul recunoscuta litera mica si recunoasterea lui <<c>> ca fiind <<e>> din cuvantului <<ca>>.
V-ati lovit de problemele astea pana acum sau e la mine o problema si gresesc undeva?

multumesc


63.2KB


pus acum 7 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 8 ani
Problema e intalnita des.
Poti folosi OCR+ pentru corectarea majoritatii erorilor de recunoastere.


pus acum 7 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Ştiu că topicul ăsta e depăşit în multe privinţe, dar m-am gândit că e mai practic să discutăm aici, decât să mai deschid un nou topic.
      Aş vrea să schimbăm câteva impresii despre formatul sub care salvăm OCR în Abbyy 11 & 12.

      Menţionez că această postare are caracter informativ. Problema concretă o voi detalia în postarea următoare.

      Formatul OCR în Abbyy 11 & 12

      Sunt două aspecte pe care trebuie să le luăm în consideraţie înainte de a alege formatul de salvare:
      - a. Complexitatea formatării cărţii în lucru, altfel spus dacă volumul căruia îi extragem OCR are text formatat simplu sau complex;
            - dacă tot textul este cu font drept [eventual, câteva cuvinte italice pe ici pe colo] putem salva RTF Plain Text;
            - dacă avem un volum cu o formatare complexă, atunci trebuie salvată formatarea şi este de preferat să salvăm în RTF Exact Copy.

      - b. dispozitivul pe care vom face corectura;
            - dacă vom corecta direct pe computer, atunci e bine să păstrăm nr. pagină pentru o mai uşoară orientare în scan-control. Pe timpul corecturii manuale vom şterge nr.pag şi unim paragrafele de pe cele două pagini;
            - în cazul în care corectăm pe Reader/Tabletă nr.pag. ne încurcă, aşa că nu-l vom salva.

      Lucrurile ar putea fi mult detaliate, dar în acest moment nu este acesta subiecul pe care-l propun.

      În principiu, noi ne-am oprit la RTF Exact Copy, deoarece acest format salvează toate formatările, şi poate salva nr.pag.


      RTF Exact Copy vs. DOC Exact Copy
     
      Vă propun o discuţie despre formatul DOC Exact Copy, deoarece salvează şi formatări pe care RTF Exact Copy nu le salvează şi mă refer în primul rând la:
           - în format DOC se salvează codul pentru cratimă opţională folosită la despărţirea cuvintelor la capăt de rând, timp în care în format RTF aceste coduri dispar.
           - n-am verificat, dar este posibil ca în DOC să se salveze codul pentru întrerupere manuală a liniei [rândului], ceea ce în mod concret numim rupere paragraf.

      Mă opresc la cratima opţională pentru despărţirea la capăt de rând.
      Dacă ne uităm atent în Abbyy la o pagină care are cuvinte despărţite la capăt de rând, vom observa în fereastra OCR că în cele mai multe cazuri apare semnul pentru cratimă opţională, deci Abbyy arată şi salvează această cratimă opţională. În acelaşi timp, în Abbyy unele cuvinte despărţite la capăt de rând au cratimă obişnuite: dintr-un motiv sau altul Abbyy nu vede că acolo este vorba de o cratimă opţională şi nu de una obişnuită.
      Deci în Abbyy nu toate cratimele opţionale sunt văzute ca atare, dar cele mai multe sunt văzute corect.

      La salvarea în format DOC codul/setarea pentru cratimă opţională din Abbyy este preluat de Word şi mai apoi poate fi înlocuită cu "nimic", lipind cuvintele.
      La salvarea în RTF semnul de cratimă opţională nu va fi preluat şi acest cod va fi "convertit" în perechea "cratimă obişnuită urmată de spaţiu".
      Reamintesc că în RTF, perechea "cratimă urmată de spaţiu" apare în 3 situaţii:
           - în cazul unui cuvânt rupt la capăt de rând şi cuvântul trebuie "unit";
           - în cazul unui cuvânt care se scrie cu cratimă şi va trebui să ştergem spaţiul şi să păstrăm cratima;
           - în caz complet eronat în care cratima apare în locul unui spaţiu dintre două cuvinte şi rezolvarea se face prin ştergerea cratimei şi păstrarea spaţiului.

      Dat fiind că dacă salvăm în DOC Exact Copy avem un număr mare de cratime opţionale care pot fi înlocuite cu o singură comandă Find&Replace, deci timpul de rezolvare este foarte scurt, vă propun să salvăm din Abbyy în format DOC Exact Copy.

Modificat de Seven (acum 4 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 4 ani
   
tuf
Vizitator



Chiar te rog.
Am intalnit astazi un Exact Copy de vreo 600 de pagini la o carte obisnuita. Mi-a scos peri albi.
Imi bloca pana si Wordul.
Iar de dat copy/paste din Word in AC... nu mai zic.

L-am rezolvat cu un macro. Dar m-a facut sa ma sui pe pereti pana sa reusesc sa ii simplific formatarea.


pus acum 4 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Presupunem că suntem de acord că salvarea în format DOC Exact Copy are mai multe avantaje.
     Ceea ce propun mai jos este valabil pentru toţi userii, inclusiv pentru cei care folosesc AC.

     Caracteristic formatului Exact Copy este faptul că fiecare "Arie de citire" din Abbyy este redată în Word sub formă de text încadrat în Chenare/Frames.
     În afară de acest lucru în Exact Copy se păstrează setări care deranjează şi anume: formătări pe secţiuni, coloane, pagină nouă, caracter bullet în loc de carater text...
     Vom mai avea: taburi în loc de spaţiu, spaţii multiple, spaţii înaintea semnelor de punctuaţie... enţpe mii de stiluri.. etc...

     Practic nu putem trece la corectură fără să facem o serie de înlocuiri şi convertiri.
     Cei care folosesc AC OCR+ rezolvă toate aceste probleme în Abbyy, după ce au convertit textul din DOC în RTF, dar amintesc că la convertire vom pierde câteva setări, precum cratima opţională.

     Există un mod de rezolvare mai complet decât în AC OCR+ şi această rezolvare se poate face direct în formatul DOC - este vorba de un pachet de macrouri.
     Am mai spus pe topicul despre Constatări şi sfaturi în Word că avem posibilitatea rulării unui pachet de subrutine cu o singură comandă [practic o subrutină în care stabilim să se ruleze rând pe rând "următoarele subrutine".

     Deci putem crea câte o subrutină pentru una sau mai multe convertiri - nu detaliez acum acest lucru.
     Partea cea mai importantă şi pentru care vă cer ajutorul este să stabilim împreună ordinea de rulare a macrourilor [subrutinelor].

     Menţionez că unele subrutine pot rezolva mai multe probleme, timp în care altele permit rezolvarea unei singure probleme.
     De exemplu, conversia "caractere bullets în caratere text" nu se poate cumula cu altă rutină; acelaşi lucru se întâmplă şi la eliminarea Chenare/Frames.

     Plecând de la ordinea de rulare a pachetelor din AC, eu m-am gândit la următoarea ordine:

     A - PACHET ELIMINARE FORMATĂRI - similar pachetului 1 din AC.
          a. eliminare Chenare/Frames
          b. conversie sfârşit de secţiune [coloană, pagină...] cu sfârşit de paragraf.
          c. Conversie Bullets in Text
          d. eliminare cratimă opţională [lipire cuvinte despărţite la capăt de rând]; Tot aici voi testa repararea rândurilor rupte - cod pentru sfârşit de linie;
          e. Convertire tab-uri în spaţii, convertire spaţii multiple într-un singur spaţiu, eliminare spaţii la început de paragraf, eliminare spaţii la sfârşit de paragraf.

     Tot în cadrul acestui pachet se poate continua cu
                - eliminarea stilurilor create de Abbyy şi păstraea doar a unui stil Normal şi alte câteva.
                - formatare pagină, formatare stil Normal, deci font, mărime font, paragraf etc.

     Mai departe:
            B. o subrutină pentru rezolvare sumară a punctuaţiei
            C. convertire limbaj clasic în limbaj contemporan.
            etc... etc...

     Avantajul folosirii macrourilor de mai sus:
     Cei ce folosesc AC, îl vor folosi în continuare doar că vor "sări" peste opţiunile din pachetele 1 şi 3, şi parţial o parte din opţiunile de la pachetul 2, ceea ce înseamnă o scurtare considerabilă a timpului de rulare, dar şi un text mult mai bun.
     Pentru cei ce nu folosesc AC OCR+ avantajul folosirii macrourilor este şi mai clar.

     Ordinea rulării subrutinelor din pachetul A - ELIMINARE FORMATĂRI
     Este foarte important să ne gândim foarte bine la ordinea de rulare a primelor 5 subrutine din acest pachet. Mă refer la cele notate cu a, b, c, d, e.
     Dacă din neatenţie nu stabilim ordinea cea mai bună, este posibil ca o subrutină să anuleze sau să micşoreze efectul rulării altei rutine.

     Vă rog să vă gândiţi dacă la primele 5 subrutine mai trebuie adăugat ceva ce eu nu am prevăzut... dacă ar trebui să separăm sau să unim unele subrutine, dar mai ales la ordinea lor de rulare.
     ...şi orice alte aspecte care să ne ajute...

Modificat de Seven (acum 4 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 4 ani
   
tuf
Vizitator



Ce inseamna:
c. Conversie Bullets in Text?

Ordinea pare ok.
Nu merge folosita ordinea deja existenta in OCR+?


pus acum 4 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     "c. Conversie Bullets in Text"

     Caracterele Bullets sunt toate caracterele de la început de paragraf ce nu pot fi editate. Principalele bullets din OCR sunt linii de dialog de orice formă [Emdash, Endash, Horizontal Bar, Cratimă], dar şi diverse caractere de diverse forme [pătrate, triunghiuri, cercuri etc...] şi care nu sunt litere sau cifre; uneori în cazul unor documente ştiinşifice caracterele bullets pot lua forma unor litere sau cifre urmate de punct... pentru marcarea paragrafelor unor clasificări etc.
     Cea mai mare problemă este că la o eventuală formatare într-un nou stil [formatare pe care o facem şi când credem că nu lucrăm cu stiluri] toate caracterele Bullets dispar din text, timp în care aceleaşi caractere de tip Text vor râmâne indiferent de câte formatări şi reformatări vom face.

     În AC OCR+ sunt convertite doar liniile de dialog, deoarece trebuiau trecute în cod fiecare tip de bullets în parte.
     Prin macroul care are linia de cod [ActiveDocument.ConvertNumbersToText] se convertesc în caractere text - deci caractere editabile - TOATE tipurile de bullets. De aceea am spus că macroul este mai complet decât opţiunea din AC OCR+.

     De ce nu folosim pur şi simplu ordinea din AC?
     Pentru că la ordinea din Ac n-a fost o adevărată consultare. Am propus-o eu, nu m-a contestat nimeni şi Cosmin a purces la scrierea codului.
     Acum, dacă tot suntem la început mă gândesc că părerea mai multor oameni este mult mai corectă decât părerea unui om.

     În altă ordine de idei, unele opţiuni din AC se pot înlocui perfect cu macrouri, în alte cazuri un macrou este chiar mai bun decât opţiunea din AC şi în multe cazuri Ac este net superiot macroului.

     Iată un exemplu: vom folosi un macrou pentru corectare sumară a punctuaţiei, dar nu vom renunţa la pachetul 2 din AC, deoarece opţiunea AC este mult mai complexă. Macroul îi va rezolva o parte din situaţiile incorecte şi practic îi va scurta timpul de rulare, dar opţiunea trebuie rulată.

     În cazul convertirii limbaj clasic în limbaj contemporan, se va elimina rularea opţiunii din AC, pentru că cea din macrou este mult mai rapidă şi nici nu face corecţii ortografice de genul "nici un >> niciun" şi "nici o >> nicio". Mai mult decât atât macroul poate fi rulat de mai multe ori, inclusiv în cazul în care după corectarea cuvintelor rupte vor apărea noi cuvinte scrise în limbaj clasic. [Ex: dacă am avea un cuvânt rupt la modurile "stăpî- nirea" "stăp- înirea", acel "î" nu se converteşte în "â", iar după lipire am avea un cuvânt clasic. Nu am găsit un exemplu despărţit corect, dar ideea este că pot apărea astfel de situaţii].

Modificat de Seven (acum 4 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 4 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Am primit pe MP următoarea întrebare:

     Exista vreo optiune in Abbyy 12 sa selectez textul inainte de Read dar pentru toate paginile odata si nu pagina cu pagina..pe genul select text in prima pagina si apply to all aceeasi selectie?
     Sunt cărţi la care trebuie reselectat textul in aproape fiecare pagina, altfel la citire exista foarte multe situatii in care textul ocr-izat nu se aranjeaza corect in pagina...


     Din câte ştiu eu, nu există o astfel de opţiune. Este adevărat că folosesc în principal Abbyy11 şi mai rar Abbyy12.

     Recomandare: dacă folosiţi frecvent Abbyy, atunci e bine să folosiţi un maus cu 6 butoane.
     Mausul cu 6 butoane, are două butoane lateral stânga cu ajutorul cărora se poate defila din pagină în pagină, înainte şi înapoi. Această funcţie este deosebit de utilă şi funcţionează perfect în Abbyy, iar defilarea din pagină în pagină [din imagine în imagine] este foarte rapidă.
     Pe de altă parte, selectarea automată a ariilor de citire are foarte rar erori la o pagină unde textul este continuu de sus până jos.
     Erorile de încadrare apar în principal în paginile în care avem mai multe blocuri de textm, ca de exemplu: trecere la capitolul următor, pagini cu spaţii sau steluţe/asterisc între blocuri de text, pagini cu text şi imagini, text şi titluri etc. Rezultă că nu e nevoie să verificăm toate paginile, ci în principal cu cele care conţin mai multe blocuri/arii de text.

     Aaaa! şi am omis un aspect: cele mai mari probleme apar la imaginile nesplituite, deci imaginile care conţin două pagini. În aceste situaţii apare ceea ce noi numim "rocade ale suprafeţelor de citire", situaţii în care uneori Abbyy citeşte mai întâi o arie sau mai multe din pagina din dreapta şi apoi suprafeţe din pagina din stânga.
     Recomandare mea este să evitaţi să faceţi citirea înainte de a splitui imaginea; în caz contrar este necesar să verificaţi ordinea de citire a ariilor de citire.

     Dacă sunt colegi care au alte păreri decât cele expuse, îi rog să le posteze.

Modificat de Seven (acum 4 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 4 ani
   
tuf
Vizitator



Nu sunt sigur ca am inteles problema descrisa.
Exista si o functie de sablon a zonei de citire in Abby.
Se creaza un sablon, adica o zona de citire, apoi poate fi aplicata pe toate paginile deodata.


pus acum 4 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Câteva afirmaţii ale mele de pe topicul de reactualizare dicţionare AC au contrariat câţiva colegi de pe forum.
      Pentru că o parte dintre aceste afirmaţii sunt legate de extragerea OCR din Abbyy, am ales să le explic pe acest topi; unele lucruri le-am mai postat şi mai sus, dar încerc să revin fără a plictisi.

      ♦ De ce folosesc Abbyy 11 şi nu folosesc Abbyy 12?
      Abbyy 12 este incontestabil superior lui Abbyy 11, în special în zona prelucrare imagini, fapt pentru care recomand folosirea lui Abbyy 12.
      Eu folosesc Abbyy 11 dintr-un motiv personal: am avut câteva zeci bune de scanuri primite de la diverse persoane [majoritatea au vrut să rămână anonime]; foarte multe dintre aceste scanuri nu sunt încă finalizate şi se găsesc în diverse etape de prelucrare în Abbyy 11; mai mult decât atât, o parte din scanuri le-am primit în format Document Abbyy 11.
      Deci am multe fişiere în format Abbyy 11, unele dintre ele destul de vechi; dacă aş folosi exclusiv Abbyy 12, la deschidere ar trebui să pierd timpul cu convertirea din format Abbyy 11 în format Abbyy 12.
      Din acest motiv folosesc - de regulă - Abbyy 11.
      Folosesc şi Abbyy 12, dar numai pentru prelucrarea unor imagini cu geometrie puternic deformată.

      ♦ De ce salvez OCR cu Header & Footer?
      Să stabilim clar un lucru: citesc cărţi pe eReader sau Tabletă, dar corectez numai şi numai pe computer. Cred că e clar pentru toată lumea că a face corectura pe computer este un pic diferită de corectura pe eReader/Tabletă, iar textul trebuie să fie formatat diferit.
      De ce corectez exclusiv pe computer?
      E vorba în special de prima corectură.
      Din garda veche sunt câţiva useri, printre care mă număr eu şi BlankCD, dar nu numai, care corectează exclusiv pe computer deoarece preferăm să putem confrunta permanent textul OCR cu scan- controlul, chiar şi atunci când textul pare în regulă, fapt pentru care avem afişate permanent pe monitor atât textul cât şi scan-controlul; în stânga scanul, iar în dreapta textul de corectat.
      Experienţa ne-a arătat că uneori, deşi un text poate suna perfect, e posibil să lipsească un fragment din el, sau ca unele cuvinte să fie înlocuite de un paronim.

      Să dau câteva exemple:
            - lucram la o carte de Zevaco; una dintre pagini [să presupunem că era vorba de pag.175, se termina cu un dialog- întrebare la care răspunsul putea fi "— Da" sau "— Nu"; pagina următoare [176] începea cu un răspuns "— Da". Undeva în pagină se relua o afirmaţie pe care n-o întâlnisem în prima sa formă, fapt pentru care am consultat scanul. Totul părea corect la prima vedere, dar problema mi se părea neclară, aşa că am reluat de mai multe ori scanul şi OCR... Într-un final am constata că-mi lipseau două pagini din scan, pag 176 şi 177. Din păcate, pag 176 şi 178 începeau cu aceeaşi afirmaţie-dialog "— Da". Textul meu părea corect; dialogurile se purtau între aceleaşi personaje; cu toate acestea îmi lipseau două pagini. Dacă aş fi citit cu o viteză puţin mai mare sau aş fi fost mai puţin atent, aş fi postat o corectură cu două pagini lipsă. Din acest motiv, chiar dacă nu simt nevoia confruntării, din când în când fac confruntarea voluntară.

            - înlocuire cu paronime; Paronimele sunt cuvinte cu formă aproape identică (uneori diferă un singur sunet) şi cu sensuri diferite. Uneori avem în text câte un cuvânt ceva mai exotic şi mai puţin cunoscut. E posibil ca el să fie redat eronat sub forma unui cuvânt mult mai cunoscut, recunoscut de corectorul Word ca fiind corect; doar o foarte bună atenţie ne ajută să descoperim astfel de situaţii, iar confruntarea cu scanul este de mare folos.
      Perechea de cuvinte convingere-constrângere nu este chiar un exemplu de paronime, dar l-am ales spre exemplu deoarece sensul lor este total diferit: Dacă Popescu lucrează peste program din "convingere" este una şi alta e prin "constrîngere"; nu mai vorbesc că între a accepta să faci dragoste din "convingere" şi prin "constrângere" sunt mulţi ani de [lipsă de] libertate...

      Să revenim la Header&Footer.
      Salvez OCR cu Header&Footer pentru a păstra în text numărul de pagină. Având numărul de pagină în text ştiu exact la ce pagină să merg în scan pentru a face confruntarea şi pot defila rapid prin scan-control oriunde în acesta.
      Uneori mă uit în scan chiar şi pe timpul unor modificări cu confirmare din AC, aşa că defilez rapid la distanţă de multe pagini. Alteori fac confruntarea în Word, înainte de corectura propriu-zisă, atunci când formatez titluri sau fac corecturi pe diagonală. În sfârşit, pe timpul corecturii propriu-zise, se întâmplă ca scanul să rămână în urmă şi având numărul de pagină în text merg rapid la pagina respectivă din scan. Deci numărul de pagină are rol de coordonată şi îmi foloseşte pentru a şti exact la ce pagină să mă deplasez în scan pentru a confrunta un anume fragment de text.

      Pe timpul corecturii pentru [V1.0], numărul de pagină dispare [este şters], iar paragraful care începe la sfârşit de pagină este unit cu partea de la începutul paginii următoare.
      Ştergerea numărului de pagină şi unirea paragrafului este relativ simplă atunci când corectezi direct pe computer, dar încurcă mult lucrurile atunci când corectura se face pe eReader/Tabletă.
      Cam ăsta este motivul pentru care prefer să păstrez în OCR numărul de pagină până realizez prima corectură.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 4 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Cu mai mult timp în urmă, într-o discuţie de pe forum, am ajuns la concluzia că dacă în Abbyy salvăm un fişier în format PDF, vom obţine în realitate un OCR în format PDF.
     Din păcate, eu personal nu am mai studiat problema, rămânând convins că salvarea ca PDF va salva doar un OCR, astfel că pentru a obţine un PDF_SCAN am folosit exclusiv formatul PDF/A.

     În urmă cu câteva zile un tânăr colaborator [căruia îi mulţumesc din suflet], mi-a deschis ochii. Este vorba de un tânăr dintre dintre aceea care-mi trimit scanuri şi vor să rămână anonimi şi pe care eu i-am numit în joacă „Sukyana„”, ceea ce înseamnă „Scaner” în japoneză.

     M-am apucat să fac testări şi am ajuns la concluzia că afirmaţia la care am făcut referire la început este o afirmaţia parţial corectă, dar este INCOMPLETĂ.
     În realitate, prin salvarea în format PDF obţinem 4 variante de PDF Searchable.
     La rezultatele acestor teste mă voi referi în postările următoare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 3 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Înainte de a reveni la formatul PDF din Abbyy să discutăm un pic despre PDF Searchable.

     Un PDF Searchable, adică un PDF "cu căutare" conţine două straturi de informaţii:
            – stratul imagine – salvează imaginile paginilor tipărite;
            – stratul text – salvează textul din pagini [în variantă OCR în cazul ABBYY].
     Trebuie menţionat următorul aspect: cele două straturi se află unul sub/peste altul şi cu ochiul liber se vede doar primul strat, deşi întotdeauna există şi cel de-al doilea strat.
     Fiecare dintre cele două straturi poate ocupa poziţia de deasupra sau de dedesupt, astfel:

          Prima variantă: PDF la care stratul imagine se află deasupra şi stratul text se află dedesupt; în acest caz, cu ochiul liber se vede imaginea paginii tipărite, iar dedesupt se află textul OCR; deşi stratul OCR-text nu este vizibil cu ochiul liber, el se află acolo şi putem face căutare de cuvinte în text cu opţiunea "Find/Căutare", putem selecta fragmente de text sau selecta şi copia fragmente de text... etc.
          A doua variantă: PDF la care stratul imagine se află dedesupt, iar stratul text se află deasupra. În acest caz la vizualizarea cu ochiul liber vedem textul OCR cu fonturile şi mărimile apropiate de original, iar stratul imagine apare doar ca fundal de culoare, apropiat de culoarea texturii hârtiei.

     Despre calitatea straturilor:
     Calitatea stratul text este aceeaşi în orice format, indiferent dacă el se află deasupra sau dedesupt.
     Calitatea stratul imagine poate fi diferită de la un format la altul şi aici trebuie discutat mai mult, dar nu este momentul acum. Reţinem doar un aspect: stratul imagine poate păstra imaginile la rezoluţia din Abbyy sau imaginea poate fi condensată, iar rezoluţia diminuată.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 3 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Să analizăm câteva din setările pentru salvarea în format PDF.
     Ceea ce vom analiza la formatul PDF este valabil şi la formatul PDF/A.
     Deşi există câteva diferenţe între fereastra de setare Save PDF Abbyy 11 şi fereastra Save PDF Abbyy 12, cele două opţiuni pe care le vom analiza sunt identice la ambele versiuni Abbyy.
     Din meniul Abbyy accesăm "Tools → Options... → Save PDF".



     Să ne uităm la eticheta "Default paper size":
     Păstrăm opţiunea implicită "Automatic" sau putem alege opţiunea "Use original image size"; eu prefer să rămân la opţiunea implicită.

     Pentru detalii puteţi citi mai departe sau puteţi trece la postarea următoare.

     DETALII: La eticheta "Default paper size" avem următoarele opţiuni:
          Opţiunea nr.1: "Automat" [este opţiune implicită] – programul va alege automat mărimea de pagină în funcţie de mărimea paginilor documentului;
          Opţiunile 2-7 prezintă o serie de formate de pagină prestabilite: A3, A4, A5, Legal, Letter, Executive;
          Opţiunea nr.8, opţiunea "Custom" cuplată cu "Set custom paper size", ne dă posibilitatea să stabilim dimensiunile de pagină pe care o dorim;
          Opţiunea nr.9: "Use original image size" foloseşte mărimea imaginii originale.

     Atenţie! Marea majoritate a cărţilor au pagină de format mic şi mediu, mai mic decât formatele prestabilite. Dacă vom alege un astfel de format, programul va adăuga margini false la pagina reală până la umplerea formatului de pagină.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 3 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Să ne uităm acum la eticheta "Save mode":



     În imagine am pus în dreapta şi tradurea celor 4 opţiuni pe care le vom analiza în continuare şi pe care le-am notat a, b, c, d.


     1. Text and picture only [Numai text și imagine]
     Dacă alegem această opţiune vom obţine un PDF care conţine UN SINGUR STRAT, şi anume stratul TEXT.
     PDF-ul obţinut va conţine textul OCR plus imaginile încorporate [care au fost setate ca Picture sau Baground Picture la setarea ariilor de citire]. Acest PDF va fi identic cu ceea ce conţine un OCR DOC Exact Copy.
     Fişierul nu are nicio legătură cu un scan_control.


     2. Text over the page image [Text peste imaginea paginii]
     Dacă alegem această opţiune vom obţine un PDF care conţine DOUĂ STRATURI: stratul Text şi stratul Imagine, cu menţiunea că stratul text se află la vedere [stratul de deasupra], iar strul imagine se află dedesupt, cu menţiunea că stratul imagine este un strat fals deoarece el nu conţine imaginea reală a paginii, ci doar un fundal color, fundal care reprezintă culoarea difuză a texturii hârtiei.
     Acest format este cel mai periculos deoarece imită foarte mult un PDF_SCAN, dar el este doar un OCR cu fundal color.


     3. Text under the page image [Text sub imaginea paginii]
     Dacă alegem această opţiune vom obţine un PDF care conţine DOUĂ STRATURI: stratul Imagine deaupra, deci la vedere şi stratul Text dedesupt. Acesta este un PDF Searchable în sensul cunoscut al cuvântului şi calitatea este comparabilă cu a fişierului de tip PDF/A.

         – el este mult mai mic în comparaţie cu un PDF/A; din testările mele are valori sub 10% din valoarea unui PDF/A.
         – calitatea imaginii este comparabilă cu cea din PDF/A, cu următoarele menţiuni: substratul de imagine care conţine literele din imagine are aceeaşi calitate cu imaginea literelor dintr-un PDF/A; diferenţa este făcută de detaliile texturii hârtiei; dacă într-un PDF/A textura hârtiei se vede în detalii foarte mici, la un PDF obţinut cu accesarea acestei opţiuni, textura hârtiei nu mai este redată în detalii, ci este oarecum difuză. Aspectul paginii este comparabil cu acela dintr-un fişier DjVu.

     Acest fişier este cel mai indicat pentru un PDF scan_control, deoarece textul se vede foarte bine, iar faptul că textura hârtiei este difuză nu ne deranjează; ba mai mult, difuzia culorii texturii face uneori ca textul să fie mai vizibil.


     4. Page image only [Numai imagine pagină]
     Dacă alegem această opţiune vom obţine un PDF care conţine UN SINGUR STRAT, şi anume stratul IMAGINE.
Acest PDF nu mai este un PDF Searchable, ci un simplu PDF din imagini.
Deoarece acest PDF nu mai conţine stratul Text el este un pic mai mic decât PDF obţinut la opţiunea "c".

**************************************

     În concluzie:
         – PDF-ul obţinut cu opţiunea "3. Text over the page image [Text peste imaginea paginii]" este cel mai PRACTIC şi UTIL dintre toate variantele de PDF;
         – PDF-ul obţinut cu opţiunea "4. Page image only [Numai imagine pagină]" ar fi VARIANTA SECUNDĂ de lucru. Totuşi, faptul că poate fi cu 1MB mai mic decât "c" nu compensează lipsa posibilităţii de căutare în text.

         – PDF-ul obţinut cu opţiunea "1. Text and picture only [Numai text și imagine]" este complet INUTIL deoarece el conţine un simplu OCR; mai mult decât atât, datorită formatului PDF în care este salvat, textul nu poate fi editat/corectat.
         – PDF-ul obţinut cu opţiunea "2. Text over the page image [Text peste imaginea paginii]" este INUTIL şi PERICULOS. Este inutil deoarece conţine un OCR needitabil şi este PERICULOS deoarece se poate confunda cu un PDF_SCAN deoarece fundalului color care imită textura hârtiei.

     Dacă este nevoie, într-o postare ulterioară pot posta imagini pentru fiecare tip de PDF în parte, care să clarifice mai bine cele afirmate în această postare.

Modificat de Seven (acum 3 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 3 ani
   
tuf
Vizitator



O versiune speciala de Finereader:
https://thepiratebay.org/torrent/466043 ... r_Fraktur_(for_OCR_old___rare_books


pus acum 3 ani
   
maxxro2007
Membru Senior

Inregistrat: acum 13 ani
Abyy 14 pentru test
download  de pe torrent
7c0d0cc32aba51b58ebed34de80b12ad75af411a

Modificat de maxxro2007 (acum 2 ani)


pus acum 2 ani
   
Stelevadris
Moderator

Inregistrat: acum 15 ani
In arhiva de crack exista fisierul PYG.dll.
Antivirusul l-a sters, iar pe virustotal.com cam jumatate din lista AV il considera ca fiind mallware.

Lasand la o parte acest aspect, am descarcat de pe abby.com versiunea Corporate, iar crackul functioneaza.
La pornirea programului antivirusul a intrat in functiune si l-a sters. Dar programul pare sa fie ok.

Stiu ca e crack, stiu ca e normal sa fie detectat de o buna parte din AV-uri, dar riscul va apartine.


_______________________________________
Ph'nglui mglw'nafh Cthulhu R'lyeh wgah'nagl fhtagn

pus acum 2 ani
   
maxxro2007
Membru Senior

Inregistrat: acum 13 ani
Ce antivirus aveti ?
La downloadare windows defender a sters fisierele "medicinale" acum trebui sa reiau downloadul dupa ce dezactivez antivirusul

Modificat de maxxro2007 (acum 2 ani)


pus acum 2 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Eu n-am reuşit cu niciuna dintre versiunile crăcuite... şi am încercat câteva...
      Am testat în toamna anului trecut [deci în 2017] una dintre variantele trial.
      După ce au expirat cele 15 zile, l-am dezinstalat, am căutat toate "rădăcinile" din app.data şi din alte locuri şi le-am şters. Am "dat" cu tot felul de softuri care curăţă regiştrii etc. etc...
      Cu toate astea, de câte ori încerc o variantă neortodoxă, deşi pun crakurile acolo unde trebuie, la prima deschidere Abbyy îmi spune că programul a expirat în 2017 şi îmi cere noul serial pentru înregistrare. Data de expirare este exact data la care a expirat trialul.
      Ba mai mult decât atât, îmi arată şi cele două fişiere pe care le-am lucrat atunci.
      Înseamnă că băieţii ăştia de la Abbyy au băgat una sau mai multe şmecherii pe undeva, dar n-am nici cea mai vagă idee care sunt aceste fişiere şi unde se află ele.
      Concluzia: rămân deocamdată la Abbyy 12...     


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 2 ani
   
Pagini:  1 2 3    
Mergi la