|
Gângurel a scris:
Neaţa oricui!
Scurt: Înainte de septembrie 2012, 'juma de an am tot citit mai mult ce era pe About, decât secţiunea Cărţi propriu-zisă. Am fost atât de entuziasmat de ce se petrecea pe aici, încât am pornit la drum şcolăreşte! Am luat de unde am putut Abbyy, Calibre, DJVU small, Autocorect, Scan Tailor etc şi am început să clicăi de capul meu! Evident că am mari lacune în privinţa utilizării lor şi astăzi! O singură dată l-am întrebat pe Seven cum să scriu orice vreau într-un loc şi să apară cu galbenul ăla clasic al Forumului, care este întotdeauna un link.
Acum am două variante: 1. Să trec întâi jpg-urile din scanare prin Scan Tailor (munceşte coputeru'!) şi să mă lase cam des fără numerotaţia paginii! Apoi să intru cu ele în Abbyy. Altmintrelea, obţin un OCR mulţumitor! 2. Să balotez toată şandramaua scanată direct în Abbyy, apoi să curăţ şi să cropuiesc fiecare pagină pentru ca OCR-ul să aibă cât mai puţini „purici“, aşadar cei ce vor corecta textul să aibă cât mai puţin de lucru! Dar aici muncesc eu, asta durează cât nu merită şi este o operaţie teribil de nevrozantă! Merge la o carte de 200 de pagini, la încă una de 350, dar tot te laşi de meserie la una de 850! În timpul pierdut astfel, pot scana altă carte!
Întrebarea este următoarea: După ce am terminat de scanat cartea, ce am de făcut – şi cu ce program sau în ce ordine a programelor să pornesc – pentru a obţine un OCR cât mai „curat“?
Mulţumesc, de asemenea, oricui îmi va sugera ce să fac pentru a mai câştiga puţin timp pe care să-l dedic scanului!  |
Degeaba ai citit daca nu ai intrebat 
1. Preferabil e sa scanezi direct in Abby. Abby 12 chiar are niste setari faine pentru scanare. Daca doresti poti folosi alt program, dar tot in Abby o sa revii dupa asta. De ce sa mai adaugi un program in plus? In Abby scanezi prima oara copertile cartii, apoi salvezi proiectul de Abby. Odata salvat, urmatoarele imagini scanate se vor duce direct in el, la locatia indicata de tine la momentul salvarii. Azi scanezi 100 de pagini, maine deschizi proiectul de ieri si mai adaugi inca o suta de pagini etc. Sau scanezi totul dintr-odata.
2. Scanarile brute, adica imaginile neprelucrate, se folosesc pentru extragerea ocr-ului. Este ideal ca scanarea sa fie facuta cu o rezolutie de minim 300 DPI, color sau in tonuri de gri (grayscale). Ocr-ul nu se scoate din imagini alb-negru (decat daca esti disperat dupa acea carte ). Nu se scaneaza niciodata alb-negru.
2.1. Din scanarile brute se obtine pdf-ul sau djvul de control. Fie din imaginile brute, fie din imaginile prelucrate in ScanTailor. Daca vrei sa iasa cat mai bine, adica inclusiv numarul de pagina, trebuie sa verifici ochiometric cam 50% din carte, sa vezi daca zona de text cuprinde elementele corecte ale paginii de carte, asta in ScanTailor bineinteles.
3. Nu folosi zonarea automata din Abby pentru capturarea textului. Ia fiecare pagina in parte si pozitioneaza caseta de citire exact atat cat e necesar pentru textul acelei pagini. Chiar daca o sa aiba erori pe ici pe colo, o sa fie un text superior celui extras automat (adica converteste orice pata sau semn de pagina in caractere, iti amesteca header/footer si numarul de pagina cu textul propriu-zis etc)
4. Daca chiar vrei garantia calitatii si a textului COMPLET (uneori, la cartile vechi, ABBY sare peste siruri intregi de caractere, iar uneori randurile se imbina perfect peste golul ramas, iar la citire nu se baga de seama lipsa), dupa ce faci zonarea manuala a casetei de citire, dupa ce extragi ocr-ul, apoi poti sa corectezi in diagonala fiecare pagina in parte, pentru a remedia problemele mai grosolane.
5. Vezi clipurile.
6. Intreaba, intreaba, intreaba.
Clipuri:
7. PASI:
Scanare in ABBY 12 » Apoi salvat imaginile (din proiectul ABBY vor fi exportate ca TIFF) intr-un dosar separat, de unde vor fi preluate de ScanTailor » Apoi revenit la ABBY 12 (unde avem deja proiectul salvat) si extras ocr-ul.
Modificat de tuf (acum 9 ani)
|
|