Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
═════════ [DISCUTII] Realizarea PDF din imagini ═════════
M-am gândit că o discuţie pe această temă e mai folositoare decât un tutorial.
Deoarece pe forum au apărut o serie de useri, doritori de a pune umărul la dezvoltarea secţiunii Cărţi în limba română, consider că au nevoie de câteva sfaturi. Până la realizarea tutorialelor pe care le-am promis, consider a fi de utilitate câteva informaţii minimale, pe care le-am sintetizat mai jos.
CU CE APARATURĂ SE SCANEAZĂ? Cu orice aparat ce reuşeşte să realizeze imagini la rezoluţia 300 dpi. Sunt de preferat scannerele cu senzor CCD, dar sunt foarte bune multe dintre multifuncţionale (in special cele din gama HP, dar nu numai); Se pot realiza imagini foarte bune cu camere foto, dar şi cu unele dintre telefoanele mobile.
CARACTERISTICI TEHNICE: CULOARE: Se scanează COLOR pentru cele două coperte şi GRAYSCALE pentru paginile interioare. Paginile interioare se scanează color numai dacă se va realiza o carte în facsimil, adică un pdf din imagini ca versiune finală. E cazul revistelor, albumelor, cărţilor foarte vechi etc. Numai în acest caz pot fi folosite şi valori diferite ale rezoluţiei, în sensul că se pot face scanări/fotografieri cu rezoluţii mai mari Abbyy face recunoaşterea cea mai bună la imagini în Grayscale, aşa este el conceput. El face recunoaşterea cu foarte multe erori în alb-negru, fapt oentru care se va evita pe cât posibil salvarea imaginilor în alb-negru. Imaginile color cresc mult mărimea imaginilor dar nu ajută la recunoaşterea de către Abbyy.
REZOLUŢIE: Rezoluţia optimă este 300 dpi. Abbyy este conceput să facă recunoaşterea optimă a semnelor la imagini cu rezoluţia de 300 dpi. O rezoluţie mai mică este insuficientă, fapt pentru care Abbyy va încerca să facă o convertire a imaginii, urcând-o la rezoluţia de 300 dpi. O rezoluţie mai mare nu se justifică, deoarece Abbyy va reface convenrtirea, de data aceasta coborând rezoluţia la 300 dpi. Sunt cazuri când trebuie să se folosească o rezoluţie mai mare: în cazul cărţilor la care se foloseşte o mărime mică a fontului pentru diferite citate, trimiteri, note de subsol sau note de final. Este, de regulă, cazul cărţilor de specialitate şi nu al cărţilor de beletristică. Este şi cazul unora dintre cărţile de beletristică ale clasicilor ruşi, unde personajele vorbesc în limba franceză, în original, şi traducerea este făcut în note de subsol. Uneori se foloseşte 600 dpi doar pentru coperte, atunci când ele sunt transmise separat. (În cazul cartilor de gemul celor scanate pe forum, de regulă, nu e nevoie de acestă rezolutie)
PRESIUNEA ASUPRA CĂRŢII. Din păcate, scanarea deteriorează cartea. Pentru o calitate corespuntătoare a imaginii scanatei, cartea trebuie să aibă întreaga suprafaţă în contact perfect cu ecranul scanerului. Pentru aceasta se forţează deschiderea cărţii, mai întâi pe o masă pentru forţarea deschiderii ei la maxim şi mai apoi pe ecranul scanerului. Presarea se face cu capacul închis al scanerului. Pentru o presare uniformă, trebuie ca cele două părţi ale cărţii de scanat să aibă aproximativ aceeaşi înălţime. Pentru aceasta ne vom folosi de alte 3-4 cărţi mai subţiri, de grosime variabilă, pe post de "lere". Astfel, peste jumătatea de carte mai subţire se pune o carte, astfel încât această parte formată din cartea suplimentară şi fascicolele cărţii de scanat să aibă aceeaşi înălţime cu partea mai groasă a cărţii de scanat.
INFLUENŢA LUMINII EXTERIOARE Lumina ambientală influenţează în mod negativ calitatea imaginii scanate, deoarece pe lângă capacul scanerului, mai ales dacă nu este presată bine cartea va intra lumină suplimentară care va afecta senzorul scanerului. De aceea nu se scanează cu capacul scanerului ridicat, decât în situaţii speciale când dimensiunea cărţii nu permite altfel. Se va evita aprinderea unor lumini puternice, încercând să folosim cantitatea minimă de lumină necesară, iar această lumină să nu bată în mod direct asupra scanerului. Nu trebuie mers pe condiţiile din laboratoarele clasice foto, dar e bine să ne folosim de cât mai puţină lumină posibil. Update: Scanarea cu scaner prevăzut cu senzor de tip CIS sunt influenţată de lumina ambientală; în cazul scanerelor prevăzute cu senzor CCD influenţa luminii este mult mai mică; se poate scana fără probleme şi fără capac; totuşi, e bine să nu avem o lumină prea puternică nici în acest caz.
ORIENTAREA CĂRŢII FAŢĂ DE SCANER Imaginile paginilor scanate trebuie să fie perfect verticale, sau mai exact, să tindă spre o verticalitate perfectă. Vom stabili o poziţie a cărţii pe scaner, astfel încât să ne fie comodă, iar pe de altă parte, această poziţie a cărţii trebuie să fie paralelă şi lipită de două dintre laturile apropiate ale ecranului scanerului, două dintre laturile care formează un unghi. Se va evita pe cât posibil aşezarea cărţii când lipită de marginea de sus a scanerului, când lipită de cea de jos, de cea dib stânga sau dreapta; Pe cât posibil cartea îşi va păstra aceeaşi poziţie faţă de scaner. Se va evita aşezarea "înclinată" a cărţii faţă de baza ecranului scanerului. Înclinarea paginilor faţă de axa de simetrie a scanerului s poate rezolva cu Scan Tailor sau Abbyy 10, dar orice modificare de geometrie a imagini, duce la pierderi de calitatea imaginii şi mai ales la apariţia unor forme noi a semnelor, pe care Abbyy s-ar putea să le recunoască cu erori.
SALVAREA IMAGINILOR: CUM NU TREBUIE SALVAT? Nu trebuie folosită opţiunea scannerului/multifuncţionalei de salvare direct în format PDF, decât în cazul în care utilizatorul este un bun cunoscător al softului şi are o experienţă bună în salvarea în acest format. Pentru începători se întâmplă să realizeze un pdf, care are ca format de pagină A4, iar imaginea este cu mult mai mică şi ocupă o parte mică din pagină, restul paginii fiind ocupat de margini albe. În acest caz pdf va avea o valoare mare, de regulă peste 100 de Mo, dar calitatea pdf este mică, astfel că la încărcarea în Abbyy vom constatat foarte multe erori ale recunoaşterii semnelor, sau această recunoaştere nu se va realiza.
CUM TREBUIE SALVAT? Se vor salva imaginile în format JPG, format ce se regăseşte la majoritatea softurilor de scanare. Este de menţionat că formatul JPG este uşor de încărcat în toate versiunile Abbyy. Deci, recapitulând, imaginea este recomandat să fie JPG - Grayscale - 300 dpi.
PDF din IMAGINI Acesta se realizează în mai multe etape de prelucrare cu şi fără încărcarea în Abbyy, fapt pentru care trebuie analizat în detaliu şi separat. Pănă atunci menţionez numai câteva lucruri.
Pdf din imagini este recomandat să îndeplinească mai multe condiţii: — să fie realizat din imagini la care s-a făcut SPLITUIREA imaginilor; SPLIT este prelucrarea de imagini, în care se realizează împărţirea unei imagini care conţine două pagini de carte în două imagini separate care conţin fiecare câte o singură pagină de carte; — să fie realizat din imagini la care s-a făcut CROPUL imaginilor. CROP este prelucrarea de imagine în care se elimină o parte din marginile nefolositoare ale imaginii; e vorba de marginile întunecate ale imaginii (în cazul în care nu s-a făcut previzualizarea imaginii cu setările necesare) şi respectiv de marginile albe ale paginii de carte, astfel încât imaginea va conţine blocul de text înconjurat pe cele 4 laturi de o bandă albă de circa 4-5 mm lăţime. Este demn de reţinut că mărimea cropului trebuie să fie identică la toate paginile, astfel încât paginile rezultate după crop să aibă aceleaşi dimensiuni ale imaginilor. — să fie realizat din imagini la care s-a făcut corectarea geometriei imaginilor. Sunt cazuri mai rare, în care cartea a fost aşezată în unghi faţă de marginile scannerului şi pafina de carte este înclinată faţă de imagine. — să fie realizat din imagini la care s-a făcut micşorarea imaginilor. De regulă, un pdf suficient de clar pentru a fi citit sau pentru a putea fi folosit ca element de comparaţie pe timpuş corecturii se va realiza din imagini care au înălţimea cuprinsă între 800 pixeli şi 1200 de pixeli. Dacă formatul cărţii este unul mai mic, imaginea va avea valoarea de 800 pixeli, iar dacă e un format mare aproape de A4 imaginea va creşte pănă la 1200 de pixeli. Aceste valori rezultă din experienţă şi nu sunt obligatorii, ele sunt doar cu scop de informare. Este de preferat să se facă mIcşorarea în grup a imaginilor şi nu pentru fiecare în parte. — pdf din imagini trebuie să aibă paginile SINCRONIZATE. Acest lucru se referă la sincronizarea dintre numărul de pagină al cărţii, scris pe "poza" paginii şi numărul de pagină al pdf. Pentru aceasta se vor elimina pagini (albe) în plus sau se vor insera pagini albe, de regulă la începutul cărţii, astfel că dacă prima pagină de text este numerotată în imaginea originală ca fiind pagina 5 (3 sau 7), şi în pdf, ea să ocupe poziţia paginii 5 (3 sau 7). Se va urmări păstrarea sincronizării până la sfârşitul cărţii. Acest lucru este util, în special, la confruntarea textului OCR cu pdf din imagini şi pentru orice altă verificare şi confruntare a textului cu pdf din imagini;în plus este şi un element de estetică a pdf sin imagini.
O mare parte dintre prelucrările menţionate mai sus se pot realiza cu Scan Tailor, Abbyy şi PDF- Tools, despre care vom discuta într-o altă postare sau minitutorial.
_______________________________________
Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|