Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Lista de useri | Cauta | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
angel_jo din Bucuresti
Femeie
22 ani
Bucuresti
cauta Barbat
23 - 70 ani
Forum Romania Inedit / Totul despre cărți - About e-books / [DISCUTII] Realizarea PDF din imagini Moderat de Seven, Stelevadris, cuculean, uncris  
Autor
Mesaj Pagini:  1 2 3
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

                  ═════════     [DISCUTII] Realizarea PDF din imagini    ═════════




      M-am gândit că o discuţie pe această temă e mai folositoare decât un tutorial.

      Deoarece pe forum au apărut o serie de useri, doritori de a pune umărul la dezvoltarea secţiunii Cărţi în limba română, consider că au nevoie de câteva sfaturi. Până la realizarea tutorialelor pe care le-am promis, consider a fi de utilitate câteva informaţii minimale, pe care le-am sintetizat mai jos.

      CU CE APARATURĂ SE SCANEAZĂ?
      Cu orice aparat ce reuşeşte să realizeze imagini la rezoluţia 300 dpi.
      Sunt de preferat scannerele cu senzor CCD, dar sunt foarte bune multe dintre multifuncţionale (in special cele din gama HP, dar nu numai); Se pot realiza imagini foarte bune cu camere foto, dar şi cu unele dintre telefoanele mobile.

      CARACTERISTICI TEHNICE:
      CULOARE:
      Se scanează COLOR pentru cele două coperte şi GRAYSCALE pentru paginile interioare.
      Paginile interioare se scanează color numai dacă se va realiza o carte în facsimil, adică un pdf din imagini ca versiune finală. E cazul revistelor, albumelor, cărţilor foarte vechi etc. Numai în acest caz pot fi folosite şi valori diferite ale rezoluţiei, în sensul că se pot face scanări/fotografieri cu rezoluţii mai mari
      Abbyy face recunoaşterea cea mai bună la imagini în Grayscale, aşa este el conceput.
      El face recunoaşterea cu foarte multe erori în alb-negru, fapt oentru care se va evita pe cât posibil salvarea imaginilor în alb-negru.
      Imaginile color cresc mult mărimea imaginilor dar nu ajută la recunoaşterea de către Abbyy.

      REZOLUŢIE:
      Rezoluţia optimă este 300 dpi.
      Abbyy este conceput să facă recunoaşterea optimă a semnelor la imagini cu rezoluţia de 300 dpi. O rezoluţie mai mică este insuficientă, fapt pentru care Abbyy va încerca să facă o convertire a imaginii, urcând-o la rezoluţia de 300 dpi. O rezoluţie mai mare nu se justifică, deoarece Abbyy va reface convenrtirea, de data aceasta coborând rezoluţia la 300 dpi.
      Sunt cazuri când trebuie să se folosească o rezoluţie mai mare: în cazul cărţilor la care se foloseşte o mărime mică a fontului pentru diferite citate, trimiteri, note de subsol sau note de final. Este, de regulă, cazul cărţilor de specialitate şi nu al cărţilor de beletristică. Este şi cazul unora dintre cărţile de beletristică ale clasicilor ruşi, unde personajele vorbesc în limba franceză, în original, şi traducerea este făcut în note de subsol. 
      Uneori se foloseşte 600 dpi doar pentru coperte, atunci când ele sunt transmise separat. (În cazul cartilor de gemul celor scanate pe forum, de regulă, nu e nevoie de acestă rezolutie)

      PRESIUNEA ASUPRA CĂRŢII.
      Din păcate, scanarea deteriorează cartea. Pentru o calitate corespuntătoare a imaginii scanatei, cartea trebuie să aibă întreaga suprafaţă în contact perfect cu ecranul scanerului. Pentru aceasta se forţează deschiderea cărţii, mai întâi pe o masă pentru forţarea deschiderii ei la maxim şi mai apoi pe ecranul scanerului. Presarea se face cu capacul închis al scanerului.
      Pentru o presare uniformă, trebuie ca cele două părţi ale cărţii de scanat să aibă aproximativ aceeaşi înălţime. Pentru aceasta ne vom folosi de alte 3-4 cărţi mai subţiri, de grosime variabilă, pe post de "lere". Astfel, peste jumătatea de carte mai subţire se pune o carte, astfel încât această parte formată din cartea suplimentară şi fascicolele cărţii de scanat să aibă aceeaşi înălţime cu partea mai groasă a cărţii de scanat.

      INFLUENŢA LUMINII EXTERIOARE
      Lumina ambientală influenţează în mod negativ calitatea imaginii scanate, deoarece pe lângă capacul scanerului, mai ales dacă nu este presată bine cartea va intra lumină suplimentară care va afecta senzorul scanerului.
      De aceea nu se scanează cu capacul scanerului ridicat, decât în situaţii speciale când dimensiunea cărţii nu permite altfel. Se va evita aprinderea unor lumini puternice, încercând să folosim cantitatea minimă de lumină necesară, iar această lumină să nu bată în mod direct asupra scanerului. Nu trebuie mers pe condiţiile din laboratoarele clasice foto, dar e bine să ne folosim de cât mai puţină lumină posibil.
      Update: Scanarea cu scaner prevăzut cu senzor de tip CIS sunt influenţată de lumina ambientală; în cazul scanerelor prevăzute cu senzor CCD influenţa luminii este mult mai mică; se poate scana fără probleme şi fără capac; totuşi, e bine să nu avem o lumină prea puternică nici în acest caz.

      ORIENTAREA CĂRŢII FAŢĂ DE SCANER
      Imaginile paginilor scanate trebuie să fie perfect verticale, sau mai exact, să tindă spre o verticalitate perfectă.
      Vom stabili o poziţie a cărţii pe scaner, astfel încât să ne fie comodă, iar pe de altă parte, această poziţie a cărţii trebuie să fie paralelă şi lipită de două dintre laturile apropiate ale ecranului scanerului, două dintre laturile care formează un unghi.
      Se va evita pe cât posibil aşezarea cărţii când lipită de marginea de sus a scanerului, când lipită de cea de jos, de cea dib stânga sau dreapta; Pe cât posibil cartea îşi va păstra aceeaşi poziţie faţă de scaner.
      Se va evita aşezarea "înclinată" a cărţii faţă de baza ecranului scanerului.
      Înclinarea paginilor faţă de axa de simetrie a scanerului s poate rezolva cu Scan Tailor sau Abbyy 10, dar orice modificare de geometrie a imagini, duce la pierderi de calitatea imaginii şi mai ales la apariţia unor forme noi a semnelor, pe care Abbyy s-ar putea să le recunoască cu erori.


      SALVAREA IMAGINILOR:
      CUM NU TREBUIE SALVAT?
      Nu trebuie folosită opţiunea scannerului/multifuncţionalei de salvare direct în format PDF, decât în cazul în care utilizatorul este un bun cunoscător al softului şi are o experienţă bună în salvarea în acest format. Pentru începători se întâmplă să realizeze un pdf, care are ca format de pagină A4, iar imaginea este cu mult mai mică şi ocupă o parte mică din pagină, restul paginii fiind ocupat de margini albe. În acest caz pdf va avea o valoare mare, de regulă peste 100 de Mo, dar calitatea pdf este mică, astfel că la încărcarea în Abbyy vom constatat foarte multe erori ale recunoaşterii semnelor, sau această recunoaştere nu se va realiza.

      CUM TREBUIE SALVAT?
      Se vor salva imaginile în format JPG, format ce se regăseşte la majoritatea softurilor de scanare.
      Este de menţionat că formatul JPG este uşor de încărcat în toate versiunile Abbyy.
      Deci, recapitulând, imaginea este recomandat să fie JPG - Grayscale - 300 dpi.

      PDF din IMAGINI
      Acesta se realizează în mai multe etape de prelucrare cu şi fără încărcarea în Abbyy, fapt pentru care trebuie analizat în detaliu şi separat. Pănă atunci menţionez numai câteva lucruri.

      Pdf din imagini este recomandat să îndeplinească mai multe condiţii:
         — să fie realizat din imagini la care s-a făcut SPLITUIREA imaginilor; SPLIT este prelucrarea de imagini, în care se realizează împărţirea unei imagini care conţine două pagini de carte în două imagini separate care conţin fiecare câte o singură pagină de carte;
         — să fie realizat din imagini la care s-a făcut CROPUL imaginilor. CROP este prelucrarea de imagine în care se elimină o parte din marginile nefolositoare ale imaginii; e vorba de marginile întunecate ale imaginii (în cazul în care nu s-a făcut previzualizarea imaginii cu setările necesare) şi respectiv de marginile albe ale paginii de carte, astfel încât imaginea va conţine blocul de text înconjurat pe cele 4 laturi de o bandă albă de circa 4-5 mm lăţime. Este demn de reţinut că mărimea cropului trebuie să fie identică la toate paginile, astfel încât paginile rezultate după crop să aibă aceleaşi dimensiuni ale imaginilor.
         — să fie realizat din imagini la care s-a făcut corectarea geometriei imaginilor. Sunt cazuri mai rare, în care cartea a fost aşezată în unghi faţă de marginile scannerului şi pafina de carte este înclinată faţă de imagine.
         — să fie realizat din imagini la care s-a făcut micşorarea imaginilor. De regulă, un pdf suficient de clar pentru a fi citit sau pentru a putea fi folosit ca element de comparaţie pe timpuş corecturii se va realiza din imagini care au înălţimea cuprinsă între 800 pixeli şi 1200 de pixeli. Dacă formatul cărţii este unul mai mic, imaginea va avea valoarea de 800 pixeli, iar dacă e un format mare aproape de A4 imaginea va creşte pănă la 1200 de pixeli. Aceste valori rezultă din experienţă şi nu sunt obligatorii, ele sunt doar cu scop de informare. Este de preferat să se facă mIcşorarea în grup a imaginilor şi nu pentru fiecare în parte.
         — pdf din imagini trebuie să aibă paginile SINCRONIZATE. Acest lucru se referă la sincronizarea dintre numărul de pagină al cărţii, scris pe "poza" paginii şi numărul de pagină al pdf. Pentru aceasta se vor elimina pagini (albe) în plus sau se vor insera pagini albe, de regulă la începutul cărţii, astfel că dacă prima pagină de text este numerotată în imaginea originală ca fiind pagina 5 (3 sau 7), şi în pdf, ea să ocupe poziţia paginii 5 (3 sau 7). Se va urmări păstrarea sincronizării până la sfârşitul cărţii. Acest lucru este util, în special, la confruntarea textului OCR cu pdf din imagini şi pentru orice altă verificare şi confruntare a textului cu pdf din imagini;în plus este şi un element de estetică a pdf sin imagini.

      O mare parte dintre prelucrările menţionate mai sus se pot realiza cu Scan Tailor, Abbyy şi PDF- Tools, despre care vom discuta într-o altă postare sau minitutorial.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

      PRELUCRĂRI IMAGINI


     Presupunem că ne aflăm în momentul în care am terminat procesarea imaginilor cu SCAN TAILOR.

     NOTĂ: Învăţarea modului de lucru cu Scan Tailor se face în joacă. Pur şi simplu, salvăm un folder de probă cu un număr de 15-20 de imagini bipagină şi apoi ne jucăm în Scan Tailor, rulând imaginile prin fiecare etapă. În fiecare etapă încercăm să facem tot ce ne trece prin cap cu imaginile, descoperind cât mai multe din opţiunile programului. Primul tutorial nu trebuie interpretat ca un curs pentru examen... e un fel de Help, la care se poate apela atunci când e nevoie. Joaca de-a prelucratul imagini e cea mai bună metodă de învăţare.

     Dacă se impune extragerea OCR cu Abbyy, atunci vom încărca în ABBYY FineReader imaginile grayscale exact aşa cum rezultă ele după prelucrare. În Abbyy se încarcă imagini şi nu pdf. PDF-ul se încarcă mai greu decât imaginile. Imaginile se pot încărca toate o dată sau pe grupuri de 50/100 de imagini.
     Nu recomand ABBYY PDF Transformer 3.0 pentru extragerea OCR. ABBYY PDF Transformer poate rula mai repede, dar nu are posibilităţi de setare şi antrenament ca ABBYY FineReader.


      REALIZAREA PDF DIN IMAGINI
      PDF din imagini alb-negru [Black and White] se face direct cu imaginile de tip TIFF, obţinute din Scan Tailor.
      PDF din imagini Grayscale se realizează numai din imagini micşorate şi convertite în format jpg sau png.
     Un pdf realizat din imaginile Grayscale TIFF la rezoluţia ridicată obţinută cu Scan Tailor, ar ocupa un spaţiu pe disc de câteva sute de MO, poate chiar 1-2 GO. Acest este motivul pentru care imaginile trebuiesc micşorate şi convertite în jpg.
     Convertirea şi micşorarea se pot face concomitent, folosind programul free PhotoScape.
     Acesta se poate descărca de pe photoscape.org.
     Deoarece meniul este în limba română, programul este uşor de folosit.
     
     După deschiderea programului, din prima fereastră alegen opţiunea Grup ...



     Pentru salvare vom ţine cont de următoarele elemente:
        formatul imaginii = JPG
        calitatea fişierului JPG = minim 95%
        salvăm imaginile cu acelaşi nume într-un folder stabilit sprecial




     Dar, mai întâi să vedem dacă discuţia prezintă interes...

     Cu cât vor paticipa mai multe persoane la discuţie şi vor fi punctate mai multe aspecte, cu atât discuţia va fi mai eficientă.
     Monologul nu va fi decât o încercare sortită eşecului.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
calincalin
Moderator

Din: Cluj-Napoca
Inregistrat: acum 13 ani
Am si eu o intrebare. Nu e mai comod sa folosesti optiunea de scanare direct din Abbyy?

_______________________________________
"Cunoaşteţi adevărul, şi adevărul vă va face liberi." (Ioan 8.32)

pus acum 9 ani
E-mail  
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
    Pentru mine personal, răspunsul e sigur, DA.
    E mult mai comod să scanez direct din Abbyy.
    Am cumpărat de curând un scaner HP şi toate softurile pe care le-am încercat pentru scanare, începând cu cel oferit de producător m-au dezamăgit foarte tare.

    Am ajuns la concluzia că, cel puţin în cazul HP, cea mai rentabilă din punct de vedere al timpului şi calităţii este Abbyy.

    Dezavantaj: Abbyy mai pierde un pic de timp cu citirea şi recunoaşterea textului.

    Topicul a avut următoarea cauză: mulţi dintre userii mai noi şi chiar mai vechi preferă să scaneze mai repede folosind alte softuri, În plus, unii dintre ei scanează cărţi ce nu vor fi OCR-izate, ci trecute în DjVu sau care rămân în format pdf din imagini [mă refer în special la cărţile tehnice].

    Practic, mulţi useri fac decât scanarea şi urcă arhive de imagini jpg.
    Pentru ei a fost deschis topicul... dar după câte vezi, interes... nu prea.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
menssana1984
Vizitator



Sau se poate folosi direct din Acdsee 7.0 optiunea de resize pe verticala la 1024 si create pdf.
Dar dupa split si restul chestiilor.


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
@menssana1984

    Cred că noi doi suntem extremele pe secţiune. Eu scriu prea mult, mult mai mult decât ar trebui, iar tu scrii foarte puţin, astfel că de multe ori nu înţeleg ce întrebi.
    Dacă întrebi faptul că imaginile se pot redimensiona şi se pot face transforma în pdf din ACDSee, atunci răspunsul este DA.
    Ambele acţiuni se pot face în ACDSee. Personal o perioadă de timp am făcut pdf din imagini cu ACDSee, care făcea aceleaşi imagini într-un pdf mai mic decât cel rezultat din Adobe Acrobat.
    Personal prefer redimensionarea în PhotoScape deoarece metoda este foarte simplă, viteza de convertire este mai bună, iar programul este free, consumă puţine resurse şi mai e şi în limba română.
    Pentru pdf din imagini, prefer PDF TOOLS de la http://www.tracker-software.com/product/pdf-tools-sdk.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
menssana1984
Vizitator



Daca vrei sa obtii cel mai mic pdf-scan posibil (metoda testata, 500 pagini, 3mb) fara a se pierde din claritatea textului, folosesti un program de crop/split a imaginilor, le incarci in Abby, dar doar incarcare si atat, save images as pdf, iar pdf-ul obtinut il prelucrezi cu Adobe, optiunea de optimize. Iar daca ii mai dati un optimize, poate il face si mai mic.

Legat de chestia asta, de ce Abby la crearea pdf-ului, imi face unele pagini alb-negru, iar altele gri? Scanarea e in gri facuta.

Atentie la Abby, la salvare imagini ca pdf. Fereastra are 2 casute care trebuiesc bifate:
- All.
- imediat dupa bifarea celei de sus, devine activa o alta casuta, save as multi-page file.
Aceste casute se afla sub fereastra de nume a fisierului si a tipului de fisier.
Daca aceste casute nu sunt bifate, Abby fie va salva doar pagina selectata in acel moment, ori va salva fiecare pagina a documentului intr-un pdf separat. 500 pagini, 500 pdf-uri.


Daca se doreste un pdf-scan cu vizibilitate buna, dar dupa ce se face crop-ul zonelor inutile si split-ul paginilor duble, eventual si deskew-ul lor, se face batch resize la 1024 pe verticala cu Acdsee, iar apoi se foloseste optiunea Create pdf.
Evident ca se pot folosi si alte softuri. Chiar as fi curios sa aflu daca pdf-ul de mai jos e bun pentru djvu pentru readere de 6 inch.
Un exemplu de pdf-scan facut asa:
http://www.mediafire.com/?l64p7q2xpmjl5xl


pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
S-a facut, se poate sterge. Am justificat folosirea lui Pages per dict. Explicatii mai amanuntite se pot da pentru fiecare caz in parte, daca se vor ivi probleme pe masura ce lumea va aplica metoda.

Modificat de Aleph (acum 5 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
Aleph,

    Mulţumim pentru tutorial.

    Am o propunere care o să te cam supere cumva...

    M-am gândit să ar fi bine să procedăm astfel:
      Este normal să existe întrebări şi să mai urmeze unele explicaţii. Aş ăroăune ca parte din aceste explicaţii să se regăsească şi în tutorial.
      De exemplu: "Page per dict" din ultima imagine... de ce 200 şi nu mai mult sau mai puţin? ce anume parametru de calitate influienţează aceste valori...

      Ca să poţi să faci mai uşor completările [modificările] în tutorial, aş propune să-l împarţi în mai multe postări, pentru a fi mai urşor de urmărit locul unde trebuie făsută modificarea, altfel ai şanse să păţeşti ca mine în topicul cu Catalogul Biblioteca RI...

      Cred că ar fi bine ca să foloseşti vreo 5 postări consecutive.

      Pentru că şi eu mai am ceva de adăugat, la metoda clasică, îmi voi rezerva şi eu încă două posturi, după care te-aş ruga să rezervi tu 5 sau câte consideri.
      De mutat conţinutul în noile postări, pot să mă ocup şi eu... important este să faci rezervările de posturi.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
Post rezervat 2

_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
Post rezervat 3

Modificat de Seven (acum 9 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
Cum sa obtinem pdf-uri mici si de calitate foarte buna din imaginile alb-negru produse de Scan Tailor sau ScanKromsator.

Metoda a mai fost prezentata – nu fac decat sa enumar cei cativa pasi de urmat. O carte beletristica, de cateva sute de pagini scanate, se reduce in cateva minute la un pdf de 1–4 Mb (uneori chiar mai mic), de o calitate impecabila. Dimensiunea este in cel mai rau caz jumatate din ce se poate obtine cu oricare alta metoda pe care o stiu.

Algoritmul se aplica numai pe imagini B&W. Urmariti explicatiile pe exemplul concret din arhiva Exercitiu.rar.

1. Desfaceti arhiva pe discul C:; se creeaza directorul Exercitiu care contine, printre altele, folderul out cu 10 pagini B&W 600 dpi produse de ScanKromsator, doua coperte color 200 dpi si folderul gol Lucru.

2 – Dimensionarea copertelor. Cu un program de prelucrare grafica ce permite afisarea dimensiunilor imaginilor si redimensionarea lor, deschideti una dintre paginile din folderul out si afisati latimea si inaltimea paginii, in milimetri. In Photoshop informatiile pot fi obtinute din fereastra Image Size:



Notati latimea 94,83 mm si inaltimea 167,56 mm. Deschideti copertele Cop1 si Cop4 si faceti Resample fara pastrarea proportiilor pe dimensiunile notate:



Salvati cele doua coperte.

Modificat de Aleph (acum 7 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
3 – Crearea a doua fisiere DjVu continand copertele. Lansati DjVu Small.exe din folderul DjVu Small v0.4.4, deschideti Cop1.jpg si configurati cu butonul Options aplicatia exact ca in ecranele urmatoare:

 
 
 
 


Se apasa butonul Convert si in folderul Lucru se obtine fisierul 1.djvu.
Se repeta operatia pentru Cop4.jpg, singura diferenta fiind ca la "Output DjVu-file name" se trece 3 in loc de 1.

 


In folderul Lucru se obtine fisierul 3.djvu.

Modificat de Aleph (acum 7 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
4 – Crearea unui fisier DjVu continand corpul cartii. In DjVu Small deschideti fisierele din folderul out si alegeti User BW (300 dpi) la encoding profile. Modificati optiunile de General si Encode to DjVu (2) ca mai jos (DjVu file name – 2 si Pages per dict – 1000 care asigura o rata de compresie cu pana la 20% mai buna):

 
 


Apasand Convert se obtine in folderul Lucru fisierul 2.djvu.

Modificat de Aleph (acum 9 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
5 – Asamblarea fisierelor DjVu. Lansati DjVuToy.exe din folderul DjVuToy. La tab-ul Merger alegeti Lucru ca folder de intrare si dati numele "Exercitiu.djvu" fisierului de iesire. Apasati 4. Go pentru asamblarea fisierelor 1.djvu, 2.djvu si 3.djvu din Lucru.



In folderul Exercitiu se obtine fisierul "Exercitiu.djvu".

6 – Crearea PDF-ului. In DjVuToy alegeti tab-ul To PDF si configurati aplicatia cu butonul PDF Options ca in ecranul de mai jos.



La Paper -> Size s-a ales Fixed width si la paper -> Width s-a introdus latimea masurata mai sus, 9,48, in centimetri cu doua zecimale.

Se deschide "Exercitiu.djvu" si se apasa pe Go.



S-a obtinut fisierul final "Exercitiu.pdf".

Pont: Daca la conversia djvu in pdf se obtin pagini aparent goale, iar Adobe Reader da eroare la deschiderea fisierului, inchideti DjVuToy, mergeti in Control Panel\Regional and Language Options\Regional Options şi alegeti English (United States), apoi reluati procedura de transformare DjVu în PDF. (multumesc uciN!)

Modificat de Aleph (acum 7 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
Obs. 1. Daca imaginile scanate si prelucrate sunt gri sau color la 300 dpi, in DjVu Small se foloseste encoding profile Manuscript (300 pdi) sau Clean (300 dpi), cu optiunea Pages per dict – 200 (sau mai putin de 200; mai mult de 200 produce pete blur-ate peste grupuri de litere din document).

 


Obs. 2. O carte cu cateva sute de pagini de text nu ar trebui sa iasa mai mare de 3–4 Mb. Daca depaseste aceasta limita, pdf-ul se poate micsora cu aprox. 50% (mai mult sau mai putin) daca imaginilor de intrare li se face Resample de la 600 dpi la 300 dpi. Un Blur initial si Levels 60-0-255 asigura imaginilor la 300 dpi un aspect aproape la fel de bun ca cel al imaginilor la 600 dpi.

Multumiri! Sunt recunoscator lui menssana1984 si Seven pentru colaborarea la realizarea tutorialului. O mentiune speciala pentru verbatim, caruia i se datoreaza introducerea metodei pe forum si de la care am preluat tacit o groaza de idei.

Modificat de Aleph (acum 9 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
thanas
Membru Gold

Din: parti
Inregistrat: acum 13 ani
Salut.

la conversia djvu in pdf obtin un document cu pagini goale si eroarea There was oa problemm reading this document (14).

Ceva sfaturi?


LE: Multumesc mult uciN! Acum functioneaza.

Modificat de thanas (acum 9 ani)


pus acum 9 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 11 ani
Control Panel\Regional and Language Options\Regional Option şi alege English (United States).
Apoi reia procedurile de transformare DjVu în PDF.


pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
Am obtinut aceeasi eroare cand lucram cu o versiune mai veche de DjVuToy. In pachetul Exercitiu se gaseste ver. 1.15 care mi-a mers fara schimbarea de la Regional Options, atat sub XP cat si sub Win 7. thanas, pe ce regiune e setat calculatorul tau?

Oricum, multumesc uciN, am completat Pasul 5 cu indicatia ta.


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
thanas
Membru Gold

Din: parti
Inregistrat: acum 13 ani
Am folosit ver 1.15 cu setarile pe regional Romania si e OK.

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
În legătură cu pdf din DjVu...
Am făcut şi eu câteva pdf la aceeaşi carte, încercând să schimb valorile câte unui parametru şi păstrându-le pe celelalte constante.
Intenţionez să urc imaginile din out rezultat din procesarea Scan Tailor, ca să mai facă şi altcineva prelucrarea aceloraşi imagini.

ideea este: dacă este nevoie să purtăm discuţii pe această temă, ar fi bine să facem un topic special pentru experimente, care eventual să poată fi şi şters şi pentru a nu aglomera topicurile de tutoriale.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 10 ani
Sigur, nici o problema. Folosesc metoda de vreo trei luni iar la inceput m-am jucat cu diversi parametri si am ajuns la concluzia ca e eficient sa se faca conversia out -> PDF exact ca mai sus. In principal optiunile de codare au ca efect modificarea aspectului paginilor din PDF; prefer ca acest lucru sa cada in sarcina lui Scan Tailor sau ScanKromsator.

Modificat de Aleph (acum 8 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 9 ani
   
thanas
Membru Gold

Din: parti
Inregistrat: acum 13 ani
Aleph, poti expune te rog cateva informatii despre realizarea fisierelor djvu cu layer OCR?

Multumesc


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
Pentru thanas de la Aleph

      Sunt mai multe metode de adaugare a unui layer OCR peste un document DjVu - eu o folosesc pe cea care apeleaza la Abbyy Finereader, fiindca da cele mai bune rezultate pentru limba romana. E nevoie de versiunea 8.0 a lui Abbyy (nu 9.0, nici 10) si de programul DjVuOCR din pachetul pus de verbatim in prima postare din topic (nu necesita instalare).

     Abbyy se seteaza cum scrie in documentul "!!!NEW_FR9_Readme.txt" din kit-ul DjVuOCR si se da "Save Batch" intr-un folder gol de pe HDD. Se deschide cu Abbyy folderul "out" generat de Scan Tailor sau ScanKromsator, din care a fost creat DjVu-ul. Daca DjVu-ul are coperti, se adauga si ele in folderul "out", denumite in asa fel incat sa fie, in ordine, primul si ultimul fisier din "out". Se marcheaza copertile ca fiind "zone de imagine" si se face recunoasterea caracterelor.

     Se lanseaza DjVuOCR.exe si se apasa butonul "Manual mode OCR manager". Se apasa "Browse" de la "FineReader Project directory" si se alege folderul in care s-a facut "Save Batch" din Abbyy. Se apasa apoi "Test project" pentru verificarea OCR-ului. Se bifeaza "Normal hyphenation" si "Test before processing" si se debifeaza "Create HTML file". Se alege fisierul DjVu in care introducem layerul OCR si se apasa "Process".

     Programul furnizeaza si un fisier text care contine rezultatul operatiei OCR din Abbyy, dar acesta nu ne foloseste, chiar ne incurca, fiindca la o a doua rulare a lui DjVuOCR obtinem un mesaj (care trebuie ignorat) ca fisierul text exista deja si ca va fi suprascris.


     Alte detalii, dacă mai ai nevoie... peste câteva zile de vacanţă.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
menssana1984
Vizitator



Wow.... magie curata....
Pasii:
scan brut, format jpg, 300 dpi, 160 mb > prelucrat Scantailor, cu BW, 600 dpi (asta e defaultul la iesire, nu am fost atent la el), tiff, 50 mb > prelucrat cu Djvu Small, facut djvu dupa modelul de mai sus, 1,07 mb > facut apoi pdf cu Djvutoy, 1,53 mb.

Numar total de pagini a cartii: 411.

Buna treaba.

Legat de Scantailor si BW, daca carte nu are marginile de text scanate cum trebuie, le are incetosate, e mai bine sa lasam grayscale sau BW?
Stiu ca la BW se mai pierde din litere, mai ales daca e si matura aia activata.
Nu prea am cum sa testez asta acum, am doar scanari pefecte pe hard.

O sa revin si cu un scan greyscale.

PS
Eu am sarit anumite etape pentru ca nu sunt interesat  de realizarea unui djvu ca la carte, cu coperti, cuprins, etc. Vreau doar un scan de control, atat.
Daca iei scanul si il trantesti direct in Djvusmall, iti iese un scan de control pe cinste.

Modificat de menssana1984 (acum 9 ani)


pus acum 9 ani
   
Pagini:  1 2 3    
Mergi la