Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Pisii pe Simpatie
Femeie
24 ani
Ialomita
cauta Barbat
24 - 44 ani
Forum Romania Inedit / Totul despre cărți - About e-books / Djvu & Pdf-jbig2 Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini: 1
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

     Mulţumesc Verbatin,
     Excelentă ideea de a prezenta forumiştilor o zonă a cărţii electronice, foarte puţin cunoscută la noi.
     Ca să nu fii singur în acţiunea asta, intenţionez să vin în sprijin cu un tutorial pentru o anume fază a executării cărţilor.

     Folosesc de câtva timp Scan Tailor... sunt foarte mulţumit de ceea ce poate face programul şi sunt în situaţia, în care, cred că pot afirma că stăpânesc binişor programul şi chichiţele sale.
     Am prelucrat câteva cărţi, printre care cel puţin una cu mari probleme: pagini înclinate la unghiuri mari, pagini scanate din poziţie diferită: lipite la dreapta imaginii, la stânga sau centrate. După prelucrare a ieşit ceva mult mai bun decât mă aşteptam.

     Mă angajez să realizez un tutorial detaliat cu modul de folosire a programului Scan Tailor, care va fi gata imediat după sărbătorile de Paşte.

     Despre Scan Kromsator, deocamdată nu-mi pot da cu părerea, sunt de abia la început.
     L-am descoperit datorită uneia dintre postările tale şi am reuşit să găsesc şi câteva indicaţii despre folosirea lui, dar nu am avut timp să încerc să-l folosesc.

     Un lucru e cert. Ruşii sunt mult mai avansaţi în digitalizarea cărţilor şi programele lor sunt free, foarte bune şi puternice, dar au o interfaţă mai greu de înţeles.
     Am rugămintea la colegii şi prietenii noştri de pe forum, cunoscători de limba rusă să ajute la prezentarea unor astfel de programe pe forum.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
Multumesc mult K7 , e grozav daca reusesti sa faci acel tutorial
    Se pare ca sunt mai multi utilizatori de Scan Tailor aici pe forum decat ma asteptam eu.
Din cate stiu eu, acest program a aparut ca o alternativa la Scan Kromsator, acesta din urma
nefiind un program prea prietenos, un program care nici in ziua de azi nu are o documentatie oficiala. Autorul (Bolega) a promis una odata cu versiunea 6 ( actualmente a ajuns la 5.93)

    O sa incerc si eu sa realizez un tutorial la Scan Kromsator, in ideea ca fiecare program are anumite trasaturi unice, care il fac mai util intr-o situatie sau alta.

    Insa aici pe forum cred ca Scan Tailor ar trebui promovat ca "standard", este in mod evident mai intuitiv si mai usor de folosit.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Vebatin,
   Intenţionam să postez aici arhiva cu imaginile de la Agatha Christie - Cianura scanteietoare. Am postat arhiva pe topicul Agatha Christie cu intenţia de salvare temporară a adresei şi apoi să o repostez aici, apoi am uitat.

   Practic, mă interesa dacă prelucrările pe care le-am realizat cu Scan Tailor sunt cele necesare şi suficiente, dacă ele au corespuns pentru realizarea Djvu.
   Nu se cade să postez un tutorial despre Scan Tailor fără a fi sigur că îl folosesc corespunzător.
   Nu am fost foarte atent şi nu am realizat că pdf-ul foarte mic pe care l-ai făcut tu se convertea din Djvu.
   Eu am încercat să găsesc un program care să facă direct un pdf, astfel comprimat, fapt pentru care am tot căutat pe net un astfel de creator de pdf, între timp uitând să mai refac postarea.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
Prelucrarea e foarte buna, desigur.
Asta vorbind din perspectiva compresiei djvu. Dar daca se are in vedere realizarea ocr-ului, strategia este diferita. Cel mai bun ocr se obtine (din cate stiu eu, adica mai mult din auzite) din imaginile scanate initial, inainte de a converti la pdf/djvu sau orice altceva.

Ideea acestui topic este de a oferi o metoda de compresie eficienta si care sa nu sacrifice rezolutia textului .
Practic in 4-5 ore poti scana o carte si obtine in final un pdf de 2-3 mega de calitate cel putin rezonabila. Pe un kindle normal se citeste un pic cam greu ( de regula in vederea landscape) dar fara mari probleme pe un kindle DX sau orice alt reader de dimensiuni mai mari. Iar acestea din urma se vor ieftini cu siguranta in viitorul apropiat

Normal ca nu se compara cu un text corectat vers 2.0. Insa si efortul implicat este mult mai mic
Ideea e ca cele doua abordari sunt complementare
Cel care doreste sa corecteze cartea, foloseste ocr-ul extras initial si ori de cate ori este nevoie, verifica textul cu varianta scanata djvu/pdf.
Iar daca nimeni nu doreste, din diverse motive, sa corecteze cartea, atunci cel putin ramane o versiune rezonabila ( djvu/pdf), obtinuta cu minim de efort si care are toate sansele sa circule asa cum e ea  din cauza dimensiunilor mici, de doar cativa mega.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

     Verbatin, am o propunere:
     Să folosim acest topic pentru dezbateri şi discuţii, iar mai apoi într-un topic de tutoriale să postăm tutoriale, programe şi explicarea lor şi ceea ce rezultă din discuţiile de pe acest topic..
     Cu cât dicuţiile vor fi mai multe şi vor participa mai mulţi useri, sunt şanse ca sistemul de realizare a cărţilor să fie însuşit de mai mulţi membrii ai forumului.
     Îi rog să participe la discuţii câţi mai mulţi useri, atât pe cei care lucrează deja cu unele dintre programe şi ştiu cum se lucrează cu ele, cât şi pe cei ce nu le folosesc, dar sunt interesaţi de folosirea lor.

     Deocamdată, părerea mea este să nu renunţăm complet la sistemul vechi. Va mai dura o perioadă până când majoritatea userilor vor putea să jongleze cu Djvu.
     Până la transformarea lui Djvu în format universal pe forum, să lucrăm cu ambele variante de lucru.
     După cum ai afirmat, nimic nu se compară cu o carte format doc. la V2.0. ori, majoritatea dintre noi, de o perioadă de timp asta încercăm să facem. ca fiecare carte de beletristică să ajungă un text bine corectat.
     
     Cred că SCANAREA e un efort special; în plus, la scanare se distruge mai mult sau mai puţin şi cartea.

     Dacă tot facem acest efort, imaginile trebuie neapărat rulate şi prin Abbyy şi realizat OCR de calitate. Având OCR şi pdf din imagini, cartea poate fi oricând prelucrată până la orice versiune se va dori.
     
     În acest moment încerc să aflu cum se poate salva cu Scan Tailor atât imagini alb-negru, cât şi în nuanţe de gri. Încă lucrez cu versiunea 9.9.2. Probabil că ar trebui făcut prima dată AN, copiate imaginile într-un alt folder şi apoi redeschis Scan Tailor şi setate imagini gri pentru rulat prin Abbyy.


     Cei mai vechi useri de pe forum ştiu că o carte trebuie să fie postată pentru început în două variante:
      — o variantă text, corectată sau OCR de calitate cu sau fără precorecturi;
      — o variantă pdf pentru comparaţia cu textul, pe timpul corecturilor.
      La aceste variante să adăugăm şi
      — fişiere Djvu şi pdf foarte mic, rezultat din convertirea Djvu.

      Timpul va dovedi, dacă dintr-un fişier pdf foarte mic sau fişier Djvu se poate scoate OCR de calitate.
      Am sentimentul că ruşii au rezovat şi problema asta.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
1) Fireste ca nu se pune problema ca userii sa schimbe un sistem de lucru cu altul, acum sau in viitor ( cine sunt eu sa pretind asa ceva?) Mai ales userii de aici , pe RI, care sunt implicati deja in fel de fel de proiecte si ar fi chiar pacat sa renunte la ele
Insa ideea unei compresii eficiente (fara reducerea rezolutiei) este in sine o idee demna de luat in seama
Daca ea este inteleasa si devine mai cunoscuta, sunt sanse sa fie aplicata si de o serie de useri "mai lenesi", aceia care n-au corectat si nici nu vor corecta vreodata vreo carte (ma tem ca si eu ma numar printre acestia) La noi exista perceptia ca digitalizarea unei carti e o operatie mult prea complicata, care presupune zeci de ore de munca.
Nu stiu insa cati realizeaza ca in doar 4-5-6 ore poti nu doar scana cartea ci si sa o pui rapid intr-o forma acceptabila, adica un pdf de doar cativa MB. Asta suna cu siguranta mai incurajator decat ideea de a corecta zeci de ore o carte
Repet, aici nu ma refer la userii obisnuiti cu corectura, ci la cei mai comozi care, in felul acesta, pot veni si ei pe forum cu mici contributii. Asa s-a intamplat in cazul meu, poate ca si altii vor proceda la fel

Practic singura mea intentie a fost de a semnala existenta unor metode de acest tip, deja aplicate cu succes prin alte parti. 

2) Nu toata lumea e la  fel de pretentioasa. Am pus in Kindle acel pdf de 1 MB (Agatha Christie) obtinut din arhiva de imagini pe care mi-ai dat-o astazi si chiar nu am nici o problema de lectura cu el. La fel cu pdf-ul de acelasi tip postat de Aleph putin mai tarziu. Recunosc insa la orice ora ca un mobi sau un document pur text se vad intr-adevar mai bine
Insa odata furat de lectura nu stiu daca te mai gandesti prea mult la calitatea fontului, citesti pur si simplu
Pentru mine cel mai important e ca am scapat de acea luminozitate enervanta a monitorului de calculator.

3) In procedura descrisa in acest topic etapa "djvu" este una relativ minora
90% din efort e in procesarea initiala a scanului, adica etapa "scantailor" , cea in care userul trebuie sa ia niste decizii,
sa verifice paginile etc. Prin contrast, etapa "djvu" se reduce practic la cateva click-uri la care se adauga cele 2-3 minute de procesare automata. Daca cineva stie deja sa lucreze deja cu scantailor, atunci etapa djvu chiar e un "mizilic". Acelasi lucru se poate spune si despre ultima etapa, de obtinere a pdf-ului din fisierul djvu

In ideea de a simplifica si mai mult procedura am cautat si eu alte programe care sa produca direct pdf-ul din imaginile
scantailor, folosind compresie jbig2. Probabil cel mai simplu ar fi sa se foloseasca Adobe Acrobat (am experimentat o varianta trial). In mod ciudat insa, compresia obtinuta de el este cu 25-50% mai mare sau chiar dubla fata de cea obtinuta pornind de la djvu. Cele mai bune rezultate, mai apropiate de cele obtinute cu metoda din acest topic, le-am avut cu doua programele free mult mai mici (unul se numeste pdfbeads, celalalt am uitat ). Din pacate ele lucreaza in linie de comanda si au tot felul de dependinte. Pana la urma varianta cea mai comoda imi pare tot cea bazata pe djvu, dar sunt convins ca la un moment dat se va gasi si o posibilitate de a "sari" peste djvu. Totusi castigul ar fi in acest caz unul minor, caci nu etapa djvu e cea dificila.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

    Pentru ca cei ce nu au folosit până în prezent Scan Tailor, am urcat rezultatele unui TEST realizat cu ajutorul acestui program.
    Imaginile iniţiale au fost înnegrite şi deformate în mod special (înclinate cu diferite unghiuri spre stânga sau spre dreapta), pentru a pune în evidenţă capacitatea programului.
    Menţionez că toate operaţiunile au fost făcute automat de către program şi nu am intervenit manual.
    Acest lucru nu înseamnă că programul face totul corect în mod automat; în alte situaţii am fost nevoit să întervin la unele dintre imagini, şi mă refer în special la cărţi vechi, scanate necorespunzător.
    În realizarea testului, am plecat de la 7 imagini "JPG" dublă-pagină de circa 4,2 ÷ 4,5 MO fiecare, rezultând 14 imagini "TIF" monopagină de 65 ÷ 75 KO fiecare, din care s-a obţinut un pdf cu PDF-Tools 4, cu valoarea de 521 KO.
    Iată mai jos componentele testului şi adresele lor:
         TEST INIŢIAL - Imagini jpg [29,2 MO].rar       
         TEST PRELUCRAT Scan tailor [987 KO].rar 
         [PDF] TEST PDF-Tools 4 [521 KO].pdf         


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

    Voiam doar să anunţ că nu am abandonat ideea tutorialului Scan Tailor.
    Nu ştiu dacă am pornit prea bine. Am vrut să fac un tutorial pe înţelesul tuturor, indiferent cât de începători ar fi... dar e posibil să-l fi creat prea stufos.
    Deşi am redactat 7 pagini A5, încă nu am început explicarea detaliată a etapelor, lucru care de abia acum urmează să-l fac.
    Pentru curiozitate se poate vizualiza cele 7 pagini, fără a trebui să fie descărcate, direct de aici:
                    Tutorial Scan Tailor
    Mi-ar fi de mare folos o părere, ca să ştiu dacă revizuiesc cele făcute până acum sau continui în acelaşi mod.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
Eu zic ca merge asa cum l-ai inceput, dar cei care au folosit mai des Scantailor pot avea o parere mai avizata (eu sunt mai obisnuit cu Scan Kromsator). Tutorialul incepe bine, cu o incadrare in context. In ce priveste gradul de detaliere, aici nici un tutorial nu poate multumi chiar pe toata lumea. Cei mai putin familiarizati cu calculatorul apreciaza probabil un stil mai bogat in detalii. Altii, din contra, pot aprecia un stil mai concis, mai "algoritmic". Dar, zic eu, mai bine mai multe detalii decat prea putine. Pe de alta parte nu trebuie sa fie nici prea multe pagini, altfel se poate crea impresia ca e un program cam complicat, ceea ce chiar nu e cazul.
    Eu l-am folosit prima data acum cateva saptamani, asa pur si simplu, fara nici
un tutorial. Interfata e intuitiva si te conduce pas cu pas. E drept insa ca stiam in general cam care e obiectivul unui asemenea program, fiind deja obisnuit cu Scan Kromsator. Insa cele doua programe nu au prea multe in comun in afara scopului general de procesare a paginilor scanate, adica separarea si indreptarea paginilor, eliminarea marginilor inutile si mai ales conversia textului la B&W

Ce mi-a placut la ScanTailor e modul automat de detectie a imaginilor (in modului "mixt") , lucru care lipseste la SK. O alta caracteristica interesanta e cea de corectie a deformarilor fotografice (cazul in care paginile nu sunt scanate ci fotografiate cu o camera digitala). Insa aceasta ultima facilitate e in stadiu beta si am folosit-o cu nu foarte mare succes

Multumesc ca nu ai abandonat ideea. Evident insa ca nu exista nici un termen limita, va fi gata doar atunci cand crezi tu de cuviinta, 1-2 luni sau mai mult, nu conteaza.

Modificat de verbatim (acum 13 ani)


pus acum 13 ani
   
lauvoi
Pe lista neagra

Inregistrat: acum 17 ani

verbatim a scris:

O carte in format djvu de cateva sute de pagini rareori depaseste 3-4 MB (la 300 dpi).

Cand am citit acest lucru m-am bucurat, eu in continuu in lupta cu spatiu pe HHD, in sfarsit am gasit o forma sa scap de pdf-urile mastodont (peste 10 MB).
Si cand omul nu are ce face, face teste.
Iata rezultatele:

Jules Verne - Burse de calatorie 1978(original).pdf = 17,31 MB

Jules Verne - Burse de calatorie 1978(pdf-djvu).djvu = 44,35 MB

Jules Verne - Burse de calatorie 1978(djvu-pdf).pdf = 177,6 MB

Deci pornind de la un pdf de 17 MB, am ajuns la un djvu de 44 de MB, din care a rezultat un pdf de 178 MB.
Se cheama ca am facut economie de spatiu.
...Fara alte comentarii.

Bafta!


pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
@Lauvoi

Exista doua mari probleme in prelucrarea ta
1) Pdf-ul original are rezolutie foarte mica (de aproximativ 100 dpi)
2) Modul de prelucrare. Chiar si pentru un pdf "distrus" de genul originalului postat de tine (adica deja prelucrat prin reducerea rezolutiei), se poate ajunge  la un djvu mult mai mic decat 44 MB.

O sa incerc de curiozitate sa vad ce se mai poate obtine dintr-un asemenea pdf
Daca totusi ai originalul "adevarat" (cel de minim 300 dpi) te rog mult sa-l postezi aici (macar o parte a lui, sa zicem vreo 50 de pagini, doar de dragul experimentului)

Cum zicea si Aleph, este esentiala transformarea textului din color/grayscale in pur B&W
Aici este "esenta metodei". Insa, asa cum ziceam, algoritumul djvu e conceput sa lucreze cu imagini de macar 300dpi.


EDIT
Am prelucrat originalul tau de 17 MB , rezultatul fiind urmatorul:
versiunea djvu ( 2,31MB)
versiunea pdf ( 2,68 MB)

A iesit chiar ceva mai bine decat ma asteptam, dar rezultatul nu e optim datorita rezolutiei initiale mici

EDIT2
@Aleph Am vazut acum si versiunea ta de 3,4MB . Eu am lasat acele 10-15 imagini la rezolutie mai joasa, de aici probabil si diferenta de aproximativ 1 MB dintre cele doua versiuni.
Spre deosebire de tine, am folosit Scan Kromsator. Mie imi place mai mult felul in care SK a prelucrat textul,  are  parca un aspect mai natural. Asta este insa opinia mea, pur subiectiva. In linii mari rezultatele sunt, zic eu, perfect comparabile. Ai lucrat doar cu Scan Tailor, sau ai facut upsize preliminar al imaginilor?

Modificat de verbatim (acum 13 ani)


pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 14 ani
Am lucrat cu ScanTailor, care nu a acceptat TIF-urile la 72 dpi si a propus upscale la 300 dpi, operatie pe care l-am lasat sa o faca. Intr-adevar, partea grafica este si ea la 600 dpi ca si textul, de unde si diferenta de dimensiune dintre variantele de fisiere djvu.

In schimb calitatea textului obtinut de tine cu ScanKromsator este mult mai buna decat ce am putut sa scot eu din ScanTailor, desi m-am jucat nitel cu setarea Thinner de la Output. E prima data cand vad o diferenta clara intre de iese din SK si ce poate ST.

Cum ai micsorat rezolutia partii grafice? Direct din SK?

Ai un MP cu o explicatie despre fisierul-sursa.

Modificat de Aleph (acum 7 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
Daca se folosesc direct imaginile scanate, Scantailor e la fel de bun ca si Scan Kromsator, chiar cu unele avantaje
Dar daca imaginile sursa nu au o calitate prea grozava, cred ca SK e ceva mai potrivit, datorita nenumaratelor posibilitati de ajustare a imaginii, global sau doar pe anumite portiuni ale paginii.

In cazul de fata, procedura a fost mai laborioasa, (cu totul cam o ora si jumatate, manual cam 20 minute)
1) am extras imaginile din pdf cu pdfimages.exe ca fisiere ppm
2) am evaluat in xnview rezolutia imaginilor cu "metoda celor 6 randuri" , am vazut ca e vorba de aproximativ
100 dpi si apoi am folosit un batch xnview cu resize 300% ( algoritmul bspline sau biliniar) obtinand astfel un folder de fisiere tif marite artificial
3) cu acest folder m-am dus in Sk unde am folosit un profil care mi-a fost de folos si cu alte ocazii in situatii de genul acesta. Acest profil are in tabul Quality activat blur (2) sharpen (2) iar la gray enhance are bifat autolevels ( de la tabul contrast) iar la tabul illumination are bifata optiunea "correct illumination". Era un profil mai vechi, am vazut ca rezultatul e acceptabil si nu am incercat sa mai modific/imbunatatesc ceva. In principiu insa se mai pot face setari pe la tabul  gamma sau pe la binarization. Cred ca mergea un sharp/contrast chiar mai mare, s-ar mai fi recuperat niste detalii fine
Rezultatul l-am convertit normal la djvu, fara sa ma preocupe cum ies imaginile
4) Cele 10-15 imagini le-am convertit la djvu cu ajutorul unui script care foloseste documenttodjvum.exe (versiunea linie de comanda a lui djvu small, e si el in arhiva cu programe), am setat acolo o latime mica (600 pixeli) si un profil photo iar la urma de tot am intercalat aceste imagini in corpul djvu obtinut anterior, stergand versiunile vechi (djvu express).  Un pic plictisitor, tinand seama ca erau vreo 15 imagini. Totusi, nu asa trebuie procedat. In mod normal se foloseste djvuimager in combinatie cu Sk sau ST, dar nu am avut rabdare sa citesc documentatia lui cu google translate.

Daca e nevoie, mai dau si alte detalii, poate nu  chiar azi, caci  e Vinerea Mare si sunt cam multe treburi de facut prin casa.

Modificat de verbatim (acum 13 ani)


pus acum 13 ani
   
lauvoi
Pe lista neagra

Inregistrat: acum 17 ani
@verbatim

Pe mine m-ai convins. Dar trebuie convinsa si "TANARA GARDA" (nepoteii mei), nu de alta dar mai au de transformat 44 de carti (pe ei ii intereseaza pdf-ul final):


Asa ca pentru intelesul lor, ce trebuie facut (bineinteles de miercuri in colo)?
1. Se descarca progrmul .......
2. Se instaleaza programul ........
3. Se fac urmatoarele setari .......
4. Se incarca fisierul "pdf"......
5. Etc, etc.

Paste fericit si multa bafta!


pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
@Lauvoi
Multumesc de urari, Sarbatori Fericite si tie si tuturor celor de aici

Din cate stiu eu, colectia Jules Verne circula deja in format text/mobi/epub, cel putin vreo 20 de volume. Asa ca nepoteii tai  n-ar mai avea chiar asa mult de lucru. Si, de fapt,  pana termina ei de citit 20 de volume poate apar si celelalte. Procedura mai simpla descrisa la inceputul acestui topic e valabila in primul rand pentru cazul cand se lucreaza direct cu imaginile scanate. Conversia la djvu/pdf-jbig2 a unui pdf deja prelucrat  e din pacate ceva mai complicata, sunt mai multi pasi de realizat. Uneori rezultatele sunt bune, alteori mai putin bune. 

@Aleph
M-am jucat un pic cu Scan Tailor in aceasta dimineata, cred ca motivul principal pentru care
prelucrarea textului nu e la nivelul SK e acela ca in cadrul ST imaginilor nu li se face un upsize suficient de mare.
Intr-adevar, ST nu accepta imagini de rezolutie 75-100 dpi (sau mai general sub 300) si atunci e necesar sa setezi, in dialogul acela initial, rezolutia la 300 dpi. Problema e ca aceasta setare e pur formala, ST nu realizeaza in acelasi timp si un upsize al imaginilor. Practic tu declari,  pe proprie raspundere, ca imaginile au de fapt 300 dpi. Singurul moment in care ST face un upsize e acela in care dubleaza rezolutia de la "300dpi" la "600dpi", in realitate o dublare a rezolutiei reale de 100dpi la 200 dpi. Solutia este sa faci un upsize preliminar, in programe de gen xnview/irfanview/photoshop etc. Am testat lucrul acesta pe cateva pagini si rezultatele sunt , din punctul meu de vedere, mai bune.

Modificat de verbatim (acum 13 ani)


pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 14 ani
verbatim – exact la tinta!
Da, asta-i cauza pentru care ST nu contura bine literele.
Aici este pagina 5 din carte trecuta prin ScanTailor, in urmatoarele trei variante:
din PDF optimizat, 72 dpi
din PDF optimizat, upsampled la 300 dpi
din PDF upsampled la 300 dpi
Ultimul are ca sursa PDF-ul de la topicul Jules Verne, care e facut tot din imagini la 72 dpi. Al doilea este din PDF-ul oferit de lauvoi, care pare sa fie procesat pentru optimizare, fiindca are dimensiune de trei ori mai mica decat originalul din topicul Jules Verne.
Diferenta intre variantele 2 si 3 e practic insesizabila, pe cand prima varianta e mult mai proasta.
... era cat pe ce sa-l dezinstalez pe ST 

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
Asa e, ST a fost si ramane un program foarte bun
Ca sa fiu un pic carcotas, as mai adauga ca singura problema la prelucrarea ta e aceea ca paginile au fost marite in final foarte mult ( cu aproximativ 600%) si fisierele djvu rezultate sunt astfel cam mari, de 40-50 KB. Daca rezolutia initiala ar fi fost pe bune 600dpi ar fi meritat probabil pastrata o versiune de maxima calitate la 600 dpi. In cazul de fata insa, cred ca merge lejer o reducere a paginilor cu 50% , diferenta de calitate e proape insesizabila (in definitiv rezolutia reala e de aprox 100 dpi si in acest caz nu e mare diferenta intre rezolutiile aparente 600dpi si 300dpi)

Am reprelucrat pagina ta 2-PDFoptimz300ups.djvu cu rezultatul
deci o reducere de la 54KB la 14KB

Concret, am extras tiff-ul din pagina djvu si l-am micsorat in xnview cu 50%. Bineinteles ca s-ar putea mai simplu seta in ST rezolutia finala la 300 (in loc de 600 dpi) , trebuie experimentat pentru a vedea care varianta e cea mai buna.

Modificat de verbatim (acum 13 ani)


pus acum 13 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Citesc de cîtva timp acest topic şi am văzut că verbatim are intenţia de a realiza
un tutorial despre ScanKromsator.
Există deja un astfel de tutorial în format PDF (cum-să...), aici:
Sigur că nu este cel mai complet iar dacă verbatim va face unul mai bun, nu putem decît să-i mulţumim.
K7 am văzut că s-a apucat de crearea unui tutorial despre Scan Tailor. Începutul este foarte bun după părerea mea.
Am făcut şi eu mai demult un minitutorial Scan Tailor, însă este mult sub nivelul celui început de K7.
Din acest motiv nu-l voi posta pe forum.
Aştept continuarea şi le mulţumesc tuturor celor care se implică în această activitate.

Modificat de uciN (acum 13 ani)


pus acum 13 ani
   
verbatim
Membru Gold

Inregistrat: acum 13 ani
Multumesc mult de link, Ucin! (si autorului anonim al acestor tutoriale)
Sunt acolo trei tutoriale foarte bune (in romana) unul despre SK, iar celelalte doua despre compresia djvu
Ele imi par extrem de ingrijit concepute, cu explicatii detaliate si numeroase capturi de ecran, deci ceva numai bun pentru incepatori si nu numai (la ultimul am gasit cateva idei utile si pentru mine). Am urmarit mai atent tutorialul SK. Eu zic ca principiile de baza sunt bine prezentate si personal mi-ar fi (mult) mai comod doar sa adaug unele lucruri care lipsesc de acolo.
Cea mai importanta omisiune mi se pare cea referitoare la modul de lucru "draft kromsake", adica modul complet automat
de dispunere a "cutitelor". E drept ca versiunile anterioare lui 5.93 acest mod de lucru nu era prea bine implementat si erau cam multe erori, dar la 5.93 rezultatele imi par foarte bune. S-ar mai putea adauga de asemenea niste idei la post procesare si
la modurile "gray enhance" si alte cateva lucruri mai mult sau mai putin minore.

Ideea e ca, totusi,  Scan Tailor este per ansamblu mai usor de folosit si invatat. Eu am apucat sa ma obisnuiesc cu Scan Kromsator si probabil voi ramane mai mult sau mai putin fidel acestuia, dar pentru ceilalti membri ai forumului as recomanda totusi in primul rand Scan Tailor, urmand ca SK sa fie folosit doar in situatii speciale
Ideal ar fi ca autorul acestor tutoriale sa gaseasca acest forum si eventual sa vina cu unele idei si explicatii suplimentare.


pus acum 13 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Sînt de acord cu tine că ScanTailor este mult mai „comod”.
Totuși aș fi preferat să aibă mai multe opțiuni, de exemplu să poți selecta paginile pare
sau pe cele impare, toate odată și să le prelucrezi diferit.
De asemenea să poţi seta dimensiunea paginii output la un format standard, de exemplu
A4 sau A5, ceea ce se poate face cu Scan Kromsator.
Sper ca aceste lucruri să fie implementate la versiunile următoare, deşi pe site-ul
dezvoltatorului se spune că deocamdată din lipsă de fonduri, proiectul a fost oprit.
Cred că folosirea alternată a celor 2 programe, este cea mai bună soluţie.

Modificat de uciN (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Tutorialul Scan Tailor, în format pdf se poate downloada:
            [ST] Iniţiere în utilizarea Scan Tailor [V1.0].pdf 
           

***
    Avem deja o completare la tutorialul Iniţiere în utilizarea Scan Tailor
    Această completarea a fost editată şi îi aparţine în totalitate lui uciN.
    Tot respectul şi mulţumiri pentru uciN.

    Tutorialul, în format pdf se poate downloada de pe megaupload.

            Completare Scan Tailor.pdf 
           


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 14 ani
(Urmare a unei solicitari de pe forum)
Conversia djvu -> pdf e foarte usor de realizat, din cauza asta nu e nevoie ca langa un djvu sa existe o varianta in mult mai raspanditul format pdf.

Se foloseste DjVuToy (din ultimul link pus de verbatim in prima postare din topic. Setarile uzuale se gasesc in imaginea atasata.

djvu pdf-jbig2 (urmare unei solicitari djvu -> pdf foarte usor realizat, din cauza asta nevoie

30.7KB


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 14 ani
O propunere de clasificare a djvu-urilor dupa calitatea cartii-sursa, impreuna cu sugestii de prelucrare aplicabile cartilor de beletristica fara grafica.

Pentru toate categoriile de mai jos sunt valabile:
— Scanare text la 300 dpi grayscale.
— Scanare coperte la 200 dpi color.
— Paginile scanate au randurile drepte.
— Intreg textul este lizibil.
— Paginatia DjVu-ului respecta originalul (eventual se inlatura o pagina alba de la inceput pentru a face loc primei coperte).

                            cal. Foarte buna               cal. Buna
Hartie                  alba, fara defecte                uniforma, fara defecte
Litere                  foarte clar conturate             bine conturate, uneori cu cerneala in exces
Contrast              foarte bun                           foarte bun sau bun
Aplicatie             SK                                      SK sau ST
Output                 600 dpi B&W                       600 sau 300 dpi B&W
Setari SK*           Binarization – Low Dark        Binarization – Low Dark sau Medium Dark
Setari ST*            –                                       eventual Thinner si Despeckle mai mare
Postprocesare    stergere punctulete negre     stergere puncte sau pete de pe margini
Se citeste pe       eReader, PC, listat               eReader, PC, listat


                            cal. Medie                                                    cal. Slaba
Hartie                  neuniforma, cu defecte                                   neuniforma, cu defecte
Litere                  bine definite, de obicei cu cerneala in exces      slab conturate, cu parti lipsa
Contrast              bun sau slab                                                  slab
Aplicatie             ST                                                                 ST
Output                 300 dpi grayscale                                           300 dpi grayscale
Setari ST             White margins, Equalize Illumination                 White margins, Equalize Illumination
Se citeste pe       PC, listat                                                        PC, listat


* SK = ScanKromsator; ST = Scan Tailor

— Notarea djvu-ului obtinut:
    – DjVu & OCR & Bkm = djvu cu layer OCR si cu cuprins;
    – DjVu & OCR = djvu cu layer OCR;
    – DjVu & Bkm = djvu cu cuprins.

Orice sugestie pentru completarea sau modificarea matricei este binevenita.

Modificat de Aleph (acum 11 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Interesantă clasificare, totuşi ar fi de preferat să prezinţi aceeaşi pagină în
cele 4 variante de calitate. În felul acesta comparaţia ar fi mai comod de făcut.
Chiar şi aşa, se văd destul de clar diferenţele.


pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 14 ani
Calitatea djvu-ului depinde de starea cartii-sursa, nu de metoda de prelucrare. Bine ca mi-ai atras atentia, fiindca nu se intelegea din ceea ce scrisesem. Am modificat prima fraza in sensul asta. Ideea e ca nu am cum sa exemplific cu aceeasi pagina, iti dai seama de ce.

Modificat de Aleph (acum 10 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
nichipercea
Pe lista neagra

Inregistrat: acum 13 ani
Am facut si eu teste, intr-adevat este mult mai avantajos decat alte formate.
Am si eu o problema, la margini, fie imi lasa marginile prea mari (cand bifez a treia casuta si aranjez la centru), fie cand aranjez eu marginele cu casuta nebifata imi ies paginile de marime diferita. Cum pot rezolva aceasta problema?
Multumesc anticipat.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
@nichipercea,
      Pe care dintre procesoarele de imagini le foloseşti?
      Menţionez că la Kromsator nu mă pricep deloc, dar în materie de Scan Tailor mă consider cu oarece experienţă.
      Dacă e vorba de Scan Tailor, bănuiesc că ar trebui să insişti la corectarea manuală a suprafeţei utile [suprafaţa ocupată de text]; prin procesarea automată, mai ales la cărţile vechi, Scan Tailor consideră în mod eronat că suprafaţa utilă este mai mare, incluzând de multe ori în această suprafaţă pete şi puncte din exteriorul perimetrului textului.
      Practic, eu consum cam 75% din timpul de procesare cu corectarea manuală a suprafeţei utile a paginii.
      Astept detalii, eventual pe MP.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
nichipercea
Pe lista neagra

Inregistrat: acum 13 ani
Va multumesc mult stimate domn.
Mi-am permis sa va deranjez cu un mesaj privat.


pus acum 13 ani
   
margaritar
Membru Junior

Din: de la munte
Inregistrat: acum 10 ani
O rugaminte, va rog

Ce program sa folosesc pentru a transforma din pdf in djvu ?

Am descoperit aici pe forum DjVu si am gasit 2 programe pe care le folosesc pentru citire - DjVuLibre DjView 4.8 (DjVuLibre-DjView-3.5.24-4.8-Setup) si pentru transformare - DjVu Solo 3.1 (DjVuSolo3.1-noncom) am descoperit ca pot sa salvez si in pdf, etc.

Mi-am scanat o parte din biblioteca (1996-2017) multe, multe carti  majoritatea in format png pe care  din 2000 le-am transformat in pdf, cu ajutorul PDFCreator, ABBYY FineReader10, din Office,  transformari a extensilor si cu AdobePhotoshop 7.0, etc. multa munca

Am avut un mic accident cu hard disk extern pe care il foloseam ca si subdirector al laptopului a trebuit sa salvez 400 G pe un alt hard disc extern
                  unele pdf nu le-am mai putut salva, nu multe, dar ...  cum cartile le-am desfacut ... nu le mai am

Pentru a ma asigura ca un alt incident nu ma va lasa fara biblioteca vreau sa le transform si in djvu

Mutumesc anticipat
          si pentru rabdarea de a citi


pus acum 7 ani
   
sorin61
Membru Junior

Inregistrat: acum 14 ani
Asta daca nu vrei sa faci conversia online, gasesti multe site-uri.

pus acum 7 ani
   
corall
Membru Gold

Inregistrat: acum 17 ani
Chiar si ABBY poate salva in DjVu.

SAVE -> SAVE IN OTHER FORMATS -> SAVE AS TYPE = de aici defilezi in jos in menu si ai DjVu DOCUMENT
Acesta iti salveaza imaginile scanate direct in format DjVu.

Poti incarca si fisierele PDF  in ABBY si salva in DjVu.


pus acum 7 ani
   
margaritar
Membru Junior

Din: de la munte
Inregistrat: acum 10 ani

sorin61 a scris:

Asta daca nu vrei sa faci conversia online, gasesti multe site-uri.


Multumesc mult
Acest program il doream
Nu are un setup pentru al instala, lucreaza in DOS    PdfToDjvuGUI Win32 25



corall a scris:

Chiar si ABBY poate salva in DjVu.
Poti incarca si fisierele PDF  in ABBY si salva in DjVu.


Salvam DjVu cu ABBYY in pdf, am sa verific si salvarea in DjVu
Multumesc mult



O zi placuta va doresc!


pus acum 7 ani
   
margaritar
Membru Junior

Din: de la munte
Inregistrat: acum 10 ani
Sunt foarte incantata de  Pdf To Djvu GUI  multe multumiri

am transformat multe, multe pdf in djvu, asa am descoperit si cele care s-au stricat si nu mai pot fi salvate

am desfacut o carte de 1085 pag din care am salvat numai 875 pe care le-am pus si le-a transformat dintr-o singura comanda in mai multe djvu

sunt linistita ca munca de ani de zile este salvata - in pdf si djvu

nu credeam ca pdf se pot strica, multe pagini devenind albe


pus acum 7 ani
   
tuf
Vizitator



Poate ai probleme cu HDD-ul si ai datele corupte.
PDF-ul nu are cum sa se strice. In cel mai rau caz e citit gresit de programul cu care il deschizi.


pus acum 7 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Cred că ar fi necesară o discuţie mai pe larg despre probleme astea.
     
     În legătură cu PDF-urile corupte sunt două aspecte:
     1. Mai întâi, la marea majoritate a PDF-urilor la care apare mesajul „PDF-ul nu se poate deschide, este corupt”, acest mesaj este parţial fals. Nu PDF-ul este corupt, ci vizualizatorul de PDF nu înţelege tot sistemul de codare.
     Adobe Reader este specialist în astfel de mesaje. El înţelege PDF-urile realizate cu pachetele Adobe, dar dă greş la multe alte PDF-uri realizate cu alte softuri sau imprimante virtuale.
     Pentru vizualizarea şi prelucrarea PDF-urilor, eu folosesc PDF-XChange Viewer de la tracker-software.
     Multe PDF pe care Adobe nu le vede şi le crede corupte, sunt vizualizate perfect de PDF-XChange Viewer.
     Nu e momentul acum să detaliez avantajele PDF-XChange Viewer; le-am scris undeva aici pe forum.
     2. Când un vizualizator PDF „vede” pagini albe în loc de text, nu înseamnă că paginile alea sunt cu adevărat goale. Dintr-un motiv sau altul pot apărea pagini complet albe [goale] sau parţial text, parţial zonă albă. Unele imagini de coperte apar ca şi când s-a vărsat apă peste o pictură în acuarelă şi s-au amestecat culorile. În 99% dintre cazuri este vorba tot de o eroare de interpretare a codurilor.
     Astfel de probleme se rezolvă destul de simplu în majoritatea cazurilor astfel: se încarcă respectivul PDF în Abbyy [unde se vor vedea toate paginile corect şi complete] şi se salvează într-un nou PDF care va fi vizualizat corect.
     
     Să revenim la PDF şi DjVu
     Nu cred că unul este mai bun şi mai sigur decât celălalt. PDF-ul este folosit de mai mult timp şi eficienţa sa este verificată şi paraverificată, iar DjVu este de dată mai recentă şi are – de regulă - o rată de compresie mai mare, fişierele rezultate fiind mai mici.
     Mie mi se pare că chestia asta cu fişiere cât mai mici este mai mult o modă decât o necesitate, deoarece dispunem de HDD-uri din ce în ce mai mari. Cred că e doar o chestie de modă, aşa cum a fost moda telefoanelor mobile. Iniţial au apărut „cărămizile”, apoi era cool să ai un telefon cât mai mic cu putinţă; moda a trecut, iar acum este cool să ai un telefon cât o ţiglă de Jimbolia.
     
     Dar să revenim la fişiere DjVu şi PDF.
     Este la modă să avem fişiere cât mai mici, deşi HDD-urile din ziua de azi sunt imense. Păi trebuie să fim conştienţi că cu cât un fişier este mai mic, cu atât va conţine mai puţine informaţii.
     Pe de altă parte se pune întrebarea ce dorim să facem cu fişierul [PDF/DjVu] respectiv? Dacă vrem doar să-l folosim pentru confruntarea OCR-ului pe timpul corecturii este suficient şi un fişier mic, dar nu totdeauna. Dacă dorim ca din acest fişier să extragem un OCR pe care apoi să-l corectăm lucrurile se schimbă şi un fişier de 1-2 Mb s-ar putea să fie complet inutil.
     
     De ce fişiere gray/color şi nu AN [alb-negru]?
     O imagine color are mii de nuanţe şi se pot deosebi detalii pe zone de imagine de aceeaşi culoare dar de nuanţe diferite.
     O imagine grayscale are cel puţin 16 nuanţe de gri, dar de cele mai multe ori cca 48.
     Imaginaţi-vă imaginea scanată a unei pagini dintr-o carte care nu se deschide bine. În zona cotorului imaginea este întunecată: într-o imagine gray/color se vor observa detaliile, adică se poate citi textul chiar dacă toată zona cotorului este mai întunecată.
     Dar într-o imagine AN [alb-negru]? Păi toate informaţiile se reduc la două valori: este informaţie [culoare] = negru sau nu este informaţie [culoare] = alb. Toate detaliile mai delicate din zona cotorului cărţii prost scanate se duc pe apa sâmbetei, iar noi vom avea o imagine cu text ilizibil. Da, dar avem un fişier mic; bine, bine! Şi la ce ne foloseşte?
     Nu neg că există tehnologie de scanare avansată care poate face o scanare în alb-negru de înaltă calitate, dar nu e cazul scanerelor noastre personale.
     Soluţia este ca de regulă să păstrăm salvate fişiere gray/color, şi doar în cazuri de scanare perfectă să salvăm în AN.
     
     Pe de altă parte lucrurile au evoluat şi la acest moment se pot obţine cu ABBYY fişiere gray/color PDF sau DjVu destul de mici… de câţiva MB. Nu vom avea un DjVu AN ne-Searchable de 1,5 Mb ca cel obţinut cu DjVuToy, dar putem obţine cu ABBYY un PDF gray Searchable de 5-6 Mb, în care imaginea literelor este la rezoluţie maximă şi conţine şi substratul OCR, astfel că oricând poate fi încărcat în Abbyy şi se extrage OCR-ul ca din scanarea iniţială.
     
     Am menţionat aici despre fişierul PD3. Este vorba de un PDF gray Searchable în care există următoarele straturi:
          – primul strat este imaginea literelor din pagină – care rămâne la rezoluţia iniţială.
          – al doilea strat este imaginea fundalului paginii, adică a texturii hârtiei – la acest PDF rezoluţia de fundal este condensată foarte tare, de unde rezultă şi mărimea mică a fişierului;
          – al treilea strat, care nu se vede deşi există este stratul OCR, astfel că putem extrage fragment de text OCR direct din PDF.
     
     De ce-l numesc eu PD3? Pentru că este un fişier PDF şi nu unul PDF/A, iar pentru obţinerea lui se setează o opţiune care are numărul 3; vedeţi detalii în postarea mai sus menţionată.
     Fac o comparaţie, care poate părea aiurea. Exisă un material textil… cu multe găurele… care se numeşte… a, da, mi-am amintit: dantelă.
     Hai să luăm ca exemplu o rochie din dantelă!... Deci rochia din dantelă este comparabilă cu imaginea unei pagini.
     Partea de deasupra a rochiei este dantela, aşa cum în PDF imaginea de deasupra este imaginea literelor, iar sub dantelă se află un alt material mat [o dublură sau cum se spune…], aşa cum în PDF avem aveam imaginea de fundal, adică imaginea texturii hârtiei.
     Practic într-un PD3 se văd foarte bine detaliile dantelei, deci ale literelor, şi mai puţin bine dublura de sub dantelă. Şi dacă-mi permiteţi să merg mai departe cu idioata comparaţie, OCR-ul ar fi corpul fetei îmbrăcată în rochie. Corpul nu se vede [presupunem prin absurd că rochia este lungă şi plină], dar el există chiar dacă nu se vede.

     Concluzie:
     Părerea mea personală: salvaţi PDF + DjVu gray/color cu ABBYY. Acel PD3 de care am făcut vorbire este de multe ori chiar mai mic decât DjVu.
     Şi da: se poate încărca în ABBYY un DjVu pentru a salva mai apoi un PDF, dar şi invers, se poate încărca un PDF şi se poate obţine un DjVu; condiţia este ca PDF-ul, respectiv DjVu iniţial să aibă o rezoluţie decentă. Dacă  este prea comprimat şi redus ca rezoluţie, rezultatul obţinut nu va fi deloc mulţumitor.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani

Seven a scris:

***
     1. Mai întâi, la marea majoritate a PDF-urilor la care apare mesajul „PDF-ul nu se poate deschide, este corupt”, acest mesaj este parţial fals. Nu PDF-ul este corupt, ci vizualizatorul de PDF nu înţelege tot sistemul de codare.
     Adobe Reader este specialist în astfel de mesaje. El înţelege PDF-urile realizate cu pachetele Adobe, dar dă greş la multe alte PDF-uri realizate cu alte softuri sau imprimante virtuale.


Maestre Seven, nu sunt de acord cu cele de mai sus.

Formatul pdf a fost inventat de Adobe. Adobe e "taticul" pdf-urilor - ei l-au creat, si tot ei l-au "crescut" de la o versiune la alta. Mesajele de eroare la deschiderea unor fisiere nu sunt pentru ca Adobe nu intelege fisierele, ci tocmai pentru ca le intelege foarte bine si detecteaza erori in structura interna a pdf-ului care pot fi brese de securitate.
Fisierele pdf pot fi virusate, iar modul de activare a virusilor depinde in mare parte de cat de "vigilent" e softul care deschide pdf-urile.
Nu e neaparat un lucru bun ca un anumit soft deschide orice pdf.
Pe de alta parte nu orice fisier care nu e deschis de Adobe este virusat. Una din cauzele pentru care Adobe nu le deschide e ca producatorul softului care a creat PDF-ul a ales sa nu respecte 100% standardul PDF. Unele softuri (incluzand versiuni mai vechi ale adobe reader) tolereaza abaterile astea, altele le verifica si nu deschid fisiere respective (din considerente de securitate).
Exemplu:
https://helpx.adobe.com/acrobat/kb/pdf- ... pdate.html


pus acum 7 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      O!... Salutare, domnu' A!   
      Mă bucur foarte tare să te văd!... şi-mi cer şi scuze pentru că eu sunt cel care a rămas dator... cu corespondenţa.

      Sunt întru totul de acord să nu fii de acord cu mine. Şi-mi cer scuze că am făcut mai mult literatură decât informare corectă.
      Una peste alta, eu n-aş risca să renunţ la nişte PDF prin convertirea cu DjVuToy... şi am vrut doar să trag un semnal de alarmă.
      Dacă nici cu chestia asta nu eşti de acord, atunci te rog să spui. Şi dacă va fi aşa, atunci am o mare problemă...

      Toată stima şi să auzim numai de bine!

      Seven


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani
   
Pagini: 1  

Mergi la