Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Profil Angelina20
Femeie
22 ani
Cluj
cauta Barbat
24 - 55 ani
Forum Romania Inedit / Totul despre cărți - About e-books / Din nou despre Pdf sau Djvue cu OCR Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini: 1
nullscripts
Membru Puf

Inregistrat: acum 6 ani
Salutare,

Stau cam de vreo 3-4 zile pe forumul acesta si ma tot informez despre cum sa-mi imbunatățesc metoda de prelucrare a carilor pe care le scanez si m-am gindit sa va cer putin ajutorul.

Ca sa nu ne incurcam in raspunsuri, am sa notez niste intrebari si m-as bucura ca in raspunsul pe care il incudeti sa aiba si numarul. Sa va fac un mic sumar a cum scanez si cam ceea ce fac dupa si va rog sa interveniti pe puncte unde gresesc sau unde as putea sa imbunatatesc.

1. Scanarea o fac cu un scaner vechi si VuesScan 600 dpi sau 300 dpi. VueScan are un mod TEXT (un fel de alb si negru in care imi curata el foaia alba) si modul gray (Make Grey from: Auto / 8/16 bit). Nu vorbesc de color ca nu sint interesat deocamdata.

2. Dupa ce scanez bag tif-urile in ScanKromsator 6.0 si le tai. Outputul il pun la BW (300 sau 600 dpi). Am folosit ani de-a rindul ScanTailor si mi se pare ca se misca mai greoi decit Scankromsator

3. Apoi - asta am invatat de la voi - convertesc tifurile in djvue (eu inainte luam tifurile si le bagam din Abbyy 12 ptr ocr.)

4. Bag fisierul Djvue in Abbyy si dupa ce imi face recunoasterea ii dau Save as PDF (Exact copy).

=======

Acu partea cu intrebarile mele

========

la punctul 1 - Sa scanez numai in Gray sau sa folosesc si modul ala text? Cred ca acolo e o scanare in BW (imi prelucreaza outputul automat Vue Scan.) Daca folosesc modul TEXT fisierul e mic, citiva kb. Daca scanez in Gray Auto, o pagina are in jur de 11 MB la 300 dpi

Punctul 2. - Am  descarcat de la voi Calinescu Istoria Literaturii...si Manolescu - Istoria Literaturii. Literele sint negre-negre si rotunjite, iar pagina este alba-alba. Ale mele litere sint asa cum sint scanate la 300 sau 600 dpi: adica se vad zimtate daca fac Zoom. Pe cartile mentionare nu era zimtat nici la un zoom enorm. Cum sa fac asta?

la punctul 4 -
a. Exista o metoda (poate e fantezista)  sa ai textul OCR intr-un plain text sa-l lucrezi si apoi sa-l inserezi si sa-l aliniezi pe PDF-ul final? Sau merg cu train ocr si bibilesc in ABBYY?

b. E bine acel Exact Copy?


Multumesc mult pentru ajutor si felicitari pentru munca voastra si pentru forum!


Modificat de nullscripts (acum 6 ani)


pus acum 6 ani
   
ndodo
MEMBRU VIP

Inregistrat: acum 15 ani
Salut!
Bine ai venit pe forum.

Lung şi la obiect :

1. Dacă scanezi informativ iar cartea este relativ nouă(informativ - cataloage, manuale tehnice etc.; relativ nouă - scris negru fără artefacte pe lāngă litere pe o hārtie albă fără defecte)poţi scana direct īn B/W.
Dacă doreşti să prelucrezi textul şi să-l aduci īn format doc cu corectările de rigoare, scanezi gray sau color la minim 300 dpi(la 600 dpi rezultă un monstru de scan de 10-15G).
2. Spre desebire de tine eu folosesc "bătrānul" ScanTailor versiunea 0.9. Dacă salvezi rezultatul īn B/W vei pierde o parte din calitate. Eu de obicei cānd prelucrez salvez īn Gray/Color 300 dpi. Din tiff-urile rezultate scot un djvu şi un pdf. Dacă imagine este foarte bună(vezi punctul 1) prelucrez din ScanTailor la B/W si din rezultat mai trag un djvu. Toate acestea sunt versiuni de "scan control"(se folosesc la comparare atunci cānd lucrezi pe un doc/docx - OCR brut pe care vrei să-l aduci la V1.0). Pentru OCR īn ABBYY detaliez la punctul 4.
Răspuns - nu cunosc cartea pe care ai luat-o de pe forum dar după cum o descrii este vorba de un fişier doc prelucrat după un OCR, salvat (de la Word 10 īn sus ai acestă opţiune) īn pdf. Īn acest caz nefiind vorba de o "poză" a literei, caracterul este generat electronic iar artefactele lipsesc chiar la mărire.
3. Vezi punctul 2
4. Aici avem ceva mai multe de spus:
Fişierele djvu sunt prin definiţie mult mai comprimate decāt cele pdf, fiind foloside, cu precădere, drept scan control. Nu văd rostul introducerii unui fişier "sărac" īn informaţii īn ABBYY pentru a-l prelucra cānd ai la dispoziţie un scan mult mai "bogat". De regulă īn ABBYY se introduc scanurile brute, fară nicio prelucrare, sau īn cazuri speciale(cărţi vechi, īngălbenite, cu multe defecte īn hārtie) prelucrat cu ScanTailor(īn cazul meu) şi salvat Grey/Color la 300dpi sau chiar 600dpi(deşi rezultă un fişier monstru de cāţiva giga, la introducere īn ABBYY, pentru OCR, se pot obţine cu 10-15% mai puţine erori de recunoaştere - repet - doar pentru cărţi vechi - pentru cărţi mai noi e o totală pierdere de timp).
Răspuns:
a. Metoda nu e fantezistă e doar "muncitorească":
după ce scoţi un OCR din cartea dorită (eu prefer "Plain text" deşi trebuie să fiu atent la Italice, Bold, Note de subsol sau de sfārşit - īn comparaţie pot aranja cartea cartea aşa cum doresc, eu preferānd formatul iniţial al cărţii) īţi aranjezi formatul paginii, fontul, paragraful etc., īn aşa fel īncāt să rezulte o copie fidelă a documentului. Munceşti de zor citind efectiv cartea  corectānd-o şi comparānd-o permanent cu un Scan control (personal eu īmpart ecranul īn două - īn stānga am Scan control-ul iar īn dreapta doc-ul pe care lucrez) pe care l-ai obţinut ca īn descrierile de la punctul 2(de obicei folosesc un scan control djvu B/W şi mai consult atunci cānd am neclarităţi pdf-ul Gray/color). Īn final(după cāteva zile, săptămāni, luni) obţii un doc/docx identic cu cartea scanată pe care īl poţi salva şi ca pdf din Word(mai mare sau egal cu 10) sau folosind un program mai mult sau mai puţin gratuit de pe net.
b. Vezi punctul a.

Sper că am fost de folos

Toate cele bune

     

Modificat de ndodo (acum 6 ani)


_______________________________________
Vlad Muşatescu | Cezar Petrescu | Maxim Gorki | Mircea Sāntimbreanu | Ionel Teodoreanu | Alina Nour | Ion Agārbiceanu | Mark Twain | H. G. Wells | Alan Dean Foster
Almanahuri Perpetuum Comic(Urzica) | Almanahuri vechi (pānă īn 1990) | Almanahuri Anticipaţia | Reviste SF | Biografii şi Autobiografii | Istorie şi Politică

pus acum 6 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani

ndodo a scris:

Salut!
Bine ai venit pe forum.

Lung şi la obiect :

1. Dacă scanezi informativ iar cartea este relativ nouă(informativ - cataloage, manuale tehnice etc.; relativ nouă - scris negru fără artefacte pe lāngă litere pe o hārtie albă fără defecte)poţi scana direct īn B/W.
Dacă doreşti să prelucrezi textul şi să-l aduci īn format doc cu corectările de rigoare, scanezi gray sau color la minim 300 dpi(la 600 dpi rezultă un monstru de scan de 10-15G).
2. Spre desebire de tine eu folosesc "bătrānul" ScanTailor versiunea 0.9. Dacă salvezi rezultatul īn B/W vei pierde o parte din calitate. Eu de obicei cānd prelucrez salvez īn Gray/Color 300 dpi. Din tiff-urile rezultate scot un djvu şi un pdf. Dacă imagine este foarte bună(vezi punctul 1) prelucrez din ScanTailor la B/W si din rezultat mai trag un djvu. Toate acestea sunt versiuni de "scan control"(se folosesc la comparare atunci cānd lucrezi pe un doc/docx - OCR brut pe care vrei să-l aduci la V1.0). Pentru OCR īn ABBYY detaliez la punctul 4.
Răspuns - nu cunosc cartea pe care ai luat-o de pe forum dar după cum o descrii este vorba de un fişier doc prelucrat după un OCR, salvat (de la Word 10 īn sus ai acestă opţiune) īn pdf. Īn acest caz nefiind vorba de o "poză" a literei, caracterul este generat electronic iar artefactele lipsesc chiar la mărire.
3. Vezi punctul 2
4. Aici avem ceva mai multe de spus:
Fişierele djvu sunt prin definiţie mult mai comprimate decāt cele pdf, fiind foloside, cu precădere, drept scan control. Nu văd rostul introducerii unui fişier "sărac" īn informaţii īn ABBYY pentru a-l prelucra cānd ai la dispoziţie un scan mult mai "bogat". De regulă īn ABBYY se introduc scanurile brute, fară nicio prelucrare, sau īn cazuri speciale(cărţi vechi, īngălbenite, cu multe defecte īn hārtie) prelucrat cu ScanTailor(īn cazul meu) şi salvat Grey/Color la 300dpi sau chiar 600dpi(deşi rezultă un fişier monstru de cāţiva giga, la introducere īn ABBYY, pentru OCR, se pot obţine cu 10-15% mai puţine erori de recunoaştere - repet - doar pentru cărţi vechi - pentru cărţi mai noi e o totală pierdere de timp).
Răspuns:
a. Metoda nu e fantezistă e doar "muncitorească":
după ce scoţi un OCR din cartea dorită (eu prefer "Plain text" deşi trebuie să fiu atent la Italice, Bold, Note de subsol sau de sfārşit - īn comparaţie pot aranja cartea cartea aşa cum doresc, eu preferānd formatul iniţial al cărţii) īţi aranjezi formatul paginii, fontul, paragraful etc., īn aşa fel īncāt să rezulte o copie fidelă a documentului. Munceşti de zor citind efectiv cartea  corectānd-o şi comparānd-o permanent cu un Scan control (personal eu īmpart ecranul īn două - īn stānga am Scan control-ul iar īn dreapta doc-ul pe care lucrez) pe care l-ai obţinut ca īn descrierile de la punctul 2(de obicei folosesc un scan control djvu B/W şi mai consult atunci cānd am neclarităţi pdf-ul Gray/color). Īn final(după cāteva zile, săptămāni, luni) obţii un doc/docx identic cu cartea scanată pe care īl poţi salva şi ca pdf din Word(mai mare sau egal cu 10) sau folosind un program mai mult sau mai puţin gratuit de pe net.
b. Vezi punctul a.

Sper că am fost de folos

Toate cele bune

     


Multumesc mult de informaţii si de ajutor!

Cartile pe care le fac eu nu vreau sa fie extrem de lucrate, ci bune fara a avea pretentia de a fie foarte bune.

Uite o carte pe care am facut-o eu, fara a avea pretentia de perfectiune. Pentru mine e facuta bine si daca se intimpla ceva cu cartea (cum de altfel s-a intimplat la scanare ca s-a desprins toata pentru ca era lipita prost), pot oricind sa o printez si sa leg foile



Acela este un tip de carte mai vechi

Mai jos e o carte cu foi mai bune si care e in lucru. Scanat la 300 DPI Gray Auto, lucrata in ScanKromsator (taiat, curatata etc), outputul facut upsampling la 600dpi BW, apoi bagat in Djvue Small, iar djvue rezultat bagat in Abbyy ptr OCR, apoi salvat ca PDF exact copy




Lasa-mi o impresie, te rog, despre cum lucrez.

Eu am nevoie mai mult de pdf-uri pentru ca scriu articole stiintifice (doctorat) si folosesc programul CITAVI care nu stie sa vada decit .doc, .txt, .pdf.


In alta ordine de idei as vrea sa te intreb ceva. Cind fac OCR cu Abbyy am observat ca dacriticele sint in forma Legacy. In Adobe Acrobat nu e o problema asta la cautarea de cuvine, dar in programul in care lucrez eu, CITAVI, cautarea e foarte strictă (limitarile programului), prin urmare daca caut un cuvint cu diacritice Standard nu-l vede programul. Trebuie sa-l caut cu diacriticile Legacy ca asa mi le salveaza ABBYY.
Stii cumva cum sa-l fac pe ABBYY ca atunci cind face OCR sa imi puna diacriticele pe standard? Am incercat Training cu ABBYY si cind am pus o diacritica standard mi-a spus ca nu exista in baza de date a programului asemenea limbaj...



Merci mult!

Modificat de nullscripts (acum 6 ani)


pus acum 6 ani
   
ndodo
MEMBRU VIP

Inregistrat: acum 15 ani
Salut!

Carţile făcute de tine sunt(din punctul meu de vedere) scan control-uri bune spre foarte bune. Le pot denumi şi documente informative(se pot citi foarte bine şi aşa). Dacă, īnsă, vrei să scoţi un document text se schimbă situaţia, ABBYY afişānd erori destul de multe la OCR.
Īn altă ordine de idei nu īnţeleg linia de prelucrare pe care o foloseşti. Ar fi mult mai simplu să procedezi astfel:
Scanare gray, prelucrare ScanTailor sau Kromsator, apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.
Dacă totuşi doreşti să ai şi un fişier djvu īl poţi face, apoi cu Djvu Toy(soft gratuit - se găseşte pe net) īl poţi transforma direct īn pdf.
Eu folosesc ABBYY exclusiv pentru a obţine fişiere text din scanuri brute sau uşor prelucrate. Pentru asta folosesc o versiune mai veche - ABBYY 10(cu asta m-am obişnuit şi nu schimb ce funcţionează bine).
Cu diacriticile nu am avut probleme fiind salvate (īn document doc compatibil Word 97-2003 - probabil de aici i se trage) numai īn format Standard.

Toate cele bune

   

Modificat de ndodo (acum 6 ani)


_______________________________________
Vlad Muşatescu | Cezar Petrescu | Maxim Gorki | Mircea Sāntimbreanu | Ionel Teodoreanu | Alina Nour | Ion Agārbiceanu | Mark Twain | H. G. Wells | Alan Dean Foster
Almanahuri Perpetuum Comic(Urzica) | Almanahuri vechi (pānă īn 1990) | Almanahuri Anticipaţia | Reviste SF | Biografii şi Autobiografii | Istorie şi Politică

pus acum 6 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani

ndodo a scris:

Salut!

Īn altă ordine de idei nu īnţeleg linia de prelucrare pe care o foloseşti. Ar fi mult mai simplu să procedezi astfel:
Scanare gray, prelucrare ScanTailor sau Kromsator, apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.



Salutare,

Am vazut ca daca iau outputul si il bag in Djvue Small imi iese un fisier mult mai mic, pe care il incarc in Abby => djvue mic dar si pdf mic la salvare. Daca bag outputul direct in Abbyy imi iese un pdf foarte mare. Primul link pe care l-am pus: cartea are 10 MB. initial avea 17 MB (output in abby+ ocr+save as pdf). Trecind-o prin djvue small am redus dimensiunea pdf-ului.



apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.



Cind spui eventual searcheable, tu zici de fapt sa nu mai fac recunoastere de text in ABBYY (pentru ce am eu nevoie) ci sa o fac din Acrobat? Are Acrobat aceeasi rata de recunoastere ca si Abbyy? Eu am nevoie obligatoriu de pdf-uri searchable, nu la modul exact, dar nici sa fie nasol textul, adica dintr-o fraza de 20 de cuvinte sa ma apuc sa schimb 10, ci macar 4-5 cuvinte din 20 sa schimb eventual



Numai de bine! 

Modificat de nullscripts (acum 6 ani)


pus acum 6 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani
Gata. M-am prins cum erau facute literele alea: Adobe Acrobat -> Recunoastere text cu Clear Scan

Merci mult de tot ajutorul!
Tineti-o tot asa!


pus acum 6 ani
   
Stelevadris
Moderator

Inregistrat: acum 19 ani
Rezultatul final al muncii tale depinde foarte mult de inceput, adica de calitatea scanarii.
Din acest motiv se scaneaza intotdeauna doar gray sau color. Ulterior, poti trece pe BW in ST sau SK, daca doresti.
Textul iese cel mai bine din scanarea bruta.
Totodata, cu cat ai rezultate mai bune, cu atat cresc  sansele ca cineva sa faca un 0.9/1.0 din munca ta.


_______________________________________
Totul despre cărți - About e-books - Tehnici de scanare, sfaturi, proiecte etc. - Support, future projects, etc.

pus acum 6 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
salutare!

litere perfect ROTUNJITE vs. litere cu CONTUR ZIMŢAT

Prin SCAN īnţelegem 3 tipuri de fişiere: imagini individuale de orice tip sau imagini asamblate īn format PDF sau DjVu - dar ideea este că scan īnseamnă şi se bazează pe imagine, iar imaginea trebuie să redea cāt mai bine pagina tipărită.

Există pe net scanuri REALE, dar şi o mulţime de scanuri FALSE.
Dacă īncercăm - să zic aşa - să facem o expertiză tehnică a scanului, atunci unul dintre elementele de control este forma literei: literele imperfecte [cu margini zdrenţuite la zoom mare] īnseamnă scan real, iar litera perfectă īnseamnă că īn spatele fişierului stă un OCR sau o prelucrare de tip OCR.
Dacă īn scan găsim şi diferite defecte de tipar [mici pete, elemente din textura hārtiei...] scanul este real.
Dacă scanul este īn nuanţe de gray, cu atāt mai uşor putem recunoaşte şi deosebi un scan real de un fals scan bazat pe un OCR.

Un OCR poate fi mai bun sau mai puţin bun, īn funcţie de softul folosit, dar deocamdată nu există OCR perfect.
Cānd citim ochii noştri fac o recunoaştere optică, dar la asta se adaugă dicţionare de cuvinte din creierul nostru, dicţionare de expresii, topica şi logica frazei, capacitatea creierului de a descoperi cuvāntele corecte din spatele unor cuvinte greşite, mai ales paronime.... etc. etc.

OCR-ul realizat de un soft se bazează pe recunoaşterea optică a unui caracter şi un dicţionar sumar al unei limbi... deci va mai dura mult pānă la un OCR corect 100%.

Am spus toate astea ca să justific de ce un scan cu litere zimţate este pentru mine mult mai important decāt un fişier cu litere perfect rotunjite: pentru că primul este autentic şi redă imaginea perfectă a cărţii tipărite, īn timp ce al doilea - indiferent cāt ar părea de perfect - nu este un scan autentic.

Deci, litera rotunjită nu īnseamnă neapărat un lucru bun.


_______________________________________

     Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 6 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani

Seven a scris:

salutare!

litere perfect ROTUNJITE vs. litere cu CONTUR ZIMŢAT

Prin SCAN īnţelegem 3 tipuri de fişiere: imagini individuale de orice tip sau imagini asamblate īn format PDF sau DjVu - dar ideea este că scan īnseamnă şi se bazează pe imagine, iar imaginea trebuie să redea cāt mai bine pagina tipărită.

Există pe net scanuri REALE, dar şi o mulţime de scanuri FALSE.
Dacă īncercăm - să zic aşa - să facem o expertiză tehnică a scanului, atunci unul dintre elementele de control este forma literei: literele imperfecte [cu margini zdrenţuite la zoom mare] īnseamnă scan real, iar litera perfectă īnseamnă că īn spatele fişierului stă un OCR sau o prelucrare de tip OCR.
Dacă īn scan găsim şi diferite defecte de tipar [mici pete, elemente din textura hārtiei...] scanul este real.
Dacă scanul este īn nuanţe de gray, cu atāt mai uşor putem recunoaşte şi deosebi un scan real de un fals scan bazat pe un OCR.

Un OCR poate fi mai bun sau mai puţin bun, īn funcţie de softul folosit, dar deocamdată nu există OCR perfect.
Cānd citim ochii noştri fac o recunoaştere optică, dar la asta se adaugă dicţionare de cuvinte din creierul nostru, dicţionare de expresii, topica şi logica frazei, capacitatea creierului de a descoperi cuvāntele corecte din spatele unor cuvinte greşite, mai ales paronime.... etc. etc.

OCR-ul realizat de un soft se bazează pe recunoaşterea optică a unui caracter şi un dicţionar sumar al unei limbi... deci va mai dura mult pānă la un OCR corect 100%.

Am spus toate astea ca să justific de ce un scan cu litere zimţate este pentru mine mult mai important decāt un fişier cu litere perfect rotunjite: pentru că primul este autentic şi redă imaginea perfectă a cărţii tipărite, īn timp ce al doilea - indiferent cāt ar părea de perfect - nu este un scan autentic.

Deci, litera rotunjită nu īnseamnă neapărat un lucru bun.


Salut, Seven!

Perfect de acord cu tine. Eu ma gindeam totusi (nefiind expert) la o eventual[ printare a cartii. Cartea pe care am pus-o mai sus ca exemplu s-a deteriorat la scanare pentru ca era veche si lipita (nu avea cotorul si paginile cusute). Ma gindeam ca la un eventual print al ei sa nu apara literele zimtate. Am aflat ulterior ca imprimantele in modul normal printeaza textul la 600 dpi, iar daca le setezi pe modul Best (Fine) printeaza la 1200 dpi deci nu ar fi probleme.

Citind la voi pe forum am vazut ca daca scanez in Gray la 300 dpi si din ScanKromsator fac upscaling la 600 dpi BW este perfect pentru ceea ce am nevoie.


pus acum 6 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Salutare!

      Subiectul acestui topic mi se pare foarte interesant. Noi am mai abordat subiectul īn urmă cu mult timp, dar īntre timp lucrurile s-au mai schimbat... avem altă experienţă şi n-ar strica să ne-o īmpărtăşim.
      Mi-ar plăcea să reluăm discuţia peste 2-3 săptămāni cānd aş putea folosi computerul mai mult timp. Deocamdată sunt īntr-o perioadă de recuperare post-operatorie şi nu pot folosi computerul decāt pentru cāteva minute pe zi.
      Deocamdată aş sublinia/accentua o chestiune amintită de colegul @ndodo şi anume: indiferent de formatul final pe care-l folosim, ar fi bine să păstrăm īn computerul nostru şi o versiune de scan gray/color 300 dpi. la care putem apela dacă va fi necesar.


_______________________________________

     Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 6 ani
   
Stelevadris
Moderator

Inregistrat: acum 19 ani
Se poate scana si pe 600 DPI Gray. La scannerele flatbed din gama de pret 250-300 lei viteza de scanare e aceeasi ca la 300 DPI Gray.
Daca doriti sa retipariti cartea scanata, e cel mai ok asa. Upscale-ul scade calitatea imaginii.
Singurul dezavantaj ar fi faptul ca creste marimea totala a scanarii pe HDD.


_______________________________________
Totul despre cărți - About e-books - Tehnici de scanare, sfaturi, proiecte etc. - Support, future projects, etc.

pus acum 6 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani
Salutare! Mai trăiți? 
E mai bine de un an de cīnd am discutat despre PDF-uri și scan.
Ceva experiențe noi? Niște softuri mai bune?

Am mai căutat cărți pe acest forum, doar ca unele dintre ele sīnt īn format .doc și pe mine nu mă avantajează absolut deloc. Știu că ele pot fi transformate īn pdf și au o mărime mică. Eu aș avea nevoie de niște Pdf-uri, chiar făcute după un doc, dar care să respecte īn īntregime cartea (paginație, antete, note de subsol etc) pentru că eu folosesc pdf-urile īntr-un program academic de citare a respectivelor materiale. Prin urmare pentru mine este foarte important ca paginația să fie fidelă.

Īn altă ordine de idei aș vrea să mai īntreb unele lucruri.

1. Pe net am găsit cărți scanate (pdf-uri) care nu sīnt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, īn acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?

2. Recent am observat un lucru la cartile prelucrate de mine după pdf-uri de pe net sau scanate de mine. După ce le prelucrez (300 sau 600 dpi) și le trec prin Abbyy 12 sau 14, īncarcarea īn Acrobat se face foarte greu. Randează textul cu īncetinitorul. Mai precis, cīnd derulez pdf-ul există (și la thumbnails și pe pagină ) o īntīrziere īn apariția textului (deși cartea are 700 pagini, iar fișierul final este de 7-8 MB). Aveți vreo soluție? Optimizarea PDF și Reduce PDF size din Acrobat nu dau deloc rezultate.

Mulțam fain!

Modificat de nullscripts (acum 5 ani)


pus acum 5 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


      Salut!

       A. Privitor la pdf-urile pe care menționezi că le folosești ca sursă de citare, experiența m-a īnvățat că pdf-urile realizate din imagini scanate [nu cele din formatul .doc] sunt cele mai bune și exacte. Mai ales dacă pdf-urile respective sunt prelucrate corect:
              - scanare corectă din punct de vedere al DPI, al tehnicii de scanare propriu zise
              - prelucrarea scanului rezultat
              - sincronizare numerotare pagini pdf cu numerotare pagini carte. De multe ori prefața, cuvānt īnainte, cuvāntul traducătorului, tabel cronologic și altele sunt numerotate cu cifre romane - I, II, III, IV etc., - apoi urmează numerotarea cu cifre arabe - care īncepe de obicei cu 5 sau 7.
              - realizarea unui bookmark corect
              - realizarea unui layer OCR a textului din pdf - acest OCR nu are acuratețea unui text OCR corectat - dar este foarte util īn a căuta anumite cuvinte

            Sigur ai avea posibilitatea realizării unui pdf dintr-un document text. Dar inevitabil tot iți va trebui un scan pentru a vedea paginația și locul textului īn pagină, va fi foarte greu să respecți paginația originală, va trebui să verifici...., să corectezi....etc. adică multă muncă. 
            Probabil că atunci cānd folosești cartea ca citat te referi la pagina / paginile din carte, dar dacă ai nevoie și de textul respectiv poți face OCR numai la cele cāteva pagini.

       B. Pierderea calității la exportul din pdf....
               - cea mai bună calitate a textului se va regăsi īntotdeauna īn scanarea brută - tiff sai jpg.  Atunci cānd se realizează pdf-uri inevitabil se pierde din calitate, deoarece programele de realizat pdf sunt setate default cu anumite setări, sigur există și varianta setării corecte a creatorului de pdf - Adobe Acrobat sau altul. O metodă de a verifica calitatea pdf-ului obținut este de a compara dimensiunea scanului cu dimensiunea pdf-ului, dacă pdf-ul este mult mai mic atunci SIGUR s-a pierdut din calitate. Dacă TEXTUL din scan este excelent - font spațiat și bine conturat, spațiere mare īntre rānduri, hārtia este curată fără impurități - atunci pierderea calității nu influențează prea mult viitorul OCR.
           
            Un pdf din imagini scanate cu un număr de 400-500 pagini poate fi considerat decent - după experiența mea - dacă are minim 130 - 140 MB!! Din acest pdf se poate obține un OCR bunicel cu condiția să nu aibă multe note de subsol.

        C. Īncărcare greoaie...
            Cauze:
              - posibil pc-ul merge greu: multe aplicații deschise, browser deschis, internet deschis
              - memorie RAM insuficientă sau īncărcată. Poți folosi pentru curățare CCleaner - va mai curăța cāte ceva.

              Dacă persistă problema pune fișierul pe aici să vedem dacă și la noi face la fel.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         Īn inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 5 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani

BlankCd a scris:

--->


     
        C. Īncărcare greoaie...
            Cauze:
              - posibil pc-ul merge greu: multe aplicații deschise, browser deschis, internet deschis
              - memorie RAM insuficientă sau īncărcată. Poți folosi pentru curățare CCleaner - va mai curăța cāte ceva.

              Dacă persistă problema pune fișierul pe aici să vedem dacă și la noi face la fel.


Am 8 GB de ram. Laptopul merge bine.

uite aici cartea.


Deschide-o  si activeaza thumbnailurile (paginile in miniatura) si deruleaza fie miniaturile, fie pagina mare in document si spune-mi daca se incarca instant. Merci

Modificat de nullscripts (acum 5 ani)


pus acum 5 ani
   
cuculean
Moderator

Inregistrat: acum 15 ani
Nu pare a fi nici o problema... paginile apar instant.

pus acum 5 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


      Salut!

       Și la mine merge perfect, nu are niciun fel de delay, răspunde instantaneu la tot ce īi cer, totul este ok.
       Pdf-ul este bine lucrat, īmi place. 
       


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         Īn inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 5 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani
.... Ce naiba... inseamna ca am eu o problema cu win?

pus acum 5 ani
   
cuculean
Moderator

Inregistrat: acum 15 ani
Posibil... nu ai delay pe alte aplicatii??
Cand deschizi pdf-ul urmareste in Task Manager cum se comporta ram-ul, procesorul si placa video.
Poti sa faci si un test de HDD.


pus acum 5 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Staţi oleacă!... n-am īnţeles eu bine? sau...

      Eu am īnţeles că @nullscripts zice că la īncărcarea īn ACROBAT are probleme; deci nu era vorba de alte editoare sau vizualizatoare de PDF.
      E drept că nici eu n-am priceput dacă e vorba de ACROBAT ăl mare de se pricepe la toate sau este vorba despre Adobe Reader.

      Eu vizualizez PDF-urile cu PDF-XChange Viever şi īntr-adevăr paginile se īncarcă instant, dar nu am la acest moment instalat Acrobat, aşa că nu ştiu ce se īntāmplă cu el.

      Ar fi două chestii:
          -  prima este că mi s-a īntāmplat şi mi de multe ori ceea ce spune @nullscripts, dar asta doar la prima īncărcare īn editor/vizualizator atunci cānd aveam fişiere foarte mari, mai ales din cele care conţineau imagini.

         - o a doua chestie mai importantă, pe care a explicată o dată pe forum colegul @atari este aceea că Acrobat este mama PDF-urilor şi el are cele mai īnalte standarde la realizarea PDF. Din cauza asta are aceleaşi pretenţii şi la deschiderea unui PDF şi dacă acest PDF este realizat cu un soft care nu respectă toate standardele, atunci face garagaţă la deschiderea unui PDF care nu respectă toate regulile şi uneori e posibil să nici nu-l deschidă.
       Eu gāndesc că asta ar fi una dintre posibilele cauze.


_______________________________________

     Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 5 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani

nullscripts a scris:


1. Pe net am găsit cărți scanate (pdf-uri) care nu sīnt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, īn acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?


Cīnd exportați imaginile din Adobe Acrobat (Save As) pentru prelucrare, fiți atent la setări, nu le lăsați implicite (Defaults):




Modificat de uciN (acum 5 ani)


pus acum 5 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani

uciN a scris:


nullscripts a scris:


1. Pe net am găsit cărți scanate (pdf-uri) care nu sīnt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, īn acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?


Cīnd exportați imaginile din Adobe Acrobat (Save As) pentru prelucrare, fiți atent la setări, nu le lăsați implicite (Defaults):

http://i.imgur.com/WEo6lNt.png
http://i.imgur.com/6gOiavn.png


Merci mult! Eu le salvam in .tiff ca am citit ca tiff-ul e mai bun. Sau cu noile softuri nu mai conteaza?


pus acum 5 ani
   
nullscripts
Membru Puf

Inregistrat: acum 6 ani

Seven a scris:

***
      Staţi oleacă!... n-am īnţeles eu bine? sau...

      Eu am īnţeles că @nullscripts zice că la īncărcarea īn ACROBAT are probleme; deci nu era vorba de alte editoare sau vizualizatoare de PDF.
      E drept că nici eu n-am priceput dacă e vorba de ACROBAT ăl mare de se pricepe la toate sau este vorba despre Adobe Reader.

      Eu vizualizez PDF-urile cu PDF-XChange Viever şi īntr-adevăr paginile se īncarcă instant, dar nu am la acest moment instalat Acrobat, aşa că nu ştiu ce se īntāmplă cu el.

      Ar fi două chestii:
          -  prima este că mi s-a īntāmplat şi mi de multe ori ceea ce spune @nullscripts, dar asta doar la prima īncărcare īn editor/vizualizator atunci cānd aveam fişiere foarte mari, mai ales din cele care conţineau imagini.

         - o a doua chestie mai importantă, pe care a explicată o dată pe forum colegul @atari este aceea că Acrobat este mama PDF-urilor şi el are cele mai īnalte standarde la realizarea PDF. Din cauza asta are aceleaşi pretenţii şi la deschiderea unui PDF şi dacă acest PDF este realizat cu un soft care nu respectă toate standardele, atunci face garagaţă la deschiderea unui PDF care nu respectă toate regulile şi uneori e posibil să nici nu-l deschidă.
       Eu gāndesc că asta ar fi una dintre posibilele cauze.


Da, Seven, eu folosesc Acrobat. Nu ma intreba de ce ) pur si simplu. Am incercat Nitro si Pdf-Xchange dar nu mi-a placut interfata. Am vazut la altii mai mari ca tot Pdf-exchange folosesc. Am sa mai fac o incercare.

In alta ordine de idei am rezolvat problema cu incarcatl greu al paginilor ciar si in Acrobat. O spun aici ca si ceilalti sa aiba un folos.

Pentru cei doritori de solutie treceti direct la punctul 5


1. Ce faceam eu.

Descarcam unele carti de pe internet archive (gata scanate misto, cu OCR pe ele), doar ca eu voiam pagini albe, nu cele originale. Deci deschideam pdf > export tiff > determina automat rezolutia si incepeam sa le lucrez dupa caz fie in scan kromsator sau in Scan Tailor advanced.

2. OCR in Abby din djvu facut cu djvu-small

3. Export ca pdf searchable exact (cu urmatoarele setari: nu se schimba rezolutia, fara prelucrare a imagini etc; uneori daca pagina era prea alba bifam apply MRC)

4. Pdf-ul se incarca greu la cartile de peste 800 pagini , pagina avind scrisul in 2 coloane.

5. Solutia.

ABBYY e de cacao (sau nu stiu eu anumite setari) pentru ca desi recunoaste foarte bine textul el vine cu un neajuns. Ca sa recunoasca atit de bine el introduce diferite fonturi care sa fie cit mai exacte ca in imagine. Si de aici buba. Fonturile randeaza foarte greu.

<u>La Abbyy, cind export, am bifat Use Windows Fonts. Poate ar trebui sa bifez Use Predefined fonts?</u>

Deci am luat acest utilitar si am instalat ghostscript. Am bagat calea ghostscript in utilitar si apoi iau pdf-ul care se incarca greu si il trag peste program. Utilitarul substituie toate fonturile din document cu cele regular, bold, italic. si genereaza la final un alt pdf cu acelasi nume in coada avind mentiunea REPAIRED.

Acum, cartea aia de 800 de pagini, e drept nu mai are 48MB ci 59 dar se incarca instant.


pus acum 5 ani
   
Pagini: 1  

Mergi la