Din nou despre Pdf sau Djvue cu OCR

Forum Romania Inedit
Romania Inedit - Resursa ta de Fun

Lista Forumurilor Pe Tematici

Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.

Nou pe simpatie:
Profil Cenusareasa

Femeie
24 ani
Bucuresti
cauta Barbat
28 - 61 ani

Forum Romania Inedit / Totul despre cărți - About e-books / Din nou despre Pdf sau Djvue cu OCR

Moderat de Seven, Stelevadris, cuculean, naid, uncris

Autor

Mesaj

Pagini: 1

nullscripts
Membru Puf

Inregistrat: acum 8 ani

Salutare,

Stau cam de vreo 3-4 zile pe forumul acesta si ma tot informez despre cum sa-mi imbunatățesc metoda de prelucrare a carilor pe care le scanez si m-am gindit sa va cer putin ajutorul.

Ca sa nu ne incurcam in raspunsuri, am sa notez niste intrebari si m-as bucura ca in raspunsul pe care il incudeti sa aiba si numarul. Sa va fac un mic sumar a cum scanez si cam ceea ce fac dupa si va rog sa interveniti pe puncte unde gresesc sau unde as putea sa imbunatatesc.

1. Scanarea o fac cu un scaner vechi si VuesScan 600 dpi sau 300 dpi. VueScan are un mod TEXT (un fel de alb si negru in care imi curata el foaia alba) si modul gray (Make Grey from: Auto / 8/16 bit). Nu vorbesc de color ca nu sint interesat deocamdata.

2. Dupa ce scanez bag tif-urile in ScanKromsator 6.0 si le tai. Outputul il pun la BW (300 sau 600 dpi). Am folosit ani de-a rindul ScanTailor si mi se pare ca se misca mai greoi decit Scankromsator

3. Apoi - asta am invatat de la voi - convertesc tifurile in djvue (eu inainte luam tifurile si le bagam din Abbyy 12 ptr ocr.)

4. Bag fisierul Djvue in Abbyy si dupa ce imi face recunoasterea ii dau Save as PDF (Exact copy).

=======

Acu partea cu intrebarile mele

========

la punctul 1 - Sa scanez numai in Gray sau sa folosesc si modul ala text? Cred ca acolo e o scanare in BW (imi prelucreaza outputul automat Vue Scan.) Daca folosesc modul TEXT fisierul e mic, citiva kb. Daca scanez in Gray Auto, o pagina are in jur de 11 MB la 300 dpi

Punctul 2. - Am descarcat de la voi Calinescu Istoria Literaturii...si Manolescu - Istoria Literaturii. Literele sint negre-negre si rotunjite, iar pagina este alba-alba. Ale mele litere sint asa cum sint scanate la 300 sau 600 dpi: adica se vad zimtate daca fac Zoom. Pe cartile mentionare nu era zimtat nici la un zoom enorm. Cum sa fac asta?

la punctul 4 -
a. Exista o metoda (poate e fantezista) sa ai textul OCR intr-un plain text sa-l lucrezi si apoi sa-l inserezi si sa-l aliniezi pe PDF-ul final? Sau merg cu train ocr si bibilesc in ABBYY?

b. E bine acel Exact Copy?

Multumesc mult pentru ajutor si felicitari pentru munca voastra si pentru forum!

Modificat de nullscripts (acum 8 ani)

pus acum 8 ani

ndodo
MEMBRU VIP

Inregistrat: acum 17 ani

Salut!
Bine ai venit pe forum.

Lung şi la obiect

:

1. Dacă scanezi informativ iar cartea este relativ nouă(informativ - cataloage, manuale tehnice etc.; relativ nouă - scris negru fără artefacte pe lângă litere pe o hârtie albă fără defecte)poţi scana direct în B/W.
Dacă doreşti să prelucrezi textul şi să-l aduci în format doc cu corectările de rigoare, scanezi gray sau color la minim 300 dpi(la 600 dpi rezultă un monstru de scan de 10-15G).
2. Spre desebire de tine eu folosesc "bătrânul" ScanTailor versiunea 0.9. Dacă salvezi rezultatul în B/W vei pierde o parte din calitate. Eu de obicei când prelucrez salvez în Gray/Color 300 dpi. Din tiff-urile rezultate scot un djvu şi un pdf. Dacă imagine este foarte bună(vezi punctul 1) prelucrez din ScanTailor la B/W si din rezultat mai trag un djvu. Toate acestea sunt versiuni de "scan control"(se folosesc la comparare atunci când lucrezi pe un doc/docx - OCR brut pe care vrei să-l aduci la V1.0). Pentru OCR în ABBYY detaliez la punctul 4.
Răspuns - nu cunosc cartea pe care ai luat-o de pe forum dar după cum o descrii este vorba de un fişier doc prelucrat după un OCR, salvat (de la Word 10 în sus ai acestă opţiune) în pdf. În acest caz nefiind vorba de o "poză" a literei, caracterul este generat electronic iar artefactele lipsesc chiar la mărire.
3. Vezi punctul 2
4. Aici avem ceva mai multe de spus:
Fişierele djvu sunt prin definiţie mult mai comprimate decât cele pdf, fiind foloside, cu precădere, drept scan control. Nu văd rostul introducerii unui fişier "sărac" în informaţii în ABBYY pentru a-l prelucra când ai la dispoziţie un scan mult mai "bogat". De regulă în ABBYY se introduc scanurile brute, fară nicio prelucrare, sau în cazuri speciale(cărţi vechi, îngălbenite, cu multe defecte în hârtie) prelucrat cu ScanTailor(în cazul meu) şi salvat Grey/Color la 300dpi sau chiar 600dpi(deşi rezultă un fişier monstru de câţiva giga, la introducere în ABBYY, pentru OCR, se pot obţine cu 10-15% mai puţine erori de recunoaştere - repet - doar pentru cărţi vechi - pentru cărţi mai noi e o totală pierdere de timp).
Răspuns:
a. Metoda nu e fantezistă e doar "muncitorească":
după ce scoţi un OCR din cartea dorită (eu prefer "Plain text" deşi trebuie să fiu atent la Italice, Bold, Note de subsol sau de sfârşit - în comparaţie pot aranja cartea cartea aşa cum doresc, eu preferând formatul iniţial al cărţii) îţi aranjezi formatul paginii, fontul, paragraful etc., în aşa fel încât să rezulte o copie fidelă a documentului. Munceşti de zor citind efectiv cartea corectând-o şi comparând-o permanent cu un Scan control (personal eu împart ecranul în două - în stânga am Scan control-ul iar în dreapta doc-ul pe care lucrez) pe care l-ai obţinut ca în descrierile de la punctul 2(de obicei folosesc un scan control djvu B/W şi mai consult atunci când am neclarităţi pdf-ul Gray/color). În final(după câteva zile, săptămâni, luni) obţii un doc/docx identic cu cartea scanată pe care îl poţi salva şi ca pdf din Word(mai mare sau egal cu 10) sau folosind un program mai mult sau mai puţin gratuit de pe net.
b. Vezi punctul a.

Sper că am fost de folos

Toate cele bune

pus acum 8 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

ndodo a scris:

Salut!
Bine ai venit pe forum.

Lung şi la obiect

Multumesc mult de informaţii si de ajutor!

Cartile pe care le fac eu nu vreau sa fie extrem de lucrate, ci bune fara a avea pretentia de a fie foarte bune.

Uite o carte pe care am facut-o eu, fara a avea pretentia de perfectiune. Pentru mine e facuta bine si daca se intimpla ceva cu cartea (cum de altfel s-a intimplat la scanare ca s-a desprins toata pentru ca era lipita prost), pot oricind sa o printez si sa leg foile

Acela este un tip de carte mai vechi

Mai jos e o carte cu foi mai bune si care e in lucru. Scanat la 300 DPI Gray Auto, lucrata in ScanKromsator (taiat, curatata etc), outputul facut upsampling la 600dpi BW, apoi bagat in Djvue Small, iar djvue rezultat bagat in Abbyy ptr OCR, apoi salvat ca PDF exact copy

Lasa-mi o impresie, te rog, despre cum lucrez.

Eu am nevoie mai mult de pdf-uri pentru ca scriu articole stiintifice (doctorat) si folosesc programul CITAVI care nu stie sa vada decit .doc, .txt, .pdf.

In alta ordine de idei as vrea sa te intreb ceva. Cind fac OCR cu Abbyy am observat ca dacriticele sint in forma Legacy. In Adobe Acrobat nu e o problema asta la cautarea de cuvine, dar in programul in care lucrez eu, CITAVI, cautarea e foarte strictă (limitarile programului), prin urmare daca caut un cuvint cu diacritice Standard nu-l vede programul. Trebuie sa-l caut cu diacriticile Legacy ca asa mi le salveaza ABBYY.
Stii cumva cum sa-l fac pe ABBYY ca atunci cind face OCR sa imi puna diacriticele pe standard? Am incercat Training cu ABBYY si cind am pus o diacritica standard mi-a spus ca nu exista in baza de date a programului asemenea limbaj...

Merci mult!

Modificat de nullscripts (acum 8 ani)

pus acum 8 ani

ndodo
MEMBRU VIP

Inregistrat: acum 17 ani

Salut!

Carţile făcute de tine sunt(din punctul meu de vedere) scan control-uri bune spre foarte bune. Le pot denumi şi documente informative(se pot citi foarte bine şi aşa). Dacă, însă, vrei să scoţi un document text se schimbă situaţia, ABBYY afişând erori destul de multe la OCR.
În altă ordine de idei nu înţeleg linia de prelucrare pe care o foloseşti. Ar fi mult mai simplu să procedezi astfel:
Scanare gray, prelucrare ScanTailor sau Kromsator, apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.
Dacă totuşi doreşti să ai şi un fişier djvu îl poţi face, apoi cu Djvu Toy(soft gratuit - se găseşte pe net) îl poţi transforma direct în pdf.
Eu folosesc ABBYY exclusiv pentru a obţine fişiere text din scanuri brute sau uşor prelucrate. Pentru asta folosesc o versiune mai veche - ABBYY 10(cu asta m-am obişnuit şi nu schimb ce funcţionează bine).
Cu diacriticile nu am avut probleme fiind salvate (în document doc compatibil Word 97-2003 - probabil de aici i se trage) numai în format Standard.

Toate cele bune

pus acum 8 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

ndodo a scris:

Salut!

În altă ordine de idei nu înţeleg linia de prelucrare pe care o foloseşti. Ar fi mult mai simplu să procedezi astfel:
Scanare gray, prelucrare ScanTailor sau Kromsator, apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.

Salutare,

Am vazut ca daca iau outputul si il bag in Djvue Small imi iese un fisier mult mai mic, pe care il incarc in Abby => djvue mic dar si pdf mic la salvare. Daca bag outputul direct in Abbyy imi iese un pdf foarte mare. Primul link pe care l-am pus: cartea are 10 MB. initial avea 17 MB (output in abby+ ocr+save as pdf). Trecind-o prin djvue small am redus dimensiunea pdf-ului.

apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.

Cind spui eventual searcheable, tu zici de fapt sa nu mai fac recunoastere de text in ABBYY (pentru ce am eu nevoie) ci sa o fac din Acrobat? Are Acrobat aceeasi rata de recunoastere ca si Abbyy? Eu am nevoie obligatoriu de pdf-uri searchable, nu la modul exact, dar nici sa fie nasol textul, adica dintr-o fraza de 20 de cuvinte sa ma apuc sa schimb 10, ci macar 4-5 cuvinte din 20 sa schimb eventual

Numai de bine!

Modificat de nullscripts (acum 8 ani)

pus acum 8 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

Gata. M-am prins cum erau facute literele alea: Adobe Acrobat -> Recunoastere text cu Clear Scan

Merci mult de tot ajutorul!
Tineti-o tot asa!

pus acum 8 ani

Stelevadris
Moderator

Inregistrat: acum 21 ani

Rezultatul final al muncii tale depinde foarte mult de inceput, adica de calitatea scanarii.
Din acest motiv se scaneaza intotdeauna doar gray sau color. Ulterior, poti trece pe BW in ST sau SK, daca doresti.
Textul iese cel mai bine din scanarea bruta.
Totodata, cu cat ai rezultate mai bune, cu atat cresc sansele ca cineva sa faca un 0.9/1.0 din munca ta.

_______________________________________
Totul despre cărți - About e-books - Tehnici de scanare, sfaturi, proiecte etc. - Support, future projects, etc.

pus acum 8 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 16 ani

salutare!

litere perfect ROTUNJITE vs. litere cu CONTUR ZIMŢAT

Prin SCAN înţelegem 3 tipuri de fişiere: imagini individuale de orice tip sau imagini asamblate în format PDF sau DjVu - dar ideea este că scan înseamnă şi se bazează pe imagine, iar imaginea trebuie să redea cât mai bine pagina tipărită.

Există pe net scanuri REALE, dar şi o mulţime de scanuri FALSE.
Dacă încercăm - să zic aşa - să facem o expertiză tehnică a scanului, atunci unul dintre elementele de control este forma literei: literele imperfecte [cu margini zdrenţuite la zoom mare] înseamnă scan real, iar litera perfectă înseamnă că în spatele fişierului stă un OCR sau o prelucrare de tip OCR.
Dacă în scan găsim şi diferite defecte de tipar [mici pete, elemente din textura hârtiei...] scanul este real.
Dacă scanul este în nuanţe de gray, cu atât mai uşor putem recunoaşte şi deosebi un scan real de un fals scan bazat pe un OCR.

Un OCR poate fi mai bun sau mai puţin bun, în funcţie de softul folosit, dar deocamdată nu există OCR perfect.
Când citim ochii noştri fac o recunoaştere optică, dar la asta se adaugă dicţionare de cuvinte din creierul nostru, dicţionare de expresii, topica şi logica frazei, capacitatea creierului de a descoperi cuvântele corecte din spatele unor cuvinte greşite, mai ales paronime.... etc. etc.

OCR-ul realizat de un soft se bazează pe recunoaşterea optică a unui caracter şi un dicţionar sumar al unei limbi... deci va mai dura mult până la un OCR corect 100%.

Am spus toate astea ca să justific de ce un scan cu litere zimţate este pentru mine mult mai important decât un fişier cu litere perfect rotunjite: pentru că primul este autentic şi redă imaginea perfectă a cărţii tipărite, în timp ce al doilea - indiferent cât ar părea de perfect - nu este un scan autentic.

Deci, litera rotunjită nu înseamnă neapărat un lucru bun.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

Seven a scris:

salutare!

litere perfect ROTUNJITE vs. litere cu CONTUR ZIMŢAT

Prin SCAN înţelegem 3 tipuri de fişiere: imagini individuale de orice tip sau imagini asamblate în format PDF sau DjVu - dar ideea este că scan înseamnă şi se bazează pe imagine, iar imaginea trebuie să redea cât mai bine pagina tipărită.

Există pe net scanuri REALE, dar şi o mulţime de scanuri FALSE.
Dacă încercăm - să zic aşa - să facem o expertiză tehnică a scanului, atunci unul dintre elementele de control este forma literei: literele imperfecte [cu margini zdrenţuite la zoom mare] înseamnă scan real, iar litera perfectă înseamnă că în spatele fişierului stă un OCR sau o prelucrare de tip OCR.
Dacă în scan găsim şi diferite defecte de tipar [mici pete, elemente din textura hârtiei...] scanul este real.
Dacă scanul este în nuanţe de gray, cu atât mai uşor putem recunoaşte şi deosebi un scan real de un fals scan bazat pe un OCR.

Un OCR poate fi mai bun sau mai puţin bun, în funcţie de softul folosit, dar deocamdată nu există OCR perfect.
Când citim ochii noştri fac o recunoaştere optică, dar la asta se adaugă dicţionare de cuvinte din creierul nostru, dicţionare de expresii, topica şi logica frazei, capacitatea creierului de a descoperi cuvântele corecte din spatele unor cuvinte greşite, mai ales paronime.... etc. etc.

OCR-ul realizat de un soft se bazează pe recunoaşterea optică a unui caracter şi un dicţionar sumar al unei limbi... deci va mai dura mult până la un OCR corect 100%.

Am spus toate astea ca să justific de ce un scan cu litere zimţate este pentru mine mult mai important decât un fişier cu litere perfect rotunjite: pentru că primul este autentic şi redă imaginea perfectă a cărţii tipărite, în timp ce al doilea - indiferent cât ar părea de perfect - nu este un scan autentic.

Deci, litera rotunjită nu înseamnă neapărat un lucru bun.

Salut, Seven!

Perfect de acord cu tine. Eu ma gindeam totusi (nefiind expert) la o eventual[ printare a cartii. Cartea pe care am pus-o mai sus ca exemplu s-a deteriorat la scanare pentru ca era veche si lipita (nu avea cotorul si paginile cusute). Ma gindeam ca la un eventual print al ei sa nu apara literele zimtate. Am aflat ulterior ca imprimantele in modul normal printeaza textul la 600 dpi, iar daca le setezi pe modul Best (Fine) printeaza la 1200 dpi deci nu ar fi probleme.

Citind la voi pe forum am vazut ca daca scanez in Gray la 300 dpi si din ScanKromsator fac upscaling la 600 dpi BW este perfect pentru ceea ce am nevoie.

pus acum 8 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 16 ani

pus acum 8 ani

Stelevadris
Moderator

Inregistrat: acum 21 ani

Se poate scana si pe 600 DPI Gray. La scannerele flatbed din gama de pret 250-300 lei viteza de scanare e aceeasi ca la 300 DPI Gray.
Daca doriti sa retipariti cartea scanata, e cel mai ok asa. Upscale-ul scade calitatea imaginii.
Singurul dezavantaj ar fi faptul ca creste marimea totala a scanarii pe HDD.

_______________________________________
Totul despre cărți - About e-books - Tehnici de scanare, sfaturi, proiecte etc. - Support, future projects, etc.

pus acum 8 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

Salutare! Mai trăiți?

E mai bine de un an de cînd am discutat despre PDF-uri și scan.
Ceva experiențe noi? Niște softuri mai bune?

Am mai căutat cărți pe acest forum, doar ca unele dintre ele sînt în format .doc și pe mine nu mă avantajează absolut deloc. Știu că ele pot fi transformate în pdf și au o mărime mică. Eu aș avea nevoie de niște Pdf-uri, chiar făcute după un doc, dar care să respecte în întregime cartea (paginație, antete, note de subsol etc) pentru că eu folosesc pdf-urile într-un program academic de citare a respectivelor materiale. Prin urmare pentru mine este foarte important ca paginația să fie fidelă.

În altă ordine de idei aș vrea să mai întreb unele lucruri.

1. Pe net am găsit cărți scanate (pdf-uri) care nu sînt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, în acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?

2. Recent am observat un lucru la cartile prelucrate de mine după pdf-uri de pe net sau scanate de mine. După ce le prelucrez (300 sau 600 dpi) și le trec prin Abbyy 12 sau 14, încarcarea în Acrobat se face foarte greu. Randează textul cu încetinitorul. Mai precis, cînd derulez pdf-ul există (și la thumbnails și pe pagină ) o întîrziere în apariția textului (deși cartea are 700 pagini, iar fișierul final este de 7-8 MB). Aveți vreo soluție? Optimizarea PDF și Reduce PDF size din Acrobat nu dau deloc rezultate.

Mulțam fain!

Modificat de nullscripts (acum 7 ani)

pus acum 7 ani

BlankCd
MEMBRU DE BAZA

Inregistrat: acum 16 ani

--->

Salut!

A. Privitor la pdf-urile pe care menționezi că le folosești ca sursă de citare, experiența m-a învățat că pdf-urile realizate din imagini scanate [nu cele din formatul .doc] sunt cele mai bune și exacte. Mai ales dacă pdf-urile respective sunt prelucrate corect:
- scanare corectă din punct de vedere al DPI, al tehnicii de scanare propriu zise
- prelucrarea scanului rezultat
- sincronizare numerotare pagini pdf cu numerotare pagini carte. De multe ori prefața, cuvânt înainte, cuvântul traducătorului, tabel cronologic și altele sunt numerotate cu cifre romane - I, II, III, IV etc., - apoi urmează numerotarea cu cifre arabe - care începe de obicei cu 5 sau 7.
- realizarea unui bookmark corect
- realizarea unui layer OCR a textului din pdf - acest OCR nu are acuratețea unui text OCR corectat - dar este foarte util în a căuta anumite cuvinte

Sigur ai avea posibilitatea realizării unui pdf dintr-un document text. Dar inevitabil tot iți va trebui un scan pentru a vedea paginația și locul textului în pagină, va fi foarte greu să respecți paginația originală, va trebui să verifici...., să corectezi....etc. adică multă muncă.
Probabil că atunci când folosești cartea ca citat te referi la pagina / paginile din carte, dar dacă ai nevoie și de textul respectiv poți face OCR numai la cele câteva pagini.

B. Pierderea calității la exportul din pdf....
- cea mai bună calitate a textului se va regăsi întotdeauna în scanarea brută - tiff sai jpg. Atunci când se realizează pdf-uri inevitabil se pierde din calitate, deoarece programele de realizat pdf sunt setate default cu anumite setări, sigur există și varianta setării corecte a creatorului de pdf - Adobe Acrobat sau altul. O metodă de a verifica calitatea pdf-ului obținut este de a compara dimensiunea scanului cu dimensiunea pdf-ului, dacă pdf-ul este mult mai mic atunci SIGUR s-a pierdut din calitate. Dacă TEXTUL din scan este excelent - font spațiat și bine conturat, spațiere mare între rânduri, hârtia este curată fără impurități - atunci pierderea calității nu influențează prea mult viitorul OCR.

Un pdf din imagini scanate cu un număr de 400-500 pagini poate fi considerat decent - după experiența mea - dacă are minim 130 - 140 MB!! Din acest pdf se poate obține un OCR bunicel cu condiția să nu aibă multe note de subsol.

C. Încărcare greoaie...
Cauze:
- posibil pc-ul merge greu: multe aplicații deschise, browser deschis, internet deschis
- memorie RAM insuficientă sau încărcată. Poți folosi pentru curățare CCleaner - va mai curăța câte ceva.

Dacă persistă problema pune fișierul pe aici să vedem dacă și la noi face la fel.

_______________________________________
---> "Eu nu am regrete,
Iar dac-ai să-ntrebi ce-a rămas la mine,
În inimă am urme de tine
Regrete, eu nu am regrete..."

pus acum 7 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

BlankCd a scris:

--->

C. Încărcare greoaie...
Cauze:
- posibil pc-ul merge greu: multe aplicații deschise, browser deschis, internet deschis
- memorie RAM insuficientă sau încărcată. Poți folosi pentru curățare CCleaner - va mai curăța câte ceva.

Dacă persistă problema pune fișierul pe aici să vedem dacă și la noi face la fel.

Am 8 GB de ram. Laptopul merge bine.

uite aici cartea.

Deschide-o si activeaza thumbnailurile (paginile in miniatura) si deruleaza fie miniaturile, fie pagina mare in document si spune-mi daca se incarca instant. Merci

Modificat de nullscripts (acum 7 ani)

pus acum 7 ani

cuculean
Moderator

Inregistrat: acum 17 ani

Nu pare a fi nici o problema... paginile apar instant.

pus acum 7 ani

BlankCd
MEMBRU DE BAZA

Inregistrat: acum 16 ani

--->

Salut!

Și la mine merge perfect, nu are niciun fel de delay, răspunde instantaneu la tot ce îi cer, totul este ok.
Pdf-ul este bine lucrat, îmi place.

_______________________________________
---> "Eu nu am regrete,
Iar dac-ai să-ntrebi ce-a rămas la mine,
În inimă am urme de tine
Regrete, eu nu am regrete..."

pus acum 7 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

.... Ce naiba... inseamna ca am eu o problema cu win?

pus acum 7 ani

cuculean
Moderator

Inregistrat: acum 17 ani

Posibil... nu ai delay pe alte aplicatii??
Cand deschizi pdf-ul urmareste in Task Manager cum se comporta ram-ul, procesorul si placa video.
Poti sa faci si un test de HDD.

pus acum 7 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 16 ani

***
Staţi oleacă!... n-am înţeles eu bine? sau...

Eu am înţeles că @nullscripts zice că la încărcarea în ACROBAT are probleme; deci nu era vorba de alte editoare sau vizualizatoare de PDF.
E drept că nici eu n-am priceput dacă e vorba de ACROBAT ăl mare de se pricepe la toate sau este vorba despre Adobe Reader.

Eu vizualizez PDF-urile cu PDF-XChange Viever şi într-adevăr paginile se încarcă instant, dar nu am la acest moment instalat Acrobat, aşa că nu ştiu ce se întâmplă cu el.

Ar fi două chestii:
- prima este că mi s-a întâmplat şi mi de multe ori ceea ce spune @nullscripts, dar asta doar la prima încărcare în editor/vizualizator atunci când aveam fişiere foarte mari, mai ales din cele care conţineau imagini.

- o a doua chestie mai importantă, pe care a explicată o dată pe forum colegul @atari este aceea că Acrobat este mama PDF-urilor şi el are cele mai înalte standarde la realizarea PDF. Din cauza asta are aceleaşi pretenţii şi la deschiderea unui PDF şi dacă acest PDF este realizat cu un soft care nu respectă toate standardele, atunci face garagaţă la deschiderea unui PDF care nu respectă toate regulile şi uneori e posibil să nici nu-l deschidă.
Eu gândesc că asta ar fi una dintre posibilele cauze.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani

uciN
MEMBRU VIP

Inregistrat: acum 17 ani

nullscripts a scris:

1. Pe net am găsit cărți scanate (pdf-uri) care nu sînt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, în acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?

Cînd exportați imaginile din Adobe Acrobat (Save As) pentru prelucrare, fiți atent la setări, nu le lăsați implicite (Defaults):

Modificat de uciN (acum 7 ani)

pus acum 7 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

uciN a scris:

Cînd exportați imaginile din Adobe Acrobat (Save As) pentru prelucrare, fiți atent la setări, nu le lăsați implicite (Defaults):

http://i.imgur.com/WEo6lNt.png
http://i.imgur.com/6gOiavn.png

Merci mult! Eu le salvam in .tiff ca am citit ca tiff-ul e mai bun. Sau cu noile softuri nu mai conteaza?

pus acum 7 ani

nullscripts
Membru Puf

Inregistrat: acum 8 ani

Seven a scris:

***
Staţi oleacă!... n-am înţeles eu bine? sau...

Eu am înţeles că @nullscripts zice că la încărcarea în ACROBAT are probleme; deci nu era vorba de alte editoare sau vizualizatoare de PDF.
E drept că nici eu n-am priceput dacă e vorba de ACROBAT ăl mare de se pricepe la toate sau este vorba despre Adobe Reader.

Eu vizualizez PDF-urile cu PDF-XChange Viever şi într-adevăr paginile se încarcă instant, dar nu am la acest moment instalat Acrobat, aşa că nu ştiu ce se întâmplă cu el.

Ar fi două chestii:
- prima este că mi s-a întâmplat şi mi de multe ori ceea ce spune @nullscripts, dar asta doar la prima încărcare în editor/vizualizator atunci când aveam fişiere foarte mari, mai ales din cele care conţineau imagini.

- o a doua chestie mai importantă, pe care a explicată o dată pe forum colegul @atari este aceea că Acrobat este mama PDF-urilor şi el are cele mai înalte standarde la realizarea PDF. Din cauza asta are aceleaşi pretenţii şi la deschiderea unui PDF şi dacă acest PDF este realizat cu un soft care nu respectă toate standardele, atunci face garagaţă la deschiderea unui PDF care nu respectă toate regulile şi uneori e posibil să nici nu-l deschidă.
Eu gândesc că asta ar fi una dintre posibilele cauze.

Da, Seven, eu folosesc Acrobat. Nu ma intreba de ce

) pur si simplu. Am incercat Nitro si Pdf-Xchange dar nu mi-a placut interfata. Am vazut la altii mai mari ca tot Pdf-exchange folosesc. Am sa mai fac o incercare.

In alta ordine de idei am rezolvat problema cu incarcatl greu al paginilor ciar si in Acrobat. O spun aici ca si ceilalti sa aiba un folos.

Pentru cei doritori de solutie treceti direct la punctul 5

1. Ce faceam eu.

Descarcam unele carti de pe internet archive (gata scanate misto, cu OCR pe ele), doar ca eu voiam pagini albe, nu cele originale. Deci deschideam pdf > export tiff > determina automat rezolutia si incepeam sa le lucrez dupa caz fie in scan kromsator sau in Scan Tailor advanced.

2. OCR in Abby din djvu facut cu djvu-small

3. Export ca pdf searchable exact (cu urmatoarele setari: nu se schimba rezolutia, fara prelucrare a imagini etc; uneori daca pagina era prea alba bifam apply MRC)

4. Pdf-ul se incarca greu la cartile de peste 800 pagini , pagina avind scrisul in 2 coloane.

5. Solutia.

ABBYY e de cacao (sau nu stiu eu anumite setari) pentru ca desi recunoaste foarte bine textul el vine cu un neajuns. Ca sa recunoasca atit de bine el introduce diferite fonturi care sa fie cit mai exacte ca in imagine. Si de aici buba. Fonturile randeaza foarte greu.

<u>La Abbyy, cind export, am bifat Use Windows Fonts. Poate ar trebui sa bifez Use Predefined fonts?</u>

Deci am luat acest utilitar si am instalat ghostscript. Am bagat calea ghostscript in utilitar si apoi iau pdf-ul care se incarca greu si il trag peste program. Utilitarul substituie toate fonturile din document cu cele regular, bold, italic. si genereaza la final un alt pdf cu acelasi nume in coada avind mentiunea REPAIRED.

Acum, cartea aia de 800 de pagini, e drept nu mai are 48MB ci 59 dar se incarca instant.

pus acum 7 ani

Pagini: 1

Mergi la