Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
|
Lista Forumurilor Pe Tematici
|
Forum Romania Inedit | Reguli | Inregistrare | Login
POZE FORUM ROMANIA INEDIT
Nu sunteti logat.
|
Nou pe simpatie: Profil Angelina20
| Femeie 22 ani Cluj cauta Barbat 24 - 55 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
Salutare,
Stau cam de vreo 3-4 zile pe forumul acesta si ma tot informez despre cum sa-mi imbunatățesc metoda de prelucrare a carilor pe care le scanez si m-am gindit sa va cer putin ajutorul.
Ca sa nu ne incurcam in raspunsuri, am sa notez niste intrebari si m-as bucura ca in raspunsul pe care il incudeti sa aiba si numarul. Sa va fac un mic sumar a cum scanez si cam ceea ce fac dupa si va rog sa interveniti pe puncte unde gresesc sau unde as putea sa imbunatatesc.
1. Scanarea o fac cu un scaner vechi si VuesScan 600 dpi sau 300 dpi. VueScan are un mod TEXT (un fel de alb si negru in care imi curata el foaia alba) si modul gray (Make Grey from: Auto / 8/16 bit). Nu vorbesc de color ca nu sint interesat deocamdata.
2. Dupa ce scanez bag tif-urile in ScanKromsator 6.0 si le tai. Outputul il pun la BW (300 sau 600 dpi). Am folosit ani de-a rindul ScanTailor si mi se pare ca se misca mai greoi decit Scankromsator
3. Apoi - asta am invatat de la voi - convertesc tifurile in djvue (eu inainte luam tifurile si le bagam din Abbyy 12 ptr ocr.)
4. Bag fisierul Djvue in Abbyy si dupa ce imi face recunoasterea ii dau Save as PDF (Exact copy).
=======
Acu partea cu intrebarile mele
========
la punctul 1 - Sa scanez numai in Gray sau sa folosesc si modul ala text? Cred ca acolo e o scanare in BW (imi prelucreaza outputul automat Vue Scan.) Daca folosesc modul TEXT fisierul e mic, citiva kb. Daca scanez in Gray Auto, o pagina are in jur de 11 MB la 300 dpi
Punctul 2. - Am descarcat de la voi Calinescu Istoria Literaturii...si Manolescu - Istoria Literaturii. Literele sint negre-negre si rotunjite, iar pagina este alba-alba. Ale mele litere sint asa cum sint scanate la 300 sau 600 dpi: adica se vad zimtate daca fac Zoom. Pe cartile mentionare nu era zimtat nici la un zoom enorm. Cum sa fac asta?
la punctul 4 - a. Exista o metoda (poate e fantezista) sa ai textul OCR intr-un plain text sa-l lucrezi si apoi sa-l inserezi si sa-l aliniezi pe PDF-ul final? Sau merg cu train ocr si bibilesc in ABBYY?
b. E bine acel Exact Copy?
Multumesc mult pentru ajutor si felicitari pentru munca voastra si pentru forum!
Modificat de nullscripts (acum 6 ani)
|
|
pus acum 6 ani |
|
ndodo
MEMBRU VIP
Inregistrat: acum 15 ani
|
|
Salut! Bine ai venit pe forum.
Lung şi la obiect :
1. Dacă scanezi informativ iar cartea este relativ nouă(informativ - cataloage, manuale tehnice etc.; relativ nouă - scris negru fără artefacte pe lāngă litere pe o hārtie albă fără defecte)poţi scana direct īn B/W. Dacă doreşti să prelucrezi textul şi să-l aduci īn format doc cu corectările de rigoare, scanezi gray sau color la minim 300 dpi(la 600 dpi rezultă un monstru de scan de 10-15G). 2. Spre desebire de tine eu folosesc "bătrānul" ScanTailor versiunea 0.9. Dacă salvezi rezultatul īn B/W vei pierde o parte din calitate. Eu de obicei cānd prelucrez salvez īn Gray/Color 300 dpi. Din tiff-urile rezultate scot un djvu şi un pdf. Dacă imagine este foarte bună(vezi punctul 1) prelucrez din ScanTailor la B/W si din rezultat mai trag un djvu. Toate acestea sunt versiuni de "scan control"(se folosesc la comparare atunci cānd lucrezi pe un doc/docx - OCR brut pe care vrei să-l aduci la V1.0). Pentru OCR īn ABBYY detaliez la punctul 4. Răspuns - nu cunosc cartea pe care ai luat-o de pe forum dar după cum o descrii este vorba de un fişier doc prelucrat după un OCR, salvat (de la Word 10 īn sus ai acestă opţiune) īn pdf. Īn acest caz nefiind vorba de o "poză" a literei, caracterul este generat electronic iar artefactele lipsesc chiar la mărire. 3. Vezi punctul 2 4. Aici avem ceva mai multe de spus: Fişierele djvu sunt prin definiţie mult mai comprimate decāt cele pdf, fiind foloside, cu precădere, drept scan control. Nu văd rostul introducerii unui fişier "sărac" īn informaţii īn ABBYY pentru a-l prelucra cānd ai la dispoziţie un scan mult mai "bogat". De regulă īn ABBYY se introduc scanurile brute, fară nicio prelucrare, sau īn cazuri speciale(cărţi vechi, īngălbenite, cu multe defecte īn hārtie) prelucrat cu ScanTailor(īn cazul meu) şi salvat Grey/Color la 300dpi sau chiar 600dpi(deşi rezultă un fişier monstru de cāţiva giga, la introducere īn ABBYY, pentru OCR, se pot obţine cu 10-15% mai puţine erori de recunoaştere - repet - doar pentru cărţi vechi - pentru cărţi mai noi e o totală pierdere de timp). Răspuns: a. Metoda nu e fantezistă e doar "muncitorească": după ce scoţi un OCR din cartea dorită (eu prefer "Plain text" deşi trebuie să fiu atent la Italice, Bold, Note de subsol sau de sfārşit - īn comparaţie pot aranja cartea cartea aşa cum doresc, eu preferānd formatul iniţial al cărţii) īţi aranjezi formatul paginii, fontul, paragraful etc., īn aşa fel īncāt să rezulte o copie fidelă a documentului. Munceşti de zor citind efectiv cartea corectānd-o şi comparānd-o permanent cu un Scan control (personal eu īmpart ecranul īn două - īn stānga am Scan control-ul iar īn dreapta doc-ul pe care lucrez) pe care l-ai obţinut ca īn descrierile de la punctul 2(de obicei folosesc un scan control djvu B/W şi mai consult atunci cānd am neclarităţi pdf-ul Gray/color). Īn final(după cāteva zile, săptămāni, luni) obţii un doc/docx identic cu cartea scanată pe care īl poţi salva şi ca pdf din Word(mai mare sau egal cu 10) sau folosind un program mai mult sau mai puţin gratuit de pe net. b. Vezi punctul a.
Sper că am fost de folos
Toate cele bune
Modificat de ndodo (acum 6 ani)
_______________________________________ Vlad Muşatescu | Cezar Petrescu | Maxim Gorki | Mircea Sāntimbreanu | Ionel Teodoreanu | Alina Nour | Ion Agārbiceanu | Mark Twain | H. G. Wells | Alan Dean Foster Almanahuri Perpetuum Comic(Urzica) | Almanahuri vechi (pānă īn 1990) | Almanahuri Anticipaţia | Reviste SF | Biografii şi Autobiografii | Istorie şi Politică
|
|
pus acum 6 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
ndodo a scris:
Salut! Bine ai venit pe forum.
Lung şi la obiect :
1. Dacă scanezi informativ iar cartea este relativ nouă(informativ - cataloage, manuale tehnice etc.; relativ nouă - scris negru fără artefacte pe lāngă litere pe o hārtie albă fără defecte)poţi scana direct īn B/W. Dacă doreşti să prelucrezi textul şi să-l aduci īn format doc cu corectările de rigoare, scanezi gray sau color la minim 300 dpi(la 600 dpi rezultă un monstru de scan de 10-15G). 2. Spre desebire de tine eu folosesc "bătrānul" ScanTailor versiunea 0.9. Dacă salvezi rezultatul īn B/W vei pierde o parte din calitate. Eu de obicei cānd prelucrez salvez īn Gray/Color 300 dpi. Din tiff-urile rezultate scot un djvu şi un pdf. Dacă imagine este foarte bună(vezi punctul 1) prelucrez din ScanTailor la B/W si din rezultat mai trag un djvu. Toate acestea sunt versiuni de "scan control"(se folosesc la comparare atunci cānd lucrezi pe un doc/docx - OCR brut pe care vrei să-l aduci la V1.0). Pentru OCR īn ABBYY detaliez la punctul 4. Răspuns - nu cunosc cartea pe care ai luat-o de pe forum dar după cum o descrii este vorba de un fişier doc prelucrat după un OCR, salvat (de la Word 10 īn sus ai acestă opţiune) īn pdf. Īn acest caz nefiind vorba de o "poză" a literei, caracterul este generat electronic iar artefactele lipsesc chiar la mărire. 3. Vezi punctul 2 4. Aici avem ceva mai multe de spus: Fişierele djvu sunt prin definiţie mult mai comprimate decāt cele pdf, fiind foloside, cu precădere, drept scan control. Nu văd rostul introducerii unui fişier "sărac" īn informaţii īn ABBYY pentru a-l prelucra cānd ai la dispoziţie un scan mult mai "bogat". De regulă īn ABBYY se introduc scanurile brute, fară nicio prelucrare, sau īn cazuri speciale(cărţi vechi, īngălbenite, cu multe defecte īn hārtie) prelucrat cu ScanTailor(īn cazul meu) şi salvat Grey/Color la 300dpi sau chiar 600dpi(deşi rezultă un fişier monstru de cāţiva giga, la introducere īn ABBYY, pentru OCR, se pot obţine cu 10-15% mai puţine erori de recunoaştere - repet - doar pentru cărţi vechi - pentru cărţi mai noi e o totală pierdere de timp). Răspuns: a. Metoda nu e fantezistă e doar "muncitorească": după ce scoţi un OCR din cartea dorită (eu prefer "Plain text" deşi trebuie să fiu atent la Italice, Bold, Note de subsol sau de sfārşit - īn comparaţie pot aranja cartea cartea aşa cum doresc, eu preferānd formatul iniţial al cărţii) īţi aranjezi formatul paginii, fontul, paragraful etc., īn aşa fel īncāt să rezulte o copie fidelă a documentului. Munceşti de zor citind efectiv cartea corectānd-o şi comparānd-o permanent cu un Scan control (personal eu īmpart ecranul īn două - īn stānga am Scan control-ul iar īn dreapta doc-ul pe care lucrez) pe care l-ai obţinut ca īn descrierile de la punctul 2(de obicei folosesc un scan control djvu B/W şi mai consult atunci cānd am neclarităţi pdf-ul Gray/color). Īn final(după cāteva zile, săptămāni, luni) obţii un doc/docx identic cu cartea scanată pe care īl poţi salva şi ca pdf din Word(mai mare sau egal cu 10) sau folosind un program mai mult sau mai puţin gratuit de pe net. b. Vezi punctul a.
Sper că am fost de folos
Toate cele bune
|
Multumesc mult de informaţii si de ajutor!
Cartile pe care le fac eu nu vreau sa fie extrem de lucrate, ci bune fara a avea pretentia de a fie foarte bune.
Uite o carte pe care am facut-o eu, fara a avea pretentia de perfectiune. Pentru mine e facuta bine si daca se intimpla ceva cu cartea (cum de altfel s-a intimplat la scanare ca s-a desprins toata pentru ca era lipita prost), pot oricind sa o printez si sa leg foile
Acela este un tip de carte mai vechi
Mai jos e o carte cu foi mai bune si care e in lucru. Scanat la 300 DPI Gray Auto, lucrata in ScanKromsator (taiat, curatata etc), outputul facut upsampling la 600dpi BW, apoi bagat in Djvue Small, iar djvue rezultat bagat in Abbyy ptr OCR, apoi salvat ca PDF exact copy
Lasa-mi o impresie, te rog, despre cum lucrez.
Eu am nevoie mai mult de pdf-uri pentru ca scriu articole stiintifice (doctorat) si folosesc programul CITAVI care nu stie sa vada decit .doc, .txt, .pdf.
In alta ordine de idei as vrea sa te intreb ceva. Cind fac OCR cu Abbyy am observat ca dacriticele sint in forma Legacy. In Adobe Acrobat nu e o problema asta la cautarea de cuvine, dar in programul in care lucrez eu, CITAVI, cautarea e foarte strictă (limitarile programului), prin urmare daca caut un cuvint cu diacritice Standard nu-l vede programul. Trebuie sa-l caut cu diacriticile Legacy ca asa mi le salveaza ABBYY. Stii cumva cum sa-l fac pe ABBYY ca atunci cind face OCR sa imi puna diacriticele pe standard? Am incercat Training cu ABBYY si cind am pus o diacritica standard mi-a spus ca nu exista in baza de date a programului asemenea limbaj...
Merci mult!
Modificat de nullscripts (acum 6 ani)
|
|
pus acum 6 ani |
|
ndodo
MEMBRU VIP
Inregistrat: acum 15 ani
|
|
Salut!
Carţile făcute de tine sunt(din punctul meu de vedere) scan control-uri bune spre foarte bune. Le pot denumi şi documente informative(se pot citi foarte bine şi aşa). Dacă, īnsă, vrei să scoţi un document text se schimbă situaţia, ABBYY afişānd erori destul de multe la OCR. Īn altă ordine de idei nu īnţeleg linia de prelucrare pe care o foloseşti. Ar fi mult mai simplu să procedezi astfel: Scanare gray, prelucrare ScanTailor sau Kromsator, apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable. Dacă totuşi doreşti să ai şi un fişier djvu īl poţi face, apoi cu Djvu Toy(soft gratuit - se găseşte pe net) īl poţi transforma direct īn pdf. Eu folosesc ABBYY exclusiv pentru a obţine fişiere text din scanuri brute sau uşor prelucrate. Pentru asta folosesc o versiune mai veche - ABBYY 10(cu asta m-am obişnuit şi nu schimb ce funcţionează bine). Cu diacriticile nu am avut probleme fiind salvate (īn document doc compatibil Word 97-2003 - probabil de aici i se trage) numai īn format Standard.
Toate cele bune
Modificat de ndodo (acum 6 ani)
_______________________________________ Vlad Muşatescu | Cezar Petrescu | Maxim Gorki | Mircea Sāntimbreanu | Ionel Teodoreanu | Alina Nour | Ion Agārbiceanu | Mark Twain | H. G. Wells | Alan Dean Foster Almanahuri Perpetuum Comic(Urzica) | Almanahuri vechi (pānă īn 1990) | Almanahuri Anticipaţia | Reviste SF | Biografii şi Autobiografii | Istorie şi Politică
|
|
pus acum 6 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
ndodo a scris:
Salut!
Īn altă ordine de idei nu īnţeleg linia de prelucrare pe care o foloseşti. Ar fi mult mai simplu să procedezi astfel: Scanare gray, prelucrare ScanTailor sau Kromsator, apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.
|
Salutare,
Am vazut ca daca iau outputul si il bag in Djvue Small imi iese un fisier mult mai mic, pe care il incarc in Abby => djvue mic dar si pdf mic la salvare. Daca bag outputul direct in Abbyy imi iese un pdf foarte mare. Primul link pe care l-am pus: cartea are 10 MB. initial avea 17 MB (output in abby+ ocr+save as pdf). Trecind-o prin djvue small am redus dimensiunea pdf-ului.
apoi prelucrare Adobe Acrobat => fişier pdf, eventual searcheable.
|
Cind spui eventual searcheable, tu zici de fapt sa nu mai fac recunoastere de text in ABBYY (pentru ce am eu nevoie) ci sa o fac din Acrobat? Are Acrobat aceeasi rata de recunoastere ca si Abbyy? Eu am nevoie obligatoriu de pdf-uri searchable, nu la modul exact, dar nici sa fie nasol textul, adica dintr-o fraza de 20 de cuvinte sa ma apuc sa schimb 10, ci macar 4-5 cuvinte din 20 sa schimb eventual
Numai de bine!
Modificat de nullscripts (acum 6 ani)
|
|
pus acum 6 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
Gata. M-am prins cum erau facute literele alea: Adobe Acrobat -> Recunoastere text cu Clear Scan
Merci mult de tot ajutorul! Tineti-o tot asa!
|
|
pus acum 6 ani |
|
Stelevadris
Moderator
Inregistrat: acum 19 ani
|
|
|
pus acum 6 ani |
|
Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
salutare!
litere perfect ROTUNJITE vs. litere cu CONTUR ZIMŢAT
Prin SCAN īnţelegem 3 tipuri de fişiere: imagini individuale de orice tip sau imagini asamblate īn format PDF sau DjVu - dar ideea este că scan īnseamnă şi se bazează pe imagine, iar imaginea trebuie să redea cāt mai bine pagina tipărită.
Există pe net scanuri REALE, dar şi o mulţime de scanuri FALSE. Dacă īncercăm - să zic aşa - să facem o expertiză tehnică a scanului, atunci unul dintre elementele de control este forma literei: literele imperfecte [cu margini zdrenţuite la zoom mare] īnseamnă scan real, iar litera perfectă īnseamnă că īn spatele fişierului stă un OCR sau o prelucrare de tip OCR. Dacă īn scan găsim şi diferite defecte de tipar [mici pete, elemente din textura hārtiei...] scanul este real. Dacă scanul este īn nuanţe de gray, cu atāt mai uşor putem recunoaşte şi deosebi un scan real de un fals scan bazat pe un OCR.
Un OCR poate fi mai bun sau mai puţin bun, īn funcţie de softul folosit, dar deocamdată nu există OCR perfect. Cānd citim ochii noştri fac o recunoaştere optică, dar la asta se adaugă dicţionare de cuvinte din creierul nostru, dicţionare de expresii, topica şi logica frazei, capacitatea creierului de a descoperi cuvāntele corecte din spatele unor cuvinte greşite, mai ales paronime.... etc. etc.
OCR-ul realizat de un soft se bazează pe recunoaşterea optică a unui caracter şi un dicţionar sumar al unei limbi... deci va mai dura mult pānă la un OCR corect 100%.
Am spus toate astea ca să justific de ce un scan cu litere zimţate este pentru mine mult mai important decāt un fişier cu litere perfect rotunjite: pentru că primul este autentic şi redă imaginea perfectă a cărţii tipărite, īn timp ce al doilea - indiferent cāt ar părea de perfect - nu este un scan autentic.
Deci, litera rotunjită nu īnseamnă neapărat un lucru bun.
_______________________________________
Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|
pus acum 6 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
Seven a scris:
salutare!
litere perfect ROTUNJITE vs. litere cu CONTUR ZIMŢAT
Prin SCAN īnţelegem 3 tipuri de fişiere: imagini individuale de orice tip sau imagini asamblate īn format PDF sau DjVu - dar ideea este că scan īnseamnă şi se bazează pe imagine, iar imaginea trebuie să redea cāt mai bine pagina tipărită.
Există pe net scanuri REALE, dar şi o mulţime de scanuri FALSE. Dacă īncercăm - să zic aşa - să facem o expertiză tehnică a scanului, atunci unul dintre elementele de control este forma literei: literele imperfecte [cu margini zdrenţuite la zoom mare] īnseamnă scan real, iar litera perfectă īnseamnă că īn spatele fişierului stă un OCR sau o prelucrare de tip OCR. Dacă īn scan găsim şi diferite defecte de tipar [mici pete, elemente din textura hārtiei...] scanul este real. Dacă scanul este īn nuanţe de gray, cu atāt mai uşor putem recunoaşte şi deosebi un scan real de un fals scan bazat pe un OCR.
Un OCR poate fi mai bun sau mai puţin bun, īn funcţie de softul folosit, dar deocamdată nu există OCR perfect. Cānd citim ochii noştri fac o recunoaştere optică, dar la asta se adaugă dicţionare de cuvinte din creierul nostru, dicţionare de expresii, topica şi logica frazei, capacitatea creierului de a descoperi cuvāntele corecte din spatele unor cuvinte greşite, mai ales paronime.... etc. etc.
OCR-ul realizat de un soft se bazează pe recunoaşterea optică a unui caracter şi un dicţionar sumar al unei limbi... deci va mai dura mult pānă la un OCR corect 100%.
Am spus toate astea ca să justific de ce un scan cu litere zimţate este pentru mine mult mai important decāt un fişier cu litere perfect rotunjite: pentru că primul este autentic şi redă imaginea perfectă a cărţii tipărite, īn timp ce al doilea - indiferent cāt ar părea de perfect - nu este un scan autentic.
Deci, litera rotunjită nu īnseamnă neapărat un lucru bun. |
Salut, Seven!
Perfect de acord cu tine. Eu ma gindeam totusi (nefiind expert) la o eventual[ printare a cartii. Cartea pe care am pus-o mai sus ca exemplu s-a deteriorat la scanare pentru ca era veche si lipita (nu avea cotorul si paginile cusute). Ma gindeam ca la un eventual print al ei sa nu apara literele zimtate. Am aflat ulterior ca imprimantele in modul normal printeaza textul la 600 dpi, iar daca le setezi pe modul Best (Fine) printeaza la 1200 dpi deci nu ar fi probleme.
Citind la voi pe forum am vazut ca daca scanez in Gray la 300 dpi si din ScanKromsator fac upscaling la 600 dpi BW este perfect pentru ceea ce am nevoie.
|
|
pus acum 6 ani |
|
Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
|
pus acum 6 ani |
|
Stelevadris
Moderator
Inregistrat: acum 19 ani
|
|
|
pus acum 6 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
Salutare! Mai trăiți? E mai bine de un an de cīnd am discutat despre PDF-uri și scan. Ceva experiențe noi? Niște softuri mai bune?
Am mai căutat cărți pe acest forum, doar ca unele dintre ele sīnt īn format .doc și pe mine nu mă avantajează absolut deloc. Știu că ele pot fi transformate īn pdf și au o mărime mică. Eu aș avea nevoie de niște Pdf-uri, chiar făcute după un doc, dar care să respecte īn īntregime cartea (paginație, antete, note de subsol etc) pentru că eu folosesc pdf-urile īntr-un program academic de citare a respectivelor materiale. Prin urmare pentru mine este foarte important ca paginația să fie fidelă.
Īn altă ordine de idei aș vrea să mai īntreb unele lucruri.
1. Pe net am găsit cărți scanate (pdf-uri) care nu sīnt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, īn acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?
2. Recent am observat un lucru la cartile prelucrate de mine după pdf-uri de pe net sau scanate de mine. După ce le prelucrez (300 sau 600 dpi) și le trec prin Abbyy 12 sau 14, īncarcarea īn Acrobat se face foarte greu. Randează textul cu īncetinitorul. Mai precis, cīnd derulez pdf-ul există (și la thumbnails și pe pagină ) o īntīrziere īn apariția textului (deși cartea are 700 pagini, iar fișierul final este de 7-8 MB). Aveți vreo soluție? Optimizarea PDF și Reduce PDF size din Acrobat nu dau deloc rezultate.
Mulțam fain!
Modificat de nullscripts (acum 5 ani)
|
|
pus acum 5 ani |
|
BlankCd
MEMBRU DE BAZA
Inregistrat: acum 14 ani
|
|
--->
Salut!
A. Privitor la pdf-urile pe care menționezi că le folosești ca sursă de citare, experiența m-a īnvățat că pdf-urile realizate din imagini scanate [nu cele din formatul .doc] sunt cele mai bune și exacte. Mai ales dacă pdf-urile respective sunt prelucrate corect: - scanare corectă din punct de vedere al DPI, al tehnicii de scanare propriu zise - prelucrarea scanului rezultat - sincronizare numerotare pagini pdf cu numerotare pagini carte. De multe ori prefața, cuvānt īnainte, cuvāntul traducătorului, tabel cronologic și altele sunt numerotate cu cifre romane - I, II, III, IV etc., - apoi urmează numerotarea cu cifre arabe - care īncepe de obicei cu 5 sau 7. - realizarea unui bookmark corect - realizarea unui layer OCR a textului din pdf - acest OCR nu are acuratețea unui text OCR corectat - dar este foarte util īn a căuta anumite cuvinte
Sigur ai avea posibilitatea realizării unui pdf dintr-un document text. Dar inevitabil tot iți va trebui un scan pentru a vedea paginația și locul textului īn pagină, va fi foarte greu să respecți paginația originală, va trebui să verifici...., să corectezi....etc. adică multă muncă. Probabil că atunci cānd folosești cartea ca citat te referi la pagina / paginile din carte, dar dacă ai nevoie și de textul respectiv poți face OCR numai la cele cāteva pagini.
B. Pierderea calității la exportul din pdf.... - cea mai bună calitate a textului se va regăsi īntotdeauna īn scanarea brută - tiff sai jpg. Atunci cānd se realizează pdf-uri inevitabil se pierde din calitate, deoarece programele de realizat pdf sunt setate default cu anumite setări, sigur există și varianta setării corecte a creatorului de pdf - Adobe Acrobat sau altul. O metodă de a verifica calitatea pdf-ului obținut este de a compara dimensiunea scanului cu dimensiunea pdf-ului, dacă pdf-ul este mult mai mic atunci SIGUR s-a pierdut din calitate. Dacă TEXTUL din scan este excelent - font spațiat și bine conturat, spațiere mare īntre rānduri, hārtia este curată fără impurități - atunci pierderea calității nu influențează prea mult viitorul OCR. Un pdf din imagini scanate cu un număr de 400-500 pagini poate fi considerat decent - după experiența mea - dacă are minim 130 - 140 MB!! Din acest pdf se poate obține un OCR bunicel cu condiția să nu aibă multe note de subsol.
C. Īncărcare greoaie... Cauze: - posibil pc-ul merge greu: multe aplicații deschise, browser deschis, internet deschis - memorie RAM insuficientă sau īncărcată. Poți folosi pentru curățare CCleaner - va mai curăța cāte ceva.
Dacă persistă problema pune fișierul pe aici să vedem dacă și la noi face la fel.
_______________________________________ ---> "Eu nu am regrete, Iar dac-ai să-ntrebi ce-a rămas la mine, Īn inimă am urme de tine Regrete, eu nu am regrete..."
|
|
pus acum 5 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
BlankCd a scris:
--->
C. Īncărcare greoaie... Cauze: - posibil pc-ul merge greu: multe aplicații deschise, browser deschis, internet deschis - memorie RAM insuficientă sau īncărcată. Poți folosi pentru curățare CCleaner - va mai curăța cāte ceva.
Dacă persistă problema pune fișierul pe aici să vedem dacă și la noi face la fel. |
Am 8 GB de ram. Laptopul merge bine.
uite aici cartea.
Deschide-o si activeaza thumbnailurile (paginile in miniatura) si deruleaza fie miniaturile, fie pagina mare in document si spune-mi daca se incarca instant. Merci
Modificat de nullscripts (acum 5 ani)
|
|
pus acum 5 ani |
|
cuculean
Moderator
Inregistrat: acum 15 ani
|
|
Nu pare a fi nici o problema... paginile apar instant.
|
|
pus acum 5 ani |
|
BlankCd
MEMBRU DE BAZA
Inregistrat: acum 14 ani
|
|
--->
Salut!
Și la mine merge perfect, nu are niciun fel de delay, răspunde instantaneu la tot ce īi cer, totul este ok. Pdf-ul este bine lucrat, īmi place.
_______________________________________ ---> "Eu nu am regrete, Iar dac-ai să-ntrebi ce-a rămas la mine, Īn inimă am urme de tine Regrete, eu nu am regrete..."
|
|
pus acum 5 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
.... Ce naiba... inseamna ca am eu o problema cu win?
|
|
pus acum 5 ani |
|
cuculean
Moderator
Inregistrat: acum 15 ani
|
|
Posibil... nu ai delay pe alte aplicatii?? Cand deschizi pdf-ul urmareste in Task Manager cum se comporta ram-ul, procesorul si placa video. Poti sa faci si un test de HDD.
|
|
pus acum 5 ani |
|
Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
*** Staţi oleacă!... n-am īnţeles eu bine? sau...
Eu am īnţeles că @nullscripts zice că la īncărcarea īn ACROBAT are probleme; deci nu era vorba de alte editoare sau vizualizatoare de PDF. E drept că nici eu n-am priceput dacă e vorba de ACROBAT ăl mare de se pricepe la toate sau este vorba despre Adobe Reader.
Eu vizualizez PDF-urile cu PDF-XChange Viever şi īntr-adevăr paginile se īncarcă instant, dar nu am la acest moment instalat Acrobat, aşa că nu ştiu ce se īntāmplă cu el.
Ar fi două chestii: - prima este că mi s-a īntāmplat şi mi de multe ori ceea ce spune @nullscripts, dar asta doar la prima īncărcare īn editor/vizualizator atunci cānd aveam fişiere foarte mari, mai ales din cele care conţineau imagini.
- o a doua chestie mai importantă, pe care a explicată o dată pe forum colegul @atari este aceea că Acrobat este mama PDF-urilor şi el are cele mai īnalte standarde la realizarea PDF. Din cauza asta are aceleaşi pretenţii şi la deschiderea unui PDF şi dacă acest PDF este realizat cu un soft care nu respectă toate standardele, atunci face garagaţă la deschiderea unui PDF care nu respectă toate regulile şi uneori e posibil să nici nu-l deschidă. Eu gāndesc că asta ar fi una dintre posibilele cauze.
_______________________________________
Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|
pus acum 5 ani |
|
uciN
MEMBRU VIP
Inregistrat: acum 15 ani
|
|
nullscripts a scris:
1. Pe net am găsit cărți scanate (pdf-uri) care nu sīnt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, īn acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?
|
Cīnd exportați imaginile din Adobe Acrobat (Save As) pentru prelucrare, fiți atent la setări, nu le lăsați implicite (Defaults):
Modificat de uciN (acum 5 ani)
|
|
pus acum 5 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
uciN a scris:
nullscripts a scris:
1. Pe net am găsit cărți scanate (pdf-uri) care nu sīnt prelucrate deloc. Iar eu ca să le prelucrez dau un export din Acrobat la imagini (300 dpi). Uneori se pierde, īn acest proces mult din calitate. Știți un program care ar putea face aceste exporturi mult mai bine?
|
Cīnd exportați imaginile din Adobe Acrobat (Save As) pentru prelucrare, fiți atent la setări, nu le lăsați implicite (Defaults):
http://i.imgur.com/WEo6lNt.png http://i.imgur.com/6gOiavn.png |
Merci mult! Eu le salvam in .tiff ca am citit ca tiff-ul e mai bun. Sau cu noile softuri nu mai conteaza?
|
|
pus acum 5 ani |
|
nullscripts
Membru Puf
Inregistrat: acum 6 ani
|
|
Seven a scris:
*** Staţi oleacă!... n-am īnţeles eu bine? sau...
Eu am īnţeles că @nullscripts zice că la īncărcarea īn ACROBAT are probleme; deci nu era vorba de alte editoare sau vizualizatoare de PDF. E drept că nici eu n-am priceput dacă e vorba de ACROBAT ăl mare de se pricepe la toate sau este vorba despre Adobe Reader.
Eu vizualizez PDF-urile cu PDF-XChange Viever şi īntr-adevăr paginile se īncarcă instant, dar nu am la acest moment instalat Acrobat, aşa că nu ştiu ce se īntāmplă cu el.
Ar fi două chestii: - prima este că mi s-a īntāmplat şi mi de multe ori ceea ce spune @nullscripts, dar asta doar la prima īncărcare īn editor/vizualizator atunci cānd aveam fişiere foarte mari, mai ales din cele care conţineau imagini.
- o a doua chestie mai importantă, pe care a explicată o dată pe forum colegul @atari este aceea că Acrobat este mama PDF-urilor şi el are cele mai īnalte standarde la realizarea PDF. Din cauza asta are aceleaşi pretenţii şi la deschiderea unui PDF şi dacă acest PDF este realizat cu un soft care nu respectă toate standardele, atunci face garagaţă la deschiderea unui PDF care nu respectă toate regulile şi uneori e posibil să nici nu-l deschidă. Eu gāndesc că asta ar fi una dintre posibilele cauze. |
Da, Seven, eu folosesc Acrobat. Nu ma intreba de ce ) pur si simplu. Am incercat Nitro si Pdf-Xchange dar nu mi-a placut interfata. Am vazut la altii mai mari ca tot Pdf-exchange folosesc. Am sa mai fac o incercare.
In alta ordine de idei am rezolvat problema cu incarcatl greu al paginilor ciar si in Acrobat. O spun aici ca si ceilalti sa aiba un folos.
Pentru cei doritori de solutie treceti direct la punctul 5
1. Ce faceam eu.
Descarcam unele carti de pe internet archive (gata scanate misto, cu OCR pe ele), doar ca eu voiam pagini albe, nu cele originale. Deci deschideam pdf > export tiff > determina automat rezolutia si incepeam sa le lucrez dupa caz fie in scan kromsator sau in Scan Tailor advanced.
2. OCR in Abby din djvu facut cu djvu-small
3. Export ca pdf searchable exact (cu urmatoarele setari: nu se schimba rezolutia, fara prelucrare a imagini etc; uneori daca pagina era prea alba bifam apply MRC)
4. Pdf-ul se incarca greu la cartile de peste 800 pagini , pagina avind scrisul in 2 coloane.
5. Solutia.
ABBYY e de cacao (sau nu stiu eu anumite setari) pentru ca desi recunoaste foarte bine textul el vine cu un neajuns. Ca sa recunoasca atit de bine el introduce diferite fonturi care sa fie cit mai exacte ca in imagine. Si de aici buba. Fonturile randeaza foarte greu.
<u>La Abbyy, cind export, am bifat Use Windows Fonts. Poate ar trebui sa bifez Use Predefined fonts?</u>
Deci am luat acest utilitar si am instalat ghostscript. Am bagat calea ghostscript in utilitar si apoi iau pdf-ul care se incarca greu si il trag peste program. Utilitarul substituie toate fonturile din document cu cele regular, bold, italic. si genereaza la final un alt pdf cu acelasi nume in coada avind mentiunea REPAIRED.
Acum, cartea aia de 800 de pagini, e drept nu mai are 48MB ci 59 dar se incarca instant.
|
|
pus acum 5 ani |
|