Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
|
Lista Forumurilor Pe Tematici
|
Forum Romania Inedit | Reguli | Inregistrare | Login
POZE FORUM ROMANIA INEDIT
Nu sunteti logat.
|
Nou pe simpatie: AlexaaAlexa0 pe Simpatie
 | Femeie 24 ani Valcea cauta Barbat 28 - 42 ani |
|
Seven
Moderator
 Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani
|
|
Răspunsuri la întrebări Salutare!
Am deschis acest topic ca urmare a unei întrebări postate pe un alt topic. Deoarece răspunsul este unul complex, m-am gândit să deschid un topic nou. Întrebarea era următoarea:
Quill a scris:
Vă rog, o cât de simplă îndrumare: cum se poate converti un pdf de 10-20MB(fie scan, bine zic?, trecut prin ocr, ajuns la 30-70MB fie, pdf editabil) la docx editabil? |
Cred că mai întâi ar trebui să clarificăm câteva lucruri: În funcţie de sursă sunt două mari categorii de PDF: — PDF din SCAN - este un PDF [fie el PDF/A - adică cu căutare, fie PDF simplu]; acesta reprezintă exact imaginea scanată/fotografiată a cărţii tipărite. La o mărire [un zoom] de să zicem 1000x, literele se văd cu contur ciuruit, deci nu sunt perfecte. — PDF din TEXT - acesta este în mod obişnuit cu căutare, iar la mărirea zoom-ului literele rămân cu contur perfect... deci nu apare acele margini ciuruite ale literelor.
Transformarea unui PDF în fişier text editabil [fie el docx, doc sau rtf] depinde de sursa PDF, deci dacă avem un PDF_SCAN sau un PDF obţinut din text.
În cazul unui PDF din text: Există o sumedenie de programe şi progrămele care fac convertirea din PDF în text. Cel mai folosit la momentul actual este programul "Calibre", care poate face astfel de convertiri, inclusiv din PDF în DOCX şi, în plus, este un program gratuit. Cei mai mulţi dintre noi îl folosim frecvent pentru a obţine fişiere de tip Epub şi/sau Mobi.
În cazul unui PDF din SCAN: În cazul ăsta lucrurile sunt ceva mai complicate. — Extragerea textului se face cu Programul Abbyy şi textul rezultat se numeşte OCR. Acest text OCR are multe erori, deoarece Abbyy poate face confuzie între literele care au aceeaşi formă atât ca majuscule, cât şi ca minuscule [C,c; I,i; Î,î; P,p; S,s, Ş,ş, U,u; V,v... etc]; se pot face confuzii între litere şi grup de litere [m >< rn [r+n], d <> cl [c+l] etc; cratima urmată de lirele l sau o este interpretată ca semnul - [minus] urmat de cifrele 1 sau 0. — Perierea în AutoCorect OCR: o parte dintre erorile de mai sus se corectează folosind programul nostru special AutoCorect OCR; — Corectura manuală. În ultima etapă se face corectura manuală prin citirea şi corectarea cuvânt cu cuvânt a întregului text de la cap la coadă, concomitent cu confruntarea PDF_SCAN. La finalul acestei corecturi textul se versionează ca [V1.0]
Acesta ar fi foarte pe scurt punctul mei de vedere. Plecând de la această prezentare aştept întrebări punctuale pentru a clarifica ceea ce am expus mult prea sumar.
_______________________________________
Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|
| pus acum 8 zile |
|
|
Quill
Membru Puf
Inregistrat: acum 7 ani
|
|
@Seven Vă mulțumesc, am citit răspunsul dv. Eu obțin textul OCR, unul foarte bun pentru mine, dar, mai departe, nu pot obține din el decât un docx needitabil, pe care nu pot interveni, nu-l pot prelucra direct, punctual, sunt doar cititor, mai fac mici intervenții de uz personal. Docx-ul ce-l obțin convertind pdf-ul(OCR sau, text), pare o imagine, absolut nemodificabilă, deplasabilă în bloc, suprapusă pe foaia albă din Word, la fel ca o casetă „Text” deschisă pe o pagină pdf.
|
|
| pus acum 7 zile |
|
Seven
Moderator
 Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani
|
|
|
| pus acum 7 zile |
|
|
stelus
VETERAN
Inregistrat: acum 14 ani
|
|
Intimplare recenta. Un scan rezonabil trecut prin ABBY. OCR-ul rezultat (ales in meniu RTF-editabil) un amestec ciudat, cu sarituri de la o pagina la alta, pus text aiurea , adica de la pagina 124 la sfirsit. Am repetat miscarea. Acelasi rezultat. Ales setarea RTF-Exact copy, rezultat bun.
|
|
| pus acum 7 zile |
|