De la PDF la Text editabil

Forum Romania Inedit
Romania Inedit - Resursa ta de Fun

Lista Forumurilor Pe Tematici

Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.

Nou pe simpatie:
Andreea Miluta 24 ani

Femeie
24 ani
Braila
cauta Barbat
30 - 48 ani

Forum Romania Inedit / Totul despre cărți - About e-books / De la PDF la Text editabil

Moderat de Seven, Stelevadris, cuculean, naid, uncris

Autor

Mesaj

Pagini: 1

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

Răspunsuri la întrebări
Salutare!

Am deschis acest topic ca urmare a unei întrebări postate pe un alt topic.
Deoarece răspunsul este unul complex, m-am gândit să deschid un topic nou.
Întrebarea era următoarea:

Quill a scris:

Vă rog, o cât de simplă îndrumare: cum se poate converti un pdf de 10-20MB(fie scan, bine zic?, trecut prin ocr, ajuns la 30-70MB fie, pdf editabil) la docx editabil?

Cred că mai întâi ar trebui să clarificăm câteva lucruri:
În funcţie de sursă sunt două mari categorii de PDF:
— PDF din SCAN - este un PDF [fie el PDF/A - adică cu căutare, fie PDF simplu]; acesta reprezintă exact imaginea scanată/fotografiată a cărţii tipărite. La o mărire [un zoom] de să zicem 1000x, literele se văd cu contur ciuruit, deci nu sunt perfecte.
— PDF din TEXT - acesta este în mod obişnuit cu căutare, iar la mărirea zoom-ului literele rămân cu contur perfect... deci nu apare acele margini ciuruite ale literelor.

Transformarea unui PDF în fişier text editabil [fie el docx, doc sau rtf] depinde de sursa PDF, deci dacă avem un PDF_SCAN sau un PDF obţinut din text.

În cazul unui PDF din text:
Există o sumedenie de programe şi progrămele care fac convertirea din PDF în text.
Cel mai folosit la momentul actual este programul "Calibre", care poate face astfel de convertiri, inclusiv din PDF în DOCX şi, în plus, este un program gratuit. Cei mai mulţi dintre noi îl folosim frecvent pentru a obţine fişiere de tip Epub şi/sau Mobi.

În cazul unui PDF din SCAN:
În cazul ăsta lucrurile sunt ceva mai complicate.
— Extragerea textului se face cu Programul Abbyy şi textul rezultat se numeşte OCR. Acest text OCR are multe erori, deoarece Abbyy poate face confuzie între literele care au aceeaşi formă atât ca majuscule, cât şi ca minuscule [C,c; I,i; Î,î; P,p; S,s, Ş,ş, U,u; V,v... etc]; se pot face confuzii între litere şi grup de litere [m >< rn [r+n], d <> cl [c+l] etc; cratima urmată de lirele l sau o este interpretată ca semnul - [minus] urmat de cifrele 1 sau 0.
— Perierea în AutoCorect OCR: o parte dintre erorile de mai sus se corectează folosind programul nostru special AutoCorect OCR;
— Corectura manuală. În ultima etapă se face corectura manuală prin citirea şi corectarea cuvânt cu cuvânt a întregului text de la cap la coadă, concomitent cu confruntarea PDF_SCAN. La finalul acestei corecturi textul se versionează ca [V1.0]

Acesta ar fi foarte pe scurt punctul mei de vedere.
Plecând de la această prezentare aştept întrebări punctuale pentru a clarifica ceea ce am expus mult prea sumar.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 4 luni

Quill
Membru Puf

Inregistrat: acum 7 ani

@Seven Vă mulțumesc, am citit răspunsul dv.
Eu obțin textul OCR, unul foarte bun pentru mine, dar, mai departe, nu pot obține din el decât un docx needitabil, pe care nu pot interveni, nu-l pot prelucra direct, punctual, sunt doar cititor, mai fac mici intervenții de uz personal. Docx-ul ce-l obțin convertind pdf-ul(OCR sau, text), pare o imagine, absolut nemodificabilă, deplasabilă în bloc, suprapusă pe foaia albă din Word, la fel ca o casetă „Text” deschisă pe o pagină pdf.

pus acum 4 luni

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 4 luni

stelus
VETERAN

Inregistrat: acum 14 ani

Intimplare recenta. Un scan rezonabil trecut prin ABBY. OCR-ul rezultat (ales in meniu RTF-editabil) un amestec ciudat, cu sarituri de la o pagina la alta, pus text aiurea , adica de la pagina 124 la sfirsit.
Am repetat miscarea. Acelasi rezultat.
Ales setarea RTF-Exact copy, rezultat bun.

pus acum 4 luni

Pagini: 1

Mergi la