Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
Fişiere Scan_control REAL şi FALS scan_control
Nu īntotdeauna ceea ce pare a fi un scan_control este cu adevărat un scan_control. Să reţinem că există PDF din imagini, dar avem posibilitatea să obţinem PDF dintr-un text... şi mai mult decāt atāt, pe net există foarte multe PDF din text necorectat, deci practic avem de-a face cu un OCR īn format PDF.
Dacă OCR-ul este unul brut, va fi uşor de constatat şi va fi tratat ca atare. Ceva mai dificil de făcut o apreciere corectă este atunci cānd īntālnim un text care este periat automat, dar practic necorectat manual cap-coadă şi īn plus are evidenţieri estetce ale titlurilor etc, iar datele de indentificare ale traducerii şi ediţiei au fost şterse. Īn acest caz ne putem păcăli foarte tare, crezānd că este vorba de un text corectat, īn realitate fiind vorba de un OCR cu mai multe probleme decāt un OCR_Brut. La ce mă refer? Un astfel de text periat automat, la acre s-au şters pur şi simplu toate artefactele [răgăliile] are şanse foarte mari să aibă fragmente de text lipsă - este vorba de zonele de text care au conţinut multe artefacte care au fost şterse. Atunci cānd noi īnşine pornim de la un OCR_Brut, artefactele ne vor forţa să verificăm originalul şi să constatăm dacă este vorba de artefacte care īnlocuiesc text sau artefacte care īnlocuiesc diverse puncte false din textuta hārtiei. Personal cred că a corecta un text periat găsit pe net este mai dificil decāt a corecta un OCR prelucrat de noi. Am găsit astfel de texte pe net care aveau lipsă prpoziţii īntregi sau chiar fraze şi a căror lipsă nu era evidentă īn toate cazurile la simpla citire. Īn principiu, prin FALS scan_control nu mă refer la fişierele uşor de depistat, ci la unele mult mai asemănătoare ca aspect cu un scan_control.
Atunci cānd noi īnşine facem scanarea, vom şti exact ce fişiere avem, deşi... Să reţinem un amănunt important: Dacă salvăm PDF [deci nu PDF/A] din Abbyy, atunci vom obţine un PDF care conţine OCR-ul şi nu un PDF din imagini.
Cānd descoperim in scan_control pe net [de regulă īn format PDF] este bine să-l verificăm cu atenţie pentru a descoperi dacă este vorba despre PDF din imagini sau PDF din text, ori şi mai rău - PDF din OCR periat.
PDF Grayscale/Color Dacă PDF-ul găsit pe net este Grayscale/Color putem observa defecte ale texturii hārtiei şi variaţii ale intensităţii de culoare pe pagină, astfel că stabilirea Real-Fals este relativ mai uşoară, dar nu īntotdeauna este 100% sigură. Atenţie! Există unii useri care folosesc īn editoarele de text fundaluri de pagină [Background] bazate pe imagini ale scanării paginilor albe. Īn acest caz putem avea inclusiv fundaluri grayscale sau color care par a fi textura hārtiei, dar care īn realitate sunt doar fundaluri. De regulă, omul nu se complică cu multe imagini, aşa că este uşor de stabilit dacă "textura" hārtiei este aceeaşi la multe pagini. De asemenea, există utilizatori care īncearcă să imite cāt mai perfect fonturile din cartea tipărită.. plus anteturi şi subsoluri identice cu cartea tipărită, ceea ce poate produce o confuzie şi mai mare.
Īn cazul PDF-urilor AN confuzia poate fi făcută şi mai uşor.
Pentru a stabili dacă un PDF este un scan_control real sau unul Fals sunt cāteva lucruri pe care trebuie să le avem īn vedere: - un PDF din imagini are valori mari SDisk, timp īn care un PDF din text are valori mai mici, chiar şi īn cazul PDF AN. Aici avem o problemă: dacă un PDF din text conţine imagini īncorporate īn text el poate avea valori mari, deşi este PDF_Text. - aşa cum am spus, trebuie vizualizată bine textura hārtiei; chiar şi īn cazul PDF_IMG AN există puncte sau mici pete parazite care apar pe unele dintre pagini;
Cea mai importantă verificare este să observăm forma literelor, atunci cānd mărim foarte mult zoom-ul de vizualizare. Deci, deschidem PDF-ul de verificat, apoi mărim zoom-ul de vizualizare foarte mult... de pildă 1600 ÷ 2400, deci de 16÷24 de ori mărimea originală. Urmărim forma literelor şi observăm dacă īşi păstrează conturul iniţial, ori dacă acest contur este zdrenţuit. Īn cazul unui PDF_IMG, deci un scan real, conturul literelor este din ce īn ce mai zdrentuit pe măsură ce mărim zoom, ca īn imaginea următoare:
Dimpotrivă, īn cazul unui PDF_TXT, deci un Fals scan_control, literele īşi păstrează forma, conturul literelor este continuu şi fără franjuri, chiar dacă mărim zoom foarte mult, aşa cum se vede īn următoarea imagine.
Īn concluzie, trebuie să fim foarte atenţi şi să verificăm bine atunci cānd folosim scan_control din surse necunoscute. Avem şanse să confruntăm un text cu un OCR care arată bine, dar care este chiar mai prost decāt ceea ce corectăm.
_______________________________________
Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|