Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
ACŢIUNI, ETAPE ŞI FAZE PENTRU OBŢINEREA "OCR-ului perfect"
[Propunere Aleph - listă îmbunătăţită şi reactualizată, conform discuţiilor]
1. Pagina 1) Se stabilesc dimensiunile paginii la A5, cu oglinda suficient de mare. 2) Se elimină marcajele de secțiune; documentul va avea o singură secțiune. 3) Se elimină coloanele. 4) Caracterul de sfârșit manual de pagină se elimină sau, dupa caz, se înlocuiește. 5) Informația din antetul și/sau subsolul original se elimină; dacă aplicația OCR include în text numerele originale de pagină, acestea se vor păstra. 6) Se verifică pagină cu pagină prezența integrală a textului. 7) Documentul rezultat se salveaza în format DOC.
2. Paragraf 1) Se elimină toate stilurile introduse de aplicația OCR. 2) Paragrafele de text se spațiază la un rând (single), cu alineat, și se justifică stînga-dreapta. 3) Titlurile se centrează și se scriu cu bold, cu spațiu înainte și după. 4) Dacă sunt prezente în original, se introduc spații înainte și după unele paragrafe. 5) Se plasează notele în subsol, cu numerotare de la 1 la n. 6) Se refac paragrafele scindate prin Enter de către aplicatia OCR. 7) Dacă există în original, pasajele speciale se scriu cu corp mai mic, se indentează și se spațiază. 8) Bullets and Numbering se transformă în text.t
3. Litere, cifre si alte caractere 1) Se folosește scrierea cu caractere românesti (codepage 1250); pentru compatibilitate se utilizează literele cu cedilla în loc de virguliță. 2) Se folosește peste tot același font cu serife, de aceeasi mărime măsurată în puncte; dacă este nevoie, se mai folosește cel mult un alt font (preferabil sans-serif). 3) Titlurile se scriu cu corp puțin mai mare. 4) Se formatează toate caracterele la scara de 100%, cu spațiere normală (nu condensate, nici extinse) și, cu excepția indicilor și exponenților, poziție normală (nu ridicate, nici coborâte). 5) Se elimină evidențierea cu culoare a caracterelor, rămasă de la aplicația OCR. 6) Cuvintele se formatează cu bold, italic și bold-italic, conform originalului. 7) Se elimină paragrafele goale (Enter-urile consecutive). 8) Caracterul de sfârșit de linie se elimină sau, dupa caz, se înlocuiește. 9) Caracterului Tab se elimină sau, după caz, se înlocuiește. 10) Se elimină spațiile duble. 11) Se elimina spațiile din fața semnelor de punctuație (virgulă, punct, punct și virgulă, două puncte, semnul exclamării, semnul întrebării, puncte-puncte, ghilimele închise, paranteze închise) și de după ghilimelele deschise și parantezele deschise. 12) Se elimină caracterul „spațiu” de la sfârșitul și începutul paragrafelor. 13) Se elimină cratima opțională de despărțire în silabe; documentul nu se desparte în silabe. 14) Se corectează paragrafele care se termină cu literă mică, virgulă, punct și virgulă, cratimă, liniuță despărțitoare. 15) Se corectează paragrafele care încep cu literă mică sau cu semne de punctuație. 16) Liniile de dialog sunt Em dash (Alt+0151) sau Horizontal line. 17) După liniile de dialog se pune Nonbreaking space. 18) Referirile în text la notele de subsol se scriu cu font normal-drept și se plasează înaintea semnelor de punctuație, cu excepția situațiilor când nota se referă la întreaga frază. 19) În subsol, după numărul de referință al notelor se pune Nonbreaking space. 20) Puncte-puncte scrise cu trei puncte (...) se înlocuiesc cu caracterul Elipsis (Alt+0133). 21) Se înlocuiește apostroful drept Alt+0039 cu apostroful tipografic Alt+0146 (dacă nu este vorba de notația pentru minute). 22) Se înlocuiesc ghilimelele cu cele românești 99-99: „ – Alt+0132 și ” – Alt+0148 (dacă nu este vorba de notația pentru secunde). 23) Se elimină spațiul din fața și de după cratima de legătură. 24) Se înlocuiește cratima explicativă cu liniuța separatoare En dash, precedată și urmată de un spațiu. 25) Se înlocuiește cratima din intervalele numerice, cu En dash (ex. 24-36 sau XV-XVI). 26) Ordinul miilor din cadrul numerelor se separă prin Nonbreaking space, cu excepția anilor, care se scriu legat. 27) Se elimină artefactele introduse în procesul OCR ( | / @ , . ^ # etc.). 28) Se asigură prezența unui spațiu după semnele de punctuație din cadrul frazelor. 29) Se elimină situațiile în care o cifră apare în locul unei litere [0 – „zero” în loc de litera O majusculă] sau invers [litera l mic apare unde trebuie să fie cifra 1]. 30) Se formatează (italic, bold, bold-italic) caracterele semn de exclamare și semn de întrebare, la fel ca și cuvântul care le precede. 31) Numele proprii se scriu ca în original, și unitar. 32) Se elimină greșeli de OCR prin folosirea corecturii semiautomate (cu confirmare) făcută cel puțin cu dicționarul dintr-o versiune de Word. 33) În cuvintele compuse, cratima se înlocuiește cu Nonbreaking hyphen.
4. Grafica 1) Imaginile grafice (fotografii, diagrame, schițe, etc.) se scanează la 200 sau 300dpi, color sau nu, ca în cartea tipărită. 2) Imaginile se plasează „inline” in text, între două paragrafe, cât mai aproape de locul original.
5. Optional 1) Se păstrează grafia cu î din i, și cu „sînt” în loc de „sunt”. 2) Se verifică prezența paragrafelor, conform originalului. 3) Tabelele se transformă in text. 4) Se formatează (italic, bold, bold-italic) semnele de punctuație, parantezele închise și ghilimelele de sfârșit, la fel ca și cuvântul care le precede. 5) Se formatează (italic, bold, bold-italic) parantezele deschise și ghilimelele de început, la fel ca și cuvântul care le urmează.
_______________________________________
Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|