Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
DICŢIONARE NUME DE LOCURI ŞI PERSOANE
Continuăm cu ceva mai uşor şi oarecum facultativ.
EXPUNERE DE MOTIVE În cazul cărţilor de vechi, de dinaintea apariţiei calculatorului, când textele pentru tipar erau bătute la maşină iar în tipografii zeţarii culegeau literele de plumb, o serie de nume străine pot apărea în carte scrise în mai multe variante; de pildă nume care în componenţă litere duble [şi mă refer în special la consoane duble] pot apărea în text atât cu consoană dublă, cât şi în varianta simplă. Dacă e vorba de un nume cu două consoane duble în componenţă, avem deja vreo 4 variante. Pot apărea şi multe altele precum rocade W <> V sau Y<>J<>I şi multe altele. Deci chiar în cartea tipărită avem mai multe variante de nume, să le zicem greşeli de tipar. La toate astea se adaugă erorile de recunoaştere optică ale lui Abbyy sau alt program de acest gen. Şi nu în ultimul rând, sunt nume [mai ales nume de locuri] care în limba română erau folosite la momentul editării cărţii într-o anumită formă, iar între timp se foloseşte o altă formă. Şi aş da un singur exemplu: forma veche Lipsca pentru oraşul german Leipzig, de unde şi nume de străzi „Lipscani” pentru străzi pe care se aflau prăvălii ale unor comercianţi din acest oraş.
Din păcate, nume scrise în mai multe variante apar şi la cărţi mai noi editate pe computer [situaţie în care s-ar observa mult mai uşor deviaţia de la numele corect al unui nume]. Există mai multe serii/cicluri de cărţi apărute în ultimii ani, la care editurile au folosit mai mulţi traducători, astfel că într-un volum un nume poate fi ortografiat într-un fel, iar în alt volum – al altui traducător, este ortografiat altfel.
În concluzie, nu totdeauna este necesară crearea unui astfel de dicţionar – de aici şi afirmaţia „facultativ” de la începutul postării. Totuşi, în multe cazuri este necesar un astfel de dicţionar care să uniformizeze formele eronate ale numelor. Utilizatorul este singurul în măsură să stabilească dacă are nevoie sau nu de un astfel de dicţionar suplimentar.
NOTĂ În cazul în care avem mai multe volume ale unui roman, este bine să avem deja la dispoziţie fişierele scan de la toate volumele [PDF sau DjVu] în care să putem face căutări de cuvinte, deci fişiere Searchable.
Continuare postare 20.11.2024
ETAPELE REALIZĂRII UNUI DICŢIONAR DE NUME – Ne aflăm în AutoCorect, având deschis primul OCR din serie/ciclu şi am făcut deja prima rulare OCR_Plus, adică dicţionare automate şi dicţionarele de la opţiunea 10.2 Corectare cuvinte rupte – cu confirmare. – Practic acum AC este rulat automat şi fişierul salvat automat. – Din acest moment ar trebui să ne ocupăm de eliminarea artefactelor şi a cratimei false, apoi de rularea dicţionarelor cu confirmare; În aceste etape avem posibilitatea să defilăm prin text şi să observăm numele de locuri şi persoane subliniate cu roşu, deci necunoscute de corectorul AC.
PRACTIC vom desfăşura două activităţi separate: 1. Identificarea numelui corect şi înregistrarea acestuia în Corectorul AC. Acest tip de înregistrare se face cu click dreapta pe cuvântul respectiv, iar în fereastra de opţiuni ce se deschide alegem a treia opţiune „Adaugă în dicţionar” şi pur şi simplu apăsăm pe această opţiune. În acest mod cuvântul s-a înregistrat în Corector şi nu va mai fi subliniat. 2. Corectarea erorilor de afişare a numelui respectiv; acest lucru se face într-un dicţionar de tip „imd” [înlocuiri multiple] pe care îl vom crea noi dacă vom considera că este necesar. Pentru asta trebuie să creăm un dicţionar „imd” de nume, astfel:
CREAREA DICŢIONARULUI DE NUME – Acţionăm asupra iconului de Înlocuiri Multiple care este ultimul din dreapta pe bara de iconuri, cel negru care se aseamănă cu două persoane una lângă alta. În mod automat se va deschide dicţionarul „implicit.imd”. Acest dicţionar ar trebui să fie gol, dar dacă conţine ceva înregistrări nu-i nicio problemă. – Apăsăm butonul „Salvare dictionar” şi se va deschide folderul principal „Dictionare_PRS”. Alegem locul [subfolderul] în care dorim să salvăm dicţionarul şi îi dăm un nume, de genul „NUME Titlu-carte.imd”, unde „Titlul_carte” va fi numele cărţii de prelucrat sau o prescurtare a titlului”. De exemplu pentru romanul foileton „Victor von Falk – Călăul din Berlin” eu am stabilit numele dicţionarului ca „NUME Călău.imd” Majuscularea cuvântului NUME am făcut-o doar pentru pentru a fi mai uşor de remarcat acest dicţionar. Dacă în folderul principal mai avem şi alte dicţionare, pentru a găsi mai repede acest dicţionar putem să-i adăugăm înaintea numelui un număr [ex. 01], o combinaţie literă cifre [ex: A1, A01] sau o literă ori două de la începutul alfabetului, astfel ca la indexarea automată dicţionarul să se afişeze undeva la începutul listei. Dacă dicţionarul „implicit.imd” a avut ceva înregistrări, acestea vor fi salvate şi în dicţionarul de nume; în acest caz selectăm toate înregistrările existente şi le ştergem, astfel încât dicţionarul de nume să rămână gol. N-ar fi rău, totuşi, să avem în acest dicţionar unul sau două separatoare [înregistrări false separatoare]. Voi reveni cu explicaţii asupra acestui tip de înregistrare.
IDENTIFICAREA, VERIFICAREA ŞI ÎNREGISTRAREA CORECŢIILOR DE NUME ÎN DICŢIONAR Suntem în etapa de eliminare artefacte pe care o facem cu opţiunea „Căutare”. În timp ce defilăm prin text şi facem corecţiile respective, întâlnim printre alte erori şi nume de locuri şi persoane subliniate cu roşu, deci care nu sunt cunoscute de corectorul AC.
Identificarea numelui: Presupunem că găsim un toponim [nume de locuri] precum „Molkenmartef” [este numele unei mari pieţe din Berlin, nume găsit în romanul „Călăul din Berlin”].
Verificarea corectitudinii numelui: Este necesar să vedem dacă numele identificat este corect şi facem două categorii de verificări: – în cazul unui toponim prima verificare o facem cu ajutorul lui Gogu… Căutăm cu Google numele respectiv şi poate avem şansa să descoperim că numele este real şi în acest caz stabilim şi grafia corectă, deoarece e posibil ca grafia din text să fie un pic diferită; dacă grafia este diferită atunci deschidem dicţionarul imd de Nume creat şi facem înregistrarea de corectare a numelui. – a doua verificare o facem în scan; căutăm cuvântul respectiv şi vedem dacă apare într-un număr suficient de mare pentru a fi înregistrat. Dacă numele respectiv apare doar de 2-3 ori şi nu are o grafie complicată, atunci putem să-l ignorăm şi să nu facem. – există încă o situaţie: e posibil ca un toponim să aibă în limba română o formă consacrată, formă care diferă de numele oficial, astfel că nu înregistrăm London, ci Londra, nu înregistrăm Moskva ori Moscow, ci Moscova etc.
Înregistrarea numelui corect în Corectorul AC: După ce am stabilit că un nume este corect, trebuie să-l înregistrăm în Corectorul AC pentru ca el să nu mai fie afişat subliniat cu roşu. Aşa cum am spus ducem cursorul undeva pe cuvântul respectiv, facem click dreapta şi alegem opţiunea „Înregistrare în dicţionar”. Unde se face înregistrarea? În folderul principal „Dictionare_PRS” există mai multe dicţionare cu extensia „dic” şi 4 dintre ele fac parte din Corectorul AC. Acestea sunt: a.dic, i.dic, np.dic şi p.dic. Dintre aceste dicţionare, două conţin înregistrări direct de la instalare şi sunt needitabile direct din AC – acestea sunt: a.dic care conţine abrevieri/prescurtări care se scriu cu 2-3-4 litere majuscule, respectiv np.dic care conţine o mică listă de nume proprii. Ambele dicţionare pot fi dezvoltate în Notepad sau alt editor de text simplu. Dicţionarul i.dic el este gol la instalare şi în el se adaugă corecţii făcute manual în opţiunea Ortografie; acest dicţionar nu ne interesează în cazul nostru. Cel de-al patrulea dicţionar p.dic este cel care ne interesează în mod special; aici se înregistrează cuvintele adăugate la dicţionarul ortografic. Deci atunci când facem click dreapta şi accesăm opţiunea Adaugă la dicţionar, aici se înregistrează cuvintele respective, fie ele nume de locuri şi persoane, dar şi alte cuvinte obişnuite.
Dicţionarul este practic o listă de cuvinte scrise unele sub altele în ordinea adăugării la dicţionare, deci dicţionarul nu se ordonează alfabetic automat. El poate arăta cam aşa: new caffarelli colonna suleima rebecca santa madalena giovanna raimondi yusuf allah violetta
Mai trebuie spus că toate cuvintele se înregistrează exclusiv cu minuscule, deci numele nu au majusculă iniţială, motiv pentru care corectorul nu sesizează ca eronat un nume scris fără majusculă iniţială. Dacă încercăm să edităm în Notepad o parte dintre nume şi să punem majusculă la început, corectorul nu mai recunoaşte aceste cuvinte-nume, deci dicţionarul p.imd trebuie să rămână scris exclusiv cu minuscule.
După terminarea procesării unui roman [ciclu de romane], acest dicţionar poate fi periat în Notepad sau alt editor simplu de text, în sensul că putem şterge cuvintele care nu mai prezintă interes pentru un nou text. Bun! În acest moment am făcut înregistrarea numelui respectiv în Corectorul AC.
POSTARE ÎN LUCRU Pentru că în aceste zile lucrez şi la volumul 3 al romanului Călăul din Berlin, printre picături mă ocup şi de continuarea acestei postări şi a următoarelor.
_______________________________________
Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|