Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
DESPRE DICŢIONARELE AutoCorect OCR Plus
Câteva cuvinte despre înregistrările din dicţionarele OCR_DIC:
Există cel puţin două tipuri de dicţionare în folderul Dictionare din AppData: - dicţionare de tip "DIC", care au extensia "dic", sunt dicţionare create de program atunci când se face corectură în AutoCorect cu opţiunea Ortografie; aici vor fi înregistrate cuvinte adăugate de utilizator ca fiind cunoscute, cuvinte ignorate etc. NOTĂ: dicţionarele de tip "dic" pot fi deschise cu NotePad şi alte editoare de text.
- dicţionare de tip "IMD", care au extensia "imd" - de Înlocuire Multiplă; ca să ne fie mai uşor ne gândim la iniţialele expresiei Înlocuire Multiplă Dicţionar = IMD
Dicţionarele de tip "imd" nu se pot crea, deschide sau edita decât direct din programul AutoCorect. Ele nu se pot deschide cu NotePad sau alte editoare, aşa cum se poate proceda cu dicţionarele de tip "dic". Cu toate acestea, se poate face selectarea unui număr nedefinit de înregistrări consecutive sau "pe sărite" şi ştergerea, copierea, mutarea unor astfel de înregistrări dintr-un dicţionar în altul. Se poate face copiere/mutare de înregistrări dintr-un dicţionar "imd" deschis cu AC, într-un fişier deschis cu NotePad şi invers Se poate face o operaţiune mai compleaxă de genul AutoCorect - NotePad - Word şi invers: Word - Notepad - AutoCorect. Totuşi, nu recomand prelucrări în Word. Cea mai indicată operaţiune de acest gen este AutoCorect - NotePad - Excel şi Excel- Notepad - AutoCorect. Teoretic funcţionează şi corespondenţa AutoCorect - Excel şi invers, dar apar în mod frecvent erori la mutare. Despre toate aceste lucruri vom intra în detalii la capitolul "JONGLERII cu dicţionare de Înlocuire multiplă de tip "imd"
Toate dicţionarele din OCR_DIC, Dic Uzuale, suplimentare, personale sunt de tip "imd" Deci dicţionarele de înlocuire multiplă sunt cele care ne interesează în mod special.
Sunt foarte multe corecturi posibile care nu se regăsesc în dicţionarele OCR_DIC. Principiul de bază pentru înregistrările din OCR_DIC este ca modificările să nu producă efecte secundare.
De exemplu: frecvent cuvântul "mai" este recunoscut în mod eronat de Abbyy sub forma "mal". Nu vom putea face o înregistrare automată de genul "mal >> mai" deoarece vor fi modificate şi cuvintele care în mod real sunt "mal" cu sensul de marginea unei ape. Înregistrarea poate fi făcută doar cu confirmare sau poate fi evitată. În unele cazuri se pot folosi modificări de grupuri de cuvinte, dar şi aici pot apărea efecte secundare, deci trebuie să fim atenţi. Dacă "ochiul sting, cotul sting, piciorul sting... " pot fi modificate fără probleme în "ochiul stâng, cotul stâng, piciorul stâng... ", nu acelaşi lucru putem spune despre "mal mare, mal mic, mal bun, mal rău... ", care ar putea fi în majoritatea cazurilor corectate ca "mai mare, mai mic, mai bun, mai rău... ", dar, la fel de bine, în unele cazuri ar putea fi vorba chiar de un MAL care este mic, mare, bun sau rău. Discuţia poate fi continuată cu "luminare >> lumânare" etc... etc...
De aceea multe dintre erorile frecvente nu pot fi corectate de AutoCorect,iar uneori înregistrările cu confirmare ne dau mari dureri de cap. OCR_DIC nu poate impune unui utilizator să rişte modificări nedorite sau să-l ţină prea mult în faţa computerului pentru a accepta sau nu modificările cu confirmare.
Cu toate astea putem să ne creăm nişte dicţionare personale în care putem pune tot ce ne interesează la un moment dat. Suntem singurii care hotărâm dacă o anume înregistrare ne foloseşte sau nu, dacă folosirea ei ne avantajează sau ne dezavantajează.
Din motivele arătate mai sus, putem concluziona:
■ Dicţionarele OCR_DIC sunt nişte dicţionare care se vor a fi valabile în cât mai multe dintre cazuri; multe erori nu vor apărea în aceste dicţionare OCR_DIC pentru a nu avea efecte secunadre nedorite, deci nu vor fi corectate de AutoCorect; principalele înregistrări s-au făcut deja şi deşi dezvoltarea acestor dicţionare va continua, nu trebuie să ne aşteptăm să apară foarte multe înregistrări noi faţă de ceea ce avem în acest moment; probabil cele mai multe înregistrări vor fi făcute pentru cuvinte întregi de 4 litere şi a unora de 5 cuvinte, precum şi a unor cuvinte mai lungi cu frecvenţă mare în limba română.
■ Dicţionarele UZUALE urcate pe host sunt mai degrabă nişte modele de dicţionare personale. Dintre acestea, cele 3 dicţionare care se referă la cuvinte care încep cu litera "î" sunt singurele care au fost dezvoltate în timp; e vorba de dicţionarele: Uz_Î1 - diverse.imd, Uz_Î2 într- [208].imd şi Uz_Î3 [i - î] 682.imd. Celelalte dicţionare, de la Uz_A.imd la Uz_Z.imd, nu au mai fost reactualizate de mult timp, deoarece am folosit frecvent dicţionare temporare sau personale. Practic nu am dorit să impun altor persoane înlocuiri care mi-au folosit mie la un moment dat şi care, poate, în unele cazuri pot realiza înlocuiri nedorite. Este bine ca fiecare utilizator, plecând de la structura existentă, să verifice înregistrările din fiecare dicţionar, să elimine dacă fdoreşte unele înregistrări care nu-i sunt de folos şi să adauge altele pe măsură ce găseşte cuvinte care pot fi corectate. Ideea principală este să se meargă pe cât posibil pe înregistrări de cuvinte întregi la ambele capete sau cuvinte întregi la început.
Hai să vedem care e problema cu aceste "cuvinte întregi" în sensul programului autocorect: Să luăm ca exemplu cuvântul binecuvintarc/binecuvântare.
- dacă vom face înlocuirea binecuvintare >> binecuvântare înseamnă că în limbajul AutoCorect avem un "Cuvânt întreg la ambele capete", ceea ce în limbajul obişnuit înseamnă cuvânt întreg; Modificarea se va face doar în cazul acestui cuvânt şi nu va produce modificări pentru cuvintele "binecuvintarea", "binecuvintări" binecuvintările" etc... - dacă vom face înlocuirea binecuvint >> binecuvânt înseamnă că în limbajul AutoCorect avem un "Cuvânt întreg la început", ceea ce în limbajul obişnuit înseamnă aproximativ rădăcină de cuvânt; dacă vom pune condiţia "cuvânt întreg la început" toate cuvintele care încep cu "binecuvint" vor fi modificate, deci atât "binecuvintare", cât şi "binecuvintarea", "binecuvintări" binecuvintările" etc... Presupunem că am pus înlocuirea binecuvintare >> binecuvântare cu condiţia "cuvânt întreg la început"; în acest caz modificarea se va face la cuvintele "binecuvintare" şi "binecuvintarea" - pentru că au acelaşi început, dar nu şi la "binecuvintări" binecuvintările" - pentru că au formă modificată în final.
- dacă vom face o înlocuire de genul ....ănd >> ...ând sub forma ănd >> ând, avem de-a face cu un "cuvânt întreg la sfârşit", deci cu o terminaţie în limbaj obişnuit. În cazul de mai sus absolut toate verbele la gerunziu care se termină în "ând", cum ar fi "alungând, autoproclamând, conectând, dedublând, erijând, felicitând, forfecând, idolatrizând, inserând, interferând, înseninând, marcând, mizând, reciclând, redând, secerând" şi care au fost scrise eronat cu litera "ă" în loc de"â" vor fi corectate. Cu toate acestea cuvintele care au terminaţiile ...ăndu-mă, ...ăndu-te, ...ăndu-se, ...ăndu-ne etc. nu vor fi modificate, deoarece deşi conţin "ând",ele nu se termină cu "ând". Dacă am dori ca orice cuvânt care are în componenţă secvenţa "ănd" să fie modificat în "ând" atunci am folosi doar condiţia "potrivire perfectă" fără altă condiţie, doar că înlocuirea nu ar fi corectă deoarece există suficiente cuvinte care au în mod corect secvenţa "ănd" în componenţă [dăndănaie, hăndrălău, măndel, săndăluţe, smărăndel, tăndăni, ţăndărea...] DE ŢINUT MINTE! Dacă vom activa doar opţiunea "cuvânt întreg" fără să stabilim dacă acesta este cuvânt întreg la ambele capete, cuvânt întreg la început sau cuvânt întreg la sfârşit, programul AutoCorect OCR Plus este realizat astfel încât să seteze automat varianta "cuvânt întreg la ambele capete", deci cuvânt întreg în sensul obişnuit al limbajului. În concluzie vom umbla la setarea variantei de cuvânt întreg doar dacă e vorba de un început de cuvânt, deci "cuvânt întreg la început" sau de un sfârşit de cuvânt, adică "cuvânt întreg la sfârşit".
■ Dicţionarele personale... Fiecare utilizator poate crea pentru uz personal dicţionare sau pachete de dicţionare. Nu trebuie să acceptăm să gândească alţii pentru noi; suntem cei mai în măsură să constatăm şi să hotărâm ce anume erori ne interesează să fie corectate.
Fiecare tip de font folosit la tipărirea unei cărţi poate da erori specifice, care nu sunt încă rezolvate de AutoCorect. Cu cât un font pare mai elegant, cu cât are nişte caractere ce par mai artistice, cu atât el are şanse ca la recunoaşterea în Abbyy să dea erori. Pot fi fonturi la care diferite litere sunt mai late decât de obicei şi în poziţii aproape lipite de litera următoare; această poziţie foarte apropiată a două litere, transformă pur şi simplu grupul de două litere într-un caracter nou, ceva comparabil cu situaţia literelor ae sau oe care formează caracrele ć şi ś în limba franceză. De exemplu: la unele fonturi [foarte plăcute ochiului] litera < f > este un pic mai lată, partea de sus din dreapta lungindu-se deasupra literei următoare, astfel că grupurile de litere fr, fi, fl, ft sunt pentru Abbyy nişte caractere noi pe care le interpretează adeseori greşit. Ne amintim că Abbyy "citeşte" caracterele în suprafeţe utile sub formă de dreptunghi, deci fiecare caracter este încadrat într-un dreptunghi. În aceste cazuri Abbyy ori nu va încadra litera "f" în totalitate, lipsind din literă un pic din partea de sus dreapta, ori va încadra toată litera şi în acest caz va "ciupi" un pic din litera următoare, iar litera următoare la citire va avea lipsă bucăţica ce a fost incorect repartizată literei "f". Din aceste motive şi din alte 1000 de motive este util ca fiecare utilizator să încerce să-şi facă dicţionare proprii.
PONT: În AutoCorect există facilitatea marcării cu font colorat a modificărilor făcute de dicţionare. Dacă dorim să urmărim/verificăm efectele unor înlocuiri în text, respectiv corectitudinea lor se poate seta ca la rularea unui dicţionar, toate modificările să fie marcate cu font colorat. În acest fel, dacă vom constatat că o înlocuire produce mai multă pagubă, deci pe lângă modificările corecte face şi modificări nedorite, atunci pur şi simplu deschidem dicţionarul şi ştergem înregistrarea cu pricina sau căutăm să-i punem nişte condiţii care să-i reducă variantele de căutare şi înlocuire.
Culoarea se poate stabili pentru fiecare sesiune de modificări în parte. ATENŢIE: Opţiunea "Marchează modificările" nu se transmite doar dicţionarului la care s-a activat opţiunea, ci este o setare care se transmite tuturor dicţionarelor din AutoCorect, inclusiv celor din OCR_DIC. Din acest motiv, după ce rulăm un dicţionar personal pentru testare, vom avea grijă să dezactivăm de îndată această opţiune "Marchează modificările", pentru că dacă o vom uita activată, la rularea automată a unui OCR în AC OCR Plus vom opţine un text foarte colorat.
_______________________________________
Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|