Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
*** Mai întâi vreau să subliniez că dicţionarele care sunt deja integrate în program în cadrul OCR_DIC fac o "curăţare" destul de bună a fişierelor OCR şi programul ar putea funcţiona destul de bine, aşa cum este el la această dată. Practic, dicţionarele de tip L1-L3.imd şi S1-S4.imd fac cele mai importante modificări şi ele sunt aproape finalizate. Mai sunt câteva, şi ele deja implementate, cărora le-am acordat multă atenţie, astfel încât ele să ajute cât mai mult şi să producă efecte secundare cât mai puţine. În principiu, eu consider că principalele probleme au fost rezolvate.
Fiecare dintre noi tinde spre o continuă perfecţionare; oricând, indiferent cât de bine ar arăta un lucru, el poate fi şlefuit, lustruit... etc. De exemplu, prin anii 1995, atunci când pe piaţa românească puteam aproviziona cu 460 $ un computer 286 second hand, toţi ne gândeam la cel mai tare computer al tuturor timpurilor, cel mai minunat, cel mai performant, cel-mai-ce, nemaipomenitul, extraordinarul 486. Cei mai mulţi eram convinşi că ceva superior va fi greu de realizat... Timpul a dovedit cu totul şi cu totul altceva.
Acum mă aflu sau ne aflăm într-o a doua etapă... aceea a perfecţionării. Dacă vreţi, mă gândesc la ceva separat de OCR_Plus, un fel de OCR++
Dicţionarele la care lucrez în acest moment sau la care doar mă gândesc nu sunt nişte dicţionare obligatorii, ele nu trebuie neapărat să ruleze automat în meniul OCR_Plus, dar pot fi de mare ajutor pentru perfecţionişti, pentru cei ce vor să facă o "curăţare" profesionistă.
Ele se adresează utilizatorilor cu pretenţii ridicate, este practic o altă etapă de prelucrare, o etapă benevolă, dar pe care m-am gândit că o putem pune la dispoziţie. Deocamdată nu mă interesează ca aceste dicţionare să rulează automat. Eu le testez folosindu-mă de opţiunea 11. După realizarea lor putem discuta şi despre implementare.
A nu se confunda aceste dicţionare cu dicţionarele personale, pe care le-am pus la dispoziţie. Dicţionare personale cuprind modificări de cuvinte întregi [sau secvenţe lungi, de cel puţin 5-6 litere] specifice unor volume, pe care eu le-am realizat corectând diferite volume. Aceste dicţionare sunt cumva specifice unor anumite cărţi. Ele pot să facă sau să nu facă prea multe modificări în cazul rulării lor, pentru că e vorba de o bază redusă de cuvinte, care pot fi găsite sau nu, în cărţile pe care le corectează alţi useri.
Dicţionarele de secvenţe sunt nişte dicţionare cu un anumit specific. Ele sunt un fel de dicţionare pentru avansaţi, dar pot fi rulate pentru curăţarea superiară a oricărui volum.
Despre ce e vorba? Există o serie de litere care pot apărea frecvent unele în locul altora, ca de exemplu: - ă - â, c - e, l - i, r+n - m, c+l - d, î - i....
Luăm exemplu apariţia lui "c" în loc de "e". Am luat secvenţele de cuvinte de câte 3 litere, cu litera "c" la mijloc, precum: bcb, bcc, bcd, bce, bcf, bcg, bch, bci, bcj, bck, bcl, bcm, bcn, bco, bcp, bcr, bcs... zcz. Am verificat pentru fiecare astfel de secvenţă în parte dacă ea, secvenţa se regăseşte în cuvintele aflate în DEX şi celelalte dicţionare care însoţesc AutoCorect. Dacă secvenţa bcb a dat rezultate zero, deci nu există niciun cuvânt care să cuprindă asemenea secvenţă atunci am adăugat-o în dicţionarul de secvenţe, înlocuind grupul bcb în beb. Aşa am procedat cu toate grupurile de 3 litere posibile de la bcb până la zcz. În acelaşi mod am procedat cu litera l şi i, înlocuind blb, blc, bld... zlz, cu bib, bic, bid ... ziz... Buun. Multe probleme pot fi corectate în partea finală a cuvintelor, deci terminaţii... În această zonă s-a aflat corecţia <â-> în <ă->, exemplu: "a repara", poate avea formele: repară-i, repară-l, repară-le, repară-mă, repară-mi, repară-n, repară-ne, repară-te, repară-ţi, în care în loc de ă-, Abbyy a pus â-. Se poate pune foarte uşor o înlocuire de genul "caută: â-" şi "înlocuieşte cu: ă-", dar această înlocuire poate produce efecte secundare şi să facă şi înlocuiri nedorite, deorece litera â ar putea fi redată de Abbyy şi în locul lui a sau poate veni dintr-o altă eroare de convertire în care la origine ar fi putut fi litera i.... Dacă în locul unei înlocuiri foarte simple, punem o secvenţă mai lungă, precum "râ-i, râ-l, râ-le..." se înlocuieşte cu "ră-i, ră-l, ră-le...", atunci înlocuirile accidentale nedorite se pot reduce foarte mult.
În afară de secvenţe, tot în dicţionare pentru curăţare se încadrează şi dicţionarele care cuprind grupuri de litere. Există cuvântul "stingă" de la a stinge, dar şi mai frecvent este folosit cuvântul "stângă", doar că Abbyy recunoaşte ambele cuvinte în forma "stingă". Se poate face corecţia prin înlocuire cu confirmare, defilând prin tot documentul şi dând acceptul de înlocuire sau nu, acolo unde e cazul. Dacă se face un dicţionar în care expresii ca: "latura stingă, mâna stingă, urechea stingă, coloana stingă..." se modifică cu "latura stângă, mâna stângă, urechea stângă, coloana stângă..." atunci majoritate situaţiilor se rezolvă şi vom putea renunţa la înlocuirea cu confirmare, ori o vom putea folosi, mergând în principal pe apăsarea butonului "caută următorul", fără a face prea multe modificări. Deci aceste dicţionare nu sunt unele indispensabile rulării programului AutoCorect, ci ele fac parte din... ceva ce s-ar putea numi ca în SF, dicţionare din "generaţia următoare".
Modificat de Seven (acum 12 ani)
_______________________________________
Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|