Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
bruneta_ta_us
Femeie
25 ani
Giurgiu
cauta Barbat
25 - 52 ani
Forum Romania Inedit / Totul despre cărți - About e-books / AutoCorect - reactualizare Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini:  1 2 3 4
rickerk
Membru Gold

Inregistrat: acum 19 ani
***

Am incercat de vreo 10 ori. La rulare OCR+ peste fisier deschis se impiedica intodeauna  la punctul 9 ( Dictionarul ...... nu poate fi deschis).

@ 2: am sters toate variantele AC ; am descarcat varianta potrivita.
@ 3: sistem Win 7 64 bit


pus acum 9 ani
   
tuf
Vizitator



Fain.
Hai ca facem altfel.
O sa testez programul pe 2 calculatoare reale azi. Unul cu XP, unul cu 7 64.
Pana atunci...



Exact asa arata si meniul tau OCR+? Daca nu, atunci fa-l sa arate.
Iar apoi procedeaza ca in clipul de jos.

https://youtu.be/bYMCk2Y3qs8


Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Tuf, cred că ar fi bine să discutăm o problemă care pare lipsită de importanţă, dar care pentru dezvoltarea dicţionarelor este de mare importanţă.
      Este vorba despre opţiunea "10.1 Setări finale/Înlocuire spaţiu după linia de dialog cu spaţiu neseparator".

      Această opţiune rulează într-un mod mai special, astfel:
            - dacă opţiunea este activată în pachetul de rulare automată, deşi ocupă poziţia 10.1, ea funcţionează la cuplată cu opţiunea 2.2, deci înainte de rularea dicţionarelor; deci nu va rula în ordinea obişnuită, adică la 10.1
            - dacă opţiunea este neactivată în pachetul automat, atunci opţiunea 2.2. rulează în varianta simplă.
            - dacă vom rula separat opţiunea 10.1, atunci ea funcţionează atunci când este dată comanda.

      Din cele de mai sus rezultă că înregistrările care se referă la erori la începutul unui dialog trebuie să le înregistrez în două variante: o variantă cu spaţiu obişnuit după linia de dialog şi o altă variantă cu spaţiu neseparabil după linia de dialog.

      Dacă avem la începutul unui dialog litere minuscule c, î, j, o, p, s, ş, u, v, x, y, z... în loc de majusculele C, Î, O, P, S, Ş, U, V, X, Y, Z, atunci vom avea înregistrările:
      Pentru varianta linie de dialog urmat de spaţiu obişnuit:
                        1    —^_c    —^_C    Pp  Pi   
                        1    —^_î    —^_Π   Pp  Pi   
                        1    —^_j    —^_J    Pp  Pi   
                        1    —^_o    —^_O    Pp  Pi   
                        1    —^_p    —^_P    Pp  Pi   
                        1    —^_s    —^_S    Pp  Pi   
                        1    —^_ş    —^_Ş    Pp  Pi   
                        1    —^_u    —^_U    Pp  Pi   
                        1    —^_v    —^_V    Pp  Pi   
                        1    —^_x    —^_X    Pp  Pi   
                        1    —^_y    —^_Y    Pp  Pi   
                        1    —^_z    —^_Z    Pp  Pi   

      Pentru varianta linie de dialog urmat de spaţiu neseparabil vom realiza încă o serie de înregistrări:
                        1    —^sc    —^sC    Pp  Pi   
                        1    —^sî    —^sΠ   Pp  Pi   
                        1    —^sj    —^sJ    Pp  Pi   
                        1    —^so    —^sO    Pp  Pi   
                        1    —^sp    —^sP    Pp  Pi   
                        1    —^ss    —^sS    Pp  Pi   
                        1    —^sş    —^sŞ    Pp  Pi   
                        1    —^su    —^sU    Pp  Pi   
                        1    —^sv    —^sV    Pp  Pi   
                        1    —^sx    —^sX    Pp  Pi   
                        1    —^sy    —^sY    Pp  Pi   
                        1    —^sz    —^sZ    Pp  Pi   

      Programul este realizat deja, nu putem să mai facem modificări, dar aş avea o propunere: în pachetul nostru, opţiunea 10.1 să nu fie activată implicit, ci lăsată la implicit neactivată.
      De altfel înlocuire spaţiu obişnuit cu spaţiu neseparator, s-ar putea realiza şi în Word printr-o simplă înlocuire Find&Replace.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
rickerk
Membru Gold

Inregistrat: acum 19 ani
***

@ tuf

a functionat perfect.
Multumesc pentru efortul depus.


pus acum 9 ani
   
tuf
Vizitator



@Seven
OK. O dezactivez. O sa activez optiunea de dialog francez majusucle > minuscule.
Ai observat ca in meniul OCR+, desi optiunile sunt numerotate, ele pot fi mutate in sus sau in jos prin tragere?
Sa imi zici ce parere ai despre dictionarele cu virgula in loc de sedila.

@rickerk
Am incercat azi varianta XP pe un calculator. Da eroarea de la optiunea 9. Nu am incercat pe Windows 7, dar probabil ca e la fel.
La mine merge, asa ca ca naiba s-o ia.

O sa refac executabilele si instructiunile. Ramane optiunea 9 debifata si fara dictionare selectate, ca sa fie adaugata manual de utilizator.
O sa apelez tot la tine pentru un test final. Dictionarele uzuale le las in interiorul executabilului pentru a nu ne incurca in fisiere.
Solutia la problema asta o stiam de multa vreme, speram sa se rezolve totusi.
In momentul de fata nu mai conteaza ce versiune (XP sau Win7) folosesti. Toate merg la fel, la ambele trebuie sa adaugi manual dictionarele.
Uite noul executabil:

Sa imi zici cum merge. Tine minte, optiunea 9 e dezactivata, o activezi si adaugi dictionarele.

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Hai să discutăm câteva lucruri.
      Mai întâi să vedem cum arată tabul "3 Majusculă" din opţiunile Punctuaţie OCR.



      De ce există opţiuni de majusculare?
      ABBYY confundă majuscula cu minuscula în cazul literelor care au aceeaşi formă ca minusculă şi majusculă şi diferă doar prin mărime [c, i, î, j, o, p, s, ş, u, v, x, y, z]. Înseamnă că ABBYY nu va confunda celelalte litere A-a, B-b, D-d, F-f, G-g. Chiar dacă va apărea un G mare după virgulă în loc de g mic, este probabil că litera majusculă este corectă, dar virgula a fost văzută eronat în locul unui punct. Este important să ne gândim la acest lucru, atunci când stabilim opţiunile de majusculare
     
      Să analizăm pe rând opţiunile de setare pe care le folosesc eu:
      Să reţinem că opţiunile privesc 3 situaţii: început de dialog, început de paragraf şi început de frază.

      Majusculare la început de dialog = o singură variantă de setare:
         – Majusculă la început de dialog [inclusiv dialog cu ghilimele] – ACTIVATĂ

      Majusculare la început de paragraf = 3 variante de setare; se activează o singură variantă:
         – Majusculă la început de paragraf [orice literă - orice paragraf] – NEACTIVATĂ
dacă activăm această opţiune va majuscula inclusiv paragrafele rupte la sfârşit de pagină; se va majuscula începutul de paragraf care se continuă pe pagina următoare - la corectură va trebui să refacem minuscula cu care începe partea a doua a paragrafului şi pierdem timp.
         – Majusculă la început de paragraf [numai paragraf întreg] – ACTIVATĂ;
cu această opţiune vor fi majusculate doar paragrafele care încep după un paragraf normal; nu se vor majuscula paragrafe care urmează după cifre sau rânduri goale. Practic este ceva mai restrictivă decât la varianta anterioară.
         – Majusculă la început de paragraf [numai litera Î paragraf întreg] – NEACTIVATĂ; este varianta cea mai restrictivă; Deoarece nu numai î poate apărea scris cu minusculăla început de paragraf, ci şi c, i, j, p.... este de preferat alegerea variantei a doua pentru paragraf. dacă varianta anterioară este actvată, această opţiune nu mai contează.

      Majusculare la început de frază = 2 variante de setare; se pot activa ambele variante:
         – Majusculă la început de frază – doar după punct urmat de spaţiu – ACTIVATĂ;
         – Majusculă la început de frază – după ! şi ? urmat de spaţiu – NEACTIVATĂ;
    Dacă am activa această opţiune avem şanse să producem mai mult rău decât bine aşa că trebuie să negândim de 7 ori până să o activăm.
    O serie de situaţii din text vor avea în mod corect majusculă după semnele ! sau ?, dar o altă serie de situaţii sunt corecte dacă după ! sau ? urmează o minusculă; este vorba despre ceea ce numim dialog francez. Dacă activăm această opţiune se vor majuscula nu numai literele confuze pentru Abbyy [menţionate la începutul postării], ci şi literele a, b, d, f, g, h, l, m, n... care erau corecte în OCR.
     Mai mult decât atât nici literele confuze nu sunt toate eronate dacă sunt minuscule, aşa că dacă activăm opţiunea nu rezolvăm o problemă, ci doar creăm o alta. dacă nu vom activa opţiunea, pe timpul corecturii va trebui să majusculăm literele acolo unde este cazul dacă activăm opţiunea este obligatoriu să "minusculăm" foarte multe situaţii care au fost în mod eronat majusculate de această opţiune.
      Şi... cireaşa de pe tort. dacă activăm această opţiune de majusculare, atunci este obligatoriu să activăm rularea opţiunii 4.7. Dacă nu activăm această opţiune de majusculare, atunci nu trebuie să mai rulăm 4.7. calculaţi timpul total şi alegeţi varianta cea mai comodă.

      Vă recomand ca la punctuaţie să faceţi setările pe care le fac eu şi se câştigă mai mult timp la rularea AC.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Asa e setata punctuatia.
Am rulat optiunea de dialog francez, dar nu am mai inclus-o in executabilul de pe RI.
Nu prea am intalnit probleme pe partea asta.
Daca memoria nu ma insala, aceasta optiunea era utila in vremea in care AC-ul nu facea diferentierea intre majuscularea normala si cea de la dialog francez.
Acum, e destept si poate


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Exact.

     Referitor la dicţionarele cu diacritice cu virgula:

     Este o soluţie să postăm dicţionare cu diacritice cu virgulă pentru cei ce au Word 2013, iar corectorul lui vede corect diacritice cu virgulă. problema este că aceste dicţionare trebuie reactualizate după fiecare actualizare a dicţionarelor obişnuite care sunt cu diacritice cu sedilă.

     În acelaşi timp AutoCorect ne oferă o soluţie foarte simplă pentru aceşti useri, soluţie care necesită doar câteva secunde.
     Este vorba de opţiunea conversie diacritice, opţiune care este implementată în AutoCorect standard de foarte mult timp.



     Opţiunea permite atât conversia diacriticelor sedilă în diacritice virgulă, cât şi invers.
     Eu cred că e mult mai simplu ca userii respectivi, după ce fac rularea OCR_Plus să încheie cu rularea acestei conversii.

     N-am nimic împotriva unor dicţionare speciale pentru diacritice cu virgulă, dar mi se pare că ar fi un efort mai mare să ţinem la zi două rânduri de dicţionare, decât utilizarea acestei opţiuni care este foarte uşor să fie rulată de către cei interesaţi.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Efortul este zero.
Deschizi in Notepad+ toate dictionarele, atat OCR cat si uzuale, apoi faci inlocuirile de rigoare cu butonul REPLACE IN ALL DOCUMENTS, apoi butonul SAVE ALL DOCUMENTS, si CLOSE ALL DOCUMENTS.
Practic ai maxim 4 inlocuiri daca le pui ca minuscule si majuscule. Maxim 1 minut.
Atat.

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Nici pentru mine personal nu-i nicio problemă să fac cele 4 înlocuiri, de aceea nici nu-mi fac probleme.
     Eu mă refer la mine ca la dezvoltatorul de dicţionare.
     Întotdeauna am lucrat doar pe dicţionarele contemporan diacritice cu sedila.
     Ca să nu fac vreo confuzie, dicţionarele clasice le arhivam ca să nu am acces la ele, pentru ca nu cumva să greşesc şi să adaug sau să şterg de unde nu trebuie.
     Dacă la perechea de clasice şi contemporan, mai adaug şi sedila plus virgulă... nu ştiu ce prostii ar rezulta.

     Astfel de dicţionare în ambele variante sunt perfecte în varianta portabilă pentru că este cumva fixă şi tu poţi oferi ambele variante iar userii aleg ce doresc.

     Pentru varianta Instalată prefer să rămân doar cu versiune de dicţionare pentru că, oricum, sunt foarte multe probleme şi confuzii.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Uneori ma intreb cine sunt toti oamenii astia pentru care ne facem atatea griji ca nu se descurca cu AC-ul

Sa tii cont si de existenta lui Notepad+. Poate edita dictionarele, iar apoi le salveaza intr-o forma functionala pentru AC, spre deosebire de Notepad-ul normal din Windows.

Varianta de AC cu dictionare cu diacritice-virgula o dau doar la cerere.

In linii mari cam aici am ajuns cu AC-ul portabil.
E functional intr-o singura varianta (indiferent de tipul de Windows), dictionarele uzuale se adauga manual (sunt incluse deja in executabil), executabilul poate fi editat (mai exact dictionarele si celelalte fisiere ale AC-ului, din interiorul executabilului, pot fi sterse, adaugate etc.)


pus acum 9 ani
   
rickerk
Membru Gold

Inregistrat: acum 19 ani
***

@tuf

la mine a functionat si ultima versiune AC postata de tine.  


pus acum 9 ani
   
tuf
Vizitator




rickerk a scris:

***

@tuf

la mine a functionat si ultima versiune AC postata de tine.  

Descarca varianta de jos. E ultima.

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
rickerk
Membru Gold

Inregistrat: acum 19 ani
@ tuf

la varianta respestiva m-am si referit.
Multumesc


pus acum 9 ani
   
tuf
Vizitator



Adica mai descarc-o inca o data.
Ieri am descoperit o problema si am remediat-o


pus acum 9 ani
   
rickerk
Membru Gold

Inregistrat: acum 19 ani

tuf a scris:

Adica mai descarc-o inca o data.
Ieri am descoperit o problema si am remediat-o


programstart si rulare OCR+ peste fisier ->fara probleme


pus acum 9 ani
   
tuf
Vizitator



OK, sa nu uiti ca optiunea 9 trebuie activata, la fel si dictionarele (la prima rulare sau ori de cate ori stergi fisierele din dosarul executabilului)

pus acum 9 ani
   
tuf
Vizitator



ISBN devine IZBN

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Da. În dicţionarul CO_Sinc1.imd la poziţiile 158 şi 159 există următoarele trei înlocuiri de secvenţe aflate la început de cuvânt:
           isb  >>  izb     Ci  Ic  Pc
           isg  >>  izg     Ci  Ic  Pc
           isv  >>  izv     Ci  Ic  Pc

     DEX zice că există 451 de cuvinte care încep cu "izb", 96 cu "izg" şi 239 cu "izv";
     Pot şterge înregistrările, dar secvenţele folosesc pentru un număr serios de cuvinte.
     Cel mai bine ar fi ca înlocuirile secvenţelor de 3 litere să le refac în mai multe secvenţe de 4-5 litere; aşa trimiterea la anumite cuvinte ar fi mult mai precisă.

     Gata, am rezolvat: am şters cele 3 înregistrări şi le-am înlocuit cu 17 secvenţe de 4-5 cuvinte.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Adica ai urcat o noua varianta de dictionare sau urmeaza sa o urci dupa ce o mai mesteresti?

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Nu, n-am urcat încă o nouă versiune pentru a nu-i agasa pe useri cu prea multe versiuni.

     Mai meşteresc ceva la nişte înregistrări în format grup de cuvinte.
     Am terminat un pachet de înlocuiri mixte [automate şi cu confirmare] pentru "oare >> care"
     Încerc să găsesc o soluţie mai bună pentru înlocuirile cu confirmare de genul "fata >> faţa; fată >> faţă". În varianta actuală pentru aceste două cuvinte apar multe refuzuri la confirmare; încerc să restrâng aria de căutare, pentru ca userul să nu fie tentat să renunţe la confirmări din cauza faptului că apar multe situaţii de refuz confirmare.

     Practic nu îmbunătăţesc dicţionarele prin adăugare de noi înlocuiri, ci încerc să le optimizez pe cele existente.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Dicţionare OCR_DIC şi Uzuale - varianta la zi.
     Data ultimei actualizări:      07.07.2015

     Nume fişier:  AC DIC Finale V2.2 [07.07.2015].rar
     Adresa:


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Aş vrea să clarificăm câteva lucruri.
     Subliniez că noua variantă de dicţionare necesită rularea a două pachete de opţiuni:
         - primul pachet este cel cunoscut ca opţiunea "Rulează toate opţiunile de corectare OCR"
         - al doilea pachet este "Modificări speciale de text", opţiune care nu face parte din primul pachet.

     De ce acum este necesară rularea opţiunii "Modificări speciale de text", deşi până acum ceva timp ea era o opţiune facultativă sau mai degrabă o opţiune neglijată?
     La versiunea anterioară de dicţionare în pachetul "Rulează toate opţiunile de corectare OCR" rulau modificări cu confirmare de genul "mal >> mai", "fata >> faţa", "fată >> faţă", "ti >> ţi", "ti >> fi", "ele >> de", "tot >> lot", "care >> oare"...  şi altele.

     O parte din aceste modificări cu confirmare au fost scoase definitiv din primul pachet pentru ca rularea să fie mai comodă şi mai scurtă.
     Nu s-a renunţat la corecţia acestor erori, doar că ele au fost mutate în Dicţionarele Vt1-Vt4 care rulează cu opţiunea "Modificări speciale de text".

     Mai mult decât atât, pentru fiecare dintre aceste erori am dezvoltat mult mai multe modificări în situaţii mai concrete. Am folosit modificări pe grupuri de 3 cuvinte pentru ca o anume modificare să fie mai precisă.
 
     La această opţiune modificările sunt mixte, adică atât automate cât şi cu confirmare, ca de exemplu:
     "în lot corpul/trupul/timpul >> în tot corpul/trupul/timpul" - sunt modificări automate,
timp în care
     "lot aşa/atât/atâta >> lot aşa/atât/atâta" - sunt modificări cu confirmare.
deoarece am putea avea situaţia "copilul era tot aşa de neastâmpărat", dar şi situaţia "un lot aşa de mare".

     Intenţia mea este să găsesc cât mai multe formule pentru modificări automate şi să le reduc pe cele cu confirmare, astfel încât să fie mai comod pentru utilizator. Acolo unde am avut dubii am pus condiţia cu confirmare.
     Modificările pe grupuri de 3 cuvinte sunt mult mai precise decât modificare unui singur cuvânt.
     Şi mai precise ar fi modificările pentru grupuri de 4 cuvinte, dar numărul înregistrărilor ar deveni foarte-foarte mare şi AutoCorect în forma actuală ar rula mult prea greu; în plus ar fi nevoie de mai multe dicţionare care să permită o structurare cât de cât logică.

     Mi-am pus întrebarea cum este mai bine să procedez?
     Să aleg varianta o singură înregistrare cu confirmare? sau câteva zeci sau sute de înregistrări referitoare la aceeaşi eroare, dar aceste modificări să se facă automat?

     Mai concret: să folosesc înregistrarea "în fata >> în faţa" cu confirmare?
şi utilizatorul să confirme cu "da" sau "nu" fiecare situaţie?
sau să pun câteva sute de înregistrări de genul
    "adunat/adunată/adunate/adunaţi în fata >> adunat/adunată/adunate/adunaţi în faţa"
Iar modificările să ruleze automat?

     De la caz la caz, am ales când o variantă, când alta.

     Recomandarea mea este să fie rulate ambele pachete de opţiuni.
     La o adică, fiecare utilizator poate alege: poate pierde încă ceva timp să ruleze opţiunea "Modificări speciale de text" şi să aibă un text mai bine periat, ori poate să nu ruleze această opţiune şi să lase ca respectivele erori să fie modificate pe timpul corecturii manuale.

      Fiecare procedează după cum i se pare mai comod, cu condiţia ca el să fie cel ce corectează textul rulat... adică să alegem pentru noi şi nu pentru alţii.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Stimaţi colegi,
      ...mă refer la ăia doi care folosesc AC...
     
      1. La ultima versiune de dicţionare nu vă enervează modificările cu confirmare de genul "tăcu >> făcu, tăcea >> făcea" şi tot ce ţine de modificare "tace >> face"?
      Eu am făcut câteva rulări în ultimul timp şi m-au cam enervat... în cele mai multe cazuri înlocuirea trebuie refuzată, aşa că se pierde  timp degeaba.
      Am hotărât să le scot definitiv.
      Sunt şi câteva înlocuiri în ultimul dicţionar [Vt4] pe care am să le scot, aşa că cine le doreşte, e bine să le ruleze separat.

      2. La o serie de cărţi am constatat apariţia succesiunii i' [i urmat de apostrof] în locul literei r sau f, ca de exemplu:
      "cai'e, mai'e, foai'te, penti'u, afai'ă, făi'ă, spi'e" în loc de "care, mare, foarte, pentru, afară, fără, spre"
dar şi:
      "i'aţă, i'ie, i'iu"  în loc de "faţă, fie, fiu"

      Totuşi, cele mai multe situaţii sunt în cazul literei r.
      Aţi întâlnit astfel de cazuri?
      Dacă da, atunci ar trebui să facem ceva în sensul ăsta.
      Dacă nu, atunci rămâne "nu".


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Aladrian
Membru Gold

Inregistrat: acum 14 ani

Seven a scris:

***
      Totuşi, cele mai multe situaţii sunt în cazul literei r.
      Aţi întâlnit astfel de cazuri?
      Dacă da, atunci ar trebui să facem ceva în sensul ăsta.
      Dacă nu, atunci rămâne "nu".


Confirm problema literei "r". Da, daca se poate face ceva, atunci vad sensul.
Multumesc.


pus acum 9 ani
   
tuf
Vizitator




Seven a scris:

***
      Stimaţi colegi,
      ...mă refer la ăia doi care folosesc AC...




Eu lucrez cartile pe capitole, nu incarc intreaga carte in AC ca sa dau cu OCR+-ul in ea.
Asa ca nu am prea multe confirmari de verificat.

Daca va vine mai usor, puteti sa transati problema conform discutiei.
Nu am nimic de obiectat.


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Salutare, Gaşca AC OCR Plus!
     ...Şi salutări cu totul speciale micii găşti AC de pe Linux!
     Dacă merită efortul, e posibil ca într-un viitor mai apropiat sau mai îndepărtat să înghejbăm un mic tutorial pentru utilizatorii de Linux care vor să beneficieze de programul AC OCR Plus.
     Ceea ce ştiu sigur este că AC OCR Plus rulează sub Linux. Nu ştiu câţi utilizatori Linux folosesc deja AC şi, de asemenea, nu ştiu dacă sunt şi alţi doritori.
     Cred că ar fi foarte bine dacă astfel de persoane ar schimba puncte de vedere bazate pe experienţa lor aici pe forum, ori în altă formă de comunicare. În principal mă interesează cei care deja folosesc AC sub Linux şi vor să ia legătura cu alţi utilizatori de AC sub Linux. Dacă sunt astfel de persoane, pot să-mi trimită un scurt MP şi eu îi pot informa ce alţi useri au aceleaşi interese. Ei sunt singurii care vor stabili cum vor comunica în continuare.
     Cam atât despre Linux.


     FOARTE-FOARTE IMPORTANT !!!
     Gaşcă AC, vă informez că în curând voi aduce o modificare importantă dicţionarelor AC.
     Am ales ca mai întâi să informez despre modificare şi doar peste vreo 2-3 săptămâni să postez dicţionarele, pentru că modificarea este foarte importantă.

     Despre ce modificare este vorba?
     Am să scot câteva mii de înregistrări din AC pentru mărirea vitezei de rulare a dicţionarelor.

     Atenţie! Mare atenţie!
     În AC avem opţiunea 10.1 Setări finale / Înlocuire spaţiu după linia de dialog cu spaţiu neseparator.
     Ea funcţionează astfel:
          - dacă este rulată separat ca o opţiune de sine stătătoare rulează la momentul comenzii;
          - dacă este activată [bifată] să ruleze în cadul pachetului OCR_PLUS, adică rulăm opţiunea "Rulează toate funcţiile de corectare OCR", atunci opţiunea 10.1 nu mai rulează în ordinea opţiunilor [deci în poziţia 10.1] ci rulează mult mai devreme, odată cu opţiunea "2.2 Corectare linii de pauză şi linii de dialog".

     La momentul implementării a părut o soluţie foarte bună, deoarece AC făcea verificarea tuturor liniilor de dialog atât la op. 2.2. cât şi la 10.1. pentru a nu mai verifica fiecare linie de dialog, s-a considerat că e mai comod ca la 2.2 să se implementeze şi opţiunea 10.1 [dacă ea era activată].
     Practic, dacă op.10.1 era activată timpul de rulare rămânea acelaşi la 2.2, dar era redus la zero la rularea 10.1.

     Înainte de op.2.2 rulează un singur dicţionar OCRÂ_DIC din cele  39. Aşa stând lucrurile, înseamnă că 38 din cele 39 dicţionare OCR_DIC rulează după ce spaţiul de după linia de dialog devine spaţiu neseparator.
     În altă ordine de idei, o parte dintre utilizatori activează op. 10.1, o altă parte dintre utilizatori nu activează această opţiune, deci începând cu op.2.3 avem două mari situaţii după linia de dialog: ori spaţiu obişnuit, ori spaţiu neseparabil.

     Din acest motiv, o serie de înregistrări [care fac modificări în zona liniei de dialog] a trebui să le pun atât în varianta cu spaţiu normal după linia de dialog, cât şi cu spaţiu neseparator după linia de dialog. Sunt câteva mii de modificări în dublă variantă.

     Dragă gaşcă,
     Voi şterge toate înregistrările care au SPAŢIU NESEPARATOR după linia de dialog şi voi păstra doar înregistrările care au SPAŢIU OBIŞNUIT după linia de dialog.
     Asta înseamnă că trebuie să nu mai activaţi NICIODATĂ opţiunea 10.1.
     Dacă doriţi neapărat să înlocuiţi spaţiul obişnuit de după linia de dialog cu spaţiu neseparator, acest lucru se face în Word în doar câteva secunde, şi mai mult decât atât, această modificare se justifică la sfârşitul corecturii şi nu înainte de corectură.

      Deocamdată nu am "măcelărit" încă dicţionarele, dar următoarele actualizări vor avea doar spaţiu obişnuit după linia de dialog.     


     FOARTE IMPORTANT !!!
     Despre dicţionarele cu confirmare.
     Ştiu! Ştiu că pentru cei mai mulţi confirmările sunt plictisitoare şi agasante, pentru că apar unele modificări care trebuie refuzate una după alta...
     Din acest motiv mulţi useri nu rulează aceste dicţionare cu confirmare.

     De fapt lucrurile s-au schimbat mult în timpul care a trecut şi actualele dicţionare cu confirmare nu mai au nicio legătură cu dicţionarele iniţiale.

     De câteva luni mă ocup în mod special de modificare şi optimizarea dicţionarelor cu confirmare.
     Am făcut multe teste şi am tot mutat acele înregistrări agasante care au multe refuzuri. Astfel de înregistrări au fost şterse,ori au fost mutate cât mai spre sfârşitul ultimului dicţionar.
     Ceea ce trebuie reţinut este faptul că cel puţin 1/3 dintre înlocuirile necesare se fac tocmai cu aceste dicţionare cu confirmare, astfel că este o foarte mare diferenţă de calitate între un fişier la care s-au rulat doar dicţionarele care rulează automat şi un text la care s-au rulat inclusiv dicţionarele cu confirmare.

     Personal rulez în plus încă o serie de dicţionare cu confirmare, pe care nu le-am pus pe forum pentru că sunt ceva mai dificile.

     După cum ştiţi acum trebuie rulată şi opţiunea "Modificări speciale de text / Modificări text corectat eronat" pentru că această opţiune pune în funcţie 4 dicţionare noi cu înregistrări mixte [cu şi fără confirmare] care fac o serie de modificări. Aceste dicţionare rulează cu grupuri de 3-4 cuvinte pentru a localiza mai bine o eventuală eroare.
     Şi aceste dicţionare au fost, sunt şi vor fi modificate şi optimizate. În viitor intenţionez să modific complet ultimul dicţionat "CO_Vt4.imd", care are încă o serie de înregistrări relativ agasante.

     Rugăminte!
     Încercaţi să rulaţi dicţionarele cu confirmare şi să semnalaţi problemele care deranjează!
     Pentru ca dicţionarele cu confirmare să devină cât mai utile şi comode şi pentru a elimina la maxim înregistrările agasante rog să fie semnalate înregistrările care deranjează. Nu este nevoie să se stabilească înregistrarea şi dicţionarul, ci doar să mi se semnaleze ce anume apare afişat în fereastra de confirmare, iar eu apoi voi depista înregistrarea şi o voi elimina sau împinge spre finalul dicţionarelor astfel încât să se poată renunţa la ele fără a a afecta înlocuirile importante.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Saptamana care vine ar trebui sa ma apuc de o noua carte.
Pana acum nu prea am apucat sa vad care e treaba cu noile dictionare.
Daca apare vreo ceva, anunt.

Am renuntat la optiunea cu spatiu neseparator, deoarece pe Kindle nu il afiseaza corect. Din acest motiv nu mai rulez optiunea 10.1 din OCR+. Daca e cazul, o rulez din Word la final.

P.S.
Cosmin ne poate furniza codul sursa de la executabilul modificat?

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Din păcate n-am reuşit să iau legătura cu el.
     Aş fi vrut să-l rog să elimine opţiunea 10.1 şi să implementeze un cod pentru "orice cifră".
     Cu cele două modificări aş fi eliminat şi condensat un mare număr de înregistrări.
     Despre codul sursă... programul este gratuit, dar codul le aparţine... este munca lor de aproape 12 ani.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Tocmai eliminarea optiunilor ma interesa si pe mine. Dar nu cred ca se poate fara codul sursa.

AC-ul, varianta OCR, functioneaza pe Ubuntu MATE. Atat ca instalare, cat si ca functionare.
De fapt cred ca functioneaza pe orice Linux ce poate rula Wine.

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
tuf
Vizitator



Seven, vezi si postarea mea de sus.

O problema ciudata produsa de dictionare:

Ziceţi: ’Îl avem » Ziceţi: ’Âl avem


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Ghicitoare:
    «111 21Ua aia 1111 voiam 5-0 vadă acel 0111.»
    Fragment de comentariu sportiv sau fragment de OCR.

     Bineînâeles că este vorba de un fragment de OCR, iar textul corect este:
      «În ziua aia nu voiam s-o vadă acel om.»

    Formularea «111 21Ua aia 1111 voiam 5-0 vadă acel 0111.» nu este reală dar situaţiiile din exemplu sunt reale şi sunt culese dintr-un OCR pe care l-am prelucrat zilele trecute.

         <111> este de regulă <în>; dacă este la început de paragraf/propoziţie în peste 90% din cazuri este <în>. Pentru corectarea în interiorul propoziţiilor trebuie folosite combinaţii de cuvinte. Situaţia se află în dicţionarele cu confirmare şi merită folosită.
          <2> = <z>, apare mai des, dar <21> = <zi> este pentru prima dată când găsesc astfel de situaţii. N-am implementat încă modificarea.
          <1111> poate fi atât <nu>, dar şi <un>. Dacă este la început de paragraf/frază şi este urmat de <se, s-a, s-au, s-ar> atunci este aproape sigur <nu>. Situaţia este implementată în varianta grup de cuvinte, cu şi fără confirmare. Pentru varianta <un> n-am găsit o formulă de implementare.
          <5-0> = <s-o> sau <S-o>, l-am descoperit zilele astea; nu l-am implementat dar este sinplu de rezolvat în varianta cu confirmare.
          <0111> = <om> sau <Om>, l-am desacoperit şi pe el tot zilele astea; nici el nu este implementat, dar este destul de uşor de rezolvat în varianta cu confirmare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



La nivelul la care esti acum, nu pot sa zic decat wow....
Si fraierii aia s-au chinuit cu piatra de la Rosseta )


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

                  ═════════     Probleme constatate de useri la rularea Meniului OCR_Plus    ═════════


 
      "cind rules functiile de la OCR plus imi spune ca "nu poate deschide" urmatoarele dictionare CO_DE, L1, S1, Midp, Dlp, Df. Am verificat si dictionarele sint la locul lor."

      Mai întâi trebuie stabilit dacă rulează vreunul dintre dicţionare; dacă nu rulează niciunul atunci pot fi următoarele cauze:
            - dicţionarele nu au fost instalate în folderul corect;
            - dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi. Dicţionarelor iniţiale au fost redenumite, adăugându-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic. E bine de verificat pe baza anexelor Tutorialului din prima postare.

                  ═══════════════════════════

      Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor.

      Foarte important: Există în computer două foldere numite "Dictionare" Nu trebuie făcută confuzie între ele.

      Unul dintre ele se găseşte în Program Files, unde AutoCorect se instalează:
           „C:\Program Files\AutoCorect\ Dictionare”
      În acest folder "Dictionare" AutoCorect îşi instalează dictionarele sale de limba română, necesare funcţionării.
      Aceste dicţionare n-au nicio legătură cu cele ce rulează în Meniul OCR_Plus.

      Mai există un folder "Dictionare" si este cel care ne interesează si pe care AutoCorect îl crează la prima lui rulare.
      Acest al doilea folder, cel ce ne interesează, are următoarea locaţie:
                 
        ■ în Windows XP:
     „C:\Documents and Settings\NUME_USER\Application Data\AutoCorect Clasic\ Dictionare” – pentru versiunea AutoCorect Clasic.
sau
     „C:\Documents and Settings\NUME_USER\Application Data\AutoCorect Contemporan\ Dictionare” – pt. versiunea AutoCorect Contemporan.


        ■ în Windows 7, Windows Vista:
     „C:\Users\NUME_USER\AppData\Roaming\AutoCorect Clasic \Dictionare” – pentru versiunea AutoCorect Clasic.
sau
     „C:\Users\NUME_USER\AppData\Roaming\AutoCorect Contemporan\ Dictionare” – pentru versiunea AutoCorect Contemporan.

      În aceste foldere numite "Dictionare" se crează folderul "OCR_DIC" şi aici se copiază dicţionarele ce rulează cu Meniul OCR_Plus.

Modificat de Seven (acum 9 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am corectat situaţiile semnalate sau descoperite personal.
     Au urcat pe mediafire la adresa cunoscută dicţionare AC reactualizate la data de 05.12.2015
     Link folder mediafire:   ►► Complet Dic AC Contemporan – folder deschis mediafire

     Arhiva conţine pachetele OCR_DIC  şi  Uzual Dic.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



Merci. Descarcam si revenim cu detalii daca e cazul.

pus acum 8 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
Pentru toti cei care folosesc AUTOCORECT CONTEMPORAN de la softset.ro:

Arhiva zip de pe linkul de mai jos contine dictionarele imd la care lucrez independent
de vreo 2 ani si jumatate.
Ele contin peste 321.000 secvente-erori corectabile automat.

Dezarhivati si suprascrieti folderul OCR_DIC din aceasta arhiva
peste folderul OCR_DIC din calculatorul dv, din
APPLICATION DATA/Autocorect contemporan
-------------

Cu setarile precizate in fisierul numit “CITESTE!” inclus in arhiva,
NU AVETI DE FACUT INLOCUIRI CU CONFIRMARE,
astfel ca programul ruleaza neintrerupt de la inceputul la sfarsitul documentului,
FARA SUPRAVEGHEREA USERULUI.

Daca procesorul PC-ului dv este ceva mai slab (single-core), programul ruleaza foarte lent sau se poate bloca, astfel ca va fi nevoie sa desfaceti documentul  rtf in mai multe fascicule.
Pe procesoarele dual-core programul se descurca bine cu fisiere de 200-250 pag A4, font de 12, paragraf la un rand.
LINK DOWNLOAD


Modificat de luiz25 (acum 8 ani)


pus acum 8 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Vă rog să-mi spuneți de unde pot descărca ACEST Autocorect contemporan despre care vorbiți aici!
Am descărcat de pe mediafire ce a pus la dispoziție luiz25 (mulțumesc!), dar când am intrat ieri pe pagina softset.ro să iau și softul, am dat peste acest mesaj:
This ID doesn't exist!
Oriunde dai clic pe pagina softset apare doar acest mesaj! Nu voi citi acum aceste 10 pagini. Am intrat pe pagina 4 și am încercat să iau versiunea STANDARD de care vorbește Seven. Vă rog verificați și dumneavoastră! Trimiterea către site mă înfundă în același „This ID...“
Vă mulțumesc!

Modificat de Gângurel (acum 8 ani)


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 8 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
Ai facut o alegere foarte buna, doar ca ai deschis PC-ul ceva mai tarziu.
In momentul cand prinzi un serial de la episodul 723 - afli ceva nou - dar - nasoool - imediat iti dai dai seama ca iti lipsesc cateva sute de episoade ... te duci pe google,  incerci sa afli ce s-a intamplat in lipsa ta ... te  rog mult sa nu bagi degetu-n gura, ca ramai cu varfu' tehnologiei digitale intre maxilare.
UN punct de plecare este:
Dar nu te rezuma la asta. Citeste help-ul programului. Abia dupa primele cateva sute de  pagini citite/corectate vei putea sa injuri pe realizatori ca nu ti-a mers jucaria.


pus acum 8 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Mulțumesc foarte mult pentru shortcut!

_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 8 ani
   
tuf
Vizitator



@luiz25
Sper ca esti mai potolit acum.
Multumesc pentru gest.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Dragatili gospodin Gângurel, lucrurile sunt mult mai simple decât par.
     Varianta de diacţionare a lui Jullien foloseşte absolut acelaşi AutoCorect OCR+ Contemporan pe care-l ştii.
     Diferenţa o face pachetul de dicţionare OCR_DIC.
     Dicţionarele din pachetul lui Jullien au aceleaşi nume ca şi cele postate de mine, dar au un conţinut şi o structură complet diferită.

     Ca să testezi/foloseşti dicţionarele Jullien procedezi astfel:
          - arhivezi actualele dicţionare OCR_DIC şi salvezi undeva arhiva ca să revii la ea dacă va fi nevoie;
          - ştergi dicţionarele actuale din OCR_DIC;
          - copiezi în OCR_DIC dicţionarele Jullien.
      AutoCorect va rula ca şi până acum, doar că modificările se vor face într-o altă ordine.

      Ca idee între pachetul meu de dicţionare şi pachetul lui Jullien există următoarele mari diferenţe:
          - numărul de înregistrări este de 10 ori mai mare în pachetul Jullien. jullien are peste 319.000 înregistrări, pachetul meu OCR_DIC plus Dic.UZUALE au împreună cca. 30.000.
          - principiul meu este: adaug o înregistrare doar dacă eroarea apare într-un număr suficient de situaţii şi nu înregistrez corecţii pentru erori cu frecvenţă foarte redusă. Principiul lui Jullien este să se colecteze toate erorile întâlnite de colaboratorii săi.
          - structura dicţionarelor: eu păstrez o anume logică de structură a dicţionarelor, astfel încât să ştiu cât mai exact în ce dicţionar să găsesc o anume înregistrare; în dicţionarele Jullien, datorită numărului mai mare de colaboratori şi a numărului foarte mare de înregistrări, nu s-a mai putut păstra o structură riguroasă.

      Menţionez că şi în pachetul meu de dicţionare sunt foarte multe înregistrări care se bazează pe dicţionare şi sugestii primite de la Jullien până în urmă cu cca. 2 ani.

      Deoarece salvarea şi înlocuirea dicţionarelor se face destul de uşor, recomand celor care folosesc AC să testeze ambele variante de dicţionare şi să aleagă varianta care i se pare că este mai comodă pentru el şi... bineînţeles, varianta care îi oferă cât mai puţine înlocuiri nedorite.

      Din păcate, din nişte motive de "afaceri personale" încă vreo lună sunt oarecum indisponibil şi nu am timp să fac şi eu o testare a dicţionarelor Jullien.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Dragatili gospodin Seven,

De când cu această secțiune a Forumului, simt că încep să întineresc!
Știi de ce? Aproape în fiecare zi învăț căte ceva nou! (Cu omologarea e mai greu, dar voi depăși sigur și această etapă!) Îți sunt recunoscător pentru buna părere pe care o ai despre mine, dar până acum n-am folosit Autocorect!
Adică nimic din munca ta și a celorlalți care s-au încăpățânat să-l perfecționeze. Și, din nou, știi de ce?! Mi-a fost teamă să nu mă încurc în dicționare!
Nu e vina nimănui că am făcut concurență neloială fetei cu drobul de sare!
Am privit mereu odiseea dicționarelor ca pe ceva mai dihai de deștept decât ultimul răcnet de la NASA! Aveam Autocorect, dar cel clasic!
Apoi a dispărut din computer! Apoi am uitat de el (nu m-a interesat pentru că era o supertehnologie ) când am trecut de la XP la 7.
Acum 4 zile am luat Contemporan, am pus jucăria de la Julien și am avut revelația de netăgăduit că voi renunța la acel clasic OCR în favoarea cel puțin a unui 0.9.
Am și rezultatele muncii tale puse pe Media de-a lungul timpului! Îmi voi face copiuță și după explicațiile tale de aici!
Una peste alta, sunt realmente încântat că am trecut într-o nouă etapă!
Păi, multă baftă ție, orice afaceri ai avea de rezolvat!
Și, de asemenea, multă baftă mie în nou activitate de amplificare a frumuseții feng-shui (dacă pot să zic așa!) pe care o are orice text din naștere, indiferent din ce unghi l-ai privi! Sau corecta!

Îți mulțumesc!

Modificat de Gângurel (acum 8 ani)


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 8 ani
   
tuf
Vizitator



luiz25 nu lucreaza de ieri, de azi in domeniul asta. Nici Seven.
Ambele seturi de dictionare se bazeaza pe propria lor experienta (si a altora) in domeniul corectarii.
In prezent setul lui Seven este excelent gandit si facut. Nici eu nu am avut timp sa probez seturile lui luiz25, dar, cu mici exceptii poate, cred ca e destul de bine pus la punct.

Luati in considerare numarul de persoane care au lucrat la aceste dictionare, adica 1, si numarul de inregistrari existente.
Apoi ganditi-va la timpul si energia consumata de aceasta persoana.

Din punctul meu de vedere, strict pentru procesare si corectare ocr (stiluri, note de subsol etc. se adauga in Word) sau chiar si a versiunii superioare ocazionale (cu conditia sa aveti chef sa refaceti iarasi formatul documentului in Word), AC-ul OCR este un program fantastic.
Chiar daca Seven a mutat oarecum o parte din functii/dictionare in Word pentru o viteza de prelucrare mai buna.
Intotdeauna este loc de imbunatatiri.

AC-ul a fost si va ramane pentru totdeauna acel program de procesare si pre-corectura a textelor, la nivel de ocr sau nu, 100% romanesc facut de romani pentru comunitatea romana de digitalizare a cartilor.
Pacat ca unii nu au inteles asta la timpul potrivit, iar acum se tin departe de el pe motiv ca e complicat... desi e atat de simplu de folosit... dar necesita o oarecare atentie totusi.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Pentru cei care folosesc AutoCorect şi ar vrea să facă o testare a seturilor de dicţionare, vă recomand următoarea variantă:
         - luaţi un OCR brut şi "rupeţi" din el primele 100 de pagini, apoi salvaţi fragmentul obţinut în două fişiere identice pe care le marcaţi diferit: să zicem [AC7] şi [L25];
         - înainte de rularea în AC, ambele fişiere trebuie să fie identice.
         - în AutoCorectul obişnuit [cel cu OCR_DIC postate de @Seven] rulaţi complet fişierul marcat cu [AC7]; atenţie! când zic o rulare completă asta înseamnă că facem şi rularea tuturor dicţionarelor cu confirmare. După rularea completă prin AC salvăm fişierul [AC7] şi avem grijă să nu mai fie modificat.
         - acum facem o arhivă cu dicţionarele [OCR_DIC] varianta @Seven, apoi le ştergem din folderul OCR_DIC şi le înlocuim cu dicţionarele varianta @luiz25.
         - încărcăm în AC al doilea fişier, cel marcat cu [L25] şi dezactivăm opţiunea "9 Rulare grup dicţionare", apoi dăm start pentru rularea completă cu dicţionarele @luiz25.
         - facem o salvare de rezervă şi a acestui fişier în această formă.

      Facem corectura unui singur fişier - de preferat fişierul [L25] - şi din când în când, atunci când întâlnim greşeli putem verifica în celălalt fişier dacă eroarea a fost corectată... ori dacă nu cumva eroarea este dată de înlocuiri.
      Pentru a alege varianta de dicţionare pe care o vom folosi în viitor, vom lua în calcul în primul rând gradul de acurateţe al textelor şi în secundar timpul de rulare în AC.
      Pentru un rezultat mai bun este de preferat testarea unui OCR mai slab... cu mai multe erori; dacă vom avea un OCR foarte bun nu se va putea face o diferenţă suficient de clară şi nu vom avea un rezultat corect.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

               Descoperirea unei înregistrări cu efecte nedorite
                   Corectarea, dezactivarea sau ştergerea ei



     Nu ştiu dacă voi avea timp astăzi să explic toate etapele de lucru, dar încerc să dau cât mai multe detalii.
     Dacă mai rămân lucruri neclare voi reveni la ele peste o săptămână, deoarece voi fi plecat câteva zile, maxim o săptămână.


     Etapa 1 – Stabilirea modificării nedorite
     Pe timpul corecturii constatăm sau bănuim că AutoCorect a făcut o modificare nedorită.
     Putem verifica imediat sau notăm mai multe cuvinte într-o listă pe care le vom verifica mai târziu.
     Dacă am salvat cumva OCR în varianta de dinaintea rulării în AC, putem să verificăm forma cuvântului/cuvintelor înainte de rulare şi avem deja imaginea clară dacă AutoCorect a modificat sau nu acele cuvinte.

     Să presupunem că în textul rulat am găsit următoarea propoziţie:
          "Copilul părea să aibă înjur de zece ani.
     Deci bănuim că AuroCorect a făcut înlocuirea "în jur >> înjur"


     Etapa 2 – Verificarea înlocuirii nedorite
     Deschidem AutoCorect şi vom avea un document nou şi gol.
     Scriem/copiem în documentul gol o frază scurtă care trebuie să conţină cuvântul bănuit a fi modificat de AutoCorect.
     Pentru ca să nu mai intervină opţiunile punctuaţie, propoziţia va fi scrisă corect: propoziţia începe cu literă majusculă şi se termină cu punct.
     Cuvântul sau cuvintele de verificat trebuie să fie scrise în forma lor corectă sau forma iniţială pe care o bănuim.
     Pentru a verifica "în jur", propoziţia cea mai scurtă poate avea forma "Avea în jur de."
     Nu-i suficient să scriem "În jur", deoarece poate exista posibilitatea ca înregistrarea să aibă condiţia "Potrivire perfectă" şi să nu afecteze forma "În jur", dar să modifice forma "în jur".

     După ce am scris propoziţia, dăm o rulare completă a opţiunii OCR Plus, folosind opţiunea "Rulează toate funcţiile de corectare OCR".
     Vom avea activate exact opţiunile pe care le folosim de obicei, deci nu este nevoie să dezactivăm opţiuni.
     Notă: Opţiunea "9 Rulare grup dicţionare" trebuie să fie în mod obligatoriu activată.
     Rularea va dura câteva secunde şi apoi se va afişa fereastra "Progres rulare OCR Plus" care conţine opţiunile, timpii de rulare şi numărul de modificări făcute de fiecare opţiune.
     Înainte de a închide fereastra verificăm dacă au existat modificări şi în cazul în care au existat, reţinem/notăm opţiunea sau opţiunile care au făcut modificări.
     Verificăm de asemenea textul propriu-zis din documentul nostru ca să vedem dacă fraza nostră a fost modificată, mai exact dacă s-a făcut vreo modificare a cuvintelor "în jur".
     În cazul nostru concret vom constata că AutoCorect nu a făcut modificarea bănuită.

     În cazul în care la rulare s-au făcut modificări, notăm opţiunile care au făcut modificări.
     Cel mai comod este să facem un Print Screen şi să salvăm o imagine cu fereastra "Progres rulare OCR Plus" înainte de a o închide.


     Etapa 3 – Stabilirea dicţionarelor suspecte de a conţine înlocuirea nedorită
     De reţinut că nu ne interesează modificările făcute de primele 3 pachete de opţiuni, adică: 1.Conversii preliminare, 2.Punctuaţie şi 3. Conversie text clasic în text  contemporan, deoarece aceste opţiuni nu modifică cuvinte.
     Concret ne interesează modificările din 3 pachete: 4. Corectare caractere reproduse eronat, 9. Rulare grup de dicţionare înlocuire multiplă şi 10. Setări Finale.
     În fişierul "Repartizarea dicţionarelor pe Opţiuni.doc" găsiţi care sunt dicţionarele rulate de fiecare opţiune în parte.
     Download:

     Ştiind care este opţiunea care a făcut o anume modificare, verificăm în tabelul din "Repartizarea dicţionarelor pe Opţiuni.doc", care sunt dicţionarele care rulează cu opţiunea respectivă. Unul dintre aceste dicţionare are "vinovăţia" de a conţine înregistrarea care produce efecte nedorite.


     Etapa 4 – Stabilirea dicţionarului vinovat de a conţine înlocuirea nedorită
     Majoritatea opţiunilor din pachetele 4 şi 10 nu rulează un singur dicţionar, ci mai multe, aşa că trebuie găsit dicţionarul care conţine înregistrarea nedorită.
     Unele dintre dicţionare pot fi excluse din start, dacă ştim ceea ce face fiecare dintre ele.
     Pentru o mai bună clarificare se poate studia fişierul "Descriere dicţionare OCR_DIC [V.16.1.0]", care poate fi downloadat de la adresa:
   

     Cea mai sigură variantă este să rulăm manual fiecare dintre discţionarele rulate de o opţiune, pentru a vedea care dicţionar/dicţionare produce modificarea.
     Rularea manuală a dicţionarelor o facem cu opţiunea  "Editare --> Înlocuire multiplă" sau accesând iconul "Înlocuire multiplă" [ultimul din dreapta, pe primul rând de iconuri].
     Înainte de începerea rulării manauale a dicţionarelor, în documentul AC trebuie să avem forma iniţială a fragmentului de text, propoziţiei sau cuvintelor de testat.
     Rulăm fiecare dicţionar până îl vom găsi pe cel care face modificarea.
     Pentru o siguranţă maximă, rulăm toate dicţionarele care rulează cu o opţiune, chiar dacă am găsit dicţionarul cu pricina. Deşi nu cred, există posibilitate teoretică şi foarte mică de a exista o înlocuire în două dicţionare diferite, aşa că e bine să le verificăm pe toate.

     În cazul în care căutăm un dicţionar care a rulat în opţiunea "9. Rulare grup de dicţionare înlocuire multiplă", ar părea că găsirea dicţionarului suspect este foarte grea, dat fiind că avem 33 de dicţionare Uzuale. În realitate este mult mai simplu, deoarece dicţionarele sunt structurate alfabetic, iar numele lor sunt suficient de sugestive.


     Etapa 5 – Găsirea înregistrării care face înlocuiri nedorite
     Ne aflăm în momentul în care am descoperit care este dicţionarul care conţine înregistrarea care produce înlocuiri nedorite.
     În principiu, majoritatea înregistrărilor din dicţionare sunt ordonate alfabetic.
     Există totuşi şi dicţionare în care ordinea nu este alfabetică, înregistrările fiind grupate pe categorii de cuvinte sau categorii de modificări şi unde nu este recomandată sortarea alfabetică. Astfel de dicţionare pe structurate pe grupuri de înlocuiri sunt foarte puţine; le voi menţiona cu altă ocazie.

      În mod normal, majoritatea dicţionarelor sunt ordonate alfabetic după coloana "înlocuieşte cu".
      Vom defila prin dicţionarul "vinovat" până găsim înregistrarea care produce  înlocuirea nedorită. Această înregistrare poate fi corectă din punct de vedere logic dar editată greşit, poate fi corectă logic dar puse greşit condiţiile, ori poate fi corectă parţial în sensul că pentru un grup de cuvinte face modificarea corectă, dar pentru altele face înlocuiri eronate.

      Când am găsit înregistrarea, primul lucru pe care-l facem este să notăm numărul de ordine al înregistrării, număr aflat pe coloana a doua, numită "Nr."
      După ce am notat nr. de ordine, DEZACTIVĂM înregistrarea.
      Dezactivarea unei înregistrări se face astfel:
            - pe prima coloană a unui dicţionar, notată "..." vedem că marea majoritate a opţiunilor au o bifă, deci sunt activate; nu sunt activate înregistrări cu rol de titlu sau de separatoare între grupuri de înregistrări.
            - dezactivarea/activarea unei opţiuni se face prin click maus pe pătrăţelul corespunzător fiecărei înregistrări.
       Deci dezactivăm înregistrarea vinovată, apoi salvăm dicţionarul prin rulare dicţionarului.
       Rularea unui dicţionar face şi salvarea sa automată. De asemenea închiderea dicţionarului folosind butonul "X" din colţul sus-dreapta salvează automat dicţionarul.


     Etapa 6 – Verificarea corectitudinii dezactivării unei înregistrări
     Deci, am găsit dicţionarul şi înregistrarea care produce modificare nedorită.
     Am dezactivat această înregistrarea şi deşi dicţionarul o conţine, el nu o mai rulează.

     Va trebui să verificăm dacă această înregistrare este cu adevărat vinovată sau dacă nu cumva mai există şi o altă înregistrare care produce acelaşi efect.
     Pentru a face verificarea, rescriem în documentul AC forma iniţială a fragmentului de text, propoziţiei sau cuvintelor care erau modificate eronat.
     Dăm comanda pentru rularea pachetului de opţiuni OCR Plus şi verificăm dacă se mai fac modificări.

     Dacă se mai fac modificări înseamnă că nu am descpoerit adevărata înregistrre sau mai există şi alte înregistrări care produc aceste modificări. În acest caz reluăm testarea parcurgând etapele de mai sus. De regulă nu este cazul.

     Dacă nu se mai fac mnodificările nedorite, înseamnă că am găsit exact înregistrarea vinovată de acest efect, înregistrare pe care o avem dezactivată şi notată undeva.


     Etapa 7 – dezactivarea, modificarea sau ştergerea unei înregistrării
     Am spus deja imediat mai sus cum se face dezactivarea unei înregistrări.
     În ce situaţie ne limităm la dezactivare?
     În cazul în care e vorba de un dicţionar din pachetele postate pe forum, înregistrarea cu pricina trebuie semnalată pe forum pentru a fis scoasă din pachetele de dicţionare. Chiar dacă noi personal am dezactivat-o, la ceilalţi useri care lucrează cu AC, înregistrarea îşi produce efectul. De aceea ea trebuie semnalată pe forum.

     Revenim la dicţionarul şi înregistrarea care a provocat efecte secundare nedorite şi încercăm să o analizăm şi să vedem care este motivul pentru care ăroduce efecte nedorite.
     Dacă descoperim cauza pentru care înregistrarea produce efecte nedorite, adică o greşeală de editare, greşeală de stabilire a condiţiilor etc... putem să corectăm înregistrarea, apoi să o activăm şi după aceea să salvăm dicţionarul.
     În mod normal după corectare ar trebui să mai facem o testare prin rulare completă a opţiunilor.
     Dacă nu descoperim nicio greşeală de editare, atunci nu mai intervenim în niciun mod.
     Indiferent cum ar fi, este corect să semnalăm pe forum înregistrarea care produce erori, iar pentru identificarea ei trebuie să se menţioneze numele dicţionarului şi nr. de ordine al înregistrării în dicţionar.

     În momentul în care efectul negativ este produs de o înregistrare dintr-un dicţionar personal, deci nu unul dintre cele postate pe net, atunci putem face orice dorim cu înregistrarea respectivă: înregistrare, corectare sau ştergere - după caz.

     Deocamdată - atât.
     Ceea ce am scris mai sus pare foarte complicat.
     În realitate, verificare unei înregistrări este destul de simplă şi durează foarte puţin, dat fiind faptul că nu avem sute de pagini de text de rulat, ci doar o frază-două, iar rularea totală durează doar câteva secunde.

     Să auzim numai de bine!     

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



Multumesc. Explicatie clara.

pus acum 8 ani
   
menadel
MEMBRU VIP

Inregistrat: acum 12 ani
Foarte des întâlnesc situația
încercănd în loc de încercând


_______________________________________
"Cand nu vom mai fi copii, nu vom mai fi deloc!"
Link la postarile vechi indisponibile

pus acum 8 ani
   
tuf
Vizitator



La fel si la mine.

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

menadel a scris:

Foarte des întâlnesc situația
încercănd în loc de încercând


     Foarte corectă semnalarea.
     Chiar era în curs de pregătire un fel de studiu de caz pentru înlocuirea eronată încercÂnd >> încercĂnd, dar n-am apucat să-l definitivez pentru postarea pe forum.
     Cred că acest studiu de caz este util celor interesaţi pentru că el merge până la analizarea detaliată a înregistrării şi modalităţi de rezolvare-corectare. Pentru a nu mai lungi postările de pe forum cred că ar fi bine să postez acest studiu de caz într-un fişier PDF pentru că informaţiile din el sunt valabile pentru orice alte tipuri de înlocuiri nedorite.

     La momentul ăsta problema semnalată este deja rezolvată şi în pachetul dicţionare reactualizat ea nu mai apare.
     Pachetul reactualizat corectează sau modifică şi alte înregistrări, iar multe dintre ele sunt mutate în cadrul aceluiaşi dicţionar sau între grupuri de dicţionare.
     Reamintesc faptul că în ultimul an, poate chiar doi ani, m-am ocupat în special de dicţionarele cu confirmare, dicţionare care rezolvă foarte-foarte multe erori.
     Pentru colegii care nu au foarte mare răbdare le propun rularea AC în două etape: mai întâi fac rularea automată a pachetelor de opţiuni 1-9 plus 10.2, iar după ce îşi reîncarcă bateriile pot rula opţiunile 10.3 şi opţiunea separată "Modificare text corectat eronat"
      SAU... se pot rula manual dicţionarele Var4÷Var7 şi Vt1÷Vt4.
     
      Dicţionare reactualizate la 30.03.2016: 
      Fişier-arhivă:  Cpl DIC AC [2016.03.30].rar
      Adresă:   –  folder deschis mediafire

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



Sau... pot imparti textul pe capitole, apoi pot face prelucrarea completa si ridicarea la 0.9 a acelui capitol.
Apoi trecem la urmatorul capitol.


pus acum 8 ani
   
gaboy74
Membru Gold

Inregistrat: acum 8 ani
Seven,

Pe langa problema semanalata de menadel si tuf cu incercand eu m-am mai confruntat si cu urmatoarele:

“să fi se”  in loc de “să li se”  - aici cred ca nu corecteaza...
“a mințit sale” in loc de “a minții sale”  - idem
“Mariboro” in loc de “Marlboro”  - aici corecteaza din Marlboro inapoi in Mariboro la rularea dictionarelor.


Toate bune
Gabi


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Mulţumesc Gabi!
     ... şi scuze!... pentru că „să fi se >> să li se”, am senzaţia că mi-ai mai semnalat-o.
     Dacă nu mi-ai semnalat-o tu, atunci a făcut-o totuşi cineva... pentru că eu am deja un dicţionar în lucru pe tema asta. Am adăugat acum ceea ce am lucrat în dicţionarul Vt2, care rulează cu opţiunea independentă „Modificare text corectat eronat”.

     Problema: „a mințit sale” in loc de „a minții sale”
     Frecvenţa în text a situaţiei de mai sus este cam mică, dar am să-i găsesc un loc... cred că în unul din dicţionarele Vt1-Vt4.

     Problema Marlboro >> Mariboro - am rezolvat-o şi pe ea.
     De unde vine necazul ăsta.
     Avem 6 dicţionare care modifică segmente de cuvinte, succesiuni de minim 3 litere.
     Este vorba despre dicţionarele:
                 CO_SInc1.imd - CO_SInc2.imd - secvenţe de început de cuvânt;
                 CO_SMed1.imd - CO_SMed2.imd - secvenţe mediane, la mijlocul cuvântului;
                 CO_STer1.imd - CO_STer1.imd - secvenţe terminale, la sfârşit de cuvânt.

     O parte dintre secvenţele mediane modifică L între două consoane în I, ca de ex: "rlb > rib, rlc > ric, rld > rid..."
     În limba română nu există succesiunea "RLB", dar avem importuri de cuvinte străine.
     În realitate, CO_SMed2.imd corecteză excepţiile de la regulă. Am corectat "Arlberg" - staţiune Austria, dar am ratat "Marlboro".

     Am să revin cu un nou pachet de dicţionare în care am corectat cele semnalate.
     Ca să nu fie confuzie am să le urc cu data de 31.03.2016.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
gaboy74
Membru Gold

Inregistrat: acum 8 ani
Multumesc Seven,

Legat de "a mintit sale" cred ca ai dreptate avand in vedere experienta ta.

Eu am semnalat-o deoarece lucrand la Zapada de Pamuk cred ca m-am intalnit pana acum de cel putin 5 ori in text cu aceasta eroare...si mi s-a parut ca ar fi bine sa o semnalez totusi.

Asteptam cu interes update-urile pe dictionare.

Numai bine
Gabi


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Dicţionare reactualizate la 31.03.2016
      Fişier-arhivă:  Cpl DIC AC [2016.03.31] a.rar
      Adresă:   –  folder deschis mediafire

      Pentru orice eventualitate am adăugat un "a" la numele fişierului.
      Dacă mâine e nevoie să mai modificăm ceva, atunci putem posta arhive cu aceeaşi dată, dar diferenţiate cu litera b, c etc...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      DICŢIONARE CU MESAJ DE ATENŢIONARE

      Postez acest mesaj doar pentru userii foarte-foarte interesaţi de AutoCorect şi care au multă răbdare
      În afară de cele două pachete, folosesc pentru fiecare volum încă un pachet, pe care eu îl numesc "Periere finală".
      Ele sunt în număr de 6: [F1] Curăţare Artefacte 1.imd, [F2] Error 1 Asterisc.imd, [F2] Error 2 Căciulă.imd, [F2] Error 3 Tilda.imd, [F2] Error 4 Cratimă.imd şi [F3] Error 5 Apostrof.imd]

      Cu ajutorul acestor dicţionare lipesc cuvinte rupte la capăt de rând, pun cratimă la cuvinte care se scriu cu cratimă, elimin asterisc, căciulă [caracterul ^], tildă, cratimă, apostrof etc., în poziţii în care ele apar în mod eronat... alte modificări.

      Aceste dicţionare nu seamănă cu cele din pachetele OCR_DIC sau UZUALE, deoarece au o structură specială.
      Ele ar putea fi numite şi dicţionare cu mesaj de atenţionare.
      În fiecare dicţionar există două tipuri de înregistrări: înregistrări-mesaj şi înregistrări-executabile.
      Înregistrarea-mesaj este o înregistrare care nu produce modificări, ci afişează un mesaj informativ despre ce anume înlocuire face următoarea înregistrare-executabilă.

      În imaginile de mai jos în stânga apare fereastra de confirmare a înregistrării-mesaj, iar în dreapta cea a înregistrării-executabile.
      Din ferestra de confirmare a înregistrării-mesaj se iese întotdeauna cu butonul "Renunţ", timp în care la înregistrarea-executabilă se procedează în modul cunoscut.





      Dacă astfel de dicţionare prezintă interes, putem discuta în detaliu şi le pot posta, deşi ele sunt într-o continuă modificare şi încă nu am ajuns la o formă finală.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
gaboy74
Membru Gold

Inregistrat: acum 8 ani
Seven,

Orice ajuta la rapiditatea corecturii OCR-ului este binevenit.

Asadar pe mine ma intereseaza aceste dictionare.

Te rog sa ma ajuti sa intru in posesia lor ...eventual sa vorbim si cum le folosesc...

Autocorect este o aplicatie exceptionala si ii incurajez pe toti sa o foloseasca...asa cum spuneai intr-o postare mai veche...fara Scan Tailor  / Abbyy / Autocorect cred ca niciodata nu am fi putut vorbi de digitalizare!.

Multumesc inca o data tuturor celor implicati in acest proiect (Autocorect) pentru efortul depus.

Numai bine
G.


pus acum 8 ani
   
tuf
Vizitator



Pune-le pe forum Seven.
Vedem noi ce si cum.


pus acum 8 ani
   
paciu
Membru Puf

Inregistrat: acum 14 ani
Seven,
Am întâlnit și următoarele probleme:
„construcțiv” în loc de „constructiv”
„comparațiv” în loc de „comparativ”
„informațiv” în loc de „informativ”
„educațiv” în loc de „educativ”
„informațic” în loc de „informatic”

Apreciez enorm tot ceea ce faci cu acest program.
Toate cele bune.


_______________________________________
Nu te certa niciodată cu un prost!
Te va aduce la nivelul lui și te va bate cu experiența!

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Mulţumesc, paciu!
     „construcțiv, comparațiv, informațiv, educațiv, informațic....”

     Semnalările tale sunt mai importante decât par, deoarece aceste cuvinte au un element comun: eroarea apare în finalul cuvintelor.
     Practic putem vorbi de o secvenţă finală: "TI + o literă" redată eronat ca "ŢI + o literă".
     Am reuşit până la acest moment să extrag toate cuvintele şi derivatele care se termină cu o astfel de secvenţă şi am realizat 15 liste-dicţionat, dar trebuie periat fiecare dicţionar şi păstrate doar cuvintele care au o frecvenţă mai mare în limba română.
     După eliminare cuvintelor cu frecvenţă redusă, în funcţie de numărul de cuvinte rămase, se poate găsi soluţia: un dicţionar cuvinte întregi cu modificare automată... sau secvenţe finale de 4-5 litere cu modificare automată... ori secvenţe finale mai scurte cu confirmare...

     Între timp încerc să adaug câteva secvenţe finale cu confirmare care să rezolve ŢIV >> TIV şi ŢIC >> TIC şi voi reveni cu un update la dicţionarele de azi.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
Faptul ca ati deschis computerul mai tarziu nu inseamna ca
acum 20 ani nu se faceau ocr-uri si nu se prelucrau imagini pt ocr.

- Pentru prelucrare de imagine-
inainte de aparitia scantailor, se folosea, si se foloseste SI ASTAZI, ORICUM, ACDSEE.

- Inainte de Abbyy au existat RECOGNITA 4, si apoi 5, facute de maghiari, ele obtinand rezultate similare lui Abbyy.

- Pentru aplicare diacritice+corectura - inca din 1998 se lucra cu un mic programel facut de români - conceput tot in Delphi - care facea aprox. acelasi lucru, doar ca programul nu permitea formatarea BOLD-ITALIC, el lucrand numai cu fisiere text.


pus acum 8 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
ACTUALIZARE dic imd pentru AUTOCORECT CONTEMPORAN
31.03.2016
contine peste 321.000 secvente-erori corectabile automat.
link download


pus acum 8 ani
   
gaboy74
Membru Gold

Inregistrat: acum 8 ani
Multumim luiz25.

putem primi o carte digitalizata acum 20 de ani?


Numai bine
G


pus acum 8 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
Ia de aici 3 fragmente de lucrari vechi, dar ce ai obtinut NU E RELEVANT.
Documentele rtf au suferit si corecturi prin confruntare cu originalul,
astfel, ca daca vrei sa vezi evolutia Programelor de OCR-prelucrare imagine,
mai degraba te informezi pe google.

Sau, ia de aici, si aprofundeaza lucrul cu ACDSEE.
E scris de mine.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Dicţionare reactualizate la 04.04.2016

      Fişier-arhivă:  Cpl DIC AC [2016.04.04].rar
      Adresă:   –  folder deschis mediafire

      Pentru reactualizări am luat în calcul semnalările postate pe forum sau transmise prin mail şi MP.

      ...Şi pentru că am promis, am urcat şi acele dicţionare cu mesaj, pentru perierea finală.
      Fişier-arhivă:  Dictionare cu mesaj [2016.04.04].rar
      Adresă:

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      REACTUALIZARE  20.04.2016

      AutoCorect Standard Contemporan v4.1.5
           fişier "Instal": AutoCorect_CO_Std_Setup.rar
           ►►

      Executabile actualizate la 01.11.2012:
         

      Dicţionare reactualizate la 04.04.2016
      Fişier-arhivă:  Cpl DIC AC [2016.04.04].rar
      Adresă:   –  folder deschis mediafire


      A fost semnalat faptul că linkul de descărcare AutoCorect Contemporan Standard V4.1.5 nu duce spre un fişier de instalare, ci spre un folder AutoCorect Instalat arhivat.
      Am verificat şi semnalarea este corectă, astfel că am purces la remedierea problemei.
      Am urcat varianta fişier "Instal", iar linkul de mai sus duce către acest fişier.
      Am corectat linkul şi în a doua postare a acestui topic, respectiv în topicul AutoCorect OCR Plus 5.1.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      REACTUALIZARE  29.04.2016

      Dicţionare reactualizate la 29.04.2016
      Fişier-arhivă:  Cpl DIC AC [2016.04.29].rar  –  conţine dicţionarele OCR_DIC  şi Dic.Uzuale.
      Adresă:   –  folder deschis mediafire
      Link direct:

      LE:
      În cer scuze! Din motive de Copy&Paste rămăsese ca dată a reactualizării 04.04.2016.
      Am corectat data reală: 29.04.2016.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Salutări!

      Îmi cer scuze dacă vă agasez cu reactualizări!

      Chepstiunea este cam aşa:
      Am primit multe cărţi scanate de la diverse persoane [să fiu foarte sincer, sunt deja cam multe şi  m-am cam aglomerat cu prelucrarea].
      Din acest motiv câteva ore pe zi le petrec prelucrând OCR-uri în AutoCorect, urmând o minimă verificare pe diagonală în Word cu corectorul activat.
      La prelucrarea în AutoCorect constat uneori că anumite înregistrări mă agasează deoarece sunt nevoit să apăs "Renunţ" destul de des. În acest caz elimin sau mut spre sfârşitul dicţionarelor astfel de înregistrări, deci dicţionarele se modifică.
      La verificarea pe diagonală în Word, corectorul îmi subliniază tot felul de erori pe care AutoCorect nu le-a "văzut", astfel că adaug înregistrări noi în dicţionare, astfel că şi din punctul ăsta de vedere dicţionarele se modifică.
      Practic, dicţionarele pe care le am astăzi la această oră sunt deja puţin diferite faţă de dicţionarele de ieri de la aceeaşi oră.

      Cele mai multe modificări apar în dicţionarele cu confirmare, dar sunt înregistrări şi în dicţionare cu înlocuire automată.
      M-am gândit să nu mai urc toate dicţionarele, astfel încât colegii de forum să nu le mai înlocuiască pe toate, ci să încerc să postez doar dicţionarele modificate... Cred că ar fi mai simplu pentru colegi, dar este ceva mai greu pentru mine, deoarece ar trebui să monitorizez modificările... am să încerc totuşi să fac şi astfel de modificări.

      Să reamintim:
      În OCR_DIC avem un total de 39 de dicţionare, astfel:
            - primele 31 [de la CO_Apco.imd până la CO_Var3.imd, inclusiv] sunt dicţionare care fac modificări automate;
            - ultimele 8 dicţionare [CO_Var4 ÷ CO_Var7  şi  CO_Vt1 ÷ CO_Vt4] sunt dicţionare cu confirmare; practic acestea sunt cele care suferă cele mai multe modificări.

      Cred că ar fi ceva mai comod pentru toată lumea să postez mai des doar aceste 8 dicţionare...
      ăsta ar fi unul dintre aspecte.


      În altă ordine de idei, pe măsură ce folosim un instrument, o unealtă etc., câştigăm o anumită experienţă şi uneori constatăm că trebuie să schimbăm căte ceva în procesul tehnologic, în ordinea etapelor de lucru etc.
      Şi în folosirea AutoCorect au intervenit câteva modificări faţă de ceea ce am scris eu aici pe forum cu ceva timp în urmă.
      De aceea, dacă sunteţi interesaţi, aş relua discuţia de acum câţiva ani şi aş prezenta modul cum folosesc eu astăzi AutoCorect...

      Seven     


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
gaboy74
Membru Gold

Inregistrat: acum 8 ani
Seven,

Multumim pentru update uri...

Eu folosesc doar AC pentru corectura asa ca sunt direct interesat daca au aparut schimbari semnificative in modul de rulare / setup al AC pt a creste atat viteza de lucru cat si calitatea textului...

Sarbatori fericite!


pus acum 8 ani
   
tuf
Vizitator



In Word ai mai facut ceva schimbari la macro-uri?
Este vreo varianta finala?


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

      PROBLEMĂ:
AUTOCORECT NU SALVEAZĂ FIŞIERUL PRELUCRAT


     Să ne reamintim:
          – Programul AutoCorect este setat implicit să facă automat salvări la cca. 10 minute şi de asemenea să salveze fişierul în forma iniţială într-un fişier cu extensia ".bak". Se pot anula salvările dacă facem noi modificări în opţiunea "Configurare". Dacă dorim putem modifica opţiunile din "configurare" şi avem posibilitatea să dezactivăm salvările automate, ori putem modifica durata dintre două salvări automate.
          – După ce am prelucrt un fişier în AutoCorect, atunci când dorim să închidem programul, în mod obişnuit suntem întrebaţi dacă dorim să salvăm modificările.


     Situaţia #1: La ieşirea din AC, programul nu cere salvarea fişierului
     Problema: Uneori, este posibil ca la închiderea AutoCorect, acesta să se închidă pur şi simplu, fără a ne întreba dacă dorim să salvăm fişierul.
     Explicaţie: Practic fişierul este salvat; de la ultima salvare automată noi nu am mai făcut nicio modificare, astfel că programul nu deteactează modificări nesalvate, fapt pentru care nu ne mai întreabă dacă dorim să salvăm.
     Concluzia: Fişierul este salvat. Se poate ieşi din program fără probleme.
     Pentru orice eventualitate şi ca să fim foarte siguri că fişierul este salvat, înainte de a ieşi din program, dăm noi o comandă de salvare şi apoi închidem programul.


     Situaţia #2: AC nu poate face salvarea fişierului
     Problema: la ieşirea din program se cere salvarea, utilizatorul dă comanda de salvare, programul încearcă să facă salvarea, dar nu reuşeşte şi ne apare un mesaj din care rezultă că programul nu poate face salvarea şi mai apare în mesaj o menţiune în care ni se spune că spaţiul este insuficient . Îmi cer scuze! nu-mi amintesc exact conţinutul mesajului, dar conţine cele două informaţii prezentate.
     Explicaţie: Programul funcţionează normal [deci nu are probleme programul], avem spaţiu suficient pe disc, dar avem o cale prea lungă de căutare a fişierului.
     Dacă nu greşesc cumva, cred că în MS-DOS o adresă putea avea maxim 67 de caractere, iar în Win s-ar putea să fie ceva cu maxim 256 caractere...

     De exemplu: Dacă avem de prelucrat fişierul "OCR Baricadele.rtf", iar el se află într-o cale de căutare foarte lungă cum ar fi cea de mai jos
            DOCUMENTE [D:]/Carte in lucru/Lit. Straina/Ponson du Terrail/Junetea regelui Henri/Partea 4 Regina Baricadelor/Ep8 Baricadele/OCR & DOC/OCR Baricadele.rtf
este posibil ca programul să nu poată salva acest fişier, deoarece adresa de căutare este foarte lungă.

     Rezolvare: pentru a face prelucrarea în AutoCorect mutăm fişierul de prelucrat într-o adresă scurtă, precum următoarea:
            DOCUMENTE [D:]/TEMP/OCR Baricadele.rtf
     După prelucrarea completă a fişierului îl readucem [mutăm] la adresa iniţială.

     Această ultimă situaţie apare uneori şi la programele de dezarhivare, fapt pentru care dezarhivarea nu de poate face.
     Modul de rezolvare este acelaşi: mutăm arhiva într-un folder temporar cu cale de căutare foarte scurtă, facem dezarhivarea, apoi ducem fişierele la locul lor.

     Dacă am spus ceva prostii mai sus, rog să fiu atenţionat pentru a face binecuvenita corectură!
     Seven   

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
Pentru moment, consider dic. cu confirmare o pierdere de timp,
argumentul fiind ca durata parcurgerii lor depaseste PATRU ORE,
timp in care trebuie sa stai SMOCHINIT ca nu cumva sa sari aiurea vreo confirmare DA/NU.

E vorba de versiunea mea de dic.imd, care contine peste 12.000 de secvente-erori.
( Co_Var 4-7   - OCR PLUS - pct. 10.3 - INLOCUIRI CU CONFIRMARE )

Pentru perspectiva, daca mai adaug inca 12.000 cu confirmare, durata parcurgerii se va mari la 8 ore,
timp in care as putea corecta cartea OCHIOMETRIC, fara a mai pierde timpul cu dic. cu confirmare.

ACTUALIZARE dic.imd 14 iuie 2016,
peste 330.000 secvente-erori corectabile automat fara interventia userului,
la adresa:


Modificat de luiz25 (acum 8 ani)


pus acum 8 ani
   
tuf
Vizitator



In cazul asta nu ai inteles ce este AutoCorectul.

Daca tii mortis sa corectezi 400 de pagini in 20 de minute cu Auto|Corectul... asta nu se poate.
Poti sa imbunatatesti anumite situatii, dar nu sa corectezi. AutoCorectul perie textul, nu il corecteaza.
Se numeste corectura doar in clipa in care intervine omul.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Cred că aş putea face căteva afirmaţii cu care toată lumea poate fi de acord:
          – La o adică, aici pe forum, majoritatea userilor are un singur scop: acela de a posta cărţi corectate cât mai bine; care sunt metodele de lucru pentru atingerea acestui scop - asta este problema fiecăruia dintre noi şi fiecare este complet liber să procedeze după cum i se pare mai comod şi/sau mai corect.
          – De asemenea, ABBYY sau orice alt program de tip Recognito au erori de recunoaştere a caracterelor, fapt pentru care textele OCR vor avea în continuare un număr [mai mare sau mai mic] de erori, astfel că orice text OCR trebuie corectat manual. Este adevărat că dacă avem o carte tipărită de calitate [cartea este nouă, hârtie cu o textură foarte fină, cerneală de calitate, font aerisit etc... OCR poate fi foarte bun până la perfect. În acelaşi timp, atunci când prelucrăm o carte veche, tipărită pe hârtie de ziar, cu textură care conţine elemente străine, cu o cerneală neuniform distribuită sau parţial decolorată... etc... etc... indiferent cât de bun este sacanerul, scanarea şi programul recognito, OCR-ul va avea în continuare foarte multe erori şi va fi necesară, cu atât mai mult, corectura manuală.
           – Dacă avem posibilitatea să utilizăm nişte unelte ajutătoare, fie ele macrocomenzi, programe sau orice alte utilitare – avem tot dreptul să ne folosim de ele şi să ne uşurăm munca de corectură.


     În legătură cu AutoCorect, nu cred că în realitate există vreo contradicţie serioasă...

     Privind la modul general:
          – Programul este o unealtă pe care o putem considera utilă sau nu şi în funcţie de asta îl putem folosi sau îl putem ignora. Dacă-l considerăm util şi-l folosim, nu suntem nici mai tari, dar nici mai slabi, decât cei care-l consideră inutil... şi vice versa.
          – Prin modul cum a fost gândit şi realizat, el are o infinitate de moduri de folosire, aşa că fiecare utilizator şi-l poate personaliza cât de mult doreşte şi nu este nevoie să utilizeze toate opţiunile, ci doar pe acelea pe care le consideră utile. Mai mult decât atât, un user poate să folosească exclusiv metoda de lucru şi dicţionarele mele... sau ale lui @luiz25... ori ale altui utilizator... În acelaşi timp, fiecare dintre noi, poate lua din dicţionarele nostre doar o parte sau chiar nimic pentru că oricine are posibilitatea să-şi personalizeze şi/sau să-şi realizeze propriile sale dicţionare.
          – De departe, cea mai importantă caracteristică şi realizare a programului este opţiunea "Înlocuire multiplă". Putem crea o infinitate de dicţionare, fiecare dicţionar putând rula un număr nelimitat de înlocuiri.

     Privind la modul particular:
     Dacă dorim să luăm în calcul şi discuţie doar un aspect sau anumite aspecte legate de programul AutoCorect, atunci fiecare dintre noi are dreptate şi orice poziţie este corectă.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

      REACTUALIZARE  DICŢIONARE AC


      Dicţionare reactualizate la 25.09.2016

      Fişier-arhivă:  Cpl DIC AC [2016.09.25].rar  –  conţine dicţionarele OCR_DIC şi Dic.Uzuale.

      Adresă folder:   –  folder deschis mediafire
      Link direct:

      Multă baftă! 

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
       Salutare!

       După câte ştiţi forumul ăsta este cam bolnav, astfel că o serii de funcţii funcţionează aiurea sau nu funcţionează deloc. Adeseori sunt erori nu numai la postări, ci şi la mesajele private... iată de ce am să dau un răspuns aici pe topic la o întrebare primită pe MP. Întrebarea era: "...ce aduce nou ultima actualizare?"

       Înainte de a da un răspuns, aş menţiona câteva lucruri.
       – Chiar dacă în ultima jumătate de an nu am fost foarte activ pe forum, în fapt am continuat să prelucrez cărţi, inclusiv să prelucrez OCR-uri cu AutoCorect.
       – Perierea OCR-urilor în AC o fac la maximum posibil, astfel că nu numai că folosesc complet toate dicţionarele pe care le pun la dicpoziţia colegilor, ci folosesc şi alte dicţionare temporare pe care le rulez manual. Permanent am câteva dicţionare temporare în care adaug noi înregistrări, apoi periodic le sortez şi le pun în dicţionarele de bază.
       – Pe timpul prelucrării constat că unele înlocuiri [mă refer în special la cele cu confirmare] apar de două ori... ori sunt înregistrări la care folosesc mai mult butonul "Nu" pentru a refuza confirmarea înlocuirii şi mai puţin butonul "Da" de acceptare... ori, o înregistrare agasantă dar necesară apare prea devreme şi ar trebui să o mut mai spre finalul dicţionarelor cu confirmare. Iată de ce unele înregistrări cu confirmare le şterg sau le mut pentru ca acţiuneaa de confirmare să curgă mai uşor.
       – Unele secvenţe de cuvinte produc erori nedorite, deşi secvenţele sunt corecte. Mă refer la secvenţele de 3 litere... O secvenţă de 3 litere corectă poate da erori atunci când dintre cele 3 litere avem nu doar o eroare, ci două. Iată de ce o parte dintre aceste secvenţe de 3 litere le-am modificat în secvenţe de 4 sau 5 litere. Modificarea are avantaje şi dezavantaje: cu cât secvenţa are mai multe litere, erorile posibile se micşoarează sau dispar complet - ceea ce este un avantaj; pe de altă parte, numărul de înregistrări creşte şi timpul de rulare se măreşte - ceea ce este un dezavantaj.

       Aşa cum am mai spus, eu acord mare atenţie celor 8 dicţionare cu confirmare şi mă refer la dicţionarele Var1-Var7 şi Vt1-Vt4.
       Ştiu că s-a spus de multe ori că se pierde timp cu confirmarea şi că aceste dicţionare sunt o prostie, dar pe mine personal deja de oarece timp nu mă mai deranjează şi nici nu mă mai interesează aceste păreri: eu folosesc din plin aceste dicţionare, le-am văzut importanţa, le îmbunătăţesc permanent şi pentru că oricum le îmbunătăţesc găsesc că este bine să le ofer şi celor care sunt interesaţi.
       Deci, oricum eu îmbunătăţesc dicţionarele pentru mine; nu mă costă nimic să le pun pe forum. Dacă există un singur utilizator care poate beneficia de ele, asta este deja un bine făcut. Cei neinteresaţi de dicţionare sau care nu văd ceva benefic în AutoCorect - efectiv nu mă interesează.


       Să revenim la ultima variantă de dicţionare, cea din 25.09.2016
       – am eliminat câteva înregistrări duble precum cele care se refereau la grupurile de litere < il, ll, II > etc; am eliminat sau schimbat ordinea unor înregistrări care corectau ghilimele... am eliminat corecţie majusculă > minusculă după cuvântul etc., deoarece erau multe înregistrări şi puţine situaţii de corectat...
       – am modificat o serie de secvenţe de 3 litere în secvenţe de 4-5 litere pentru mărirea procentului de corectitudine a modificărilor.
       – am adăugat o serie de cuvinte unde succesiunea o literă fusiformă urmată de apostrof se corectează într-o literă; de exemplu, < i' > poate fi în mod corect litera < r > sau < f >;
              exemple de înlocuiri: cai'e > care, oai'e > oare... i'iecare > fiecare, i'oarte > foarte...
       – similar în cazul literei < T > care uneori este redată eronat ca succesiunea de 3 semne "apostrof_ I mare_ apostrof" < 'I' >. Situaţiile apar doar în cazul literei T mare la început de frază. Aceste înregistrări le-am pus în dicţionarul uzual Uz_T.imd.
       – am adăugat o serie de corecţii la sfârşit de cuvânt... unele la finalul substantivelor: ex: iui > lui, altele la sfârşitul verbelor, în special la verbe la gerunziu: ex: md > ind sau md > ând: alergmd, cobormd, ducmd; bineînţeles, pentru ca secvenţele să nu producă efecte secundare nedorite, am folosit secvenţe de de 5 litere şi în situaţii mai rare, secvenţe de 4 litere.
       – SCUZE! am uitat: permanent adaug înregistrări la dicţionarele care unesc cuvinte rupte [despărţite] la cap de rând, bineînţeles că adaug în mod special cuvinte care au o frecvenţă rezonabilă; am adăugat şi lipire cu confirmare, în special la cuvintele la care prima parte a cuvântului se termină în < î >, iar prin lipite râmâne < î > sau se transformă în < â >... şi altele...

       Deoarece modificările au fost făcute într-o perioadă de câteva luni, nu-mi amintesc exact ce alte modificări am mai făcut. Probabil că unele înregistrări sunt mai vechi decât versiunea din aprilie, deoarece înregistrări le foloseam şi atunci, dar erau în dicţionare temporare.
       Ideea este că ceea ce consider că este bine şi comod de folosit de către mine, cred că poate folosi şi altor utilizatori.

       Tuturor, multă sănătate şi toate cele bune!
       Celor care folosesc AC: ...şi multă baftă şi spor la lucru!   

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Şi... pentru că a trecut mult timp de când am scris despre rularea pachetului OCR... şi pentru că între timp am făcut ceva modificări în metoda mea de rulare... pentru cei interesaţi, am să încerc să spun câteva cuvinte despre modul în care fac eu acum perierea în AutoCorect.

      Îmi cer scuze pentru faptul că va dura ceva mai mult până am să definitivez această postare.
      Ca să fie clar pentru toată lumea când închei postarea, am să pun la final meţiunea <sfârşit postare>.


      1. Dicţionare Uzuale
      Mai întâi, am să fac o corectură: undeva prin tutorialele de pe forum arătam că sunt importante dicţionarele OCR_DIC şi mai puţin importante dicţionarele Uzuale şi că Uzualele pot fi folosite doar  de către cei care au defilat prin ele.
      Acum afirm clar că ambele pachete sunt la fel de importante şi trebuie rulate obligatoriu de cei ce folosesc AC.
      Practic, diferenţa dintre cele două pachete este faptul că în Uzuale apar cuvinte ceva mai lungi decât în dicţionarele OCR_DIC. La acest moment nicio înlocuire din Uzuale nu se face cu confirmare, deci şi aceste dicţionare rulează complet automat. mai mult decât atât, am periat în mod special dicţionarele Uzuale şi am încercat să elimin orice înregistrare care producea erori.
      Astăzi, din punctul meu de vede, ambele pachete sunt sunt la fel de sigure sau nesigure. Diferenţa este că sunt altfel structurate.
      Am vrut să menţionez acest lucru pentru ca utilizatorul interesat să ştie exact că pachetul cu dicţionare Uzuale nu este facultativ, deoarece aceste dicţionare fac corecţii ce nu sunt făcute de dicţionarele OCR_DIC.


      2. Opţiuni din pachetul OCR Plus pe care nu le folosesc.
      Din diverse motive - pe care le voi menţiona la fiecare opţiune în parte - câteva opţiuni din pachetul automat OCR Plus eu nu le folosesc.
      Iată care sunt opţiunile la a căror rulare am renunţat:

Code:

1.6 Conversii preliminare >> Rupere rânduri care încep cu dialog aflate în interiorul paragrafului
4.7 Corectare caractere reproduse eronat >> Conversie majusculă în minusculă la dialog francez
5. Marcare caractere
6. Ştergere caractere
10.1 Setări finale >> Înlocuire spaţiu după linia de dialog cu spaţiu neseparator

7.1 Înlocuieşte toate liniile de pauză cu: >> EmDash
7.3 Înlocuieşte toate liniile de pauză cu: >> Horizontal Bar
8.2 Înlocuieşte toate liniile de dialog cu >> EnDash
8.3 Înlocuieşte toate liniile de dialog cu >> Horizontal Bar


      Să le luăm pe rând:

      1.6 Conversii preliminare >> Rupere rânduri care încep cu dialog aflate în interiorul paragrafului
      Uneori această opţiune poate produce efecte nedorite şi să rupă un paragraf care în mod corect nu trebuie rupt. Sunt situaţii în care linia de pauză este redată eronat ca EmĐash. Dacă ea este este urmată de o majusculă, atunci în mod sigur softul consideră în mod eronat că este vorba de o linie de dialog şi rupe paragraful. Nu sunt foarte sigur pentru că nu am testat suficient, dar înclin să cred că acest lucru poate apărea chiar şi atunci cînd linia de pauză urmată de majusculă nu este EmDash.
      Am testat suficient această opţiune şi pot spune că se poate renunţa fără probleme la ea, deoarece cazurile în care este necesară ruperea reală a unui paragraf sunt foarte puţine, iar ruperea se face mult mai sigur pe timpul corecturii.


      4.7 Corectare caractere reproduse eronat >> Conversie majusculă în minusculă la dialog francez
      Această opţiune este depăşită şi se poate renunţa la ea, cu condiţia ca la setarea punctuaţiei să nu se activeze opţiunea de majusculare după semnele < ! > şi < ? >, ci doar după punct. [A se vedea setările Punctuaţiei, postate pe acest topic].
      Practic această opţiune a apărut atunci când setările de punctuaţie nu fuseseră definitivate, în sensul că la acel moment se făcea majuscularea după punct şi semnele < ! > şi < ? >.
      După acea s-au făcut modificări la punctuaţie şi s-au implementat mai multe opţiuni.
      Dacă la "Punctuaţie" nu se activează majuscularea după semnele < ! > şi < ? >, atunci nu mai apr situaţii de majusculară automată după semnele < ! > şi < ? >, deci opţiunea 4.7 nu se mai justifică.


      5. Marcare caractere
      Această opţiune, ca şi următoarea, a fost implementată printre primele. La acel moment aveam o problemă la convertirea ghilimelelor şi apostrofului în forma românească. la acel moment rămâneau în text o serie de ghilimele drepte sau apostrof drept, care trebuiau corectate pe timpul corecturii manuale. pentru a fi "mai vizibile" s-a propus marcarea color a lor. pe lângă apostrof şi ghilimele se mai pot marca şi diverse consoane individuale [care de regulă apar în locul semnului exclamării], toate tipurile de paranteze, precum şi alte caractere cunoscute de noi ca artefacte: ~ & = + % Ł # / \ > < *
      Între timp problemele legate de apostrof şi ghilimele au fost rezolvate, tilda ~ se modifică automat în cratimă, / înlocuieşte de multe ori litera z, iar caracterul \ înlocuieşte litera v, caracterul & poate apărea în locul literelor ă sau a... [multe dintre aceste aparaţii sunt corectate de dicţionare]...
      Deci, pe de o parte, multe din aceste probleme au fost deja rezolvate de dicţionare sau alte implementări ale programului.
      Pe de altă parte, experienţa ne arată că marcajul unor astfel de caractere are avantajul că le scoate în evidenţă, dar avem neşansa să nu mai observăm la fel de bine celelalte erori din text.
      În al treilea rând, uneori marcajele respective rămân în textul final pentru că persoana care face corectura nu le "vede" pe toate. Mai mult decât atât, marcajele inserează în text diverse coduri, şi de multe ori, deşi textul este "înnegrit" la corectură, rămân spaţii marcate color. pe de altă parte, pentru cei ce lucrează cu stiluri, aceste marcaje produc erori de stil. Ştergerea acestor marcaje este mai mult decât dificilă, astfel că în final rămân aceste coduri în text.
      În al patrulea rând, şi - probabil - cel mai important, respectivele coduri pot produce erori la convertirea textului în formatele pentru ereader şi tabletă.
      Din toate aceste motive, eu personal am renunţat de foarte mult timp la rularea acestei opţiuni.


      6. Ştergere caractere
      În general este vorba cam de aceleaşi caractere ca în opţiunea anterioară, numite de noi artefacte sau "răgălii".
      Ideea este următoarea: toate artefactele aflate la începutul sau sfârşitul paragrafului sunt şterse automat la opţiunea 1.7 cu dicţionarul CO_Artef.imd, deci ele oricum sunt deja şterse.
      Artefactele din interiorul paragrafului sau caracterele individuale ocupă de regulă poziţia unei litere sau a semnului exclamării. Am arătat deja că:
               caracterul    \  poate înlocui litera v,
               caracterul   /  poate înloci litera z,
               caracterul  &  poate înlocui literele ă, â, a...
      De regulă, artefactele care apar accidental în locul unor puncte sau pete în textura hârtiei [şi care ar trebui şterse] sunt foarte puţine; cele mai multe artefacte înlocuiesc în mod eronat o literă, o cifră sau un semn de punctuaţie.
      O parte dintre artefactele aflate în interiorul paragrafului, le-am avut în vedere şi am încercat să le rezolv în diverse dicţionare; de exemplu, multe caractere tipografice şi consoane independente de format fusiform sunt în realitate semnul exclamării... etc... etc... Dacă astfel de artefacte sunt păstrate în text au şansa să fie corectate pe timpul rulării AutoCorect; dacă sunt şterse va trebui să le inserăm pe timpul corecturii.
      În altă ordine de idei este mai uşor de văzut şi corectat un cuvânt care conţine un artefact în locul unei litere, decât un cuvânt din care a fost şters artefactul respectiv, deoarece prin eliminarea unui artefact dintr-un cuvânt ştergem practic o literă şi se poate obţine un nou cuvânt care poate fi corect [deci Word nu-l subliniază], dar nu este cuvântul real.
      Iată un exemplu:
             fragmentul de frază  "...el începu să se zbată şi apoi vorbi..."
             poate fi scris eronat  "...el începu să se /bată şi apoi \orbi..."
             dacă ştergem automat artefactele  /  şi \   textul obţinut va fi:
                          "...el începu să se bată şi apoi orbi..."
      Cred că sunteţi de acord că se poate trece cu relativă uşurinţă peste textul obţinut prin ştergerea artefactelor, fără a observa că textul nu este corect. Totuşi, zbate ≠ bate şi vorbi ≠ orbi.
      Din motivele de mai sus eu personal nu activez niciodată opţiunea 6. Ştergere caractere.


      10.1 Setări finale >> Înlocuire spaţiu după linia de dialog cu spaţiu neseparator
      Această opţiune NU TREBUIE ACTIVATĂ DE NIMENI.
      Motivul principal pentru care nu se activează opţiunea îl redau mai jos:
      În dicţionarele OCR_DIC cu modificare automată [deci nu cele cu confirmare] există câteva mii de înregistrări care fac modificări la început de dialog. Aş menţiona doar două mari tipuri de înlocuiri: I >> Î la cuvintele care încep în mod corect cu Î la început de dialog şi înlocuirile unor şiruri formate din cifra 1, precum 111 >> În, respectiv 1111 > Nu.
      Aceste înlocuiri sunt în număr foarte mare, câteva mii - aşa cum am arătat.
      Dacă s-ar activa opţiunea 10.1, aceste mii de înregistrări ar trebui să fie dublate ca număr, un pachet care să aibă "linie de dialog_spaţiu obişnuit" urmat de şirul de înlocuit, iar al doilea pachet ar trebui să aibă "linie de dialog_spaţiu neseparabil" urmat de şirul de înlocuit, ceea ce ar mări considerabil dicţionarele şi, implicit, timpul de rulare.
      În altă ordine de idei ar trebui să ţin minte ca orice înregistrare nouă care se referă la început de dialog să fie făcut în ambele forme şi fiecare înregistrare dusă la locul ei. Acest lucru nu este uşor şi sunt şanse ca uneori să uit să fac şi cea de-a doua înregistrare.
      Din acest motiv am hotărât să elimin toate înregistrările care conţin spaţiu neseparator şi să folosesc doar spaţiu obişnuit după linia de dialog.
      În concluzie, pentru cei care activează această opţiune, câteva mii de înregistrări nu vor face modificări.

      Cred că explicaţiile sunt suficient de clare.
      În afară de cele de mai sus, reamintesc faptul că spaţiul neserabil produce adeseori erori la convertirile în diverse formate pentru ereadere şi este convertit în caracterul < ? >.
      Dacă, totuşi, sunt persoane care doresc neapărat ca să înlocuiască spaţiul obişnuit de după linia de dialog cu spaţiul neseparator, pot face acest lucru în mod separat imediat după ce au făcut rularea tuturor opţiunilor şi dicţionarelor. reamintesc faptul că dacă opţiunea este activată de la început, câteva mii de înregistrări nu vor funcţiona.


      Referitor la opţiunile 7.1, 7.3, 8.2 şi 8.3 nu cred că este nevoie de prea multe explicaţii.
      Deoarece pentru a marca linia de pauză folosesc întotdeauna Endash [opţiunea 7.2], iar pentru linia de dialog folosesc EmDash [opţiunea 8.1], celelalte 4 opţiuni din aceste pachete rămân neactivate



      Mutarea opţiunilor neactivate.
      Când în meniul "OCR Plus" acţionăm asupra opţiunii "Rulează toarte funcţiile de corectare OCR", pe monitor este afişată fereastra "Rulare automată OCR Plus", care are forma unui tabel cu toate opţiunile ce pot rula în mod automat la pachet.
      Vom avea în acest, în funcţie de aprecierea fiecăruia, opţiuni active şi câteva opţiuni inactive.
      Ca să nu ne mai încurce opţiunile pe care nu dorim să le activăm niciodată, le putem coborî pe toate în partea de jos a tabelului, astfel încât să le separăm de cele active.
      Pentru a le putea muta, pur şi simplu agăţăm cu mausul opţiunea respectivă şi o tragem în partea de jos a tabelului, practic sub opţiunea 10.3. Procedăm similar cu toate opţiunile pe care am hotărât să nu le activăm. Eu am procedat astfel şi mi se pare că este mai uşor de lucrat şi de urmărit fiecare opţiune în parte.

      Iată cum apare fişierul meu "RulareAutomataOCRPlus.txt" din AppData:

Code:

1    1.1 Conversii preliminare >> Conversie dialog bullets în dialog text
1    1.2 Conversii preliminare >> Setare text la font şi mărime unică
1    1.3 Conversii preliminare >> Eliminare tab şi spaţii multiple
1    1.4 Conversii preliminare >> Eliminare spaţii la început şi sfârşit de paragraf
1    1.5 Conversii preliminare >> Repararea rândurilor rupte
1    1.7 Conversii preliminare >> Eliminare pagini (paragrafe) goale
1    2.1 Punctuaţie >> Eliminare paragraf-artefact
1    2.2 Punctuaţie >> Corectare linii de pauză şi linii de dialog
1    2.3 Punctuaţie >> Funcţii obişnuite
1    2.4 Punctuaţie >> Corectare suplimentară elipsis
1    2.5 Punctuaţie >> Conversie combinaţii ? ! şi . ,
1    3. Conversie text clasic în text contemporan
1    4.1 Corectare caractere reproduse eronat >> Corectarea majusculelor încorporate
1    4.2 Corectare caractere reproduse eronat >> Corectarea literelor l, d si m reproduse eronat
1    4.3 Corectare caractere reproduse eronat >> Corectare cuvinte foarte scurte
1    4.4 Corectare caractere reproduse eronat >> Corectare minuscule la început de paragraf
1    4.5 Corectare caractere reproduse eronat >> Înlocuire secvenţe cuvinte
1    4.6 Corectare caractere reproduse eronat >> Corectare cuvinte întregi şi expresii
1    7.2 Înlocuieşte toate liniile de pauză cu: >> EnDash
1    8.1 Înlocuieşte toate liniile de dialog cu >> EmDash
1    9. Rulare grup de dicţionare înlocuire multiplă
1    10.2 Setări finale >> Corectare cuvinte rupte
1    10.3 Setări finale >> Înlocuiri cu confirmare
0    1.6 Conversii preliminare >> Rupere rânduri care încep cu dialog aflate în interiorul paragrafului
0    4.7 Corectare caractere reproduse eronat >> Conversie majusculă în minusculă la dialog francez
0    5. Marcare caractere
0    6. Ştergere caractere
0    7.1 Înlocuieşte toate liniile de pauză cu: >> EmDash
0    7.3 Înlocuieşte toate liniile de pauză cu: >> Horizontal Bar
0    8.2 Înlocuieşte toate liniile de dialog cu >> EnDash
0    8.3 Înlocuieşte toate liniile de dialog cu >> Horizontal Bar
0    10.1 Setări finale >> Înlocuire spaţiu după linia de dialog cu spaţiu neseparator


      NOTĂ: Opţiunile marcate cu cifra 1 la început sunt opţiune active, iar cele marcate cu cifra 0 sunt cele inactive.

      Dacă până aici lucrurile sunt clare, voi continua cu o nouă postare în care voi arăta pe scurt cum fac eu rularea unui OCR în 3-4 etape.
      Dacă este ceva de clarificat, rog să puneţi întrebările de rigoare!
      Gaby [gaboy74], aştept un semn în acest sens.

      < sfărşit postare >

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

     Câteva cuvinte despre rularea dicţionarelor cu confirmare:


     Eu rulez complet toate dicţionarele, inclusiv pe cele cu mesaj, pentru a peria cât mai bine textul, astfel încât la corectura manuală să-mi rămână cât mai puţine erori, iar atenţia mea să se poată concentra nu numai pe depistarea erorilor de scriere a cuvintelor, ci şi pe topica frazei, pentru a depista şi alte erori decât cele vizibile la prima vedere.

     Ştiu că printre utilizatorii de AC există persoane care spun că nu au timpul şi răbdarea necesară pentru a rula toate înlocuirile cu confirmare; chestia cu lipsa timpului şi a răbdării este o treabă cu dus-întors.
     Dacă nu avem timp pentru rularea cu confirmare, vom câştiga timp la rularea în AC, dar vom pierde ceva mai mult timp la corectura manuală pentru a corecta bucată cu bucată fiecare eroare, care ar fi putut fi rezolvată la confirmări.

     Alte persoane spun că nu pierd timpul cu confirmarea în AC, pentru că preferă să facă înlocuirile direct în Word.
     Este şi aici o micuţă problemuţă: în primul rând în Word trebuie să edităm fiecare căutare, timp în care în AC aceste căutări sunt deja înregistrate; în al doilea rând, şi cel mai important, este o diferenţă foarte mare între modul de afişare al erorilor în AC faţă de Word şi anume: în AC eroarea apare afişată undeva în zona centrală a paginii, deci vedem cel puţin câteva cuvinte sau rânduri în faţa erorii marcarte şi astfel putem vedea foarte clar contextul în care apare cuvântul respectiv, astfel că este mai uşor să stabilim care este cuvântul real; în Word eroarea căutată va fi afişată, de regulă, pe primul rând al ferestrei, astfel că nu putem vedea cuvintele din faţa erorii şi uneori trebuie să defilăm un pic în sus pentru a vedea dacă este vorba de un cuvânt sau altul. De exemplu: cuvintele mină-mână, miner-mâner, fată-faţă, lotul-totul… etc… etc.; stabilirea corectitudinii unei variante sau alta se poate face doar analizând contextul în care apare respectivul cuvânt şi este foarte important să vedem toată propoziţia sau fraza, deci şi cuvintele din faţa erorii, cuvinte care în Word, de cele mai multe ori, nu sunt afişate.

     Nu vreau să afirm că metoda mea este cea corectă şi că altele sunt mai puţin corecte, ci am vrut, doar, să justific motivul pentru care eu folosesc din plin modificările cu confirmare din AC şi motivul pentru care în ultimul timp m-am ocupat în special de dezvoltarea acestor dicţionare.

     Obişnuinţa este mult mai importantă decât metoda optimă determinată cu instrumente de măsură.
     Un om lucrează aşa cum este el obişnuit şi aşa cum i se pare mai practic şi mai comod. Metoda cea mai bună pentru fiecare este metoda pe care o stăpâneşte cel mai bine şi pe care o poate perfecţiona.

     …Am dat aceste explicaţii pentru ca să nu mai pierdem timpul cu discuţiile despre utilitatea sau nonutilitatea şi prostia înlocuirilor cu confirmare.
     În legătură cu folosirea AC, fiecare este complet liber să procedeze aşa cum doreşte.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
menadel
MEMBRU VIP

Inregistrat: acum 12 ani
Sevan, am și eu câteva înregistrări, nu știu dacă le-ai reparat, dar le postez. Eu pentru ele mi-am făcut o macrocomandă în word, dar tu știi mai bine cum să le pui în AC, dacă este cazul.
iară - fără -
tară - fără -
acm-acru
aeml-aerul
automl-autorul
cadavml-cadavrul
cârd-card
ceml-cerul
cmce-cruce
cmdă-crudă
comparațiv-comparativ
corăbie-corabie
fâșier-fișier
Flaide-Haide
Flai-Hai
fmnte-frunte
gmp-grup
Hali-Hall
informațic-informatic
Insă-Însă
juml-jurul
lacu-făcu
lăcea-făcea
lî-fi
lucm-lucru
Mărie-Marie
mga-ruga
negm-negru
pomnci-porunci
sacm-sacru
săbiei-sabiei
singuml-singurul
stâmea-stârneau
stâmind-stârnind
stâmi-stârni
stâmit-stârnit
stingă-stânga
tezauml-tezaurul
unna-urma
unnă-urmă
vmt-vrut

f des nn-rm
II la început de paragraf-Îl

baiatul-băiatul
extraterestri-extratereștri
dedt-decât
educațiv-educativ
tați-rari
Cari-Carl
Caria-Carla
Cariei-Carlei
laceți-faceți
lăcuse-făcuse
adevâr-adevăr
pârea-părea
râmas-rămas
bâiat-băiat
ma - mă -
tatâl-tatăl


_______________________________________
"Cand nu vom mai fi copii, nu vom mai fi deloc!"
Link la postarile vechi indisponibile

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Mulţumesc, Menadel! Sesizările tale îmi sunt de mare ajutor.
      Câteva dintre situaţii sunt implementate, cele mai multe nu.
      De pildă, deşi am multe înregistrări de tipul " m < > r n "...
      ...dar nu am înregistrări de tipul " n n < > r m " şi nici de tipul " r u < > m ". Aceste două grupuri va trebui să le analizez mai mult şi să găsesc şi alte combinaţii care trebuiesc corectate.

      Am salvat toate cuvintele şi am să le verific pe fiecare pentru a vedea dacă sunt deja înregistrate sau trebuie să le înregistrez.
      Am să vă ţin la curent.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



Multumesc pentru efort, Seven.

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     @tuf, dacăai intenţia să reactualizezi AC Portabil, te rog să n-o faci încă, deoarece în câteva zile am să urc varianta completată cu sugestiile colegului @Menadel.

     Referitor la ageste sugestii:
         - câteva situaţii [foarte puţine] erau deja implementate;
         - pe marea majoritate le-am înregistrat acum;
         - câteva [foarte-foarte puţine] sunt ceva mai dificile, deoarece ambele variante ale cuvântului pot avea frecvenţe mari; de exeplu: iară >> fără... mai cuget şi văd ce e de făcut.

      În legătură cu grupul de cuvinte: <stâng ≠ sting; stângă ≠ stingă; stângi ≠ stingi>:
      M-am gândit că e mai bine să schimb complet concepţia corecturii, similar cu <lingă ≠ lângă> şi <intre ≠ între>.
      Am constatat că <între> şi <lângă> sunt prepoziţii, iar <stâng, stnga, stângi> sunt adjective, timp în care perechile lor <intre, lingă, sting, stingă, stingi> sunt - toate - verbe.
      Expresiile de 2-3 cuvinte care conţin <între> sau <lângă> sunt în număr nedefinit, timp în care verbele <intre> şi <lingă> apar într-un număr finit de situaţii.
      Acelaşi lucru e valabil şi la adjectivele <stâng, stângă, stângi>: aceste adjective pot fi puse pe lângă un număr nedefinit de substantive, timp în care construcţiile care conţin verbul <a stinge> în formele <sting, stingă, stingi> au un număr finit.
      Deci, este mai uşor de modificat un verb în grup de cuvinte pentru că există un număr finit de forme.

      Până acum aveam înregistrări de grup cuvinte care modificau < sting, stingă, stingi > în < stâng, stângă, stângi >
      Am făcut următoarele modificări:
           - la opţiunea 4.3, în dicţionarul CO_S4.imd rulează automat 3 modificări şi anume: sting > stâng , stingă > stângă şi stingi > stângi.
           - la opţiunea 4.6, în dicţionarul CO_Expr1.imd se modifică construcţii verbale care conţin <sting, stingă, stingi>, astfel că <stâng, stângă, stângi> se modifică în <sting, stingă, stingi> în situaţii în care sunt precedate de:
                 [mă, îmi, te, îţi, o, îl, ne, vă, îi, le, se]
                 [să, să-mi, să-ţi,  să-şi, să-i, să-l, s-o, să o, să ne, să vă, să îi, să le]
                 [nu, nu-mi, nu-ţi, nu-şi, nu-i, nu-l, n-o, nu ne, nu vă, nu îi, nu le]
      E posibil să nu fi descoperit încă toate formele, dar principalele apariţii posibile în text sunt corectate.

      Am să revin când termin de înregistrat tote sesizările făcute.
      Dacă mai sunt colegi care au alte sesizări, vă rog să le postaţi acum pentru a le analiza şi înregistra în dicţionare înainte de postarea variantei reactualizate!


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
menadel
MEMBRU VIP

Inregistrat: acum 12 ani
La varianta
iară - fără -
tară - fără -

eu am făcut macro așa:
la caută:
pauză iară pauză

la înlocuire
pauză fără pauză

Și la fel și la
la caută:
pauză tară pauză

la înlocuire
pauză fără pauză


_______________________________________
"Cand nu vom mai fi copii, nu vom mai fi deloc!"
Link la postarile vechi indisponibile

pus acum 8 ani
   
gaboy74
Membru Gold

Inregistrat: acum 8 ani
Seven,

Eu unul multumesc mult pentru tutoriale.

Ce ar fi de clarificat la cat de clar e totul?

As vrea doar sa aduc in discutie cateva erori cu care ma confrunt cel mai des si care cred ca pot fi remediate in urmatorul update de dictionare

"tară"  cu "fără"  - este o eroare f des intalnita  - semnalata deja si de Menadel

"să între" cu "să intre", respectiv negatia "să nu între" cu "să nu intre" - la fel extrem de intalnita

Ţipi cu tipi si Ţipe cu tipe  - eroarea asta apare in special la autori contemporani nu imi aduc aminte sa fi aparut in "epoca clasica"

ia cu la - ar trebui pusa la inlocuire cu confirmare la fel cu cea de sus - apare f des.

si cuvintele semnalate deja de Menadel - educațiv(ă/e), comparațiv (ă/e), informațic (ă/e), comunicațive (ă/e)

in rest am observat ca pierd parantezele drepte [] , respectiv semnul &.

+ nu apare Î la inceput de propozitie in cadrul aceluiasi paragraf.

cam asta din partea mea.

Sa ne auzim cu bine
Gabi


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      01.10.2016

      Am două semnalări la care mai cuget:
      Este vorba de: "iară >> fără"  şi "ia >> la".
      Atăt "iară" cât şi "ia" sunt cuvinte care apar în mod corect cu o frecvenţă foarte mare în text.
      Dacă pun înlocuire cu confirmare, situaţiile de refuz vor fi foarte multe şi înregistrările ar deveni agasante.
      Până la sfârşitul zile încerc să găsesc o soluţie [poate le pun în ultimul dicţionar - CO_Vt4] ca să se poată renunţa la ele fără a afecta alte înlocuiri.

      Ce-am rezolvat?
      Am implementat toate semnalările făcute de Menadel şi Gaby, cu menţiunile următoare:

      - în legătură cu "ţip, ţipa, ţipă, ţipe, ţipi...  >> < ţip, ţipa, ţipă, ţipe, ţipi...", am adăugat în dicţionarul Co_Vt1.imd o serie de înregistrări mixte, adică o parte dintre ele rulează automat, iar cealaltă parte cu confirmare; le redau mai jos:
           tipii, tipei, tipele, tipelor, tipul, tipului, tipilor – auto;
           un tip, unui tip – auto; tip – conf.
           tipa – conf.
           o tipă – auto; tipă – conf.
           unei tipe – auto; tipe – conf.
           unor tipi – auto; tipi – conf.
      Deocamdată le las aşa. Dacă înregistrările nu ne vor mulţumi, atunci ar mai fi o variantă ca să elimin confirmările pentru cuvintele "ţip, ţipa, ţipă, ţipe, ţipi" şi anume: le modific pe toate cinci în "tip, tipa, tipă, tipe, tipi..." şi apoi pun grup de cuvinte care conţin verbele "ţip, ţipa, ţipă, ţipe, ţipi", aşa cum am procedat la verbele: lingă, intre, sting, stingă, stingi. Problema rămâne în studiu.

      - în legătură cu secvenţele " n n >> r m"
      Am pus câteva cuvinte cu frecvenţă mare în dicţionarul Co_Var5.imd;
      Am făcut o serie de 81 de înregistrări cu confirmare a unor secvenţe de 4-5 litere care cuprind secvenţa corectă < r m >; mă refer la secvenţe de tipul:
           afirm, akerm, alarm, arma, armă, armân, arme, armi, armo, armu;
           ărma, ărme, ărmă, ărmi, ărmni, ărmu, ârmi, ârmo;
           berm, birm, borm;   cărm, cârm, cerm, corm, curm;
           darm, dărm, dârm; derm, doarm, dorm, durm;
           erma, ermă, erme, ermi, ermo, ermu;
           farm, fărm, ferm, firm, form, furm;   germ;   hărm, herm, horm;
           iorm, irma, irmă, irme, irmi, irmo;
           larm, lorm;   merm, morm;   norm;
           orma, ormă, ormâ, orme, ormi, ormo
           perm;   sărm, sârm, surm;   term, tirm, torm;   ţărm;
           urma, urmă, urmă, urme, urmi, urmo, urmu.
      Din păcate, toate sunt cu confirmare şi pentru a nu deranja foarte tare, le-am pus în dicţionarul CO_Vt1.

      - în legătură cu unele substantive proprii:
      Numele Carl, Carla, Carlei, dar şi câteva nume străine de persoane şi locuri precum Hall, Pall, Mall, München, Müller, Champs-Élysées, François... etc... le-am pus în Co_Vt1.imd

*************************

      În legătură cu alte câteva semnalări:
      - pierderea parantezelor drepte [] , respectiv a semnului &;
     În mod normal ele nu ar trebui să dispară dacă nu este activată opţiunea "6 Ştergere caractere". Am menţionat mai sus că această opţiune nu e bine să fie activată.

      - nu apare Î la inceput de propozitie in cadrul aceluiasi paragraf;
     Litera î mic se majusculează automat la opţiunea "2.3 Punctuaţie / Funcţii obişnuite", dar numai după punct. După semnele !, ? şi ... majuscularea nu se face automat, deoarece - în funcţie de context - sunt corecte şi situaţiile cu minusculă şi cele cu majusculă.
     Pentru a avea corectă această majusculare, rog revedeţi cap 3 din tutorialul postat la adresa:

     Deocamdată, cam asta e situaţia în legătură cu cele semnalate până acum.
     Dacă mai sunt şi alte situaţii, vă rog să le postaţi!     


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
gaboy74
Membru Gold

Inregistrat: acum 8 ani
mersi Seven,

am sa verific setarile in AC

numai bine
gabi


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Doar ca exemplu, am să redau pe scurt metoda mea de lucru de la OCR_Brut până la obţinerea versiunii [V1.0].


     ■ 1. PRELUCRARE ÎN ABBYY
Din Abbyy extrag textul în format DOC Exact Copy, având setat să-mi afişeze antetele şi subsolul pentru a obţine numărul de pagină. OCR-ul obţinut poartă menţiunea [BRUT].


     ■ 2. PRELUCRARE INIŢIALĂ ÎN WORD
     – deschid OCR_BRUT în Word 2003 şi rulez 3 pachete de macrocomenzi. Practic fiecare pachet conţine mai multe macrouri editate separat, dar sunt rulate cu o singură comandă în ordinea stabilită în macroul cumulativ al pachetului.
     – primul pachet se numeşte „DEL_FORMAT” şi face următoarele modificări: şterge chenarele frame, şterge marcajele de sfârşit de secţiune, sfârşit de coloană, sfârşit de pagină şi le înlocuieşte cu marcajul pentru paragraf. Pachetul mai cuprinde un macro care şterge cratima opţională, astfel că o parte dintre cuvintele rupte la cap de rând sunt lipite în această etapă; de asemenea, în pachet există şi macroul care converteşte caracterele bullets în caractere text.
     – al doilea pachet se numeşte „Format_Text” şi formatează minimal textul: format pagină, stabileşte caracteristicile stilului „Normal”: tip font, mărime font, margini şi aliniere paragraf, limba română… etc. Practic se elimină diversele mărimi de font, dar se păstrează caracteristicile regular, italic, bold şi combinaţii ale fontului.
     – al treilea pachet, „Punctuaţie” reglează minimal o serie de aspecte de punctuaţie şi spaţii multiple. Şterge spaţii în faţa sau după semnele de punctuaţie, converteşte tab şi spaţii multiple într-un singur spaţiu, şterge spaţii în faţa şi după paragraf.
     – dacă este nevoie şterg cu ajutorul funcţiei Find&Replace anteturile care conţin numele autorului şi/sau titlul cărţii. Spre a evita ştergerea accidentală a cuvintelor respective din text, ştergerea o fac prin confirmarea fiecărui caz în parte.
     – după rularea celor 3 macrouri, salvez fişierul în format RTF şi-i redenumesc menţiunea din [BRUT] în [OCR].


     ■ 3. PRELUCRARE ÎN AUTOCORECT OCR+
Pentru uşurarea muncii, rularea în AutoCorect OCR+ o fac în mai multe etape. În principiu, separ rularea automată de rulările cu confirmare, astfel:

           – prima etapă: rulez toate funcţiile care rulează automat şi nu necesită intervenţia utilizatorului.
     Practic setez pentru rulare toate opţiunile despre care am vorbit mai sus şi anume:

Code:

1    1.1 Conversii preliminare >> Conversie dialog bullets în dialog text
1    1.2 Conversii preliminare >> Setare text la font şi mărime unică
1    1.3 Conversii preliminare >> Eliminare tab şi spaţii multiple
1    1.4 Conversii preliminare >> Eliminare spaţii la început şi sfârşit de paragraf
1    1.5 Conversii preliminare >> Repararea rândurilor rupte
1    1.7 Conversii preliminare >> Eliminare pagini (paragrafe) goale
1    2.1 Punctuaţie >> Eliminare paragraf-artefact
1    2.2 Punctuaţie >> Corectare linii de pauză şi linii de dialog
1    2.3 Punctuaţie >> Funcţii obişnuite
1    2.4 Punctuaţie >> Corectare suplimentară elipsis
1    2.5 Punctuaţie >> Conversie combinaţii ? ! şi . ,
1    3. Conversie text clasic în text contemporan
1    4.1 Corectare caractere reproduse eronat >> Corectarea majusculelor încorporate
1    4.2 Corectare caractere reproduse eronat >> Corectarea literelor l, d si m reproduse eronat
1    4.3 Corectare caractere reproduse eronat >> Corectare cuvinte foarte scurte
1    4.4 Corectare caractere reproduse eronat >> Corectare minuscule la început de paragraf
1    4.5 Corectare caractere reproduse eronat >> Înlocuire secvenţe cuvinte
1    4.6 Corectare caractere reproduse eronat >> Corectare cuvinte întregi şi expresii
1    7.2 Înlocuieşte toate liniile de pauză cu: >> EnDash
1    8.1 Înlocuieşte toate liniile de dialog cu >> EmDash
1    9. Rulare grup de dicţionare înlocuire multiplă
1    10.2 Setări finale >> Corectare cuvinte rupte
1    10.3 Setări finale >> Înlocuiri cu confirmare


     Observăm că este activă şi opţiunea „10.3 Setări finale >> Înlocuiri cu confirmare” şi este corect, chiar dacă am spus că rulez doar opţiunile care rulează automat.
     Practic, computerul va „ronţăi” singur programul, rulând toate opţiunile şi se va opri la prima modificare cu confirmare din dicţionarul CO_Var4.imd. Menţionez că dicţionarul Var4 este un dicţionar hibrid, adică conţine în prima parte înlocuiri automate, iar în partea a doua înlocuiri cu confirmare care se referă la cuvinte rupte la cap de rând; de aceea este bifată şi opţiunea 10.3.
     Încă două menţiuni:
          – dacă avem o carte tipărită în limbaj contemporan, putem dezactiva  opţiunea „3. Conversie text clasic în text contemporan”, pentru ca programul să nu mai piardă timp fără rost.
          – se mai observă că opţiunea „9. Rulare grup de dicţionare înlocuire multiplă” este activă, deci vor rula şi toate dicţionarele Uzuale.

     Revenim. Am spus că programul va rula automat şi se va opri la prima opţiune cu confirmare; în timpul rulării automate putem să ne ocupăm de orice altceva, fără a fi nevoiţi să stăm în faţa calculatorului.
     În momentul când programul s-a oprit la prima modificare cu confirmare avem două posibilităţi: prima oprim programul şi salvăm, modificând numele fişierului prin înlocuirea menţiunii [OCR] cu [AC-], ceea ce înseamnă că am rulat AC parţial. Dacă nu suntem plictisiţi şi dorim să continuăm, atunci vom continua cu confirmările până la primul semn de oboseală/plictiseală şi oprim programul, procedând la salvarea şi schimbarea menţiunii în [AC-].

           – în a doua etapă vom rula manual şi rând pe rând dicţionarele CO_Var4÷CO_Var7. După ce terminăm cu aceste dicţionare, fişierul va putea purta menţiunea [AC+].

           – în a treia etapă vom rula manual şi rând pe rând dicţionarele cu confirmare Vt1÷Vt4 şi vom schimba menţiunea fişierului în [AC++].

           –în a patra etapă şi ultima, putem rula dicţionare personalizate şi dicţionarele cu mesaj de informare despre care am amintit în nişte postări mai vechi. După această ultimă etapă, fişierul poate purta menţiunea [V0.3] – de la versiunea 0.3 – sau [N0.3] – de la Necorectat 0.3. personal prefer să notez [N0.3] pentru a nu confunda din grabă [V0.3] cu [V3.0].

     Ce trebuie să reţinem despre dicţionarele cu confirmare?
     Dacă rulăm manual un dicţionar cu confirmare şi întâlnim o situaţie care conţine o eroare marcată, dar nu se poate corecta prin confirmare ci doar prin intervenţie manual, putem opri rularea cu ajutorul butonului [X] din partea de sus-dreapta a ferestrei şi pagina respectivă rămâne afişată exact acolo unde era eroarea.
     Acest lucru nu se întâmplă atunci când rulăm un pachet de opţiuni. Dacă rulăm un pachet de opţiuni şi oprim rularea, programul nu va afişa pagina cu eroarea curentă, ci altă pagină [probabil pagina unde s-a făcut ultima modificare.

     Personal, obişnuiesc să opresc de mai multe ori rularea unui dicţionar şi să reiau rularea, apăsând „Renunţ” pentru toate cuvintele pe care le-am corectat deja.
     Menţionez că la rularea manuală a unui dicţionar există şi opţiunea „De la înregistrarea selectată”. Această opţiune permite dicţionarului să continue rularea de la înregistrarea marcată de noi [prin simplu click pe ea], fără a mai relua înregistrările anterioare. Cu această opţiune există, totuşi, o problemă: dacă avem un dicţionar mai mic, opţiunea rulează perfect. Dacă este vorba despre un dicţionar mare, atunci opţiunea rulează la prima activare, dar nu mai rulează la următoarea, astfel că putem alterna: facem o rulare activând această  opţiune, apoi una cu opţiunea dezactivată, iarăşi o rulare cu opţiunea activată, apoi una cu ea dezactivată.


     ■ 4. PRELUCRARE ÎN WORD
          – deschid în Word ultimul fişier obţinut în AC şi-l salvez în format DOC; fişierul de tip DOC are avantajul faţă de RTF, deoarece permite salvarea diverselor formatări pe care RTF nu le salvează.
     În Word sunt două mari activităţi:
          – o prelucrare minimală a textului fără citire: formatări, evidenţieri titluri, corecţii pe diagonală, întocmirea Indexului de cuvinte rare şi crearea dicţionarului Word de tip „.dic” suplimentar etc.
          – corectura propriu-zisă pentru versiunea [V1.0].
     Nu vom intra în detalii mai amănunţite legate de aceste prelucrări, deoarece nu acesta este subiectul.

****************

     Dacă nu vor mai apărea alte sesizări, ceva mai târziu voi posta dicţionarele actualizate la 01.10.2016.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

      REACTUALIZARE  DICŢIONARE AC


      Dicţionare reactualizate la 01.10.2016

      Fişier-arhivă:  Cpl DIC AC [2016.10.01].rar  –  conţine dicţionarele OCR_DIC şi Dic.Uzuale.

      Adresă folder:   –  folder deschis mediafire
      Link direct:


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
tuf
Vizitator



cap. al XIV-lea > cap. Al XIV-lea

Am pregatit varianta portabila. Imediat ce imi dai un raspuns legat de ce e mai sus, urc si varianta portabila.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Problema "Cap./cap. Al >> Cap./cap. al"
      Corecţia este rezolvată de opţiunea "Modificări speciale de text / Modificare text corectat eronat".
      Cele două înlocuiri sunt înregistrate în dicţionarul CO_Vt.1.imd, la poziţiile 153 şi 154, astfel:
                 153    cap. Al    cap. al    Ci  Pp  Cli   
                 154    Cap. Al    Cap. al    Ci  Pp  Cli   

       Pentru cine nu ştie: Condiţiile    Ci  Pp  Cli    înseamnă: [Ci] Cuvânt întreg la ambele capete + [Pp] Potrivire perfectă + [Cli] Confirmare.

       Atenţie!...
       Reamintesc faptul că opţiunea independentă "Modificări speciale de text / Modificare text corectat eronat" este  la fel de importantă ca oricare dintre opţiunile care rulează automat.
       Practic, rularea acestei opţiuni este obligatorie.
       Opţiunea rulează 4 dicţionare, care au la acest moment un total de 7228 înregistrări active, astfel:
             CO_Vt.1 = 527 înregistrări active;
             CO_Vt.2 = 4000 înregistrări active;
             CO_Vt3 =  2479 înregistrări active;
             CO_Vt4 =  222 înregistrări active.

       Menţionez că cele 7228 de înregistrări sunt mixte, adică unele dintre ele rulează automat, iar altele rulează cu confirmare.
       De ce sunt ele amestecate?
       Pentru că majoritatea lor sunt înlocuiri de grupuri de cuvinte care conţin un anume cuvânt de înlocuit, iar dicţionarele sunt structurate în funcţie de aceste cuvinte.

       De exemplu:  fii >> fi în grup de 2-3-4 cuvinte:
       Modificările de genul "nu-ţi [nu-şi, n-aş, n-ar] fii >> nu-ţi [nu-şi, n-aş, n-ar] fi" rulează automat,
timp în care modificări de genul "n-ai [n-am, n-au] fii >> n-ai [n-am, n-au] fi" trebuie să fie cu confirmare, deorece formulările "n-ai [n-am, n-au] fii" sunt şi ele corecte, aşa cum sunt corecte şi formulările "n-ai [n-am, n-au] fi."

       Per total, procentul de înregistrări cu confirmare este de cca. 33% [am verificat acum], aşa că rularea opţiunii este mult mai uşoară decât pare la prima vedere.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
iris205
Membru Gold

Inregistrat: acum 13 ani
Multumesc Seven pt toate instructiunile dar nu am reusit in Word sa gasesc functiile mentionate de tine, ar fi posibil sa atasezi aici acele pachete cu macrocomenzi?

pus acum 8 ani
   
iris205
Membru Gold

Inregistrat: acum 13 ani

tuf a scris:

Daca te referi la ultimul mesaj a lui Seven, e vorba de AutoCorect, nu de Word.


Nu ma refer la ultimul mesaj ci la mesajul:
"***
     Doar ca exemplu, am să redau pe scurt metoda mea de lucru de la OCR_Brut până la obţinerea versiunii [V1.0].
............................",

unde dupa Abbyy prima data preclucreaza textul in Word2003 si foloseste macrocomenzi.

Modificat de iris205 (acum 8 ani)


pus acum 8 ani
   
tuf
Vizitator



Exista niste comenzi de Word. Nu s-a mai vorbit de multa vreme despre ele.
Asteapta sa iti raspunda Seven.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      1. @iris205, am văzut şi am înţeles ce mă întrebi.
      Am să încerc în perioada următoare să detaliez problema. Există undeva pe forum un topic despre macrocomenzi şi acolo am să încerc să prezint în detaliu toate macrourile pe care le folosesc.


      2. În dicţionarul CO_Var7.imd sunt câteva zeci de înregistrări care se referă la convertirea ghilimelelor drepte-sus şi ghilimele româneşti de forma 66-sus în ghilimele româneşti de forma 99-sus.
      Toate aceste conversii erau înlocuiri cu confirmare.
      Pentru o mai rapidă şi comodă rulare a dicţionarului am modificat majoritatea conversiilor ghilimelelor şi le-am setat să funcţioneze automat, lăsând cu confirmare doar câteva situaţii în care ghilimele pot fi ghilimele de sfârşit sau ghilimele de început.
      Practic funcţionează automat toate modificările de pe lângă semne de punctuaţie, atât la sfârşit de paragraf, cât şi în interiorul paragrafului.
      În dicţionarele noastre se poate înlocui dor acest dicţionar CO_Var7.imd, celelalte dicţionare rămânând aşa cum le aveţi în prezent.

      Nume arhivă:  CO_Var7 [29.10.2016].rar
      Adresă download:


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani
12 ian. 2017,
Actualizare pentru AUTOCORECT CONTEMPORAN de la softset.ro,
Dictionare imd - versiunea cu 350.000 secvenţe-erori corectabile automat.


Acest fisier arhivat contine o ALTA versiune a dictionarelor imd Autocorect - realizata independent -  la care lucrez de 4 ani.
Dictionarele imd contin peste 350.000 secvente-erori corectabile automat fara interventia userului. Plus peste 12.000 cu confirmare, pe care nu va sfatuiesc sa le executati, deoarece corectura cu aprobarea userului dureaza 4 ore/carte.

Pentru cei ce au deja instalat AUTOCORECT CONTEMPORAN de la softset.ro - dezarhivati si suprascrieti folderul OCR_DIC din aceasta arhiva - peste folderul OCR_DIC din calculatorul dv (ex. pt.  win7) :

c:\Users\YOUR USER NAME\AppData\Roaming\AutoCorect Contemporan\Dictionare\

Se recomanda ca Dictionarul imd (aflat in afara folderului OCR_DIC) numit Cifre-GHILIMELE.imd sa se ruleze dupa executarea pct. 1.7 din OCR PLUS – moment in care intrerupeti rularea OCR PLUS – urmand sa o continuati dupa ce ati terminat cu dictionarul CIFRE-GHILIMELE (putand relua fara probleme rularea OCR PLUS de la pct.1.1).
Acest dictionar “CIFRE-GHILIMELE.imd” executa inlocuiri cu confirmare STRICT PENTRU ghilimelele prost recunoscute si transformate de ABBYY in cifre (11, 14, 44, 46, 64, 66 si combinatii similare, cifre + slash / , asterisc sau apostrof)

Cu setarile OBLIGATORII precizate mai jos, NU AVETI DE FACUT INLOCUIRI CU CONFIRMARE (cu exceptia executarii dictionarului CIFRE-GHILIMELE), astfel ca programul va rula neintrerupt de la inceputul la sfarsitul documentului, FARA SUPRAVEGHEREA USERULUI.

Daca procesorul PC-ului dv este ceva mai slab (single-core), programul ruleaza foarte lent sau se poate bloca, astfel ca va fi nevoie sa desfaceti documentul  rtf in mai multe fascicule.
Pe procesoarele dual-core programul se descurca bine cu fisiere de 300 pag A5, font de 12, paragraf la un rand.

Setarile generale ale programului le aveti in pagina R.I.:

ATENTIE !

IN CADRUL setarilor generale, am modificat unele setari fata de pagina R.I. de mai sus – de aceea va rog sa luati in consideratie OBLIGATORIU urmatoarele:

1. Setarile de punctuatie

A. Mergem in meniul de sus Autocorect, la
INSTRUMENTE - CONFIGURARE - PUNCTUATIE - DOCUMENTE
- debifam APLICA PRINCIPIILE DE BAZA ALE PUNCTUATIEI.
- debifam MAJUSCULA LA INCEPUT DE FRAZA.
APLICA - INCHIDE.

B. In meniul vecin de langa DOCUMENTE - si anume OCR PLUS
(dau si calea completa - INSTRUMENTE - CONFIGURARE - PUNCTUATIE - OCR PLUS - MAJUSCULA) - din cele 6 casete ce se pot bifa - bifam de sus in jos numai caseta 1 (celelalte le debifam).
APLICA - INCHIDE.

IN ACEASTA CONFIGURARE a setarilor de punctuatie, frazele ce incep gresit cu litera mica vor fi lasate in mod nedorit neatinse, fapt ce nu ne deranjeaza prea mult, deoarece ele sunt foarte putine - in 99,9% din cazuri majuscula de inceput de fraza este recunoscuta corect.

IN SCHIMB, este corectata  POZITIV situatia cu ABREVIERILE de INSTITUTII ce contin punct (ex. F.B.I. ... U.R.S.S. etc) – cand fraza este continuata cu o litera mica. Eroarea initiala a constat in faptul ca  litera mica era transformata automat si NEDORIT in majuscule de catre pct. 2.3 OCR PLUS - care introducea automat majuscula dupa FIECARE PUNCT. ACUM aceasta eroare este rezolvata.

@2017. Am remediat si transformarea eronata a literei mici
- de dupa abrevierile cu litere mici – in majuscula.
Ex., literele marcate cu bold RĂMÂN aşa cum sunt in textul original:
Conventia p.s.d. urmează să aprobe candidatura.

2. Setări la OCR PLUS

Accesati meniul OCR PLUS - RULEAZĂ TOATE FUNCŢIILE DE CORECTARE OCR
In fereastra RULARE AUTOMATA OCR PLUS se vor bifa urmatoarele puncte:

- de la 1.1. la 3 inclusiv
- de la 4.2. la 4.6 inclusiv
- 5
- 7.2
- 8.1
- 9
- 10.2

3. Setarea pentru pct. 9 - Optiuni:
In aceeasi fereastra - RULARE AUTOMATA OCR PLUS:

- puneti mouse-ul pe pct. 9 deja bifat si accesati cu click stanga  tabul OPTIUNI din dreptul punctului 9 (Rulare grup de dictionare inlocuire multipla)
- se deschide mini-fereastra - RULARE DICTIONARE
- eliminati cu butonul - STERGE - TOATE DICTIONARELE prezente in aceasta mini-fereastra
- apasati butonul ADAUGA si cautati cu browse in folderul OCR DIC - numai dictionarele Co_Vt1.imd, Co_Vt2.imd, si Co_Vt3.imd

- dati click pe rand pe fiecare, si aceste dictionare vor fi adaugate in lista golita anterior.

NOTE:

1. Transformarea in litere a artefactelor si/sau stergerea lor se executa la pct. 2.2.
Acest punct 2.2 NU VA MAI FI RULAT dupa terminarea completă a rularii Autocorect, deoarece va modifica textul deja corectat - in mod NEGATIV.
Aceeaşi mentiune EXPLICITĂ şi pentru pct. 2.3.

2. Sub-punctele de la OCR PLUS care pot fi rulate din nou DUPĂ TERMINAREA INTEGRALĂ a corecturii automate cu OCR PLUS – si dupa alte eventuale corecturi manuale - fără a modifica NEGATIV corectura deja executată - sunt:
1.1 – 1.7
2.1
2.4 – 2.5

3. Am schimbat functia Punctului 6 din meniul OCR PLUS  - STERGERE CARACTERE - ce acceseaza dictionarul Co_Apco.imd, astfel:

Acest dictionar cuprinde contine peste 2.200 de secvente si ruleaza inlocuiri cu confirmare.
Executia lui poate dura pana la 4 ore, astfel ca il folosim doar in cazul fisierelor ce initial NU au diacritice.
In aceste cazuri se aplica mai intai diacriticele pe text - din meniul Autocorect lateral stanga (Aplica diacritice).
Acest dictionar (de la pct.6) poate fi folosit la inceputul prelucrarii de corectura automata a fisierului, mai precis - imediat dupa rularea punctelor de la 1.1 la 3 inclusiv - moment in care opriti rularea OCR PLUS - PROGRES RULARE OCR PLUS - din  butonul STOP.

LINK DOWNLOAD


pus acum 7 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Poate AC rezolva un text ca cel de mai jos? Sau este nevoie de o macrocomandă VBA?

T e x t  d e  p r o b ă  p e n t r u   t e s t a r e a  p r o g r a m u l u i  a u t o c o r e c t.
Da c ă  tex t u l  pre z i n tă  spa ț i i  alea to rii  înt r e  ca rac t ere  aș a  cu m  a par e  a ic i ?


pus acum 7 ani
   
luiz25
Membru Puf

Inregistrat: acum 12 ani

uciN a scris:

Poate AC rezolva un text ca cel de mai jos? Sau este nevoie de o macrocomandă VBA?

T e x t  d e  p r o b ă  p e n t r u   t e s t a r e a  p r o g r a m u l u i  a u t o c o r e c t.
Da c ă  tex t u l  pre z i n tă  spa ț i i  alea to rii  înt r e  ca rac t ere  aș a  cu m  a par e  a ic i ?


AUTOCORECT nu poate obtine rezultate multumitoare in aceste cazuri.

Corectura porneste de la  ELIMINAREA SPATIILOR DUBLE (redundante) dintre cuvinte,
si nu elimina spatiile dintre litere unice.

Deoarece la OCR poate fi gresita orice litera dintr-un cuvant,
si orice litera poate fi inlocuita eronat cu ORICE alt simbol din cele peste 100 ale tastaturii,
pentru a acoperi toate variantele posibile ar trebui introduse in DICTIONARELE AUTOCORECT
miliarde de miliarde de secvente-erori.
Un singur cuvant de 7 litere poate avea sute de variante de recunoastere eronata.
Inmultiti cu cate cuvinte are DEXUL (peste 670.000 de termeni-intrare), si veti intelege.


CONSIDERATII:
1. Textul pare a fi rezultatul unei conversii din ACROBAT direct in WORD.
Recomandarea este ca OCR-ul sa se faca in ABBYY, deoarece
este foarte posibil ca recunoasterea sa se faca ok, fara spatii in plus.
2. E foarte posibil ca ABBYY PDF TRANSFORMER sa obtina rezultate perfecte.
3. Daca nu, extrageti TIF COLOR din PDF - la 600 dpi, cu 4000 pixeli verticala,
apoi faceti o prelucrare de imagine BATCH (in grup),
MARIND CONTRASTUL paginii (Exposure/CoNTRAST/GAMA),
si apoi introduceti TIFURILE in ABBYY FINEREADER.

Modificat de luiz25 (acum 7 ani)


pus acum 7 ani
   
tuf
Vizitator



Asa este, de regula apare la conversia pdf > doc.
E mai sigur sa fie trecut pdf-ul prin Abby.


pus acum 7 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Sal'Tare!

      Îmi cer scuze! Deşi am urcat o reactualizare ceva mai nouă a dicţionarelor pe mediafire, am uitat să anunţ asta pe forum.
      Fac acum cuvenita menţiune:


      REACTUALIZARE  DICŢIONARE AC


      Dicţionare reactualizate la 17.07.2017

      Fişier-arhivă:  Cpl DIC AC [2017.07.17].rar  –  conţine dicţionarele OCR_DIC şi Dic.Uzuale.

      Adresă folder:   –  folder deschis mediafire
      Link direct:

      Am în lucru ca primă urgenţă două categorii de probleme:
             – prima: un grup de nume franţuzeşti cu diacritice la care încă lucrez; grupul de nume l-am cam stabilit, dar caut variantele de erori posibile; de exemplu: dacă pentru François, eroarea poate avea două forme, adică Francois şi Frangois, ei bine pentru literele cu accent grav sau ascuţit există mai multe variante...
             – a doua: sunt acele secvenţe care conţin în mod eronat grupul "nn" [NN] în loc de "rn" [RM], ca în aNNament în loc de aRMament; Dat fiind că o mulţime de nume stăine de persoane conţin în mod corect dublu N, ceea ce am făcut până acum nu mă mulţumeşte; practic ar trebui să folosesc secvenţe mai lungi pentru a evita erorile secundare; am făcut eu ceva, dar mai este încă foarte mult de lucru... ştiţi cum e cu aranjamente de "x" luate de câte "n"... dacă o secvenţa de 4 litere o înlocueşti cu secvenţe de 5 litere, ţi-ai făcut de lucru pentru cel puţin o zi.

      Dacă din când în când mai semnalaţi nişte erori, ar fi perfect pentru a le rezolva la timp.

      Stimă şi să auzim numai de bine!

      Seven   


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 7 ani
   
Stelevadris
Moderator

Inregistrat: acum 19 ani
In versiunea portabila functioneaza fara probleme.
Ai marit cumva numarul de inregistrari? Am folosit de proba un text de 65 de pagini. Mi s-a parut ca s-a miscat un pic cam lent rularea dictionarelor.
Posibil sa fie totusi de la executabilul portabil.


_______________________________________
Totul despre cărți - About e-books - Tehnici de scanare, sfaturi, proiecte etc. - Support, future projects, etc.

pus acum 7 ani
   
Pagini:  1 2 3 4  

Mergi la