Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Lista de useri | Cauta | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Katye
Femeie
23 ani
Bucuresti
cauta Barbat
23 - 40 ani
Forum Romania Inedit / Totul despre cărți - About e-books / [AC] Dictionare Inlocuire Multipla Moderat de Seven, Stelevadris, cuculean, uncris  
Autor
Mesaj Pagini:  1 2 3 4 ... 5
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
La sugestia lui Seven am facut acest topic separat pentru a se discuta despre Inlocuirea Multipla.
Aici vom continua discutia din topicul general "pus sus".


Seven a scris:

***
      Îmi cer scuze! nu am mai intrat pe forum şi nu am văzut ultima postare.

      Am instalat ultima versiune a executabilului, am redenumit dicţionarele şi am făcut o testare, de fapt mai multe testări cu un fişier şi totul pare că funcţionează perfect. Mă refeream în special la dicţionare... în sensul că rulează toate dicţionarele.
      Am testat şi funcţia de marcare şi demarcare; Chiar este utilă marcarea asta, cel puţin în această perioadă de realizare a dicţionarelor.

      Dicţionarele pentru Clasic...
      Mai întâi voi arunca eu un ochi peste dicţionare ca să văd care dintre ele au nevoie de modificări... şi pe urmă mai discutăm.

      În acest moment mă ocup de dicţionare care modifică secvenţe finale de cuvânt care conţin cratimă. Ceea ce mă cam sperie este numărul mare de înregistrări ce trebuiesc făcute pentru secvenţele finale. Nu mă refer la faptul că ar fi foarte muncă la editarea lor, ci că e posibil ca rularea lor să necesite mult timp.

     Concret, am încercat să rezolv doar modificarea secvenţelor < â-> în < ă-> şi <-â > în <-ă >
     Complicată este prima modificare. Pentru a micşora numărul erorilor, nu am pus o simplă modificare ca mai sus, ci am pus toate variantele de după cratimă, adică:
        ă-i, ă-l, ă-le, ă-mă, ă-mi, ă-n, ă-ne, ă-o, ă-te, ă-ţi

     Ca să fie şi mai multă informaţie în "Caută/Înlocuieşte cu" am luat în calcul şi litera din faţa lui ă, astfel că doar pentru secvenţa bâ- / bă- au rezultat:
        bâ-i / bă-i, bâ-l / bă-l, bâ-le / bă-le, bâ-mă / bă-mă, bâ-mi / bă-mi, bâ-n / bă-n, bâ-ne / bă-ne, bâ-te / bă-te, bâ-ţi / bă-ţi.

      Problema nu s-a terminat aici, deoarece ca să pot să arăt că e vorba de o secvenţă finală, a trebuit ca pentru fiecare dintre aceste înlocuiri să pun la sfârşit spaţiu, virgulă, punct şi virgulă, semnul întrebării sau semnul exclamării. Acum îmi dau seama că nu am pus şi varianta cu punct şi, probabil trebuie luată în calcul.
      Pentru fiecare consoană au rezultat 45 sau 50 de înregistrări [câteva consoane din faţa lui ă nu aveau şi forma ă-o], astfel că tot dicţionarul a ajuns la 812 înregistrări, deşi nu face prea multe înlocuiri. Este adevărat, 3-4 consoane au doar înregistrări de forma ă-l, aşa că au avut doar 5 înregistrări.

      Un lucru e cert, am prins în dicţionar toate combinaţiile din limba română în care apare grupul ă-
      Am crezut că e foarte bine să înregistrez toate combinaţiile... dar după ce am văzut numărul mare de înregistrări, mă gândesc dacă nu era mai corect să pun doar 10 înregistrări de forma:
        â-i / ă-i, â-l / ă-l, â-le / ă-le, â-mă / ă-mă, â-mi / ă-mi, â-n / ă-n, â-ne / ă-ne, â-te / ă-te, â-ţi / ă-ţi.

      Iniţial, m-am gândit că timpul de rulare este determinat de numărul de modificări efectuate şi nu de numărul de căutări cu rezultate zero, dar... acum nu ştiu dacă nu cumva sunt în eroare.

      Deci, cum ar fi mai bine de procedat? Punând înregistrări cât mai clare, care duc direct la o secvenţă bine definită, dar care necesită multe înregistrări, respectiv căutări? sau punând înregistrări mai puţine, chiar dacă ele sunt mai puţin definite?

      Întreb acest lucru, pentru că mai sunt încă multe secvenţe finale de rezolvat. În perioada următoare încerc să mă ocup de modificarea secvenţelor < ţl-> în < ţi-> şi <-ţl > în <-ţi >, care vor avea aproximativ acelaşi număr de înregistrări.

      ***
      Mă mai gândeam la opţiunea cu "marginile" despre care am discutat zilele trecute...
      Ar putea să ajute opţiunea respectivă la reducerea înregistrărilor, astfel încât în loc de a face 6 înregistrări pentru aceeaşi secvenţă finală, una urmată de spaţiu, alta urmată de virgulă, respectiv punct şi virgulă, punct, semnul întrebării, semnul exclamării?
     Dacă răspunsul este da, atunci aş putea ca deocamdată să identific secvenţele, dar să nu fac şi dicţionarele, urmând ca ele să fie făcute după implementarea opţiuniii respective, indiferent când se va face acest lucru.



ciuperca_cosmin a scris:

Cautarea este mult mai rapida decat inlocuirea in text.
Deci pentru a se micsora timpul de rulare pe ansamblu, trebuie redus numarul de inlocuiri la minim - asta e solutia.
De exemplu asta a fost principalul motiv pentru care functia care am facut-o acu cateva luni in locul uneia cu dictionar a fost mult mai rapida.

As fi preferat sa pun acea optiune la IM dupa ce terminam la punctuatie. Dar, daca e asa urgent, am sa discut totusi cu Daniel despre ea.



ciuperca_cosmin a scris:

Seven, ai putea te rog sa dai cateva exemple concrete la inlocuirile care vrei sa le faci?
Adica sa arati efectiv ce va cauta si cu ce va inlocui.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Mai întâi vreau să subliniez că dicţionarele care sunt deja integrate în program în cadrul OCR_DIC fac o "curăţare" destul de bună a fişierelor OCR şi programul ar putea funcţiona destul de bine, aşa cum este el la această dată.
     Practic, dicţionarele de tip L1-L3.imd şi S1-S4.imd fac cele mai importante modificări şi ele sunt aproape finalizate.
     Mai sunt câteva, şi ele deja implementate, cărora le-am acordat multă atenţie, astfel încât ele să ajute cât mai mult şi să producă efecte secundare cât mai puţine.
     În principiu, eu consider că principalele probleme au fost rezolvate.


     Fiecare dintre noi tinde spre o continuă perfecţionare; oricând, indiferent cât de bine ar arăta un lucru, el poate fi şlefuit, lustruit... etc.
     De exemplu, prin anii 1995, atunci când pe piaţa românească puteam aproviziona cu 460 $ un computer 286 second hand, toţi ne gândeam la cel mai tare computer al tuturor timpurilor, cel mai minunat, cel mai performant, cel-mai-ce, nemaipomenitul, extraordinarul 486. Cei mai mulţi eram convinşi că ceva superior va fi greu de realizat... Timpul a dovedit cu totul şi cu totul altceva.


     Acum mă aflu sau ne aflăm într-o a doua etapă... aceea a perfecţionării.
     Dacă vreţi, mă gândesc la ceva separat de OCR_Plus, un fel de OCR++

     Dicţionarele la care lucrez în acest moment sau la care doar mă gândesc nu sunt nişte dicţionare obligatorii, ele nu trebuie neapărat să ruleze automat în meniul OCR_Plus, dar pot fi de mare ajutor pentru perfecţionişti, pentru cei ce vor să facă o "curăţare" profesionistă.

     Ele se adresează utilizatorilor cu pretenţii ridicate, este practic o altă etapă de prelucrare, o etapă benevolă, dar pe care m-am gândit că o putem pune la dispoziţie.
     Deocamdată nu mă interesează ca aceste dicţionare să rulează automat. Eu le testez folosindu-mă de opţiunea 11. După realizarea lor putem discuta şi despre implementare.

     A nu se confunda aceste dicţionare cu dicţionarele personale, pe care le-am pus la dispoziţie.
     Dicţionare personale cuprind modificări de cuvinte întregi [sau secvenţe lungi, de cel puţin 5-6 litere] specifice unor volume, pe care eu le-am realizat corectând diferite volume. Aceste dicţionare sunt cumva specifice unor anumite cărţi. Ele pot să facă sau să nu facă prea multe modificări în cazul rulării lor, pentru că e vorba de o bază redusă de cuvinte, care pot fi găsite sau nu, în cărţile pe care le corectează alţi useri.


     Dicţionarele de secvenţe sunt nişte dicţionare cu un anumit specific.
     Ele sunt un fel de dicţionare pentru avansaţi, dar pot fi rulate pentru curăţarea superiară a oricărui volum.

     Despre ce e vorba?
     Există o serie de litere care pot apărea frecvent unele în locul altora, ca de exemplu:
       - ă - â,  c - e,  l - i,  r+n - m,  c+l - d,  î - i....

     Luăm exemplu apariţia lui "c" în loc de "e".
     Am luat secvenţele de cuvinte de câte 3 litere, cu litera "c" la mijloc, precum:
        bcb, bcc, bcd, bce, bcf, bcg, bch, bci, bcj, bck, bcl, bcm, bcn, bco, bcp, bcr, bcs...  zcz.
     Am verificat pentru fiecare astfel de secvenţă în parte dacă ea, secvenţa se regăseşte în cuvintele aflate în DEX şi celelalte dicţionare care însoţesc AutoCorect.
     Dacă secvenţa bcb a dat rezultate zero, deci nu există niciun cuvânt care să cuprindă asemenea secvenţă atunci am adăugat-o în dicţionarul de secvenţe, înlocuind grupul bcb în beb. Aşa am procedat cu toate grupurile de 3 litere posibile de la bcb până la zcz.
     În acelaşi mod am procedat cu litera l şi i, înlocuind blb, blc, bld... zlz, cu bib, bic, bid ... ziz...
     
     Buun. Multe probleme pot fi corectate în partea finală a cuvintelor, deci terminaţii...
     În această zonă s-a aflat corecţia <â->  în <ă->, exemplu:
     "a repara", poate avea formele: repară-i, repară-l, repară-le, repară-mă, repară-mi, repară-n, repară-ne, repară-te, repară-ţi, în care în loc de ă-, Abbyy a pus â-.
     Se poate pune foarte uşor o înlocuire de genul "caută: â-" şi "înlocuieşte cu: ă-", dar această înlocuire poate produce efecte secundare şi să facă şi înlocuiri nedorite, deorece litera â ar putea fi redată de Abbyy şi în locul lui a sau poate veni dintr-o altă eroare de convertire în care la origine ar fi putut fi litera i....
     Dacă în locul unei înlocuiri foarte simple, punem o secvenţă mai lungă, precum "râ-i, râ-l, râ-le..." se înlocuieşte cu "ră-i, ră-l, ră-le...", atunci înlocuirile accidentale nedorite se pot reduce foarte mult.

     În afară de secvenţe, tot în dicţionare pentru curăţare se încadrează şi dicţionarele care cuprind grupuri de litere.
     Există cuvântul "stingă" de la a stinge, dar şi mai frecvent este folosit cuvântul "stângă", doar că Abbyy recunoaşte ambele cuvinte în forma "stingă".
     Se poate face corecţia prin înlocuire cu confirmare, defilând prin tot documentul şi dând acceptul de înlocuire sau nu, acolo unde e cazul.
     Dacă se face un dicţionar în care expresii ca: "latura stingă, mâna stingă, urechea stingă, coloana stingă..." se modifică cu "latura stângă, mâna stângă, urechea stângă, coloana stângă..." atunci majoritate situaţiilor se rezolvă şi vom putea renunţa la înlocuirea cu confirmare, ori o vom putea folosi, mergând în principal pe apăsarea butonului "caută următorul", fără a face prea multe modificări.
     
     Deci aceste dicţionare nu sunt unele indispensabile rulării programului AutoCorect, ci ele fac parte din... ceva ce s-ar putea numi ca în SF, dicţionare din "generaţia următoare".

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 8 ani
La naiba
In curand o sa avem o sectiune dedicata
Chiar, oare nu se poate?


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Cred că am clarificat câte ceva.

      Continui acum cu alte câteva detalii.
      Nu sunt probleme cu secvenţele intermediare, deci cele aflate în interiorul cuvintelor.
      Cu cât vor fi mai multe secvenţe înregistrate, cu atât va fi mai bine.
      Timpul de rulare, chiar nu contează; cine vrea să le ruleze, le va rula conştiend fiind că pierde ceva timp, dar face o corectură suplimentară; cine nu va fi interesat, pur şi simplu nu va face rilarea acestor dicţionare.

      Probleme apar la secvenţele finale, deci secvenţele care apar exact la sfârşitul cuvintelor, deoarece aceste cuvinte pot avea după ele spaţiu, ori punct sau virgulă, punct şi virgulă sau puncte de suspensie, semnul întrebării sau semnul exclamării.
      Dacă în dicţionar vom pune numai secvenţa formată din litere, fără a adăuga şi semnul de punctuaţie [aici includ şi spaţiul ca semn de punctuaţie pentru a reduce explicaţiile] de după secvenţă, atunci secvenţa poate fi interpretată şi ca secvenţă interioară unui cuvânt, iar modificările realizate pot produce efecte nedorite, prin modificarea unor cuvinte, când nu e cazul.

      Să luăm ca exemplu o formă de gerunziu: "bolborosind", care ar putea fi redată de Abbyy ca "bolborosincl" deci cu "c+l" final în loc de "d" final.
      Să notăm doar în această explicaţie cu # orice semn de punctuaţie inclusiv spaţiul.
      Dacă vom pune înregistrarea: "Caută" <incl#> şi "Înlocuieşte cu" <ind#>, atunci se vor face modificări numai la sfârşitul cuvintelor, dar dacă vom pune simplu: "Caută" <incl> şi "Înlocuieşte cu" <ind> se vor face înlocuiri şi în interiorul cuvintelor şi vom avea cuvântul "inclus" transformat în mod eronat în "indus"... ceea ce este o mare eroare.
     
      Problema apare ca urmare a faptului că trebuie să punem mai multe înregistrări pentru o singură secvenţă finală, astfel:
          "Caută"  incl^-   şi   "Înlocuieşte cu"  ind^_
          "Caută"  incl...   şi   "Înlocuieşte cu"  ind...
          "Caută"  incl.   şi   "Înlocuieşte cu"  ind.
          "Caută"  incl,   şi   "Înlocuieşte cu"  ind,
          "Caută"  incl;   şi   "Înlocuieşte cu"  ind;
          "Caută"  incl!   şi   "Înlocuieşte cu"  ind!
          "Caută"  incl?   şi   "Înlocuieşte cu"  ind?

      Dacă vom găsi o soluţie, ca în loc de atâtea modificări să punem doar una sau două:
una cu secvenţa finală urmată de spaţiu:
         "Caută"  incl^-   şi   "Înlocuieşte cu"  ind^_
şi alta cu secvenţa finală urmată de orice semn de punctuaţie [doar în această postare # ţine locul unui astfel de cod ce ar putea ţine locul oricărui semn de punctuaţie].
          "Caută"  incl#   şi   "Înlocuieşte cu"  ind#
sau
          "Caută"  incl#   şi   "Înlocuieşte cu"  ind   - fără margini în dreapta
atunci dicţionarele ar putea fi mai puţin stufoase.

      Deocamdată e singura chestie care m-ar interesa: dacă teoretic este posibil a fi implementat un astfel de cod sau o funcţie care să reducă numărul acestor înregistrări. Repet nu mă interesează o implementare a unui astfel de cod foarte repede, ci doar dacă e posibilă, pentru a nu crea dicţionare foarte lungi.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Sa explic cum va arata noua optiune: o bifa cu numele "ignora marginile la inlocuire" + 2 dropdown in care se va alege un numar de caractere 0..9 pentru stanga si dreapta (inceputul/sfarsitul) sirului de caractere.
Codificarea in dictionarul imd va fi ceva de genul "im32" = "ignora marginile la inlocuire 3 caractere la inceput si 2 caractere la sfarsit".
Seven, esti sigur ca asa ceva te ajuta la aceste dictionare?

PS: abia acu am vazut ce-ai scris anterior, Seven, ne-am cam "suprapus"

Modificat de ciuperca_cosmin (acum 8 ani)


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     da, ne-am suprapus... aşa că e posibil, să mai fi clarificat ceva în postarea a doua.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Ma gandesc la alta solutie: optiunea "Cuvant intreg" sa poata fi setata pe "jumatate" la Setari complexe: ori numai la stanga (inceput), ori numai la dreapta (sfarsit).
In acest fel ai putea fi sigur ca "incl" e gasita la sfarsitul unui cuvant.

Ce parere ai..?


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Uaauuuuu!!!     
     Am citit mesajul ăsta de mai multe ori... şi, tot nu-mi vine a crede ochilor.
     Apăi, asemenea opţiuni "Început cuvânt" şi "Sfârşit cuvânt" ar fi minunate.
     Este adevărat că sunt şi câteva [câteva, mai multe..] înregistrări şi cu început de cuvinte, dar aici a fost mai simplu să pun o secvenţă care are un spaţiu înainte.

     Da, asemenea setări ar rezolva foarte-foarte multe situaţii.

     Nu ştiu dacă o înregistrare de genul:
          "Caută"  incl   şi   "Înlocuieşte cu"  ind - condiţia "Sfârşit de cuvânt"
ar rula mai repede decât toate situaţiile lui incl/ind de mai jos:
          "Caută"  incl^-   şi   "Înlocuieşte cu"  ind^_
          "Caută"  incl...   şi   "Înlocuieşte cu"  ind...
          "Caută"  incl.   şi   "Înlocuieşte cu"  ind.
          "Caută"  incl,   şi   "Înlocuieşte cu"  ind,
          "Caută"  incl;   şi   "Înlocuieşte cu"  ind;
          "Caută"  incl!   şi   "Înlocuieşte cu"  ind!
          "Caută"  incl?   şi   "Înlocuieşte cu"  ind?
dar ceea ce ştiu sigur este faptul că dicţionarele setate astfel, ar fi mult mai uşor de editat.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Va rula mai rapid, dar doar un pic mai rapid. Cum am spus mare parte din timp e luat de inlocuirea propriuzisa si in acest caz va inlocui la fel.
Dar tot e bine ca te ajuta sa simplifici dictionarele .

Va fi un fel de dropdown (combobox se numeste in limbaj de programare) cu 3 setari: tot (setata implicit), inceput, sfarsit. Acesta se va activa doar daca in setarile obisnuite "Cuvant intreg" e bifat.
In dictionarul imd vor fi codate ca "ic" respectiv "sc".

O vom implementa zilele astea...


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Sărut mâna! E perfect aşa.
      Implementarea poate fi făcută oricând, chiar şi mai târziu.
      Pur şi simplu dicţionarele se pot edita şi acum, cu menţiunea că în numele lor voi pune [End] sau [Sf_cuvânt] şi voi reveni cu setările de rigoare, atunci când setarea va fi implementată.

      Cred că în legătură cu "Înlocuiri multiple", cel puţin deocamdată nu mai trebuie alte îmbunătăţiri, aşa că putem reveni la discuţiile pentru "Setări punctuaţie", care e problema principală.

      Urmează să fac o primă verificare a dicţionarelor pentru versiunea Clasic.
      Deoarece există câteva înregistrări care se vor putea seta ca "ic" sau "sc", aş prefera să definitivez dicţionarele pentru Clasic un pic mai târziu...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Am şi verificat şi convertit o parte din dicţionare pentru folosirea lor în AutoCorect Clasic OCR_Plus. Mai exact am definitivat 13 dicţionare dintre cele 20, câte rulează acum în Meniul OCR_Plus.

     Singurele dicţionare dintre cele ce rulează automat pe care nu le-am convertit sunt L1-L3.imd şi S1-S4.imd.
     Aici trebuie analizată fiecare înregistrare în parte... lucrurile sunt cumva mai delicate şi o simplă converire a lui "â" în "î", produce efecte nedorite, pentru că o parte dintre înregistrări pleacă de la confuzia a-â-ă şi nu de la i-î...

     Voi reveni zilele următoare şi cu aceste dicţionare, dar voi fi nevoit să şterg o parte din înregistrări, care la o simplă convertire din "â" în "î" ar putea avea efecte neplăcute.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Mulțumesc Cosmin pentru implementarea noilor opțiuni la "Înlocuiri multiple"!

      Noile opțiuni de cuvânt întreg pe părți sunt mai mult decât binevenite.
      Am făcut deja ceva editări și sunt foarte mulțumit.

      Fiindcă aceste opțiuni au fost deja implementate, cred că ar fi bine ca în perioada următoare să mă ocup un pic de actualizarea tuturor dicționarelor, atât cele din Meniul OCR_Plus cât şi cele suplimentare... pentru ca să nu uit ceva... şi toate să fie aduse la zi, conform cu ultimele opţiuni şi facilităţi.
      ... şi după aceea să ne întoarcem la Punctuaţie...  Mă rog, poate era mai bine să spun că după aceea eu mă voi întoarce la Punctuaţie...

      Dacă, totuşi în perioada asta lucraţi la punctuaţie, atunci pot să lucrez cumva în paralel, pentru că am deja formată o imagine asupra unor setări noi la punctuaţie...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Cosmin,
     Văd că nu esti on line...
     M-am apucat să fac modificările cu setarea "Cuvânt întreg - la început" la dicţionarul DMidp.imd, cel care are 2007 înregistrări. Tare aş avea nevoie de un ajutor.

     Dacă aş avea un exe temporar în care să fie setată default varianta "la început" şi nu cea "la ambele capete", aş putea face modificările un pic mai repede, ca să nu mai deschid de fiecare dată şi această fereastră "la ambele capete/la început/la sfârşit"..


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
De obicei e setat implicit pe "ambele capete" deoarece asa e utilizata implicit "Cuvant intreg".
Pentru tine am facut un astfel de exe.

Modificat de ciuperca_cosmin (acum 8 ani)


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Mulţumesc frumos!
     Da, este normal ca setarea default să fie pe "Cuvânt întreg - la ambele capete", doar că acum aveam nevoie de o scutătură.
     Am probat deja acest temp exe şi modificările se fac mult mai uşor...
     Încă o dată multe mulţumiri!


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      1. Am rezolvat toate dicţionarele ce necesitau setări "Cuvânt întreg - la sfârşit", aşa că adresa cu executabilul de mai sus ar fi bine să fie ştearsă, pentru a nu fi luată de cineva drept un executabil obişnuit.

      2. Dicţionarele L1-L3 şi S1-S4 - varianta Clasic
      Se pare că nu sunt multe probleme la adaptarea pentru Clasic, dar vor trebui eliminate câteva înregistrări.
     
      2. Dicţionarele L1-L3 şi S1-S4 - varianta Cpntemporan
      Am modificat complet structura la L1-L3, dar mai am de lucru.
      Motivul nu este neapărat micşorarea timpului de rulare, ci mărirea procentului de corectitudine al înlocuirilor.
      Pentru a mări procentul de corectitudine al înlocuirilor, a micşora numărul de erori nedorite, dar şi pentru micşora numărul de căutări, am încercat să elimin setarea "Potrivire perfectă" şi am încercat să merg pe cât posibil pe "Cuvânt întreg", astfel că am pus în L1 numai cuvinte întregi, în L2 sfârşit de cuvinte întregi şi în L3 început de cuvinte întregi.

      L3, care are un număr mai mic de înregistrări, va fi completat la final cu circa 4 căutări cu confirmare, adică: dacă după ce se rulează cele 3 dicţionare va mai rămâne vreo situaţie în care cifrele "1" sau "0" nu au fost modificate în litera "L mic" sau "O/o" se va mai face o căutare, dar cu confirmare, pentru a nu modifica eventualele situaţii corecte în care trebuie să apară 1 sau 0.
      Cele 4 modificări cu confirmare sunt: [ -1  -0  1-   0- ]
      E posibil să adaug şi variantele [ —1  —0  1—   0— ], deci să fie 8 modificări cu confirmare.

      Lucrez încă la aceste dicţionare, dar aş avea nevoie de un pic de ajutor.
      Îmi este foarte greu ca să aflu dacă în limba română există anumite secvenţe cum ar fi să zicem terminaţia "...du-i-se"
      Deocamdată, am un utilitar realizat de Cosmin cu care scanez cuvintele din dicţionarele anexate la AutoCorect...

      Aş vrea să fac căutări şi în alte dicţionare, în afara celor ataşate la AutoCorect.
      Cred că ar fi bine să pot face astfel de căutări şi în dicţionarele on line, dar nu ştiu să caut decât cuvintele de bază sau cuvintele rădăcină... sau cum se mai cheamă ele.
      Nu ştiu dacă se pot căuta şi forme derivate de la cuvintele de bază...

      Ştie cineva cum aş putea să fac astfel de căutări?
      Stimă şi respect!
      Seven


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

        Erori ce trebuie corectate în dicţionarele imd


        1. Pentru varianta AutoCorect Clasic.
        Dicţionarul CL_S3.imd, înregistrarea 56 e valabilă doar în forma de la Contemporan.
        Trebuie ştearsă înregistrarea sîn --> sân [Cuvânt întreg], ori modificată în sin --> sîn [Ci].

        2. Dicţionare Uzuale/Personale
        În dicţionarul Uz_N.imd sau dicţionarul Uz_NO.imd, înregistrare nr.4 "neînţeles" --> "neânţeles" este eronată şi trebuie ştearsă. Posibil ca la înregistrare să fi avut intenţia ca înregistrarea să aibă forma "neânţeles" --> "neînţeles" şi am înregistrat-o greşit. Oricare ar fi motivul înregistrării, ea trebuie să fie ştearsă.

        Aştept şi alte semnale despre posibile erori în dicţionare pe acest topic, pentru a fi aduse la cunoştinţa tuturor spre rezolvare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
       Cosmin,
       Presupunem că avem nişte înlocuiri de grupuri de cuvinte, de genul:
       "umărul său sting, piciorul său sting, ochiul său sting..."
se modifică în
       "umărul său stâng, piciorul său stâng, ochiul său stâng..."

       Pentru a reduce numărul de înregistrări aş putea să fac o înregistrare sub forma:
       Caută:   "ul său sting"
       Înlocuieşte cu:  "ul său stâng"
       Condiţia: "Cuvânt întreg - la sfârşit"

       Întrebare: Este corectă o astfel de înregistrare?

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Din punct de vedere al sintaxei e corecta.
Pe de alta parte s-ar putea sa existe situatii (destul de rare ce-i drept) in care "sting" nu trebuie modificat. Pentru a clarifica ar trebui facute ceva teste...


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Mulţumesc! Doar din punct de vedere al sintaxei mă interesa dacă e corectă o astfel de abordare.
      Într-adevăr, sunt necesare teste... e posibil ca unele modificări să nu trebuiască făcute. Expresia "ul său sting" am folosit-o doar ca exemplu.
      Pe principiul ăsta, înţeleg că se poate folosi similar şi condiţia "Cuvânt întreg - la început" pentru expresii de genul "atât de frumo", pentru a nu trebui să scriu: "atât de frumos, atât de frumoasă, atât de frumoşi..."


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Da.

Altceva: de ceva vreme ma gandesc la o posibilitate de a imbunatati viteza inlocuirilor. Unul din factorii principali care o influenteaza - in orice editor care suporta text cu formatari - e marimea textului.
Dar ce-i interesant e ca viteza nu depinde liniar de marime. Mai exact pare sa depinda la "patrat". De exemplu daca maresti textul de 2 ori viteza de inlocuire scade cam de 4 ori.
Cam pe asta se bazeaza ideea mea: sa impart aceste texte mari in cateva bucati in zone separate de editare (invizibile pentru utilizator), fac inlocuirile si apoi recombin.
Evident, impartirea pe bucati si recombinarea iau si ele timp dar la texte mari sau foarte mari in care se fac multe inlocuiri s-ar obtine pe ansamblu un spor apreciabil de viteza.
Nu va bucurati inca deoarece mai sunt probleme de rezolvat:
1. Trebuie sa fiu sigur ca textele vor fi impartite la locatii care nu taie textul nepotrivit si ca se recombina fara sa piarda ceva;
Intrebarea e unde sa taie; initial m-a gandit sa taie la inceputul unui paragraf. Pentru IM pare bine dar ma gandeam sa se utilizeze si la rularea automata din OCR Plus (impartita o data inainte de a incepe respectiv recombinate dupa ce termina) dar in acest caz s-ar putea sa faca probleme la "Repararea randurilor rupte".
2. la inregistrarile cu confirmare nu va merge deoarece, cand va vrea sa intrebe utilizatorul, va trebui sa recombine textul in editorul principal ca sa-l afiseze corect - astfel incat utilizatorul sa vada si modificarile care au fost facute intre timp. Ei, daca, pe ansamblu, fiind facuta de putine ori, timpul de recombinare e acceptabil, cand o sa astepti cateva secunde in plus de fiecare data cand te va intreba, nu cred ca va fi asa de placut...
Poate are cineva vreo idee...


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Nu m-am gândit la o soluţie...

      Voiam să spun că este foarte importantă constatarea că lungimea textului de corectat măreşte "la pătrat" timpul de rulare...
      Am văzut şi eu nişte diferenţe de timp mari între două cărţi... dar nu m-am gândit ca lungimea textului de corectat are o influienţă aşa mare.

       Deocamdată este important de reţinut acest aspect.
       Până la găsirea unei metode de implementare, avem o soluţie mai simplă la îndemână: noi utilizatorii, să împărţim textul de corectat în două-trei-patru părţi.
       Metoda corecturii pe părţi se foloseşte frecvent, inclusiv pentru corectarea manuală, mai ales dacă este vorba de o carte foarte mare... aşa că nu ar fi o problemă deosebită.

       Noi utilizatorii, putem să facem împărţirea pe părţi ţinând cont de structura cărţii, adică să facem "rupere" chiar la începutul unui capitol... e mai uşor de urmărit şi reasamblat.

       Ar mai fi o problemă... să vedem cam care ar fi mărimea optimă a unei părţi...
       Să fie 200 de pagini de carte obişnuită?... Sau chiar mai puţin.. să zicem 150?

      Cred că nu trebuie coborât la mai puţin de 150 de pagini, pentru că la o carte de 600 de pagini, dacă o împărţim în bucăţi de câte 100 de pagini, pare că ne-am complica prea mult...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Da, 2..4 bucati, 150..200 de pagini pe bucata par optime.

pus acum 8 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 8 ani
Si eu procedez la fel. Mai ales cu antologiile de povestiri.
Prefer sa le impart.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

utilitasetveritas a scris:

Am gasit litera J ca fiind ], la finalul unor cuvinte si asta doar in urma citirii.
Dar banuiesc ca da rulam OCr_Plus i marca cu rosu?

     Am înţeles de la Cosmin că Ortografia AC nu caută astfel de caractere... deci de la Ortografie nicio speranţă.
     Dicţionare care să ia în calcul ] şi j nu există până în acest moment, dar aş putea să prind cuvintele respective în dicţionarul Uz_J, care poate fi rulat la opţiunea 11, iar dacă există cuvinte scurte mai des folosite cum ar fi ]os > jos, pot fi trecute în dicţionarele de cuvinte scurte ce rulează automat.

     Eu te-aş ruga ceva, dar bănuiesc că nu te încântă de nicio culoare să faci aşa ceva. Dacă mi-ai da o eventuală listă cu astfel de cuvinte mi-ar fi de mare folos... Sau, măcar să-mi spui dacă astfel de erori apar mai mult la începutul cuvintelor, ori la sfârşitul lor...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Pagini:  1 2 3 4 ... 5    
Mergi la