Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
dannutzza
Femeie
25 ani
Mehedinti
cauta Barbat
25 - 52 ani
Forum Romania Inedit / Totul despre cărți - About e-books / AutoCorect versiune pentru Romania-Inedit Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini:  1 2 3 4 5 ... 13
menssana1984
Vizitator



Seven, din toate ideile cu care am venit eu legat de Autocorect, cam care se merita sa ramana?

pus acum 13 ani
   
menssana1984
Vizitator



Si legat de dictionarele tale....
Le-am rulat aseara pe un rtf in ordinea in care au fost notate.
Primul dictionar rulat a modificat textul, urmatoarele nu.
E ok chestia asta?


Si totodata, desi aici poate ca nu am eu dictionarele puse acolo unde trebuie, la rularea optiunii OCR > Corectarea literei L mica, primesc eroare de dictionar, nu gaseste dictionarul L1.imd

Restul optiunilor de la OCR, le-am rulat pe text, nu au facut probleme, dar nici nu au modificat nimic.
O fi textul bun, poate


Cosmin, se poate ca atunci cand se ruleaza fereastra de diacritice si cea de ortografie, sa putem avea acces la textul din spatele ei?
La dacritice, de exemplu, mai vad uneori diverse greseli de text. Daca vreau sa le corectez trebuie sa ies din diacritice, sa corectez si apoi sa revin in fereastra de diacritice.

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Dictionarele trebuie puse asa cum am zis in primul post din topic: in "c:\Documents and Settings\Nume_utilizator\Application Data\AutoCorect Contemporan\Dictionare" respectiv "c:\Documents and Settings\Nume_utilizator\Application Data\AutoCorect Clasic\Dictionare".

Referitor la cele 2 ferestre: ortografia are acces la textul din spate.
In ce priveste la diacritice: am mai fost intrebat de acest lucru si aceasta e raspunsul: spre deosebire de ortografie, adaugarea de diacritice e facuta sa lucreze sincron cu textul modificat (adica e facuta sa avanseze numai dupa modificarile pe care le face utilizatorul in acea fereastra). In acest fel e mai stabila si mai rapida. Ca sa o modific sa lucreze precum ortografia, va trebui sa o refac practic de la 0. Si e o gramada de lucru...
La momentul cand am inceput s-o fac in versiunea 3+ (acum cativa ani) nimeni nu-mi ceruse asa ceva asa ca m-am gandit ca n-are rost s-o implementez si s-o fac mai instabila si mai inceata.
O sa ma gandesc totusi la o solutie de implementare.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
menssana1984
Vizitator



Ei, daca e de munca, las-o asa.
O sa imi sacrific un pic din comoditate

Ia uita-te la imaginea asta:

La verificarea diacriticelor, cu confirmare la orice schimbare, cuvantul selectat nu e baga in seama.
Tine de ortografie?


Si asta:

Care e treaba cu acele sugestii?

Cuvantul asta e in dictionar?

hâţânându-se

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, tine de ortografie, deoarece la diacritice de regula se adauga diacritice, nu se scot cele puse incorect.
Aceasta se intampla la cuvintele care cand sunt scrise corect nu au diacritice.
Dar de exempu daca scrii "învaţăt" in loc de "învăţat", adaugarea de diacritice il va vedea si va vrea sa puna versiunea corecta.

Referitor la sugestiile din a doua imagine, par sa fie ceva cuvinte ce nu au ce cauta in dictionar. O sa verific si le scot daca e cazul...

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
menssana1984
Vizitator



Cuvantul asta e in dictionar?

hâţânându-se


Vezi si imaginea asta:

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Nu era, l-am adaugat.
Evident, din dictionare mai lipsesc cuvinte, nu multe. Precum stii e imposibil sa faci un program sa stie absolut toate cuvintele. Nici Word cu ultimele actualizari nu le stie pe toate...

Ortografia e facuta deocamdata sa semnaleze cuvinte cu litere schimbate sau cuvinte lipite nu pe cele taiate. Oricum in imagine se vede ca totusi te-a dus la bucata respectiva unde o poti edita manual, deci tot a facut ceva bun...

Mai ai imagini, ca vad ca esti pe "val" ?


pus acum 13 ani
   
menssana1984
Vizitator



Acum am terminat textul. Deci cam atat cu pozele.

Dar sa stii ca s-a simtit ca ai umblat la dictionare. Am o colectie de autor, Brussolo, facuta integral pe Autocorect.
Acum 2 zile cand am incarcat, dintr-un moft, unul din acele texte mi-a gasit iarasi greseli in ele, desi am rulat ortografia pana la capat pe ele.


Pe Win7, s-ar putea sa fie probleme cu calea de dictionar.
Eu nu reusesc sa o accesez.

Am reusit. Bifat Show Hidden Files si debifat Hide Protected Operating Sistem Files.

C:\Users\Toshiba\AppData\Roaming

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, in Windows 7 trebuie sa le bifezi sa se vada. Daca o iei pe calea aratata de mine mai sus, acolo ajungi, dar in Windows 7 unele foldere din acea cale sunt de fapt link-uri la alte foldere. Le observi dupa iconita diferita, de sageata, in loc sa fie galbenul de folder.
Eu nu ma complic cu Windows Explorer, folosesc Total Commander la care de ani de zile e bifat sa vada fisierele ascunse.

Oricum, dupa ce dictionarele vor ajunge la versiunea finala, ma gandesc sa le bag direct in kitul de instalare, ca sa nu mai existe asemenea situatii...

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
menssana1984
Vizitator



Apropo.... daca rulez acele dictionare folosind fereastra de inlocuiri multiple, nu cred ca mai e nevoie sa mut dictionarele la calea de care vorbeam mai sus, nu?

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Nu, dar ideea e sa le rulezi rapid folosind 2 comenzi din meniu printr-un simplu click pe fiecare in loc sa folosesti Inlocuire Multipla de 7 ori incarcand fiecare dictionar in parte.

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Salutări!
     Deşi nu am mai participat la discuţie, am încercat să mai testes câte ceva.
     Mai întâi subliniez că folosesc pentru dialoguri caractere şi nu bulett, iar acest caracter este Em dash.
     Am întâlnit în ultimele OCR situaţii în care dialogul este însoţit de mai multe tipuri de răgălii, ca în poza următoare:



     Pe acestea le-am adunat într-un dicţionar "imd", care e setat să caute numai la început de paragraf.
     Deocamdată nu pun la dispoziţie dicţionarul, pentru a mai adăuga la el şi alte situaţii în următoarele două zile, apoi pot să-l pun la dispoziţie pentru duscuţii şi eventual pentru implementare.

     Dacă apar în OCR şi alte situaţii, aş prefera să primesc astfel de situaţii, dar în în fişier de tip .doc Word.

     Cosmin,
     Apropo de butoanele cu setări de început de paragraf din fereastra dicţionarelor de Înlocuiri multiple, cred că trebuie să ne mai gândim cum ar fi mai bine să fie numite, pentru că la momentul actual, cel puţin mie îmi crează ceva confuzii.

     Apropo,
     menssana, la mine în Win 7, dcţionarele se află în calea:
     Disc local ► Utilizatori ► ZZZZZ ► Appdata ► Roaming ► AutoCorect Contemporan ► Disctionare
     unde: ZZZZZ este nume utilizator

     Toate cele bune!
     Seven


     LE:  M-am răzgândit; am urcat pe mediafire versiunea de azi a dicţionarului.
     02 Linii dialog 2011.09.21.imd
   

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
menssana1984
Vizitator



Cosmin, ai aici un alt set de capturi de ecran:

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Seven, ai dreptate in privinta denumirilor dar e cam greu sa gasesti denumiri bune si scurte
Dar poate cineva are o idee mai buna, cine stie...

Menssana, multumesc, am adaugat la dictionar.


pus acum 13 ani
   
menssana1984
Vizitator



Seven, printre acele dictionare ale tale, crezi ca au putea sa te ocupi si de un dictionar de convertirea a tuturor tipurilor de linii posibil in cratima si apoi in baza unor conditii in convertirea lor in dialog si pauza?
Dupa ce te lamuresti cu problema ta, evident. Nu e graba.

Sau poate ai alte alternative.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Menssana, subliniez, chiar dacă s-a înţeles că dicţionarul de mai sus caută doar liniile de la început de paragraf, practic doar dialogurile.
     El trebuie rulat după rezolvarea celorlalte liniuţe.

     Exact în ordinea spusă de tine trebuie făcute modificările:
         - mai întâi toate să treacă în cratimă;
         - apoi rezolvate dialogurile
         - ultimile liniile de pauză sau explicative.

     Acum, eu un fel de nedumerire: practic eu nu am întâlnit situaţii în care cratima adevărată să fie văzută de Abbyy ca fiind alfel de liniuţă; de fapt am întâlnit câteav situaţii, dar ceva de genul a 5-6 exemple într-un volum; e vorna de cuvinte foarte scurte de genul: l-am care apărea scris sub forma l—am.
Pentru astfel de situaţii putem folosi un Dicţionar de înlocuiri multiple - mi se pare cel mai uşor.

     Liniile de pauză [explicative] apar de regulă în varianta < spaţiu-liniuţă-spaţiu > ori în varianta < spaţiu-liniuţă-virgulă >; aceste pot fi înlocuite pe loc; dacă există astfel de liniuţe lipite de text, deja înlocuirea este riscantă, pentru că poate să "prindă" în convertire şi cratime adevărate.

     Eu merg pe principiul corectării prin folosirea mai multor instrumente.
     Unele dintre modificări le-am implementat într-un template mai simplu, dar la care mai lucrez pentru că produce "pagube colaterale".

     De exemplu, am întâlnit cuvinte lipite de semnul de punctuaţie din faţa sa; atunci am introdus în template câteva secvebţe care făceau următoarele: mai întâi adăugau câte un spaţiu după fiecare tip de semn de punctuaţie, apoi ştergea spaţiile duble şi respectiv spaţiile de la sfârşit de paragraf.
     Asta părea corect la prima vedere şi ar fi trebuit să rezolve situaţiile în care cuvintele erau lipite de semnele de punctuaţie din faţa lor.
     "Pagube colaterale": acolo unde erau numere scrise sub forma < anul 25.000 î.e.n. > a ajuns sub forma < anul 25. 000 î. e. n. >, deci spaţii după puncte în situaţii unde nu trebuie să fie spaţiu; Deci nu merge în cazul punctului, dar nu merge nici după < ! ? ; ... >, pentru că dacă un citat cu ghilimele se termină cu astfel de semne în interiorul ghilimelelor, atunci apare spaţiu între semn şi ghilimelele de închidere, astfel că acestea [adică semnul de închidere ghilimele] la convertire nu mai rămâne sus, ci coboară jos şi trebuie rezolvare individual. Deocamdată efectul pare să fie benefic doar în cazul virgulei şi poate al semnului două puncte.

      Deci, o chestie de acest gen rezolvă ceva, dar poate deranja altceva.
      De aceea ziceam că nu orice regulă poate fi implementată.
      Atunci când opţiunea recurge la dicţionare "imd", avem avantajul că putem edita aceste dicţionare şi că atunci când o înregistrare produce efecte secundare, putem să o eliminăm sau s-o modificăm.

      În concluzie, putem încerca şi un astfel de dicţionar, dar putem merge şi pe combinata template, apoi AutoCorect.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
menssana1984
Vizitator



Cosmin, incearca sa inlocuiesti in Autocorect, caractele alea ciudate cu diacriticele corecte:

La mine spune ca nu gaseste textul.


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Astea sunt caractere care le pune un editor in locul diacriticelor atunci cand calculatorul nu era setat sa lucreze bine cu diacritce la programele Nonunicode si textul a fost transformat in rtf.

Cine spune ca nu gaseste textul sa-l incarce? AutoCorect? Spune asta doar daca, de exemplu, Windows e setat pe engleza la programele nonunicode si numele fisierului contine diacritice romanesti. In acest caz nu are cum sa-l incarce.

Referitor la inlocuire: e simplu sa o faci cu Inlocuire Multipla. Copii fiecare caracter in casuta de cautare, la inlocuire pui diacritica aferenta (pui chiar majuscula daca e cazul) si bifezi Potrivire perfecta. Probabil sunt 4 cazuri: ş, Ş, ţ, Ţ.


pus acum 13 ani
   
menssana1984
Vizitator



A... cu potrivire perfecta. Mai exact ce inseamna asta?
Dar cuvant intreg?


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Potrivire perfecta si cuvant intreg sunt echivalentele in limba romana la "Match Case" si "Match hole word only" din Wordpad.
La prima se considera potrivire doar daca se gaseste cuvantul exact cum a fost scris (litere mici si majuscule). De exemplu daca se cauta "Mare" si in text e "mare", nu il considera potrivire.
La a doua se cauta, asa cum spune titlul, cuvant intreg. Daca se cauta "ţi" si intr-un loc e "ţi-aduc", nu considera potrivire.


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Sa incerc sa dau o sugestie pentru cele doua optiuni noi de la Inlocuire multipla:
"la inceput de paragraf"
"la sfarsit de paragraf"
E mai bine...?


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Da, e mai uşor de înţeles aşa. Sună mai simplu...
     Şi, cred că poate lipsi "la"-ul şi să fie doar
             "Început de paragraf"
             "Sfarsit de paragraf"

      Mi se pare destul de sugestiv, mult mai uşor de înţeles poziţia cuvântului de modificat.
      Actualele opţiuni încearcă să fie mai explicite, dar cu toate astea pot provoca confuzii pentru mulţi utilizatori.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, e bine.
Am modificat si am actualizat cele 2 linkuri din prima postare din topic (prima pagina).

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am constatat şi eu, dar şi alţi useri faptul că după rularea dicţionarelor care încearcă să rezolve problema cifrei 1 şi a cuvintelor scurte, apare frecvent < să-l > în locul lui < să-i >, dar şi < că-l, dă-l, fă-l > în loc de < că-i, dă-i, fă-i >;
     Dicţionarul care cuprinde aceste cuvinte este "L1.imd".
     În orincipiu am folosit acest dicţionar cu un număr mai redus de cuvinte şi nu a făcut probleme; presupun că înregistrările "vinovate" sunt unele adăugate în ultimul timp; mă refer la cuvinte care sunt scrise iniţial < că-I, dă-I, fă-I, să-I > pe care le-am transformat în < că-l, dă-l, fă-l, să-l >, deci e vorba de cuvinte care iniţial au după cratimă litera i mare.

     Aceste dicţionare trebuie să fie îmbunătăţite prin scoatere sau adăugare de cuvinte; aştept în continuare astfel de propuneri.
     În principiu aceste dicţionare pot fi modificate de către fiecare utilizator.

     Pe de altă parte, personal nu sunt deranjat de acest lucru, deoarece fac corectura în Word, iar după rularea în AutoCorect, mai fac o serie de modificări Find&Replace la o serie de cuvinte care au cel puţin două variante de forme corecte, cum ar fi: sting-stâng, clar-dar, lingă-lângă, ai-al, la-ia, dar şi altele.
    Tot aici verific situaţiile în care la început de paragraf şi început de dialog există litera I mare în loc de Î mare... - biensur, tot cu confirmare.

    Deocamdată am stabilit nişte etape de precorecturi automate şi semiautomate cu diferite unelte, pentru o versiune care ar putea fi numită [V0.5]. Menţionez că eu consider OCR brut ca nefiind versionat sau dacă ar trebuie să poarte o versiune, ea ar putea fi doar [V0.0]; Notez cu [V0.1] un text rulat prin template, cu [V0.2] - unul rulat prin opţiunile AutoCorect, cu [V0.3] unul prelucrat în Word cu Find&Replace cu confirmare şi aşa mai departe...



     LE:  Pentru Cosmin
     Aş vrea să ştiu cum se rulează modificările într-un dicţionar ".imd"
     Modificările se fac în ordinea înregistrărilor? adică prima înlocuire se face în tot documentul, apoi urmează a doua înlocuire în tot documentul, după care a treia în tot documentul, a patra... etc., sau pur şi simplu toate înregistrările din dicţionar rulează în acelaşi timp?

     Ideea era următoarea:
     Voiam ca într-un dicţionar pentru liniuţe, ca mai întâi toate tipurile de liniuţe să fie transformate în cratimă, apoi corectarea tuturor liniilor de la început de paragraf [cu toate situaţiile în care apar însoţite de alte caractere] să fie transformate în linie de dialog de tip Em dash... şi în final, liniuţele de tip <spaţiu-cratima staţiu> şi <spaţiu-cratima-virgulă> să fie transformate în <spaţiu-horizontal bar-spaţiu>, respectiv <spaţiu-horizontal bar-virgulă>.

     Practic mă intresează, dacă aceste toate modificări pot fi înregistrate într-un singur dicţionar sau în două ori trei dicţionare

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, in ordinea inregistrarilor, fiecare inlocuire se face in tot documentul.
Deci ar merge de exemplu ce vrei tu sa faci cu liniutele.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Mulţumesc Cosmin!
     Era una dintre probleme pe care uitam mereu s-o întreb. Am înţeles.
     În cazul ăsta se pot face mai puţine dicţionare.

     Cu liniuţele... mă mai gândesc un pic la varianta implementării.
     Cred că ar trebui să fie prima opţiune care ar trebui rulată... dar nu sunt sigur.
     Există o problemă: frecvent apar situaţii când dialoguri scurte sunt "adunate" într-un singur paragraf. La corectura manuală sau la vizualizare ele sunt destul d uşor de remarcat deoarece sunt însoţite de liniuţa Em dash.
     În momentul în care toate liniile din text vor fi mai întâi convertite în cratimă, aceste dialoguri aflate din greşeală în interioarul paragrafului vor avea semnul cratimă şi, frecvent vor fi văzute ca liniuţă de pauză [explicativă]...
     Din cauza asta, deocamdată mă abţin de la convertirea tuturor tipurilor de liniuţă şi aş merge deocamdată doar pe "curăţarea" liniilor de dialog care sunt însoţite de răgălii.


     Acum mai am o altă întrebare sau problemă.
     Practic mă interesează eliminarea tuturor tipuri de spaţii la început de paragraf: atât cele de tip Tab cât şi Spaţiu simplu sau spaţii multiple.
     Mă interesează dacă există opţiunea...
     Eu până acum am eliminat aceste spaţii cu ajutorul Word care-mi permitea să caute spaţii doar la început de paragraf;
     Acum se poate şi cu dicţionar de înlocuiri multiple, doar că nu "se vede" ce anume s-a înregistraz în dicţionar.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
M-am gandit la aceste spatii mai demult dar am fost totusi rezervat in a le scoate (mai ales cele de la inceput de paragraf).
Dar daca zici ca o astfel de optiune ar fi folositoare, se poate implementa la punctuatie.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Ai dreptate să fii rezervat.
      Foarte multe persoane lucrează cu spaţii, în special cu Tab la început de paragraf.
      Cred că opţiunea ar încurca pe mulţi.
      Ar putea să facă mai mult rău decât bine.
      Doar dacă apţiunea nu ar fi implementată la punctuaţie, ci tot la "Editare → Corectare automată după OCR".
      Mă gândesc la faptul că zona asta este accesată doar de către cei ce ştiu despre ce e vorba.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, e mai bine acolo.
Ma gandesc sa implementez cu cod normal, nu cu imd-uri...


pus acum 13 ani
   
menssana1984
Vizitator



Se pare ca exista o problema de dictionar.
Corectarea literei L mic, reprodusa eronat ca 1, ! si I

A inlocuit să-l -> să-i

Cred ca la optiunea asta e nevoie de confirmare pe viitor.



_Cosimo_ a scris:

M-am uitat, Seven. O posibilă explicaţie s-ar găsi în ce ai făcut tu aici:

Ai înlocuit să-1, să-! şi să-I cu "să-l", dar în multe cazuri ar trebui înlocuit cu "să-i".

Ideal ar fi ca autocorectul să fie folosit de fiecare dată cu confirmare, ca în corectorul din Word, nu automat, exceptând cazurile clare, gen "sînt-sunt" etc. E drept că ia mai mult timp, dar rezultatul e net superior.


Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am implementat stergerea spatiilor si taburilor la inceput de paragraf.
In ce priveste rezolvarea problemelor cu tipul de liniuta, deocamdata este bagata doar la punctuatie ca sugestie.
Asta pentru ca:
1. nu exista un consens general pe Romania-inedit in privinta a ce tipuri de liniuta sa fie folosite in zone specifice(inceput de dialog, pauza in fraza, parte din cuvant);
2. Precizia unor astfel de inlocuiri automate va fi apropiata de 100% dar n-o va atinge niciodata.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Scuze, era o mica problema cu scoaterea spatiilor la inceput de paragraf - a fost rezolvata.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am implementat ultima modificare (functia de scoatere a spatiilor la inceput de paragraf) si in versiunea Clasica.
Ambele fisiere exe le gasiti la "centralizatorul" din prima postare din topic (prima pagina)...

Probabil maine dimineata voi scoate o versiune oficiala noua care, pe langa o parte din modificarile adaugate cu ajutorul vostru, va avea si mici optimizari la dictionare.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
nichipercea
Pe lista neagra

Inregistrat: acum 13 ani
Stimate domn,
Va deranjez si eu cu o problema. Pe mine nu ma intereseaza reproducerea cartilor , ci numai textul, de aceea nu folosesc ABBYY pentru OCR. Programul pe care-l folosesc i-mi salveaza la iesire cartea intr-un fisier „txt”.
Singura problema este aceea ca incurca, in mod aleatoriu, litera I (i mare) cu l (L mic) si invers.
Am rezolvat partial problema (prin inlocuire multipla) in cazul cand apare I (i-mare in loc de L-mic) si l (L-mic in loc de i-mare - la expresiile scrise cu majuscule) in interiorul cuvintelor, dar nu am reusit o inlocuire automata in cazul primei litere dintr-un cavant. In cazul unei carti de sute de pagini trebuie facuta corectura manuala.
Nu stiu daca problema mai intereseaza si pe altcineva, dar v-as fi recunoscator daca m-ati ajuta, macar cu un sfat.
Atasez un exemplu:
Va multumesc anticipat.


pus acum 13 ani
   
menssana1984
Vizitator



Ce program folosesti?

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

nichipercea a scris:

Stimate domn,
Va deranjez si eu cu o problema. Pe mine nu ma intereseaza reproducerea cartilor , ci numai textul, de aceea nu folosesc ABBYY pentru OCR. Programul pe care-l folosesc i-mi salveaza la iesire cartea intr-un fisier „txt”.
Singura problema este aceea ca incurca, in mod aleatoriu, litera I (i mare) cu l (L mic) si invers.
Am rezolvat partial problema (prin inlocuire multipla) in cazul cand apare I (i-mare in loc de L-mic) si l (L-mic in loc de i-mare - la expresiile scrise cu majuscule) in interiorul cuvintelor, dar nu am reusit o inlocuire automata in cazul primei litere dintr-un cavant. In cazul unei carti de sute de pagini trebuie facuta corectura manuala.
Nu stiu daca problema mai intereseaza si pe altcineva, dar v-as fi recunoscator daca m-ati ajuta, macar cu un sfat.
Atasez un exemplu:
Va multumesc anticipat.



--->

     Indiferent daca folosesti Abbyy sau nu pentru OCR, problema semnalata de tine este frecventa, nu este ceva nou. Nu ai nici un avantaj in faptul ca salvezi in .txt, de fapt pierzi toate formatarile textului: mai exact inclinarea cuvintelor.
     Rezolvarea se face [dar nu total]:

- cand faci OCR-ul, indiferent daca-l faci cu Abbyy sau cu alt program, este bine sa ai paginile scanate la 300 dpi.
- inainte de a face OCR-ul - in cazul lui Abbyy - trebuie "antrenat" astfel incat erorile constatate de tine sa fie cat mai mici. "Antrenamentul" acesta invata Abbyy ca acolo unde pune litera mare in mod eronat, sa puna litera corecta.
- nici un program actual nu inlocuieste corectarea manuala a textului prin citire cap-coada.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
BlankCd are dreptate, nu se poate elimina total corectarea manuala.
Dar, pe langa metodele respective ce reduc numarul acestor erori, s-ar putea sa mai existe o alta solutie.
De exemplu AutoCorect ar putea detecta ca nu e inceput de paragraf/propozitie/fraza si s-ar "intreba" de ce cuvantul respectiv nu e scris cu litera mica. Evident, nu ar merge in toate situatiile si e posibil sa strice in cazuri rare, de aceea trebuie folosita doar cand textul "abunda" de astfel de erori.
E ca in gluma aceea cu meteorologii: daca previziunile lor se implinesc in proportie de 40%, ce-ar fi sa spuna pe invers si se vor implini 60%
In cazul AutoCorect, procentul va fi mai bun - inainte e 0%, dupa va corecta 90% si va strica 10%.
Se pot face teste pentru a detecta procentul exact si dupa aceea se decide daca se merita implementata sau nu...
Ideea e sa micsoreze munca manuala dupa corectarea automata si cred ca se poate.

Ce parere aveti...?


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

ciuperca_cosmin a scris:


De exemplu AutoCorect ar putea detecta ca nu e inceput de paragraf/propozitie/fraza si s-ar "intreba" de ce cuvantul respectiv nu e scris cu litera mica.



   Cred ca ar fi ceva de genul cu confirmare la inlocuire: "vrei sa pui litera mica la inceputul acestui cuvant sau vrei sa las cuvantul sa inceapa cu litera mare?"
   Nu cred ca este utila decat in cazul in care face conversia automat din litera mare in litera mica urmata de corectarea automata a numelor proprii care incep cu litera mare. Daca ar fi cu confirmare ar trebui sa confirmi la zeci de mii de litere dintr-un document... ceea ce nu cred ca ar fi un castig de timp.

   In cazurile in care astfel de greseli - cum este cazul si fisierului pus de nichipercea - abunda [sunt probabil mii si zeci de mii de astfel de litere eronate], solutia cea mai rapida este inlocuirea literelor mari cu litere mici in TOT documentul cu inlocuire automata, urmata imediat de inlocuirea automata a numelor proprii scrise cu litere mici cu nume proprii care incep cu litera mare.
   Evident ca vor mai fi cuvinte/nume proprii scrise cu litera mica dar acestea se rezolva la corectarea manuala astfel: cand incepi corectarea si gasesti un cuvant propriu care incepe cu litera mica il inlocuiesti prin metoda automata cu numele propriu care incepe cu litera mare. La inceputul corectarii textului vor fi multe asemenea inlocuiri dar pe masura ce avanseaza corectare aceste cuvinte vor fi din ce in ce mai putine.

   Ar fi utila aceasta facilitate - daca programul s-ar "intreba de ce cuvantul respectiv nu e scris cu litera mica" - in cazul in care erorile in text NU sunt prea numeroase [in textul lui nichipercea nu cred ca ar castiga timp, fiindca erorile sunt multe], astfel incat confirmarea pentru inlocuirea literei mari cu litera mica, sa nu devina o corvoada si sa manance mult timp.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Nu vorbesc de inlocuire cu confirmare ci de inlocuire automata. Asta pentru ca ai dreptate, la numarul acela de erori e o munca imensa.

Adica: programul gaseste in mijlocul frazei un cuvant ce incepe cu majuscula. E vorba de anumite majuscule, nu de toate. De exemplu I de la Ion. Daca nu gaseste cuvantul in dictionar, verifica daca cuvantul rezultat prin inlocuirea I cu l (de la lunca) e scris corect. Daca da, il inlocuieste.
Astea ar fi cazurile care ar fi destul de aproape de 100%.
Ar putea fi si cazuri ambigue - in care cuvantul original e in dictionar. Aici trebuie testat sa nu strice mai mult decat repara respectiv daca numarul acestor erori e suficient de mic astfel incat sa fie mai eficienta inlocuirea cu confirmare.

Din pacate nu pot sa modific codul pentru a testa acum deoarece pe la 13 trebuie sa plec din oras pentru cateva zile. Unde plec n-am internet deloc si abia "palpaie" telefonul mobil. N-am nici laptop...
Timp de o ora jumate voi mai raspunde aici pe forum.
Daca intre timp se ajunge la un consens general ca se merita incercat voi modifica codul cand ma intorc.


pus acum 13 ani
   
nichipercea
Pe lista neagra

Inregistrat: acum 13 ani
Daca eroarea este in interiorul cuvantului problema este simplu:
- Orice litera urmata de I (i mare) se transforma in l (L mic);
- Orice majuscula, urmata de l (L mic), urmata de orice majuscula se transforma in I (i mare).
- Linie de dialog, urmata de spatiu, urmata de l (L mic) se transforma in I (i mare):
- Mai pot face inlocuiri in cazul numelor proprii care incep cu I (i mare).
Problema ramane pentru celelalte erori de la inceputul cuvantului.
Raman cam 15-23 erori pe pagina. Pentru 100-150 de pagini n-ar fi o problema, sar cand ai peste 600 de pagini apar probleme, iti obosesc ochii. se mai blocheaza programul, trebuie sa intrerupi si sa te ocupi de altceva, etc.
Multumesc.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Părerea mea este că la un număr aşa de mare de erori, practic dată de frecvenţa lui L mic şi I mare în limba română, corectura automată şi semiautomată este aproape imposibilă.
     Rămâne de verificat ceea ce a spus BlankCd mai sus: "antrenamentul la citire".
     În Abbyy există această posibilitate de a face antrenamentul [acomodarea] programului cu forma caracterelor. E adevărat că nu totdeauna programul ia de bun tot ceea ce i se recomandă, dar erorile sunt foarte puţine.
     De exemplu, dacă lui Abbyy i se "spune" de suficiente ori că ä=a, ü=u, ö=o ori că é şi č = e, programul va accepta acest lucru, fără prea multe erori. Practic acest lucru se face prin citirea supravegheată a câtorva pagini de carte.
     Probabil şi în programul de tip Recognito pe care-l foloseşti există o astfel de facilitate de a antrena programul cu caractere la care dă erori.

     Pe de altă parte, mulţi dintre noi am încercat alte programe pentru extragerea OCR, dar în final ne-am întors la Abbyy. Deocamdată este cel mai bun.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Daca deja a facut OCR la toata cartea... nu mai are rost sa mai scaneze inca o data cartea deoarece ii va lua 3-4 ore...
     In 3-4 ore deja are un text cu mult mai putine erori, daca prelucreaza textul automat:

- inlocuirea literelor mari cu litere mici
- inlocuirea cuvintelor de dupa semnele de punctuatie: punct, semnul intrebarii, exclamarii; care incep cu litere mici.
- inlocuirea cuvintelor proprii care nu au prima litera majusculata
- inlocuirea cu litera mica a cuvintelor din dialoguri precedate de semnul intrebarii si exclamarii [ ex: " - Ma duc sa pun saua pe cal! Spuse Maurice" unde inlocuim Spuse cu spuse.... si alte asemenea]
- scoaterea spatiului de dinaintea semnelor de punctuatie
- alte prelucrari

  Toate aceste prelucrari automate nu ii ia mai mult de 30 de minute... si va avea un text la fel de bun ca si cum Abbyy nici nu a avut acele erori masive.
  Cred ca daca studiaza cu atentie ghidul lui Aleph va gasi multe informatii.
 
  Si sa nu uit: a prelucra un text cu multe erori inseamna si nitica munca, nimic nu se face usor.

  Poate sa faca si altfel daca doreste: incepe corectarea, iar unde gaseste greseala copie acel cuvant in Find si Replace il inlocuieste cu cuvantul corect in TOT documentul. Va fi greu pentru primele 40-50 de pagini apoi erorile vor fi mult mai mici ajungand undeva la 5-8 greseli pe pagina.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
nichipercea
Pe lista neagra

Inregistrat: acum 13 ani
Am rezolvat, mi-a deschis ochii tatal meu.
Faceam greseala ca voiam sa rezolv totul dintr-odata.
In final am facut 5 machete de AutoCorect care se ruleaza succesiv:
1.- Se rezolva litera L-mic din interiorul cuvintelor (i-mare trece in L-mic);
2.- Se rezolva litera i-mare din interiorul cuvintelor cu majuscule (L-mic trece in i-mare);
3.- Se rezolva litera L-mic de la inceputul cuvintelor din interiorul frazei (i-mare trece in L-mic);
4.- Se rezolva litera i-mare de la inceputul cuvintelor din interiorul frazei (L-mic trece in i-mare pentru numele proprii);
5.- Se rezolva litera i-mare de la inceputul cuvintelor dupa linia de dialog (L-mic trece in i-mare).
Se expota din AutoCorect intr-un format Word.
- Se inlocuieste cu confimare L-mic cu i-mare pentru cuvintele de inceput de fraza dupa semnele de punctuatie ".", "?", "!", ":".
- Se inlocuieste cu confimare L-mic cu i-mare si/sau i-mare trece in L-mic pentru cuvintele de dupa ghilimele.
- Se inlocuieste cu confimare L-mic cu i-mare la cuvintele inceput de fraza (paragraf urmat de L-mic, trece in paragraf urmat de i-mare).
Sfarsit.
Cele 5 machete de AutoCorect, le-am denumit AutoCorect-1, AutoCorect-2, etc si le-am copiat in folderul unde este instalat programul.
S-ar putea sa fie mai simplu, dar am rezolvat.

Referitor la program, este scump, dar zic ca se merita, problema "I-l" este singura eroare care o face.
Mai greu este sa pregatesti pdf-ul pentru prelucrare. Ca sa fie un text continuu trebuie sa elimini eventualul antet si subsol (numarul de pagica), sa elimini imaginile.
Pentu asta transformi pdf-ul in png, tiff, sau jpg (inainte se face crop pentru antet si subsol), dupa eliminarea imaginilor si a spatiilor libere (pagini goale, jumatati de pagina) cel mai bine se fac imagini alb-negru (dar nu e absolut necesar) si daca este necesar se accentuiaza textul, se face din nou pdf si se deschide programul.
Se deschide pdf-ul si acum trebuie sa "inveti programul", se deschide o "lupa" pe care poti sa o faci mai mare sau mai mica astfel incat caracterul sau grupul de caractere sa fie cat mai clar, iar intr-o fereastra tastezi caracterul sau grupul de caractere din "lupa".
Cel mai bine este sa-ti faci un document cu toate caracterele posibile. Dupa ce "a invatat" toate caracterele lucreaza singur.
Dupa cum am spus pe mine nu ma intereseaza sa reproduc carti, ci sa am un text corect care se poate citi usor, se poate transforma in orice format se doreste.
Iata rezultatul, din 134 MB a rezultat 477KB.
Multumesc mult pentru sfaturi, mi-au fost de un real folos.

P.S.
Am observat un lucru extraordinar, daca se foloseste fontul "Calibri", nu este nici o diferenta vizuala intre textul necorectat si cel corectat:
Oare se merita sa mai pierzi atata timp?

Modificat de nichipercea (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Îmi cer mii de scuze pentru cei ce au folosit dicţionarele L1 - L3 şi au avut parte de modificările în < că-l, dă-l, fă-l şi să-l > şi acolo unde trebuia să fie < că-i, dă-i, fă-i şi să-i >.
      Am descoperit ce greşeală am făcut.
      Practic, la înregistrările < că-1, că-! .... să-1, să-! > trebuia să setez "Cuvânt întreg" + "Păstrează capitalizarea" [Ci Pc] - ceea ce am şi făcut; în schimb, la înregistrările < că-I, dă-I, fă-I şi să-I > trebuia să setez "Cuvânt întreg" + "Potrivire perfectă" [Ci Pp], doar că eu am setat tot [Ci PC], astfel că s-a făcut înlocuirea atât la cuvintele < că-I, Că-I > ceea ce era corect,  cât şi la < că-i, Că-i > ceea ce era complet incorect.

      Am corectat dicţionarele L1.imd, L2.imd, L3.imd şi S1.imd, S2.imd, S3.imd, S4.imd.
      Am mai adăugat două dicţionare care se rulează din opţiunea "Înlocuiri multiple"
           02 Linii dialog.imd - rezolvă circa 75 de forme de "recunoaştere" a liniei de dialog.
           03 Scurte plus.imd - cuprinde câteva cuvinte scurte în care grupul < a m > este recunoscut eronat ca < a r n >.
      Dacă ultimul dicţionar se dovedeşte a fi util, înregistrările vor fi inserate în unul din dicţionarele S1-S4, pentru a putea fi rulate automat.

      Dicţionarele de acest tip le voi actualiza permanent în prima mea postare de la pagina 1 a topicului.
      Menţionez şi aici adresele la zi:

           Nume arhivă:  Dictionare IMD L1-L3, S1-S4 PLUS - 2011.09.30.rar
           Adrese arhivă:   
                                 

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
lauvoi
Pe lista neagra

Inregistrat: acum 17 ani
@nichipercea, in loc sa faci cinci machete cu Autocorect, vezi ca la 'salvare multipla' exista optiunea de salvare intr-un dictionar, fisier tip *.imt.
Inca un sfat, pentru ce ai nevoie, cred ca mai util ar fi daca ai transforma pdf-ul in fisier tip .djvu.
Are dimensiuni mici, poti citi usor textul si se pastreaza si aspectul de carte.
Mai multe informatii gasesti aici:


Bafta!


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am revenit...
Ma bucur ca s-a rezolvat, nichipercea


pus acum 13 ani
   
menssana1984
Vizitator



Incă    Încă
Imi    Îmi
inteme    interne
să-i    să-l
ş;    Şi
stâmesc    stârnesc
a!    al
putemic    puternic
toamă    toarnă
atâme    atârne
ia    la
luminări    lumânări
iui    lui
sc      se
cl      el


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Păi...
      să clarificăm câteva dintre cuvinte şi situaţii...

     1. Unele dintre cuvintele de mai sus merg în dicţionarele de tip L sau S:
         cl - el — l-am trecut acum în S2 [Cuvânt întreg + Potrivire perfectă];  sc-se — este deja înregistrat în S2;
         iui-lui, respectiv ş;-şi ar putea fi înregistrate tot în S2 ca şi cl-el — trebuie urmărite dacă nu produc efecte secundare.

     2. Unele cuvinte se pot trece în dicţionare de înlocuire multiplă, altele decât L şi S.
      Incă-Încă, Imi-Îmi, inteme-interne, stâmesc-stârnesc, putemic-puternic, toamă-toarnă, atâme-atârne, luminări-lumânări
      Se mai pot adăuga: clat-dat, clată-dată, cleci-deci, cleşi-deşi, clefel-defel, cleloc-deloc, clecât-decât, cles-des, clespre-despre, cleşert-deşert, clintre-dintre, clupă-după, clur-dur,
      În principiu este vorba de grupul < c l > care apare în loc de < d >; de asemenea mai e vorba de grupul < r n > care apare în locul literei < m > sau invers; uneori există rocadă şi între grupul < r i > şi litera < n >; mai pot apărea şi alte probleme...
      Acestea nu sunt reguli valabile la orice scanare; frecvenţa lor depinde de fontul folosit la tipărire, de gradul de apropiere a caracterelor [spaţiul dintre litere], vechimea cărţii, calitatea scanului etc. Mai ales, din acest motiv, aceste cuvinte trebuie puse în dicţionare de înlocuire multiplă, altele decât cele ce se rulează automat [L1-L3 şi S1-S4].

     3. Există unele care nu pot fi implementate în dicţionare deoarece există ambele variante ale cuvintelor: să-i - să-l; [că-i - că-l, dă-i - dă-l, fă-i - fă-l] ia - la, a! - al
     Se mai pot adăuga: clar–dar, clin–din, clacă–dacă,
     Exemplificare: "a!... acum înţeleg" - deci poate apărea situaţia în care "a!" este corect;
     Acestea se pot corecta doar prin modificare cu confirmare individuală în Word sau AutoCorect.

     Mii de scuze dacă au rămas unele inexaktitudini!...
     Cu stima!
     Seven   


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
menssana1984
Vizitator



La dracu cu notificarile astea....

Asa e, mi-am dat singur de lucru cu grupul "a!", am facut inlocuiri fara sa precizez spatiul de inainte si de dupa grupul de caractere. Rezultatul a fost ca orice propozitie terminata in "a!" a devenit "al"
Si nu am tinut cont de faptul ca tu folosesti strict inlocuirea automata.

Eu le adaugasem in template cu optiunea de notificare.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am început lucrul la ceva cărţi tipărite în perioada interbelică.
     E foarte multă muncă, deoarece ortografia folosită în perioada respectivă nu bate deloc cu cea de azi. Nu mai vorbesc de limbaj, care şi el este destul de diferit.
     M-am gândit să păstrez limbajul, dar să actualizez ortografia.

     Ce anume aş dori să schimb?
       - înlocuirea apostrofului cu cratima; apostroful apare în majoritatea situaţiilor în locuri în care azi se foloseşte cratima;
       - eliminarea lui "u" final, care, am sentimentul că în multe situaţii era un "u" mut, deci avea numai rol ortografic.
       - înlocuirea lui "ie" şi "ă"cu "e" în multe cuvinte... etc.
       - despărţirea unor cuvinte, care atunci se scriau legate [dela, pentruce, pentru că..]
       - unirea unor cuvinte care atunci se scriau separat...

     Sunt sigur că aceleaşi situaţii apar şi la alte cărţi tipărite în perioada interbelică; de aceea m-am gândit că ar fi bine să pregătesc nişte dicţionare cu aceste înlocuiri, spre a putea fi folosite şi în alte cazuri.
     Pentru a nu apărea efecte secundare, am hotărât să folosesc numai cuvinte întregi.
     Fiindcă numărul de cuvinte este imens şi necesită organizarea în multe dicţionare, iar rularea lor în mod clasic, unul câte unul, ar deveni greoie, am rugat pe Cosmin să mă/ne ajute cu o nouă opţiune de rulare automată.
         

     Dacă mai lucrează cineva, în acest moment, la astfel de cărţi, aş fi foarte bucuros pentru o listă cu astfel de cuvinte, dar care au o frecvenţă relativ mare.
     Toate cele bune!
     Seven

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Silva
Moderator

Inregistrat: acum 18 ani

Seven a scris:

***
     Am început lucrul la ceva cărţi tipărite în perioada interbelică.
     E foarte multă muncă, deoarece ortografia folosită în perioada respectivă nu bate deloc cu cea de azi. Nu mai vorbesc de limbaj, care şi el este destul de diferit.
     M-am gândit să păstrez limbajul, dar să actualizez ortografia.

     Ce anume aş dori să schimb?
       - înlocuirea apostrofului cu cratima; apostroful apare în majoritatea situaţiilor în locuri în care azi se foloseşte cratima;
       - eliminarea lui "u" final, care, am sentimentul că în multe situaţii era un "u" mut, deci avea numai rol ortografic.
       - înlocuirea lui "ie" şi "ă"cu "e" în multe cuvinte... etc.
       - despărţirea unor cuvinte, care atunci se scriau legate [dela, pentruce, pentru că..]
       - unirea unor cuvinte care atunci se scriau separat...

     Sunt sigur că aceleaşi situaţii apar şi la alte cărţi tipărite în perioada interbelică; de aceea m-am gândit că ar fi bine să pregătesc nişte dicţionare cu aceste înlocuiri, spre a putea fi folosite şi în alte cazuri.
     Pentru a nu apărea efecte secundare, am hotărât să folosesc numai cuvinte întregi.
     Fiindcă numărul de cuvinte este imens şi necesită organizarea în multe dicţionare, iar rularea lor în mod clasic, unul câte unul, ar deveni greoie, am rugat pe Cosmin să mă/ne ajute cu o nouă opţiune de rulare automată.
         

     Dacă mai lucrează cineva, în acest moment, la astfel de cărţi, aş fi foarte bucuros pentru o listă cu astfel de cuvinte, dar care au o frecvenţă relativ mare.
     Toate cele bune!
     Seven

Hmmm... N-as vrea sa comentez aiurea insa... cred ca, in anumite situatii, este utila pastrarea grafiei vechi,,, Eu as pastra scrierea deatunci, tocmai pentru ca ea da culoarea epocii...


_______________________________________
"In politica, prostia nu este un handicap". - Napoleon Bonaparte

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Cred ca pot ajuta nitel cu alcatuirea listei de cuvinte ce au apostrof in loc de cratima.
As putea scana cateva texte de acest tip si scoate toate cuvintele care au apostrof in interior.
La fiecare din ele voi "construi" un cuvant corespondent prin inlocuirea apostrofului cu cratima.
Din aceste cuvinte voi face un dictionar imd care va trebui editat manual pentru a se elimina/corecta cuvintele cu probleme.

Va fi ceva de lucru dar cred ca e mai putina decat sa bagi manual atatea cuvinte in dictionar.

Ce parere ai, Seven...?


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Silva, ai dreptate!
     Se poate păstra culoarea epocii intactă, dar e foarte greu de făcut corectura, din cauză că toată sarcina cade în "cârca" ochilor, nemaiputând beneficia de niciun ajutor din partea corectoarelor de limbă.

     Nu vreau să-mi justific prostiile... dar un pic tot am s-o fac...
     În alte situaţii am făcut lucruri mult mai grave: în loc de "stradă deşertă" am scris "stradă pustie", în loc de "cameră deşertă" am scris "cameră goală"; e adevărat că aş fi putut scrie şi "cameră vidă" ceea ce ar fi fost mult mai rău...

     Lăsând gluma la o parte, m-am gândit să nu fac o adaptare la limba contemporană în adevăratul sens, ci doar ceva chestii de ortografie.
     Practic, dacă aş transforma cartea în format audio, cartea ar "suna" exact ca în perioada interbelică. M-am gândit că asta ar păstra întrucâtva culoarea epocii.
     Deci nu modific "ce se aude", ci doar câte ceva din "ce se vede".
     Nu am de gând să modific "c-o venit Dinu" în "că a venit Dinu", ci doar în "c-o venit Dinu"
     Efectiv, vreau ca în loc de: c'ar, l'ar, m'ar, n'ar, s'ar, v'ar, c'o, l'o, m'o, ne'o, s'o, v'o,
     să scriu: c-ar, l-ar, m-ar, n-ar, s-ar, v-ar, c-o, l-o, m-o, ne-o, s-o, v-o,
     E adevărat că şi în loc de "ţaranii veniau", intenţionez să scriu "ţăranii veneau"

     E o problemă cu realizarea OCR. Multe defecte mici de hârtie sau cerneală sunt interpretate de Abbyy ca apostrof sau virgulă. Deci, într-un OCR sunt mult mai multe apostrofuri decât cele corecte; pe de altă parte nea Abbyy apelează la dicţionarele de limbă română şi acolo unde nu cunoaşte cuvântul, scrie şi el ce-i trece prin găvleajă.

     Pe de altă parte, pentru studiul limbii folosite la momentul respectiv, pentru păstrarea culorii epocii în stare intactă am făcut şi voi face şi la celelalte cărţi, pdf din imagini; m-am gândit că cei ce vor păstrarea intactă a limbajului de atunci au la dispoziţie PDF-ul de pe cartea originală. iar pentru ceilalţi să fac textul un pic mai uşor de citit. Practic cititul unei astfel de cărţi este ca urcatul muntelui: e plăcut, dar la un moment dat devine obositor.

     Toată stima!
     Seven   


     LE:
     Mii de scuze, Cosmin. M-am întins la editat şi nu am văzut la timp postarea ta.

     Hai să-ţi spun câteva lucruri, deşi din cele ce voi spune, mulţi vor ajunge la concluzia că nu stau prea bine cu creierii capului... ceea ce este aproximativ corect.
     Ce fac eu acum cu "Radu Rosetti - Păcatele sulgeriului - 1924" nu o consider muncă, ci mai degrabă un fel de distracţie şi cercetare.

     Am deschis pdf-ul din imagini; în Word este deschis textul cu pricina şi un Index cu nume de persoane şi locuri, precum şi cu unele cuvinte mai rare. În Word am un dicţionar ".dic" suplimentar, deci cum dau de un nume nou, pe care-l subliniază wordul, îl verific în pdf, apoi îl trec în index şi apoi pac cu el în dicţionarul suplimentar, astfel că el nu mai este subliniat.
     Mai am deschis un WordPad în care îmi notez cuvintele de modificat, fie ele cu apostrof sau altele.

     Când apare un picuţ de oboseală, zdranc, închid toate programele şi fac altceva. Ordonez în ordine alfabetică lista cu cuvinte şi apoi începe distracţia în AutoCorect.
     Dacă am găsit cuvântul < n'am >, trec tot ce este legat de această negaţie, adică: <n'am, n'ai, n'au, n'avem, n'aveţi...> şi mă plimb şi la alte timpuri <n'aveam, n'aveai....>
     L-a fel procedez cu alte cuvinte; deci le trec nu numai pe cele ce le-am găsit, ci şi pe cele similare sau care au legătură... cât de cât... şi care ar putea să apară mai târziu în text
     După asta rulez fişierul prin AutoCorect şi fac modificările.

     Între timp mai fac ceva la calculator sau nu... şi când am poftă, o iau de la capăt şi iar deschid toate fişierele alea... doar că acum sunt mai puţine cuvinte cu probleme... şi reiau ceea ce am spus mai sus. Pare o muncă de OP, dar atunci când lucrăm la o serie de cărţi cu aceleaşi caracteristici este multă muncă la primul volum, în schimb la celelalte corectura zboară...
     Practic nu am nicio grabă şi nu lucrez dacă nu-mi mai face plăcere.

     Am urcat PDF-urile din imagini, deci cine se grăbeşte - poate citi aceste pdf-uri, aşa că nu cred că stă cineva cu respiraţia tăiată în aşteptarea cărţii-text... Deci, n-am grabă...

     Pentru mine, faptul că tu poţi rezolva problema ca aceste dicţionare să fie rulate cu o singură comandă este mult mai important decât editarea lor... pentru că editarea o fac o singură dată, dar rularea trebuie făcută de multe ori.

     Am să stabilesc cât de repede câte dicţionare sunt necesare şi care vor fi numele lor.
     Iniţial voiam ca ele să aibă nume foarte scurte, ca să scrii mai uşor comenzile; mi-am dat seama între timp, că numele dicţionarului trebuie să conţină şi oarece informaţie despre conţinut, ca să fie mai uşor la reeditare; aşa că nu vor mai purta numele de R1... R9...
     Îţi voi da mai mult de muncă, dar le voi da nişte nume mai lungi...
     
     Încă o dată, mii de mulţumiri pentru oferta de a scana textul! Sincer, nu e nevoie de asta. Dacă mi-ar fi cu adevărat greu să fac dicţionarele, fii sigur că mai direct sau mai voalat aş recunoaşte acest lucru şi aş beneficia de oferta ta.
     Toată stima!
     Seven

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am inteles.

Intre timp am mai lucrat la AutoCorect si am facut 3 schimbari:
1. A fost rezolvata o mica problema la punctuatie (mentionata de Menssana);
2. Daca in timpul adaugarii automate de diacritice, corectarii punctuatiei respectiv al conversiei de la clasic la contemporan este momentul sa salveze automat va astepta pina se va termina operatia curenta (inainte salva in timpul corectarii); am primit aceasta sugestie pe PM de la cineva cu calculator mai slab care corecteaza texte foarte mari; as vrea sa stiu opinia voastra despre cat de utila e;
3. A fost implementata o noua functie ce permite asocierea unor grupuri de caractere cu anumite combinatii de taste. Acestea se pot seta in meniul Instrumente >> Combinatii de taste.
Fereastra arata asa:



La setarea sirului de caractere se poate utiliza si functia de inserare simbol:



La ce foloseste: atunci cand utilizezi des un caracter sau un sir de caractere e mai usor cateodata sa folosesti o combinatie de taste - mai ales atunci cand unul sau mai multe din aceste caractere nu e mapat la tastatura.
La setarea sirului de caractere se pot folosi si ^p (paragraf nou), ^s si ^t.
La setarea combinatiei de taste se pot introduce in casuta doar acele combinatii care nu sunt setate deja in Windows.

Astept feedback de la voi pentru a o imbunatati.

Gasiti versiunea noua aici:


pus acum 13 ani
   
menssana1984
Vizitator



Chestia cu amanarea salvarii in timpul corectarii e buna.
Nu m-am gandit la ea, dar ma calca pe nervi cand mi se blocheaza unul din cele 3 meniuri (Punctuatie, Diacritice si Orotgrafie) din cauza salvarii.


pus acum 13 ani
   
menssana1984
Vizitator



Intru-cat AC-ul a ajuns sa indice si zonele de text in care se folosesc tipuri de liniute ce nu ar trebui sa fie acolo, (indiferent ca are dreptate sau nu, e suficient ca le indica) eu recomand scoaterea acelui buton ce permite navigarea printre cratime, emdash-uri si endash-uri.

Odata ce avem la dispozitie si combinatiile de taste de tipul ["Ctrl+ Alt +=" > Emadash] nu mai e necesar acel buton.

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Salutări!

     1. De acord cu menssana: se poate scoate acel buton ce permite navigarea printre cratime, emdash-uri si endash-uri. Sunt multe variante de rezolvare a problemei, aşa că nu mai e nevoie de o opţiune specială.

     2. Privind modificările la AutoCorect...
     Am făcut downloadul versiunii la zi, am testat-o, dar nu am avut timp să fac prea multe probe. Nu-mi dau seama dacă modul de salvare la sfârşitul unei opţiuni este mai utilă decât salvarea în timpul procesării opţiunii. [Din fericire de vreo două-trei luni am şi eu un calculator în locul vechiului abac... aşa că nu mai am probleme cu blocarea pe timpul procesării şi nu am văzut diferenţa].
     Chestia cu Combinatii de taste este mai mult decât binevenită. În timp ce lucrez la noile dicţionare îmi este mult mai simplu să stabilesc o scurtătură pe tastatură pentru un grup de semne [de exemplu: m'a] şi apoi, în loc să o retastez semn cu semn, de fiecare dată, să mă folosesc de scurtătură la care mai adaug o literă sau două ca să scriu: m'ai, m'au, m'aţi...
     Probabil, în timp voi descoperi mult mai multe utilizări... asta este una dintre cele care am remarcat-o mai repede.

     3. M-am gândit, am făcut, desfăcut şi refăcut dicţionarele pentru convertirea limbajului interbelic în contemporan.
     În final m-am oprit la 20 de dicţionare. Poate sunt cam multe, dar acest număr permite o organizare mai comodă.
     Acestea sunt:
     V01_AB.imd; V02_CD.imd; V03_EF.imd; V04_GH.imd; V05_IÎ.imd; V06_JK.imd; V07_LM.imd; V08_NO.imd; V09_PR.imd; V10_SŞ.imd; V11_TŢ.imd; V12_UV.imd; V13_XY.imd; V14_Z.imd;
     V15_APS.imd; V16_APL.imd; V17_DES.imd; V18_UNI.imd; V19_PLS1.imd; V20_PLS2.imd

     Lista am urcat-o şi pe mediafire la adresa:

     4. Cosmin, mă gândeam dacă astfel de dicţionare, precum şi cele de tip L1...L4 şi S1...S5, ar putea să fie introduse într-un subfolder special, să zicem "OCR_DIC", subordonat sau nu folderului Dictionare.
     Pare lipsit de importanţă, dar dacă aceste dicţionare rămân în acelaşi loc cu celelalte dicţionare de înlocuire multiplă, pe care fiecare şi le face pentru uzul personal, alegerea dicţionarului de rulat începe să devină dificilă, deoarece apar foarte multe dicţionare în listă la deschidere.
     Dacă e prea complicat, atunci putem crea noi subfoldere în care să ducem dicţionarele .imd personale.

     Stimă tuturor!
     Seven


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
menssana1984
Vizitator



Deci am avut si eu o idee buna cu AC-ul
Adica aia cu combinatiile, nu scoaterea butonului


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am adaugat functia "Convertire limbaj interbelic in contemporan" in meniu.
De asemenea am setat ca toate dictionarele pentru aceste functii sa fie incarcate din folderul "OCR_DIC".


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Cosmin,
     Pur şi simplu nu ştiu cum să-mi exprim bucuria!...
     Am făcut download la această ultimă variantă şi a picat la momentul potrivit, pentru că tocmai voiam să rulez dicţionarele, astfel că am putut s-o testez la cald.
     Funcţia asta m-a lăsat fără grai.

     Nu ştiu cât de mult ai lucrat tu, dar a meritat, pentru că rezultatele sunt minunate.
     Practic făceam 60 de paşi ca să rulez cele 20 de dicţionare... şi trecea şi o grămadă de timp...
     În acest moment, toate aceste dicţionare sunt rulate dintr-o singură comandă iar timpul de rulare este extrem de scurt.
     Mulţumesc foarte-foarte mult!

     Acum, AutoCorectul ne scuteşte de foarte multă muncă; nici nu-mi pot imagina cum ar fi dacă el n-ar exista sau dacă eu nu aş şti de existenţa lui...
     Încă o dată, mii de mulţumiri!
     Aţi făcut un program minunat!

     Cu stimă,
     Seven       


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Cu placere...

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
lucifer76
Membru Junior

Inregistrat: acum 14 ani
De putin timp, lucrez si eu la un dictionar de inlocuire multipla. In timpul corectarii dupa o scanare, am intalnit extrem de des eroarea folosirii unor litere mari dupa ? si !. Ca in exemplu: "- Haide! Zise el.". "! Zise" il adaug in dictionar sa fie inlocuit de "! zise". Cu versiunea de dictionar la care am ajuns, am intalnit la o carte de 450 de pagini peste 300 de inlocuiri, care daca erau facute manual dura extrem de mult.Nu are multe expresii adaugate, dar mai adaug pe parcurs, in timp ce corectez si dau de erori.

pus acum 13 ani
   
menssana1984
Vizitator



Autocorect, nu prea cred ca ar avea "faptasii" ceva impotriva.

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
lucifer76
Membru Junior

Inregistrat: acum 14 ani
Ce as mai vrea, tabela de diacritice sa functioneze peste tot. Adica daca sunt in fereastra de search/replace, sa pot sa aleg si un element din tabela diacritice.

Modificat de lucifer76 (acum 13 ani)


pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
@lucifer76 la ce ai mentionat anterior - eroarea folosirii unor litere mari dupa ? si ! - daca e vorba de punctuatia din AutoCorect care le face majuscule, poti bifa Instrumente >> Configurare >> Punctuatie >> Documente >> Arata posibilele cazuri de dialog francez ca sugestii.
In acest fel nu le trece in majuscule ci doar le semnaleaza.

In ce priveste tabela de diacritice, da, o combinatie de taste e mai usor de folosit decat sa tot "sari" de la folosirea tastaturii pentru caractere normale la click de mouse si inapoi.


pus acum 13 ani
   
lucifer76
Membru Junior

Inregistrat: acum 14 ani
Mersi de raspuns, dar stiam setarea aceea. Dar ea doar semnaleaza eventualele erori, nu le corecteaza pe cele existente. Am intalnit o carte cu cateva sute de majuscule recunoscute gresit de OCR, banuiesc. Nu ma ajuta cu nimic ca mi le semnala, volumul de munca oricum ramanea enorm.

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

lucifer76 a scris:

De putin timp, lucrez si eu la un dictionar de inlocuire multipla. In timpul corectarii dupa o scanare, am intalnit extrem de des eroarea folosirii unor litere mari dupa ? si !. Ca in exemplu: "- Haide! Zise el.". "! Zise" il adaug in dictionar sa fie inlocuit de "! zise". Cu versiunea de dictionar la care am ajuns, am intalnit la o carte de 450 de pagini peste 300 de inlocuiri, care daca erau facute manual dura extrem de mult.Nu are multe expresii adaugate, dar mai adaug pe parcurs, in timp ce corectez si dau de erori.



   Uite dicţionarul meu de înlocuire multiplă, are 488 de situaţii - mai necesită adăugiri - sper să-ţi folosească.
 

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, deocamdata nu exista posibilitatea trecerii automate din majuscula in litera mica deoarece nu se poate determina cu exactitate ca in acel loc din text e un dialog de tip francez.
Dictionarul de Inlocuire Multipla ajuta in majoritatea cazurilor astfel incat la corectarea manuala ulterioara sa fie un numar cat mai mic de erori de rezolvat.


pus acum 13 ani
   
lucifer76
Membru Junior

Inregistrat: acum 14 ani
@BlankCd, mersi pentru dictionar, e mult mai complet decat al meu, care are doar 98 situatii. Sper sa il mai completez pe al tau.
@ciuperca_cosmin, uita-te putin la dictionarul lui BlankCd, in situatiile descrise, inlocuirea se poate face cu precizie.


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, stiu de dictionarul lui BlankCD, acum ceva timp am incercat sa-l implementez sub forma de cod dar sunt situatii pe care le sare respectiv situatii in care le schimba in litera mica dar nu ar trebui - destul de putine e adevarat dar nu 0.
Ce am vrut sa explic e ca nu exista si nu va exista o modalitate de a corecta aceste situatii 100% ci numai una care sa corecteze bine majoritatea.
Daca se doreste asta se va putea implementa acest dictionar de exemplu la optiunile post OCR din meniul Editare dar nu va putea fi implementat ca o functie la punctuatie.


pus acum 13 ani
   
lucifer76
Membru Junior

Inregistrat: acum 14 ani
Oricum, munca voastra e extraordinara. Usureaza corectarea enorm.

pus acum 13 ani
   
menssana1984
Vizitator



Asta era si ideea Cosmin. Un dictionar care sa micsoreze grosul greselilor si prin urmare sa usureze munca corectorului. Evident ca nu poate fi pus in cadrul punctuatiei ce se bazeaza pe reguli gramaticale fixe.

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, asta e ideea.
Deci daca BlankCD doreste sa fie pus dictionarul ca functie in acel meniu (asa cum am facut si la dictionarele lui Seven), eu nu vad nicio problema...


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Prinsei niţel timp liber şi mă gândii să încerc noile opţiuni care s-au implementat.
     Am instalat decărcat programul din pagina 1 a acestui topic, am urmat întocmai instrucţiunile de instalare, am dus dicţionarele lui Seven în aceeaşi locaţie cum se spune acolo.
     
     Probleme [cred că sunt numai la mine]:

     1. Submeniul "Corectarea literei L mic, reprodusă eronat ca 1, ! şi I - nu încarcă dicţionarul, apare fereastra de eroare care spune: "Dicţionarul L1.imd nu poate fi deschis".
     2. Submeniul "Corectare cuvinte foarte scurte reproduse eronat - nu încarcă dicţionarul, apare fereastra de eroare care spune: "Dicţionarul S1.imd nu poate fi deschis".
      Celelalte submeniuri merg. La meniurile cu probleme - cele 2 menţionate - am putut rula dicţionarele, în mod clasic prin meniul "Înlocuire multiplă".
      Am rulat dicţionarele lui Seven şi dicţionarul meu pe OCR-ul de la Theofano, împărăteasa Bizanţului [vreo 400 pagini], şi am avut aceeaşi problemă care datează de mai bine de un an: blocarea AutoCorectului mai ales atunci când salvează... stă minute bune [2-4-5-6 minute]... se gândeşte... şi într-un sfârşit termină ce avea de salvat, deşi de multe ori nu are de salvat decât 20-30 modificări. Blocarea se face numai în AutoCorect, celelalte programe deschise merg, nu sunt blocate, dacă opresc toate programele şi rulez exclusiv AutoCorectul face la fel adică salvează greu, iar uneori se blochează de-a binelea.
      Este posibil ca acest "bug" să fie din cauza platformei pe care rulează AutoCorectul?



      Despre dicţionarul pe care l-am pus anterior pot spune că acoperă cam 70% din ceea ce ar trebui el să corecteze/modifice, nu este complet... lucifer76 se ocupă să actualizeze acest dicţionar.

      1. Câteva adăugiri la acel dicţionar [Estimez că ar mai trebui circa 50-60 de noi introduceri de acest tip]:

      - din "! Vorbi" în "! vorbi"
      - din "? Vorbi" în "? vorbi"
      - din "! Îi vorbi" în "! îi vorbi"
      - din "? Îi vorbi" în "? îi vorbi"
      - din "! Îi zise" în "! îi zise"
      - din "? Îi zise" în "? îi zise"
      - din "! Îi ziseră" în "! îi ziseră"
      - din "? Îi ziseră" în "? îi ziseră"
      - din "! Îi ziserăm" în "! îi ziserăm"
      - din "? Îi ziserăm" în "? îi ziserăm"
      - din "! Îl auzi" în "! îl auzi"
      - din "? Îl auzi" în "? îl auzi"
      - din "! O întrebase" în "! o întrebase"
      - din "? O întrebase" în "? o întrebase"
      - din "! Imită" în "! imită"
      - din "? Imită" în "? imită"
      - din "! Imita" în "! imita"
      - din "? Imita" în "? imita"
      - din "! Imitarăm" în "! imitarăm"
      - din "? Imitarăm" în "? imitarăm"
      - din "! Imitară" în "! imitară"
      - din "? Imitară" în "? imitară"
      - din "! Îi imită" în "! îi imită"
      - din "? Îi imită" în "? îi imită"
      - din "! Îi imita" în "! îi imita"
      - din "? Îi imita" în "? îi imita"
      - din "! Îi imitarăm" în "! Îi imitarăm"
      - din "? Îi imitarăm" în "? Îi imitarăm"
      - din "! Îi imitară" în "! îi imitară"
      - din "? Îi imitară" în "? îi imitară"
      - cred că ar mai fi câteva de adăugat


      2. Mai sunt situaţii în care apare necesitatea înlocuirii... Situaţii care apar frecvent în poveştile de copii, în cărţile fantasy, dar nu numai:
       Acestea ar fi:

      "- Cip ciripppp! Ciripi vrăbiuţa săltăreaţă îndepărtându-se de firimitură."

        ar trebui modificat din "! Ciripi" în "! ciripi" ca să arate aşa:

      "- Cip ciripppp! ciripi vrăbiuţa săltăreaţă îndepărtându-se de firimitură."

      Alte situaţii similare adaptate prin prisma animalelor: "- Muuu muuu! Mugi vaca." sau "- Beee beee! Behăi oaia..." etc. etc. şi alte asemenea.
      Nota Bene: aceste situaţii nu se întâlnesc exclusiv în cărţile pentru copii. Exemplu:
      "- Cip ciripppp! Ciripi prinţesa - imitând vrăbiuţa care avea cuibul lângă bancă - dând semnalul că totul este gata."



      Odată cu multitudinea de înlocuiri vor apărea - inerent de altfel - şi erorile. Cu cât numărul înlocuirilor multiple este mai mare cu atât cresc şi erorile proporţional.
      Exemplu:

      "Merseră apoi pe malul râului. Generalul conducea trupa cu severitate, dădea ordine sigure... mergeam mereu. Mereu înainte! Ordonă apoi oprirea trupei pentru cazare şi masa de seară."

      După rularea dicţionarelor vom avea aşa:

      "Merseră apoi pe malul râului. Generalul conducea trupa cu severitate, dădea ordine sigure... mergeam mereu. Mereu înainte! ordonă apoi oprirea trupei pentru cazare şi masa de seară."

      Se observă că "! ordonă" este înlocuit în mod eronat!!

      Propunerea mea ar fi - evident dacă poate fi implementată - ca imediat după rularea dicţionarului meu [adică dicţionarul pe care l-am postat pentru lucifer76], să apară o fereastră de tip: "Corectează/modifică înlocuirile eronate din text ca urmare a rulării dicţionarului...". Această fereastră ar trebui să modifice - obligatoriu cu confirmare - ca acolo unde după semnul întrebării şi/sau exclamării apare LITERĂ MICĂ să fie înlocuită cu Literă MARE, dar ATENŢIE!! numai acolo unde paragraful NU începe cu "marcaj de sfârşit de paragraf""linie de dialog" - linie de dialog care poate fi de tip EmDash, EnDash şi Horizontal Bar.
      Adică fereastra să "acţioneze" exclusiv asupra paragrafelor care nu au linie de dialog la începutul paragrafelor.


      Altă propunere ar fi ca meniul actual "Corectare automată după OCR"  [cu excepţia submeniului "Conversie limbaj interbelic în contemporan"] adică dicţionarele lui Seven aflate in arhiva: Dictionare IMD L1-L3, S1-S4 PLUS - 2011.09.30, plus dicţionarul meu, să aibă căsuţe de bifare, ele să fie bifate ca default, şi să aibe un buton "Rulare dicţionare bifate". Acest buton va rula dicţionarele aşa cum sunt ele în meniu - cronologic - dar ultimul să ruleze dicţionarul meu. [pentru a evita erorile]

      De asemenea ar trebui implementat un meniu privind înlocuirea "liniilor de dialog", adică în primă fază, după rularea dicţionarelor de mai sus, toate liniile de dialog de tip EnDash şi Horizontal Bar - şi cratima, NU CRATIMA SIMPLĂ, ci în configuraţia "marcaj de sfârşit de paragraf""cratima""spaţiu" - să fie convertite în EmDash urmate obligatoriu de "spaţiu neseparator", evident precedate de "marcaj de sfârşit de paragraf". Adică "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator".>
     
      [!!!] După rularea tuturor dicţionarelor vom avea "marcaj de sfârşit de paragraf" "linie de dialog" urmată de "spaţiu neseparator" adică: "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator".
      Acum să ne închipuim că nu ne place "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator" şi vrem să înlocuim cu "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator" sau "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator". Ar trebui să avem un meniu cu bifare - ca să ştie din ce linie de dialog să facă înlocuirea:

                - din "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator" în "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator"
                - din "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator" în "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator"
                - din "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator" în "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator"
                - din "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator" în "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator"

    ATENŢIE! Aceste 4 meniuri să fie active - adică să poată fi bifate - EXCLUSIV DUPĂ ce s-a făcut rularea dicţionarelor şi avem în text "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator"!! - aşa cum am spus la paragraful de mai sus marcat cu [!!!].

     

     Completare:

       Problema celorlalte linii de tip EmDash, EnDash, Horizontal Bar şi cratima în configuraţia "spaţiu""cratimă""spaţiu" aflate în restul textului NU la începutul paragrafelor. Exemplu:

                  A. - Vom merge pe aici! - spuse locotenentul.
                  B. - Vom merge pe aici? - spuse locotenentul.
                  C. - Vom merge pe aici - spuse locotenentul - este mai sigur.
                  D. - Vom merge pe aici! - spuse locotenentul. Este bine să mergem pe drumul castelului - adică acelaşi castel unde rămăsese fără cal acum 2 ani - deoarece vom susţine, dacă vom fi întrebaţi ce este cu noi, că suntem oamenii regelui. Bine că suntem aproape - de parcă ar fi contat -, şi vom dormi.

         Eu nu agreez situaţia în care linia de pauză, care în text poate fi de tip: EmDash, EnDash, Horizontal Bar şi cratima în configuraţia "spaţiu""cratimă""spaţiu", este pusă în paragrafele care încep cu linie de dialog. Ar trebui păstrată linia de pauză doar în interiorul textului.
         Ar trebui un meniu cu bifare individuală, adică să permită bifarea numai a unuia singur, care să modifice această linie de pauză într-o linie de pauză care ne convine, adică:

                     - înlocuieşte toate liniile de pauză [EnDash, Horizontal Bar şi cratima în configuraţia "spaţiu""cratimă""spaţiu"] - cu excepţia celor puse ca linie de dialog ["marcaj sfârşit de paragraf""linie dialog"] în EmDash.
                     - înlocuieşte toate liniile de pauză [EmDash, Horizontal Bar şi cratima în configuraţia "spaţiu""cratimă""spaţiu"] - cu excepţia celor puse ca linie de dialog ["marcaj sfârşit de paragraf""linie dialog"] în EnDash.
                     - înlocuieşte toate liniile de pauză [EmDash, EnDash, şi cratima în configuraţia "spaţiu""cratimă""spaţiu"] - cu excepţia celor puse ca linie de dialog ["marcaj sfârşit de paragraf""linie dialog"] în Horizontal Bar .         
     
        Un meniu care să permită bifarea numai al unuia din cele 2 submeniuri:
       
        1. Submeniu care să elimine linia de pauză, aflată în dialoguri. Adică să înlocuiască linia de pauză [EmDash, EnDash, Horizontal Bar şi cratima] precedată şi urmată de spaţiu, adică: "spaţiu""linie de pauză""spaţiu" cu "virgulă""spaţiu". Dar ATENŢIE! înlocuirea să se facă EXCLUSIV la paragrafele care încep cu linie de dialog şi se încheie cu semnul de punctuaţie "punct" [.] de la sfârşitul primei propoziţii din paragraf!! [VEZI POZIŢIA D]
         Textul ar trebui să arate aşa:

                  A. - Vom merge pe aici!, spuse locotenentul.
                  B. - Vom merge pe aici?, spuse locotenentul.
                  C. - Vom merge pe aici, spuse locotenentul, este mai sigur.
                  D. - Vom merge pe aici!, spuse locotenentul. Este bine să mergem pe drumul castelului - adică acelaşi castel unde rămăsese fără cal acum 2 ani - deoarece vom susţine, dacă vom fi întrebaţi ce este cu noi, că suntem oamenii regelui. Bine că suntem aproape - de parcă ar fi contat -, şi vom dormi.
         
         Am evidenţiat unde sunt probleme. La punctul C este corect înlocuit. La punctul D, propoziţia a doua [liniile de pauză de culoare albă] liniile de pauză sunt ok.
         Acum ar trebui rulat un dicţionar-automat care să elimine virgula de după semnul de exclamare/întrebare, adică din "!," în "!" şi din "?," în "?"
         Textul ar trebui să arate aşa:

                  A. - Vom merge pe aici! spuse locotenentul.
                  B. - Vom merge pe aici? spuse locotenentul.
                  C. - Vom merge pe aici, spuse locotenentul, este mai sigur.
                  D. - Vom merge pe aici! spuse locotenentul. Este bine să mergem pe drumul castelului - adică acelaşi castel unde rămăsese fără cal acum 2 ani - deoarece vom susţine, dacă vom fi întrebaţi ce este cu noi, că suntem oamenii regelui. Bine că suntem aproape - de parcă ar fi contat -, şi vom dormi.

         A rămas evidenţiat doar "linie de pauză""virgulă", un dicţionar ar trebui să facă înlocuirile, adică:
                    - din "spaţiu""linie de pauză""virgulă""spaţiu" în "virgulă""spaţiu"

         
        2. Submeniu care va elimina TOATE liniile de pauză din text - cu excepţia liniilor de dialog - adică: [ar fi util pentru cei ce citesc pe e-readere cu diagonala mică şi au nevoie spaţiu de a beneficia de lăţimea textului.]
                     - din "!""spaţiu""linie de pauză""spaţiu" în "!""spaţiu"
                     - din "?""spaţiu""linie de pauză""spaţiu" în "?""spaţiu"
                     - din "spaţiu""linie de pauză""spaţiu" în "virgulă""spaţiu"
                     - din "spaţiu""linie de pauză""virgulă""spaţiu" în "virgulă""spaţiu"

     



         Acum problema ghilimelelor deschise şi neînchise sau închise şi nedeschise care se găsesc inerent în orice text:

    1. După conversia tuturor ghilimelelor în acelaşi tip de ghilimele, ar trebui ca programul să coloreze cu roşu sau să marcheze cu culoare de fond unde se află ghilimelele. Lucrul acesta va ajuta la corectare atenţionându-ne că este posibil să fie ghilimele deschise şi neînchise sau închise şi nedeschise şi necesită confruntarea cu pdf-ul de control.
    2. Tot aici ar trebui corectate erorile cauzate de ghilimelele deschise care sunt convertite de OCR ca fiind virgule duble.
     Exemplu:

      - Să stai aici! spuse călătorul îndreptându-se spre hanul,, Tower!"

      Ar trebui să corecteze aşa: înlocuieşte <litera><,,><pauză><literă>

     cu

     <litera><pauză><ghilimele deschise><litera>



    @ciuperca_cosmin

   
      Poţi implementa dicţionarul meu în programul vostru.
      Nu am talent în a explica, dar sper că am fost destul de explicit în ceea ce am spus mai sus.
      Cred că mai era ceva de implementat dar acum chiar nu îmi pot aminti...

     L.E.: Înlocuirea punctelor de suspensie: ... cu caracterul elipsis orizontal.
     L.E.2: Poate reuşiţi să faceţi ca AutoCorectul să aibă o interfaţă mai modernă, un look mai atrăgător, aşa cum arată acum pare demodat, arată ca o Cenuşăreasă. Dar o Cenuşăreasă care ştie multe dar nu prea o arată.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Multumesc, BlankCD.

1 si 2: ai pus toate dictionarele, inclusiv L*.imd si S*.imd in folderul "c:\Documents and Settings\Nume_user\Application Data\AutoCorect Contemporan\Dictionare\OCR_DIC"?
Atentie, unele din aceste nume de foldere pot fi de fapt scurtaturi catre alte foldere in Win 7/Vista.
Dar daca navighezi cu dublu clic prin fiecare in final vei ajunge la "destinatie" (chiar daca va pare a fi alt folder, ca de pilda in "C:\Users\...").

Referitor la salvarea inceata a AutoCorect: nu depinde de numarul de modificari pe care le are de salvat ci numai si numai de marimea fisierului, numarul de formatari si puterea calculatorului.
Asta pentru ca salveaza tot fisierul de la cap la coada. O implementare de salvare a doar ce a modificat nu e recomandabila si e oricum foarte greu de implementat...
Cu cat e mai mare si cu cat are mai multe formatari va salva mai greu; la un moment dat se poate ajunge chiar si la situatia sa ramana fara Ram fizic la fisiere mari si cu multe formatari - si atunci chiar "pare" ca se blocheaza.

Multumim pentru sugestii, o sa discut cu Dan despre ele.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

ciuperca_cosmin a scris:

Multumesc, BlankCD.

1 si 2: ai pus toate dictionarele, inclusiv L*.imd si S*.imd in folderul "c:\Documents and Settings\Nume_user\Application Data\AutoCorect Contemporan\Dictionare\OCR_DIC"?
Atentie, unele din aceste nume de foldere pot fi de fapt scurtaturi catre alte foldere in Win 7/Vista.
Dar daca navighezi cu dublu clic prin fiecare in final vei ajunge la "destinatie" (chiar daca va pare a fi alt folder, ca de pilda in "C:\Users\...".

Referitor la salvarea inceata a AutoCorect: nu depinde de numarul de modificari pe care le are de salvat ci numai si numai de marimea fisierului, numarul de formatari si puterea calculatorului.
Asta pentru ca salveaza tot fisierul de la cap la coada. O implementare de salvare a doar ce a modificat nu e recomandabila si e oricum foarte greu de implementat...
Cu cat e mai mare si cu cat are mai multe formatari va salva mai greu; la un moment dat se poate ajunge chiar si la situatia sa ramana fara Ram fizic la fisiere mari si cu multe formatari - si atunci chiar "pare" ca se blocheaza.

Multumim pentru sugestii, o sa discut cu Dan despre ele.



---> Calea fişierului în PC-ul meu [folosesc Windows XP] este: "c:\Documents and Settings\Nume_utilizator\Application Data\AutoCorect Contemporan\Dictionare". De remarcat că Application Data\AutoCorect Contemporan\ nu apare în PC dar introduc manual calea şi atunci apare întreaga cale c:\Documents and Settings\Nume_utilizator\Application Data\AutoCorect Contemporan\Dictionare.
       Nu arată fişierul pe care-l menţionezi: OCR_DIC - probabil nu este sau nu este instalat.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
OCR_DIC nu este fisier ci folder in care trebuie sa fie bagate toate dictionarele imd folosite la functiile din acel meniu.
Pe o pagina anterioara a acestui thread Seven a cerut asta:

4. Cosmin, mă gândeam dacă astfel de dicţionare, precum şi cele de tip L1...L4 şi S1...S5, ar putea să fie introduse într-un subfolder special, să zicem "OCR_DIC", subordonat sau nu folderului Dictionare.


si am implementat, raspunsul meu fiind:


De asemenea am setat ca toate dictionarele pentru aceste functii sa fie incarcate din folderul "OCR_DIC".


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Am folosit postarea ta de la pagina 7:
     Am adaugat functia "Convertire limbaj interbelic in contemporan" in meniu.
De asemenea am setat ca toate dictionarele pentru aceste functii sa fie incarcate din folderul "OCR_DIC".



     Am descărcat programul de la pagina 1 cu tot cu dicţionare apoi am suprascris dicţionarul pe care l-ai pus la pagina 7.
     Probabil greşesc pe undeva - sunt obosit - o să reistalez din nou AutoCorectul mâine, poate se repară buba!

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Trebuie folosita versiunea de exe de la pagina 7 respectiv dictionarele sa fie puse asa:


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->
   
     @ Cosmin

      Am reinstalat din nou programul, am descarcat prigramul din pagina 1, iar executabilul din postarea ta de la pagina 7. E aceeasi problema.
      Tu in poza ai mult mai multe dictionare decat am eu. Eu nu am folderul OCR_DIC.
      Ti-am atasat aici 4 poze cu situatia:

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, e clar.
In acel folder din "1.Dictionarele aflate in partitia c.JPG" creezi alt folder numit "OCR_DIC" si acolo muti toate dictionarele L1..L4 respectiv S1...S4.
Iar dictionarele ce incep cu V le are Seven, la pagina 7 mi-a dat doar numele lor si le-am creat cu marime 0 pentru a testa.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->
   
    Da acum merge, am aceleasi dictionare pe care le-am pus in atasamentul anterior. Fata de poza ta nu am dictionarele alea care incep cu V. Este corect?
    Intrebare: daca mut in folderul OCR_DIC dictionarul meu ala cu 488 de modificari, programul in recunoaste? Daca da, in ce ordine il ia sau nu poate sa-l ia intrucat nu este in submeniu?

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, e corect.
Nu, nu-l va recunoaste deocamdata deoarece nu e adaugat meniul in exe-le programului.
Ai vreo idee cum sa se numeasca acest meniu?
Un exemplu: "Reparare dialoguri franceze"...


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Ar trebui numit cumva sa fie usor de inteles ce face acel meniu: "Reparare dialoguri franceze" însoţită de explicaţia [posibil într-o fereastră care se deschide atunci când pui cursorul pe meniu]: înlocuieşte literele mari de după semnul exclamării şi al întrebării din "! Spuse" în "! spuse" precum şi altele.
     Nu am idee de o altă denumire care să fie scurtă dar pe care să o înţeleagă şi un corector începător, pentru noi ăştia mai hârşâiţi nu prea contează denumirea pentru că ştim ce face acel meniu.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
E cam greu de facut sa arate "hint" cand te duci cu cursorul deasupra...
Alta sugestie: "Convertire majusculă în minusculă la dialog francez". Ce zici...?

Si la dictionarul care va fi pus in folderul OCR_DIC vei pastra numele "din S in s.imd" sau, o sugestie: "DF.imd" (de la "Dialog francez")?

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


     Poţi pune o explicaţie scrisă cu culoare roşie sau altă culoare, sub denumirea meniului, aşa va atrage atenţia şi va fi citită. Exemplu eu personal: nu prea citesc din prima info-urile acelea scrise cu font mărunţel - mai mult din lene - dar aşa cum ştim cu toţii din contractele bancare, din promoţii la produse etc. ceea ce este scris cu font mărunt este FOARTE important.
    Poţi boteza meniul şi dicţionarul meu cum vrei tu, nu sunt pretenţios.
    Denumirea de "din S in s" vine de la prescurtarea "din ! Spune în ! spune". Aşa mi-a venit mie mai uşor când am făcut dicţionarul acum 1 an de zile.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
menssana1984
Vizitator



E buna si denumirea data de tine Cosmin.
Nu incerca sa faci aceste optiuni prea accesibile pentru ca nu o sa reusesti.
Au pornit de la membrii RI si sunt facute pentru membrii RI. E cam greu de crezut ca altcineva, din afara forumului, o sa doreasca sa aprofundeze aceste lucruri.
In afara de edituri si de cei care lucreaza direct cu ocr-uri si finisarea textelor literare, ceilalti o sa isi prinda urechile.

Nu ar fi o idee rea daca ai obtine sprijinul editurilor de la noi. Sponsori adica.


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Deocamdata am pus denumirea "Convertire majusculă în minusculă la dialog francez". La meniuri daca pui un text pe alt rand va fi considerat de codul programului drept alt meniu si deci va fi o problema daca voi incerca sa pun acel text cu rosu dedesupt. Cand voi gasi o metoda de a scrie o explicatie mai lunga o voi implementa...
Acum va incarca "DF.imd" pus in folderul OCR_DIC la acea locatie.

Intre timp am mai facut mici ajustari la functia "Combinatii de taste", am mutat meniul cu OCR intr-o locatie separata in program (OCR Plus) si am modificat codul sa poata incarca texte cu nume ce contin diacritice atunci cand Windows e setat pe engleza pentru programele nonUnicode:

XP:

Win 7:


Acum lucreaza cu aceste nume in format "Unicode" = le va accesa in orice setare a Windows-ului (nu mai e nevoie sa fie pe romana la locatia din imagini).
De asemenea poate incarca texte din foldere cu nume ce contin diacritice.
In acest fel se poate lucra 100% româneste. Evident, e mai important continutul textului sa fie pe romana si asta deja era implementat dar nu strica nici acestea...
Ca o paranteza, am fi implementat asta mai demult dar pina acum, din motive obiective, nu a fost posibil.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am mai facut o imbunatatire: la Inlocuire Multipla se poate seta "confirmare la inlocuire" pentru fiecare inlocuire in parte.
Daca in dictionarele imd folosite la functiile post OCR (S, L, V, DF) se salveaza aceasta setare la una sau mai multe inlocuiri, la folosirea functiei va intreba in momentul in care gaseste acel(e) sir(uri) de caractere in text.
Exe:


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->
   
     @ciuperca_cosmin

      Referitor la explicaţiile meniurilor şi submeniurilor care necesită lămuriri - nu ştiu dacă poţi implementa - dar poţi pune pentru fiecare meniu o trimitere către helpul programului, de tipul "Detalii aici" adică un link care să ducă exact la pagina de help dedicată meniului respectiv; acolo poţi pune explicaţii lămuritoare indiferent de mărimea lor.
       Am mai pus nişte completări în prima mea postare. Este cam stufos... asta e.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
@BlankCD, am discutat cu Dan despre unele din acele sugestii:


Propunerea mea ar fi - evident dacă poate fi implementată - ca imediat după rularea dicţionarului meu [adică dicţionarul pe care l-am postat pentru lucifer76], să apară o fereastră de tip: "Corectează/modifică înlocuirile eronate din text ca urmare a rulării dicţionarului...". Această fereastră ar trebui să modifice - obligatoriu cu confirmare - ca acolo unde după semnul întrebării şi/sau exclamării apare LITERĂ MICĂ să fie înlocuită cu Literă MARE, dar ATENŢIE!! numai acolo unde paragraful NU începe cu "marcaj de sfârşit de paragraf""linie de dialog" - linie de dialog care poate fi de tip EmDash, EnDash şi Horizontal Bar.
      Adică fereastra să "acţioneze" exclusiv asupra paragrafelor care nu au linie de dialog la începutul paragrafelor.


Nu e asa usor de implementat dar o sa incercam.


Altă propunere ar fi ca meniul actual "Corectare automată după OCR"  [cu excepţia submeniului "Conversie limbaj interbelic în contemporan"] adică dicţionarele lui Seven aflate in arhiva: Dictionare IMD L1-L3, S1-S4 PLUS - 2011.09.30, plus dicţionarul meu, să aibă căsuţe de bifare, ele să fie bifate ca default, şi să aibe un buton "Rulare dicţionare bifate". Acest buton va rula dicţionarele aşa cum sunt ele în meniu - cronologic - dar ultimul să ruleze dicţionarul meu. [pentru a evita erorile]


Cred ca vrei ca toate functiile din acel meniu sa fie rulate deodata, nu?
Acum ceva timp in acest topic s-a discutat daca sa le ruleze pe toate deodata sau sa fie accesabile separat. Le-am facut pe toate impreuna dar dupa ceva discutii s-a ajuns la concluzia sa fie separate. Am muncit sa le fac separat. Acu sa le fac iar impreuna...?
De asta i-am intrebat pe toti atunci in acel moment...
As vrea sa existe un consens general in aceasta privinta - nu e in interesul nimanui ca resursele mele si ale lui Dan, care evident nu sunt nelimitate, sa fie "cheltuite" in zadar refacand acelasi lucru de mai multe ori...


De asemenea ar trebui implementat un meniu privind înlocuirea "liniilor de dialog", adică în primă fază, după rularea dicţionarelor de mai sus, toate liniile de dialog de tip EnDash şi Horizontal Bar - şi cratima, NU CRATIMA SIMPLĂ, ci în configuraţia "marcaj de sfârşit de paragraf""cratima""spaţiu" - să fie convertite în EmDash urmate obligatoriu de "spaţiu neseparator", evident precedate de "marcaj de sfârşit de paragraf". Adică "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator".>
     
      [!!!] După rularea tuturor dicţionarelor vom avea "marcaj de sfârşit de paragraf" "linie de dialog" urmată de "spaţiu neseparator" adică: "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator".
      Acum să ne închipuim că nu ne place "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator" şi vrem să înlocuim cu "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator" sau "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator". Ar trebui să avem un meniu cu bifare - ca să ştie din ce linie de dialog să facă înlocuirea:

                - din "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator" în "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator"
                - din "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator" în "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator"
                - din "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator" în "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator"
                - din "marcaj de sfârşit de paragraf""Horizontal Bar""spaţiu neseparator" în "marcaj de sfârşit de paragraf""EnDash""spaţiu neseparator"

    ATENŢIE! Aceste 4 meniuri să fie active - adică să poată fi bifate - EXCLUSIV DUPĂ ce s-a făcut rularea dicţionarelor şi avem în text "marcaj de sfârşit de paragraf""EmDash""spaţiu neseparator"!! - aşa cum am spus la paragraful de mai sus marcat cu [!!!].
...
...
...


Da, inteleg dar e aceeasi problema care i-am semnalat-o lui Seven cu cateva pagini in urma: nu exista un standard de folosire a liniutelor si Horizontal Bar. Cred ca ar trebui ajuns la un standard unitar pe acest forum macar.
De curiozitate, cate standarde se folosesc pe acest forum? 2 sau mai multe?
As vrea sa aud si opinia altora in aceasta privinta, din moment ce aceasta functie, daca va fi implementata, va fi utilizata de toti.
Cand se ajunge la un consens vom implementa o functie care sa multumeasca pe toti.



    1. După conversia tuturor ghilimelelor în acelaşi tip de ghilimele, ar trebui ca programul să coloreze cu roşu sau să marcheze cu culoare de fond unde se află ghilimelele. Lucrul acesta va ajuta la corectare atenţionându-ne că este posibil să fie ghilimele deschise şi neînchise sau închise şi nedeschise şi necesită confruntarea cu pdf-ul de control.


Sa inteleg ca vrei o schimbare de culoare. Da, asta nu e asa de greu de implementat dar va trebui sa fac si cod ce scoate culoarea (si asta e mai dificil) sau o vei scoate tu singur.


2. Tot aici ar trebui corectate erorile cauzate de ghilimelele deschise care sunt convertite de OCR ca fiind virgule duble.
     Exemplu:

      - Să stai aici! spuse călătorul îndreptându-se spre hanul,, Tower!"

      Ar trebui să corecteze aşa: înlocuieşte <litera><,,><pauză><literă>

     cu

     <litera><pauză><ghilimele deschise><litera>


Si asta ar putea fi implementata...


L.E.: Înlocuirea punctelor de suspensie: ... cu caracterul elipsis orizontal.


Si asta se poate face, desi vizual nu va fi nicio diferenta...


L.E.2: Poate reuşiţi să faceţi ca AutoCorectul să aibă o interfaţă mai modernă, un look mai atrăgător, aşa cum arată acum pare demodat, arată ca o Cenuşăreasă. Dar o Cenuşăreasă care ştie multe dar nu prea o arată.


Da, stiu, dar e mult de munca la asa ceva, practic ar trebui refacut de la 0. Acu ce preferi, sa ne canalizam eforturile sa-l facem sa mearga mai bine sau sa arate mai bine - ca e dificil sa le facem pe amandoua...?


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

    Din perspectiva mea, a utilizatorului, ideal ar fi un program care să fie adaptabil fiecărui utilizator, prin prisma meniurilor/submeniurilor care pot fi bifate de fiecare cum doreşte şi rulate prin butonul "Rulare dicţionare bifate", care să le ruleze cronologic numai pe acelea care sunt bifate. Pentru un OCR oricum trebuiesc rulate OBLIGATORIU TOATE dicţionarele, problema se pune la apariţia sau evitarea erorilor, mai exact la felul cum utilizatorul rulează dicţionarele, dacă le rulează haotic şi pe "sărite" - şi nu într-o anumită ordine-cronologie - există şanse mari să apară erori nedorite.
    Prin butonul "Rulare dicţionare bifate" se vor rula fie numai un dicţionar, fie jumătate, fie toate - utilizatorul să poate seta ce doreşte.
   
     Acum problema liniilor de dialog. Ai spus aşa:
     "Da, inteleg dar e aceeasi problema care i-am semnalat-o lui Seven cu cateva pagini in urma: nu exista un standard de folosire a liniutelor si Horizontal Bar. Cred ca ar trebui ajuns la un standard unitar pe acest forum macar.
De curiozitate, cate standarde se folosesc pe acest forum? 2 sau mai multe?
As vrea sa aud si opinia altora in aceasta privinta, din moment ce aceasta functie, daca va fi implementata, va fi utilizata de toti.
Cand se ajunge la un consens vom implementa o functie care sa multumeasca pe toti."

      Liniile de dialog ca de altfel şi liniile de pauză sunt folosite oarecum în funcţie de:
          - preferinţele personale ale fiecăruia
          - formatul paginii: atipic, mare, mic etc... Dacă formatul este mic atunci EmDash pare a fi prea mare, atunci se optează pentru EnDash sau Horizontal Bar
          - dispozitivul de pe care se citeşte textul. Exemplu: telefoane mobile, e-readere cu diagonala mică. Toţi care îşi formatează textul pt. aceste dispozitive nu vor folosi EmDash - fiindcă este prea lung şi i-ar încurca datorită ecranului mic de pe care vor citi - ci vor prefera EnDash pentru linia de dialog, care este mai scurtă [va economisi spaţiu la lăţimea textului], iar pentru liniile de pauză fie vor folosi EnDash, fie vor scoate liniile de pauză din text. De aceea spuneam de meniurile cu bifare, pentru ca fiecărui utilizator să-i fie util acest program.
   

      Referitor la culoarea ghilimelelor.... ea va fi scoasă de corector MANUAL, pentru fiecare grup de ghilimele în parte, după ce a verificat cu pdf-ul de control. De asta se şi colorează, ca să atragă atenţia corectorului să verifice atent. După ce a verificat ghilimele respective le corectează dacă este cazul, apoi le colorează conform textului cu culoarea Automat.

      Ceea ce am spus aici şi în postarea cu sugestii nu trebuie luate de voi - programatorii de la AutoCorect - ca lucruri care trebuiesc făcute "Acum şi fără întârziere". Ele reprezintă doar un reper pentru voi, de a vă ajuta cu perfecţionarea acestui program şi posibilitatea de a fi testat pe acest forum. Departe de mine gândul de a vă pune să munciţi degeaba pentru o mână de oameni.
      Look-ul nu mă deranjează în mod deosebit, făcusem acea observaţie doar de a vă impulsiona ca la versiunile viitoare AutoCorect 6.0 sau 7.0 să reuşiţi să implementaţi un look modern.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
menssana1984
Vizitator



Blank, nu putem sa dorim chiar asa de multe de la AC.
In esenta, AC este un procesor de text pentru desktop. Important e sa te ajute sa obtii o formatare unitara. Odata ajuns aici, se poate folosi search and replace dupa bunul plac.


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am modificat functia "Convertire majusculă în minusculă la dialog francez" sa mearga asa cum ai zis:

Adică fereastra să "acţioneze" exclusiv asupra paragrafelor care nu au linie de dialog la începutul paragrafelor.


Mai exact va face intai inlocuirile si pe urma va incepe sa caute si sa intrebe daca sa puna majuscula atunci cand paragraful nu incepe cu liniuta de dialog.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am mai adaugat 3 functii in "OCR plus":
"Convertire virgule duble in ghilimele"
"Marcare ghilimele cu rosu"
"Convertire trei puncte de suspensie in elipsis orizontal"

Exe:


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->
   
     @ ciuperca_cosmin:
     Bună treabă cu meniul OCR_PLUS.
     Am făcut ceva teste cu ultimul executabil făcut de tine acela pus de tine aseară şi este ok. Rog colegii de topic să verifice şi ei şi să spună dacă au avut dificultăţi, erori etc. în a rula acest executabil.

     @ colegi de topic:
     Pentru a vedea ce îmbunătăţiri şi cum merg noile opţiuni-meniuri am făcut ceva teste pe OCR-ul de la Theofano, împărăteasa Bizanţului – este un OCR de nivel mediu, am văzut altele şi mai proaste iar altele mult mai bune. Am pus o arhivă cu 2 OCR-uri, unul brut şi altul pe care am rulat AutoCorectul, asta ca să putem face o comparaţie.

     Paşii urmati în AutoCorect şi cred că cam aşa ar trebui rulat un OCR BRUT ca cronologie – rog colegii de topic dacă văd vreo eroare sau au altă părere să mă corecteze:
          - punctuaţie
          - conversie text clasic in contemporan
          - corectarea majusculelor încorporate
          - repararea rândurilor rupte
          - corectarea literei L mic reprodusă eronat ca 1, ! şi I
          - corectare cuvinte foarte scurte reproduse eronat
          - eliminare spaţii la început de paragraf
          - convertire majusculă în minusculă în dialog francez


     Am câteva adăugiri de făcut, observate după rularea AutoCorectului:

     @lucifer
     Cuvinte care cred că nu sunt în dicţionarul la care lucrezi [când termini acel dicţionar să ne spui ca să facem un update la dicţionar]:
           - din "! O dojeni" în "! o dojeni"
           - din "! O dojeni" în "? o dojeni"
           - din "! Îi zise" în "! îi zise"
           - din "? Îi zise" în "? îi zise"
           - din "! Îl auzi" în "! îl auzi"
           - din "? Îl auzi" în "? îl auzi"

     @Seven
     Mă gândesc că ar trebui făcut un dicţionar separat pt. cuvinte eronate cu confirmare, am început eu cu câteva cuvinte, îl mai poţi completa tu? Mă gândesc că poate îl implementăm în meniul OCR_PLUS
        1. Dicţionar cuvinte eronate care necesită OBLIGATORIU confirmare la înlocuire – mai necesită adăugiri – rog colegii de topic să mai semnaleze astfel de cuvinte:
           - din "lingă" în "lângă"
           - din "Lingă" în "Lângă"
           - din "in" în "în" [in este plantă]
           - din "ci" în "ei" [aici mai este o situaţie unde "ci" este convertit de OCR ca "el"]
           - din "ia" în "la"
           - din "mină" în "mână"
           - din "Mină" în "Mână"
           - din "mina" în mâna"
           - din "Mina" în Mâna"

        2. Poate reuşeşti să adaugi următoarele cuvinte la unul din dicţionarele făcute de tine, pentru rulare automată, dacă nu se poate, atunci facem unul şi îl implementăm în OCR_PLUS, evident dacă ai şi altele este bine:
     Cuvinte eronate care ar trebui înlocuite automat:
          - din "In" în "În"
          - din "rna-ţi" în "m-aţi"

     Seven, în fişierul OCR Trecut prin Autocorect, am evidenţiat cu roşu anumite artefacte în jurul liniilor de dialog, ştiu că tu ai făcut dicţionarul acela cu linii eronate, poate le adaugi şi pe astea. O altă problemă este apostroful mai exact în configuraţia: "spaţiu""apostrof""spaţiu" care ar trebui înlocuit cu "spaţiu" – poate îl pui în acelaşi dicţionar.

     Linii de dialog puse eronat in locul cratimei in cuvinte [ex.: şi—i], ar trebui o completare în dicţionar:
          - din "literă""EmDash""literă" în "literă""cratimă""literă"
          - din "literă""EnDash""literă" în "literă""cratimă""literă"
          - din "literă""Horizontal Bar""literă" în "literă""cratimă""literă"


     Ar mai trebui evidenţiat – similar cu evidenţierea ghilimelelor – apostroful. De multe ori el este convertit greşit drept virgulă, de aceea el trebuie confruntat cu pdf-ul de control.
     Tot evidenţiat ar trebui şi următoarele combinaţii de semne de punctuaţie:
          - "punct""virgulă""punct"
          - "virgulă""punct""punct"
          - "punct""punct""virgulă"
          - "virgulă""punct""virgulă"
          - "virgulă""virgulă""punct"
          - "două puncte""virgulă""virgulă"
          - "virgulă""două puncte""virgulă"
          - "virgulă""virgulă""două puncte"
          - şi multe asemenea combinaţii între "punct","virgulă", "punct şi virgulă", "două puncte" etc.

         @mensanna1984 - te ocupi tu să completezi lista de mai sus, cu ceea ce mai lipsesşte din combinaţiile de mai sus? Inclusiv combinaţii de câte două?


     Altele:
     Rularea Autocorectului pentru OCR-uri duce la erori dacă acesta nu este făcut cum trebuie! Pentru asta ar trebui ca TOATE operaţiunile care ţin de OCR-uri să poată fi accesate din meniul OCR_PLUS şi făcute cronologic-ordonat!!
     Pentru rularea corectă [cronologic], trebuie rulat întâi meniul "Punctuaţie", nu ştiu dacă se poate implementa, dar ar fi bine ca acest meniu să poată fi accesat ŞI din meniul "OCR_PLUS" nu numai din panoul din stânga. El ar trebui pus primul în meniul OCR_PLUS.
     Trebuie spus că dacă se rulează meniul "Punctuaţie" DUPĂ rularea meniului "Convertire majusculă în minusculă în dialog francez" apar erori mari, adică tot ce a făcut meniul "Convertire majusculă în minusculă în dialog francez" este dat peste cap: din "! spune" înlocuieşte cu "! Spune".
     Dacă nu se poate implementa accesarea meniului "Punctuaţie" în "OCR_PLUS", atunci AutoCorectul ar trebui ca după rularea ultimului meniu din "OCR_PLUS", dacă se încearcă corectarea textului prin accesarea butonului "Punctuaţie" din panoul din stânga – atunci să apară o fereastră avertizare care să spună că rularea "Punctaţiei" duce la anularea modificărilor efectuate prin rularea meniului  "Convertire majusculă în minusculă în dialog francez"!!
     Pentru a evita şi alte erori, de exemplu rularea meniului  "Convertire limbaj interbelic în contemporan" [momentan acesta nu funcţionează, nu are dicţionarele] atunci când textul NU este interbelic, aş sugera realizarea unui alt meniu, pus lângă meniul OCR_PLUS intitulat: "Conversie text" care să cuprindă următoarele submeniuri [ordinea este aleatorie]:
          - Convertire limbaj interbelic în contemporan
          - Conversie text clasic în contemporan
          - Conversie diacritice – Ş cu sedilă în diacritice cu virgulă
                                        – Ş cu virgulă în diacritice cu sedilă
          - Scoate diacritice
          - Aplică diacritice
          - Altele…

     Dacă nu este posibil realizarea acestui meniu, atunci ar trebui ca la accesarea meniului "Convertire limbaj interbelic în contemporan" sa apară o fereastră care să atenţioneze că dacă textul nu este interbelic, apar erori. Erori de tipul înlocuirii apostrofului cu cratima la anumite cuvinte unde nu este necesar.

     Sigur au mai rămas multe de spus dar deocamdată ajunge.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
Pagini:  1 2 3 4 5 ... 13  

Mergi la