Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
grecoaica la Simpatie.ro
Femeie
22 ani
Dambovita
cauta Barbat
22 - 45 ani
Forum Romania Inedit / Totul despre cărți - About e-books / AutoCorect OCR Plus - continuare discuţii Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini:  1 2 3 4 ... 5
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Dupa cum a sugerat Seven am creat acest topic ca sa discutam setarile de punctuatie la OCR Plus.

Referitor la acestea Seven a zis:



      Setări punctuaţie OCR_Plus


     Revin docamdată cu un singur punct din Setări punctuaţie clasică, deoarece este mai complex şi nu are elementele componente la vedere.
     Este vorba de primul punct din Setări punctuaţie clasică, „Aplică principiile de bază ale punctuaţiei”.
     Această opţiune-setare rezolvă următoarele probleme:

     1. Scoate spaţile de la sfârşitul paragrafului;
     2. Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă
constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului);

     3. Spaţiu înainte de paranteza deschisă ( [ {
     4. Spaţiu după paranteza închisă ) ] }
     5. Scoate spaţiu după paranteza deschisă ( [ {
     6. Scoate spaţiu înainte de paranteza închisă ) ] }
     7. Scoate repetare ; : ,
     8. Scoate spaţiu dinainte , . ;
     9. Scoate spaţiu înainte de ? !
     10. Pune spaţiu după virgula
     11. Pune spaţiu după punct
     12. Pune spaţiu după ; ! ?
     13. Scoate spaţiu dintre combinaţiile de ? şi !


    Propunere:
          ? a. Se elimină opţiunea „2. Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului)”, deoarece problema este rezolvată în mod special în opţiunile OCR_Plus

          ? b. Se completează poziţia 13 sau se introduce un nou punct cu următorul rol:
     13’. Scoate spaţiu dintre combinaţiile de ?... şi !...

      Dacă suntem de acord cu acest punct, putem merge mai departe cu „Configurare PUNCTUAŢIE OCR_Plus [V0.3]”


a. Da, cred ca se poate elimina.
b. Personal n-am vazut astfel de cazuri dar cred ca se poate implementa un 13'


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Pare ok.

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Acum să clarificăm câteva probleme:

              1. Ordinea setărilor este aceeaşi cu ordinea de rulare a opţiunilor din Punctuaţie?
       Bănuiesc că da.
       În acest caz, poate ar fi bine să le facem în ordinea următoare:
            - mai întâi convertiri de caractere: Elipsis, apostrof românesc, ghilimele româneşti etc.
            - apoi adăugare de spaţii înaintea sau după unele semne de punctuaţie, după caz.
            - în final scoatere de spaţii din faţa sau după unele semne de punctuaţie.

       De ce spun acest lucru?
       Presupunem că mai întâi rezolvăm cu scoatere şi introducere spaţii înainte şi după paranteze şi ghilimele şi deci eliminăm spaţiile înaintea parantezelor şi ghilimelelor de închidere. Dacă după ce rezolvăm acest lucru, venim şi adăugăm spaţiu după punct, semnul exclamării şi semnul întrebării, am putea ajunge în situaţia când avem scris:
       ....text. ]
       ....text. "
adică vom avea din nou spaţiu înainte de închiderea parantezelor şi a ghilimelelor.
       Dacă lucrurile ar putea să se întâmple astfel, atunci este foarte important să stabilim ordinea perfectă în care rulează opţiunile, înainte de a trece la realizarea codului.

              2. Setări ale punctuaţiei dublate
       Sunt câteva setări sau opţiuni în meniul de setări clasice, care apar atât în prima setare „Aplică principiile de bază ale punctuaţiei”, dar şi în plus în mod separat.
       Bănuiesc că asta s-a întâmplat ca urmare a dezvoltării pe parcurs a programului.
       Cred că ar fi mai bine ca aceste dubluri să fie eliminate şi să apară opţiunea o singură dată.
       Personal, mie mi-ar conveni mai mult ca aceste opţiuni să fie vizibile, adică să fie separate; Mi se pare că e mai uşor pentru utilizator să activeze/bifeze o opţiune pe care o vede în clar decât atunci când aceste setări sunt "ascunse" sub genericul „Aplică principiile de bază ale punctuaţiei”.

              3. Setări ale punctuaţiei dublate de opţiuni din OCR_Plus
       O parte din setări ale punctuaţiei sunt imlementate la acest moment în meniul OCR_Plus. Mă refer la convertire puncte de suspensie în Elipsis, Apostrof românesc, Ghilimele româneşti...
       Cum ar fi mai bine să se procedeze?
       O parte dintre cele deja implementate în meniul OCR_Plus să încercăm să le aducem la Punctuaţie şi să eliminăm din meniu sau să le lăsăm acolo unde ele sunt deja implementate?


        În legătură cu grupul de semne de punctuaţue ?... şi !... aceste grupuri apar frecvent în literatura clasică... mai ales literatura clasică franceză, dar nu numai.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
1. Da, este aceeasi.
Cred ca e buna ordinea.
2. Posibil sa fie, sa mi le spui te rog care sunt. Un detaliu: in cod optiunile „Aplică principiile de bază ale punctuaţiei” nu sunt asa de clar separate "vizual" si "logic" de celelalte. De exemplu la unele in anumite situatii merge pe "baza" dar in alte situatii ar merge pe restul. De aceea va pare ca e dublata, desi in realitate merg in situatii diferite.
2(care e 3). Cred ca sunt situatii aparte si trebuie discutate fiecare in parte.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
       1. Am înţeles. Mă mai gândesc la ordine, să vedem dacă mai sunt şi alte situaţii care depind de o condiţie anume, dar în principiu, am înţeles că agreezi ordinea propusă.
       2. Le voi sublinia pe fiecare în parte.
       3. Exact, sunt situaţii care merită o discuţie pentru fiecare în parte. Şi mie mi se pare că unele opţiuni ar trebui să rămână acolo unde sunt, iar altele ar putea fi aduse la Punctuaţie, chiar şi dacă ar fi doar pentru simplificarea meniului OCR_Plus. Mă interesa doar ca principiu, dacă se poate aduce ceva de la meniul OCR_Plus la Punctuaţie.

       4. De verificat: În legătură cu convertirea diferitelor tipuri de apostrof în apostrof românesc, mă interesează dacă s-a făcut şi cod sau a rămas ca această convertire să ruleze în baza dicţionarului S1.imd. Aceasta ar fi una dintre situaţii pe care aş propune s-o mutăm la Punctuaţie.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
3. Da, se pot aduce.
4. Deocamdata nu s-a facut cod dar se poate muta usor la punctuatie (facut cod nu cu dic).

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      M-am gândit ca ar fi mai uşor ca propunerile pentru noul tabel pentru Setări Punctuaţie OCR_Plus să plece de la modificarea vechiului tabel de setări.
      Am transformat fereastra de setări clasie, într-un tabel, astfel încât modificările să fie mai uşor de urmărit.
      Redau mai jos acest tabel, care are şi varianta doc ce va fi urcată pe mediafire.


     Tabel Setare Punctuaţie Clasică

     01. □ Aplică principiile de bază ale punctuaţiei
          a. Scoate spaţile de la sfârşitul paragrafului;
          b Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului);
          c. Spaţiu înainte de paranteza deschisă ( [ {
          d. Spaţiu după paranteza închisă ) ] }
          e. Scoate spaţiu după paranteza deschisă ( [ {
          f. Scoate spaţiu înainte de paranteza închisă ) ] }
          g. Scoate repetare ; : ,
          h. Scoate spaţiu dinainte , . ;
          i. Scoate spaţiu înainte de ? !
          j. Pune spaţiu după virgula
          k. Pune spaţiu după punct
          l. Pune spaţiu după ; ! ?
          m. Scoate spaţiu dintre combinaţiile de ? şi !
     _________________________________________

     02. □ Majusculă la început de propoziţie/frază
     03. □ Majusculă la început de dialog
     04. □  ; : ,  ?  ! de la începutul liniei se mută la sfârşitul liniei precedente
     05. □ Schimbă virgula în punct înainte de liniuţa de dialog
     06. □ Apostrof repetat de 2 ori se transformă în ghilimele
     07. □ Mai mult de 3 puncte se transformă în 3 puncte de suspensie ...
     08. □ Scoate spaţiul înainte de caracterele ! şi ?
     09. □ Adaugă spaţiu înainte de caracterele ! şi ?
     10. □ Scoate spaţiul înainte de caracterul :
     11. □ Adaugă spaţiu înainte de caracterul :
     12. □ Adaugă spaţiu după caracterul :
     13. □ 2 spaţii sau mai multe trec într-unul singur (nu la începutul liniei)
     _________________________________________

     14. □ Adaugă spaţiu înainte de caracterele / şi \
     15. □ Scoate spaţiul înainte de caracterele / şi \
     16. □ Adaugă spaţiu după caracterele / şi \
     17. □ Scoate spaţiul după caracterele / şi \
     18. □ Adaugă spaţiu înainte de caracterele "„
     19. □ Scoate spaţiul după caracterele "„
     20. □ Adaugă spaţiu după caracterul "
     21. □ Scoate spaţiul înainte de caracterul "
     22. □ Converteşte ghilimele obişnuite In ghilimele româneştii
     23. □ Sugerează tipul corect de liniuţă
     24. □ Sugerează scoaterea virgulei înainte de "şi"
     25. □ Arată posibilele cazuri de dialog francez ca sugestii
     _________________________________________


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Plecând de la acest tabel, va trebui să facem modificări, astfel:
         – eliminarea unor opţiuni care nu sunt valabile pentru OCR;
         – modificarea unor opţiuni şi adaptarea lor;
         – propunere de noi opţiuni.

     Încerc să fac propunere de eliminare a unor opţiuni care nu sunt necesare în OCR:

         – 01.b. – Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului);

         – 01.g. – Scoate repetare ; : ,
         Notă: dacă la editarea de documente, repetarea unor astfel de semne apar din cauza apăsării tastei mai mult timp, în OCR ele pot fi erori, dar ţin locul la nişte caractere... o repetare de virgule poate fi în locul punctelor de suspensie etc.

         – 04. □  ; : ,  ?  ! de la începutul liniei se mută la sfârşitul liniei precedente
         Notă: În OCR nu e valabil. Semnele ; : ,  ?  ! la început de rând pot apărea din cauza zonei întunecate a spaţiului dintre pagini. Ele trebuie şterse, dar nu foloseşte trecerea lor la sfârşitul rândului precedent.

         – 05. □ Schimbă virgula în punct înainte de liniuţa de dialog
         Notă: Ar putea fi vorba de linii de pauză şi nu de linii de dialog. Opţiunea ar putea produce efecte secundare nedorite.

         – 09. □ Adaugă spaţiu înainte de caracterele ! şi ?
         – 11. □ Adaugă spaţiu înainte de caracterul :
         Notă: Nu se pune apaţiu înaintea semnelor de punctuaţie care marchează sfârşit de propoziţie, cum ar fi , ; . : ! ?

         – 14. □ Adaugă spaţiu înainte de caracterele / şi \
         – 15. □ Scoate spaţiul înainte de caracterele / şi \ 
         – 16. □ Adaugă spaţiu după caracterele / şi \ 
         – 17. □ Scoate spaţiul după caracterele / şi \ 
         Notă: Caracterele / şi \  nu prezintă interes în OCR de literatură beletristică; în situaţia în care în mod excepţional apar astfel de situaţii, ele vor fi atât de puţine, încât este simplu să fie rezolvate manual. Cărţile tehnice, de regulă, se digitalizează în format imagini şi nu se face OCR. Cele 4 opţiuni consumă cod şi efort de implementare, dar nu rezolvă probleme în OCR.

     Cam acestea ar fi propunerile pentru opţiunile ce trebuiesc eliminate.
     Trebuie să analizăm bine oportunitatea ştergerii lor şi numai după aceea le voi trece în Planul de lucru, ca opţiuni ce trebuiesc eliminate.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am discutat cu Daniel si cred ca pot fi scoase, da.

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Perfect. Deci din punctul de vedere al programării există acceptul, asta înseamnă că tehnic e rezolvabil.
      Este foarte important ca de la utilizatori să avem mai multe păreri pentru ca să nu facem o mişcare pripită, care ar putea fi contestată ulterior.
       
      În acelaşi timp am o propunere pentru colegii de forum:
      E nevoie de mai multe păreri şi mai multe discuţii.
      Mulţi useri mi-au trimis mesaje foarte frumoase în legătură cu munca şi rezultatele obţinute în dezvoltarea AutoCorect şi au subliniat că nu intră în discuţie deoarece consideră că cei ce lucrează în echipa de dezvoltare ştiu ei foarte bine ce au de făcut.
   
      Ei, eu cred că lucrurile nu stau chiar aşa şi că fiecare poate contribui cu o părere, cu o iniţiativă de opţiune, cu o critică...
      Chiar dacă după discuţii este posibil ca unele iniţiative să se dovedească neviabile este foarte important ca să existe cât mai multe păreri.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am adaugat tab OCR Plus si la configurarea punctuatiei din AutoCorect Clasic.
La amandoua am implementat bifele din acel tab (pina acum erau doar vizuale) in codul de la punctuatie.
In plus am si scos optiunile despre care am discutat ultima oara.
Am pus cele 2 exe in topicul principal.

Daca dupa teste nu apar probleme, sugerez sa trecem la urmatoarea etapa: modificarea si adaugarea de alte optiuni.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      N-am apucat să fac download la versiunile din seara asta, aşa că nu am văzut încă ce modificări aţi făcut. Urmează să mă uit un pic mai târziu.
     

      În legătură cu adăugarea de opţiuni, mă interesează dacă este posibil de implementat [deci, acestea nu sunt propuneri de implementare, ci întrebări dacă implementarea e posibilă:

      ■     — Em dash aflată între litere mici se transformă în cratimă; ex: într—o --> într-o
      ■     ~ [tilda] aflată între litere mici se transformă în cratimă; ex: într~o --> într-o
      ■     punct urmat de spaţiu între două cifre se transformă în punct; ex: 25. 000 --> 25.000
      ■     virgulă urmată de spaţiu între două cifre se transformă în virgulă; ex: 725, 00 --> 725,00

       Situaţiile de la punct, respectiv virgulă urmată de spaţiu între cifre, poate apărea de la opţiunile adaugă spaţiu după punct/virgulă...

      Mai am o problemă la care mă gândesc.
      Este vorba de majuscularea la început de paragraf, fără a majuscula paragraful fals care apare la început de pagină, deşi el este în realitate un paragraf care începe la sfârşitul paginii anterioare. Acest fals paragraf apare după numărul de pagină, sau după un rând gol.
      ■     scrierea cu majuscule la început de paragraf, doar dacă paragraful anterior se termină cu literă mică urmată de punct sau literă mică urmată de ? ! ...
      Ideea este să nu se majusculeze începutul de paragraf, dacă paragraful anterior este:
         - paragraf gol;
         - paragraf care conţine cifre sau caractere, altele decât litere.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani

Seven a scris:

În legătură cu adăugarea de opţiuni, mă interesează dacă este posibil de implementat [deci, acestea nu sunt propuneri de implementare, ci întrebări dacă implementarea e posibilă:

      ■     — Em dash aflată între litere mici se transformă în cratimă; ex: într—o --> într-o
      ■     ~ [tilda] aflată între litere mici se transformă în cratimă; ex: într~o --> într-o
      ■     punct urmat de spaţiu între două cifre se transformă în punct; ex: 25. 000 --> 25.000
      ■     virgulă urmată de spaţiu între două cifre se transformă în virgulă; ex: 725, 00 --> 725,00


Da, e posibila.


Seven a scris:

Situaţiile de la punct, respectiv virgulă urmată de spaţiu între cifre, poate apărea de la opţiunile adaugă spaţiu după punct/virgulă...


Nu cred, deoarece codul actual detecteaza ca punctul/virgula se afla intre cifre si nu baga spatiu.
Ca o paranteza: optiunile asa cum ti le-am enumerat nu arata toate conditiile care sunt bagate in ele (ca de exemplu cea prezentata mai sus) - adica acele situatii care sunt considerate exceptie de la regula. Ca sa le descriu in amanunt ar trebui sa scriu ceva pagini...
Despre aceste conditii vorbesc cand spun despre cod ca a fost "cizelat" mult timp pina s-a ajuns la nivelul actual de performanta pe texte obisnuite.


Seven a scris:

Mai am o problemă la care mă gândesc.
      Este vorba de majuscularea la început de paragraf, fără a majuscula paragraful fals care apare la început de pagină, deşi el este în realitate un paragraf care începe la sfârşitul paginii anterioare. Acest fals paragraf apare după numărul de pagină, sau după un rând gol.
      ■     scrierea cu majuscule la început de paragraf, doar dacă paragraful anterior se termină cu literă mică urmată de punct sau literă mică urmată de ? ! ...
      Ideea este să nu se majusculeze începutul de paragraf, dacă paragraful anterior este:
         - paragraf gol;
         - paragraf care conţine cifre sau caractere, altele decât litere.


Poti te rog sa-mi dai exemple pe un text scurt unde nu ar trebui sa majusculeze?


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Chestia cu spaţiu după punct şi după virgulă.
      Este perfect dacă sunt evitate aceste situaţii... şi scuze!... 
      E posibil să mai semnalez şi alte situaţii false...
      Important este ca ele să fie evitate, aşa că le voi semna chiar dacă se va dovedi că ele erau rezolvate de mult timp... dar, mai bine aşa decât să scape ceva.

      Pregătesc un OCR ca fişier ca exemplu pentru problema cu majuscula la început de paragraf şi-l urc în circa 10 minute.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
       Gata. Am urcat pe mediafire un exemplu, un fragment din Ultimul mohican.
       Am marcat cu text roșu primul rând din paragrafele false.
       Nu am prins toate variantele. Cred că e suficient ca să/ți dai seama la ce mă refer.
       Fișier:        Exemplu_UM.doc
       Adresa:   


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Multumesc.
Cred ca se poate implementa.
O intrebare: lungimea paragrafului anterior conteaza?
Conteaza ca e mixt (cifre + alte caractere decat litere)..?


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Lungimea paragrafului anterior: hai să mergem pe cel puţin 2 rânduri;
dacă paragraful ar avea un singur rând ar putea fi un antet rămas neşters [mă refer la nume autor sau titlu carte, ce pot fi tipărite în partea de sus a paginilor];

      Dacă e mixt...
      Aş vrea să evit tot acest antet care poate fi număr de pagină plus nume autor...

      Acum, nu ştiu cum să spun? Dacă paragraful anterioar ar avea cel puţin două rânduri, atunci... poate că nu ar mai conta faptul că apar şi cifre...
      În beletristică apar foarte rar cifre, dar uneori poate fi ocerizată şi o carte de alt gen, care ar putea conţine şi cifre...
      Al vrea şi părerea altora, dacă s-ar putea!....


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Înţeleg că opţiunile 3 şi 4 din imaginea următoare se referă la ghilimele de închidere.
      Am o neclaritate în legătură cu primele două opţiuni.
      Nu înţeleg exact dacă opţiunile se referă la ambele ghilimele [atât cele de deschidere, cât şi cele de închidere] sau e vorba de alte tipuri de ghilimele.


      Dacă în ordine cronologică, mai întâi facem convertirea diferitelor caractere, printre care şi diferitele ghilimele în ghilimele româneşti, atunci practic am putea ca cele 4 opţiuni să se restructureze astfel?
            • Adaugă spaţiu ÎNAINTE de caracterele  « şi  „
            • Elimină spaţiu DUPĂ caracterele  « şi  „
            • Adaugă spaţiu DUPĂ de caracterele  »  şi  ”
            • Elimină spaţiu ÎNAINTE caracterele  »  şi  ”

      Sau mai e ceva în plus... ce n-am înţeles?...

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Ce face AC-ul in cazul in care in text apare:

1987 -1999

O formatiune de genul celei de mai sus, dar cu un spatiu inainte sau dupa cratima.
La textul pe care lucrez acum, am primit multe sugestii de convertire a "-1" in "-I".
Desi situatia e cea de sus.
Nu se poate face o exceptie in cazul in care primul caracter de dinaintea cratimei e un numar?

E vorba de rularea OCr_Plus.

Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
@Seven

La acele optiuni sunt prezentate 3 tipuri de ghilimele.
La 1 si 2 pe langa ghilimelele obisnuite de deschidere am adaugat si alt tip. Am vazut ceva texte in care acestea erau de fapt folosite pe post de deschidere si de aceea le-am pus impreuna.
Probabil la OCR Plus ar trebui scoase si folosite numai cele 2 standard.

A, mi se pare ca am uitat sa mentionez ca la "principiile de baza" prelucreaza si ghilimelele franceze automat (adica pune respectiv scoate spatiu). Deci nu trebuie adaugate optiuni si pentru ele.

@utilitasetveritas

O sa studiez problema.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      utilitasetveritas,
      La întrebarea asta trebuie să răspund eu.
      Sugestiile nu sunt date de un cod, ci de un dicţionar, aşa că eu sunt vinovat pentru asta.
      Acele sugestii ţi le face dicţionarul CO_L3.imd [CL_L3.imd] la rularea opţiunii  4.2.

      Putem modifica, dar aş prefera să nu facem modificarea foarte repede.
      Despre ce e vorba?
      Înainte de a avea multitudinea de opţiuni de la Înlocuiri multiple, în dicţionarele care rezolvau problema cu cifra 1 în loc de L mic, aveam drept condiţie "Cuvânt întreg" şi/sau "Potrivire perfectă".
      Condiţia "Potrivire perfectă" nu era chiar aşa de perfectă, pentru că puteau să mai apară şi modificări nedorite.
      După dezvoltarea ferestrei "Înlocuiri multiple" cu opţiunile pe care le ştii, inclusiv cele cu Cuvânt întreg la un singur capăt, am reorganizat complet dicţionarele, punând în L1 doar cuvinte întregi [deci fără putinţă de eroare], în L2 doar cuvânt întreg la sfârşit şi în L3 doar cuvânt întreg la început.

      Pentru că era fi posibil să mai fi scăpat vreo secvenţă posibilă netrecută în dicţionare, atunci am hotărât să trec în ultimul dicţionar 8 variante de poziţii ale lui 1 şi 0, dar modificările realizându-se doar cu confirmare.

     Practic, dacă dicţionarele sunt corect făcute, atunci toate aceste rulări cu confirmare ar trebui să facă zero modificări.
     Dacă dicţionarele nu sunt complete, atunci ar trebui să apară modificări. Aceste modificări m-ar interesa unde apara, pentru completarea dicţionarelor.

      Acum... ce să spun?
      Deocamdată aş merge încă ceva timp cu această variantă a dicţionarelor. dacă constatăm că nu se fac modificări, atunci ştergem cele 8 înregistrări.
      Tu, utilitasetveritas, cam cum crezi că e mai bine?

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Se pare ca am dat de un efect secundar nedorit al scoaterii acelor optiuni din punctuatie (enumerate cateva postari in urma).
Una din ele transforma "1987 -1999" in "1987 - 1999". Acum, deoarece ramane "1987 -1999", optiunea "Corectarea literelor l, d si m reproduse eronat" intreaba de "-1" daca sa fie transformata in "-l".
O solutie ar fi si sa aducem acea optiune inapoi, partial sau total.

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am reverificat totusi ca sa fiu sigur si se pare ca nu e vorba de acele optiuni.

O alta solutie deci ar fi sa fac un cod care sa introduca un spatiu dupa cratima sau sa scoata spatiul dinainte.


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Daca e prea mult de munca, las-o asa.

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Privind dicţionarul L3:
      Deoarece cred că secvenţele finale posibile sunt înregistrate în totalitate, se pot şterge fără mari probleme din dicţionar 4 înregistrări şi anume:
            - "Caută"  —1  /  -1   şi "înlocuieşte cu"   -l
            - "Caută"  —0  /  -0   şi "înlocuieşte cu"   -o

      Despre un eventual cod:
      Nu sunt foarte sigur, dar după câte îmi amintesc nişte discuţii mai vechi de pe forum, liniuţa dintre date, perioade, numere etc... nu este o cratimă, ci este un En dash...
      Cred că BlankCd sau Aleph a abordat discuţia... îmi pare rău nu prea stăpânesc regulile de editare.... ar fi foarte bine dacă cineva care se ocupă de editare clarifică asta.
       
      Dacă aşa este corect şi liniuţa dintre cifre este un En dash, atunci poate ar fi bine ca în acel cod să se facă şi această modificare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Nu am vazut EnDash folosit asa pe nicaieri.

Oricum inlocuirea nu se face automat.
Am vrut doar sa va atarg atentia ca e semnalizata situatia asta de regula "-I".
Daca s-ar putea ignora, dar cu conditia de mai sus, e ok, daca e prea mult de munca, poate sa ramana asa.
O sa faca nervi celor care o sa prinda texte cu situatii de genul 1999-1000.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      utilitasetveritas,
      Dacă zici că nu ai văzut scrise perioade sau intervale cu En Dash, atunci nu ne complicăm cu el... cel puţin deocamdată.

      Privind dicţionarul: Eu zic să rămână dicţionarul aşa pentru o perioadă.
      Practic, utilizatorul are şi posibilitatea să întreruptă căutarea, dacă nu-i convine să facă această căutare... pe de altă parte nu cred că apar foarte multe situaţii ca cea dată de tine, într-un text de beletristică, aşa că nu ar dura prea mult această căutare. E adevărat, dacă e vorba de o carte de istorie... această căutare poate provoca un pachet de nervi, dar în acest caz, căutarea trebuie întreruptă cu ajutorul butonului "Renunţ".

      Cel mai important pentru mine este să nu rămână vreo situaţie în care cifra 1 este scrisă în locul lui L mic [pentru că e vorba de l < L mic> şi nu de I < i mare>.

      Mult mai plictisitoare sunt modificările cu confirmare de la 12.2 Dicţionare cu variante, pentru că acolo există, de exemplu < ele > se modifică cu < de >; Aceste două cuvinte au o frecvenţă mare într-un text şi căutarea durează foarte mult. M-am gândit ca în viitorul apropiat să încerc să fac o căutare pe grupuri de cuvinte, adică să nu caut pur şi simplu doar un cuvânt "ele" --> "de", ci ceva de genul "ele aceea" --> "de aceea", pentru ca să nu mai caute toate cuvintele...

      Deocamdată avem o problemă... Punctuaţia...  Aşa că să ne ocupăm de ea... şi apoi vedem ce mai trebuie îmbunătăţit.


      LE: Dacă tot a venit vorba despre înlocuiri cu confirmare, cred că e bine să le dăm câteva explicaţii celor ce nu sunt foarte obişnuiţi cu acest tip de înlocuiri.

      Pe timpul rulării dicţionarului de Înlocuiri multiple care conţine înregistrări cu condiţia "Cu confirmare", concomitent cu selectarea în text a cuvântului ce se propune modificării, se deschide fereastra următoare:


      Dacă suntem de acord cu modificarea marcată, acţionăm butonul "Da", iar dacă nu acceptăm modificarea, acţionăm butonul "Nu"; în ambele cazuri, după ce programul execută [nu execută]  modificarea, caută următorul cuvânt propus pentru înlocuire.
      Dacă suntem de acord cu această modificare în toate cazurile din text, acţionăm butonul "Toate".

      Dacă nu dorim ca programul să realizeze căutări şi înlocuiri şi dorim să întrerupem căutarea unui cuvânt acţionăm butonul "Renunţ".  De reţinut faptul, că acţionarea butonului "Renunţ" se face pentru fiecare înregistrare în parte. Acţionarea butonului nu înseamnă că se renunţă la întreaga opţiune, ci doar la căutarea unui cuvânt; după acţionarea butonului, programul întrerupe căutarea cuvântului respectiv şi trece la căutarea următorului cuvânt care are condiţia "Cu confirmare".

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Uite ce a ramas dupa rularea Ocr_Plus si Punctuatia sare peste el.

— Toată viaţa m-au îngrozit furtunile cu trăsnete – -ciudate presimţiri de moarte, înţelegi?


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, se poate face un cod si pentru asta care sa semnalizeze si poate chiar sa corecteze astfel de situatii dar e fezabil sa fie implementat doar daca se intalneste des in texte (obisnuite sau post OCR).

Am discutat nitel cu utilitasetveritas despre optiunea care schimba virgula in punct inainte de liniuta.
Da, rationamentul ca ar putea fi linie de pauza e bun.
Dar totusi, parerea mea e ca virgula si liniuta de pauza nu ar trebui sa fie impreuna (de regula). De ce spun asta - pentru ca in acest context ambele au semnificatii destul de apropiate si anume un fel de pauza care sa "incadreze" o anumita idee. Si nu mi se pare corect sa fie puse doua pauze consecutive pentru a specifica o singura pauza.
Evident, sunt si exceptii de la regula dar nu multe.
La punctuatia OCR Plus probabil ar trebui sa stea totusi scoasa sau dezactivata, din moment ce nu ne apucam sa schimbam modul in care autorii au scris cartile.
Dar la punctuatie obisnuita ar trebui totusi sa existe si chiar sa fie bifata implicit.
Ce parere aveti..?


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Ştiu că ţi cer cam mult - pe chipul inegalabil apăru o expresie curtenitoare, - dar în altcineva nu mă pot încrede.


Rularea punctuatiei normale din ultimul exe, produce o majuscula la cuvantul DAR situat dupa a doua linie de pauza.
Acum am observat faptul ca virgula e situata in interiorul liniei de pauza. Deci e gresit si Cosmin are dreptate. Dar desi e gresit, capitalizarea acelui cuvant e gresita si ea, la fel si transformarea acelei virgule in punct.


Mai devreme m-am contrazis cu Cosmin fara sa observ pozitia acelei virgule.
Ma refeream de fapt la urmatorul caz, pe care il consider corect. Uitati-va la pozitia virgulei.


Ştiu că ţi cer cam mult, - pe chipul inegalabil apăru o expresie curtenitoare - dar în altcineva nu mă pot încrede.


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Ideea e ca sunt cazuri in care utilizatorul pune virgula in loc de punct - fiind taste alaturate pe tastatura. Chiar si eu am patit-o cateodata...
Combinata cu argumentatia mea anterioara despre virgula si liniuta, cred ca acea optiune e utila.
Da, intr-adevar, in cazurile mentionate de utilitasetveritas, nu ar trebui sa puna punct respectiv nu ar trebui sa majusculeze.
Dar e destul de greu pentru un cod de calculator sa-si dea seama ca e de fapt o situatie de doua pauze consecutive, nu de punct scris gresit virgula.

O solutie alternativa ar fi s-o transform in sugestie.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Păi... cum să spun, ca să sune cât mai paşnic şi politicos?...
      Erorile de la editare au motive diferite faţă de erorile OCR, aşa că eu cred că ar trebui să le tratăm puţin diferit, în funcţie de cauză.

      Dacă în redactare multe erori au drept cauză acţionarea de multe ori a unei taste aflată lângă cea corectă şi litera h poate fi tastată în locul literei j, virgula în loc de punct etc., în OCR erorile le dă asemănarea ca formă a unor caractere. În OCR poate apărea litera j în loc de punct şi virgulă şi invers, ceea ce în editare este imposibil, dar e aproape imposibil ca în OCR să apară un h în loc de j.

      Ca să nu producem efecte secundare într-un număr egal sau mai mare decât numărul de corecţii pe care le poate face o opţiune, dar nici să nu-i privăm pe useri de posibilitatea realizării unor corecţii, cred că cel mai bine este să abordăm problema astfel:
      Să implementăm oricâte posibilităţi de setare, dar respectând condiţiile de mai jos.             
             – Setările de la punctuaţie în principal, dar şi unele dintre opţiunile de la OCR plus să permită activarea şi dezactivarea pe bucăţele, astfel încât utilizatorul să aleagă varianta de lucru pe care o consideră cea mai folositoare la un moment dat.
             – Setările să fie pe cât posibil mai puţin complexe şi la vedere [adică pe cât posibil să nu fie "ascunse" sub o setare cu nume generic], astfel încât să se poată activa/dezactiva doar anumite aspecte.

      Concret, să luăm ca exemplu majuscularea la început de frază/propoziţie: dacă vom împărţi această majusculare în două opţiuni:
             – a. Majuscularea în cazul propoziţiilor care încep după punct urmat de spaţiu - pot apărea erori şi aici, dacă s-a recunoscut în mod eronat ca punct, o virgulă cu codiţa mai ştearsă, dar erorile sunt puţine.
             – b. Majuscularea în cazul propoziţiilor care încep după semnele ? ! şi Elipsis. - această opţiune ar trebui să fie iniţial inactivă, pentru că ele nu semnalează totdeauna un sfârşit de frază. Cine nu activează această opţiune, va recurge la corectarea manuală, acolo unde va fi cazul, dar nu va fi nevoit să ruleze opţiunile pentru corectare dialog francez. Cine doreşte să activeze opţiunea, trebuie în mod obligatoriu să ruleze şi opţiunile de corectare dialog francez.

      Practic, opţiunea de majusculare este indispensabil necesară în cazul literei Î, care nu este recunoscută de Abbyy şi este redată ca î sau I. Celelalte litere sunt arareori recunoscute greşit... pot apărea erori la grupul de litere în care majuscula şi minuscula au aceaşi formă şi dimensiuni diferite, dar niciodată Abbyy nu va pune e, r, g, m etc., în loc de E, R, G, M.
      Absolut aceeaşi situaţie apare la început de paragraf.
      În concluzie, majusculând totul, la celelalte litere, altele decât î-Î, vom avea mai multe majusculări eronate decât majusculări corecte.

      Am să revin mai târziu şi cu punctul de vedere al transformării virgulei în punct şi celelalte opţiuni discutate.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Optiunea de majusculare nu este chiar asa de indispensabila.
Punctuatia are optiunea de Dialog Francez ce semnalizeaza absolut toate situatiile de acest gen.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am zis că este indispensabilă doar pentru litera Î. pentru că toate Î mare sunt scrise cu î mic sau I mare, trebuie rezolvată problema cu AC sau macro în Word... E prea prea incomod ca toate modificările să fie făcute manual.
     Pentru celelalte litere, nici eu nu cred că e foarte importantă.
     Dacă se majusculează doar în situaţia în care propoziziţia începe după punct urmat de spaţiu şi nu şi după !, ?, ... urmate de spaţiu, atunci se poate sări peste opţiunea de Dialog Francez.
     Aici, alegerea ipţiunilor este chestia de obişnuinţă. Fiecare consideră că e mai comodă o variantă sau alta.
     În sensul ăsta cred că e bine să punem şi opţiunii care nu au un impact foarte mare ca număr de situaţii de corectat, dar aceste opţiuni să fie cumva grupate astfel încât să le putem observa destul de uşor ca fiind nişte setări opţionale.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      PRIMA PROPUNERE SETĂRI PUNCTUAŢIE:
     
      M-am gândit că primul pachet care ar trebui să RULEZE în Punctuaţie înaintea tututor celorlalte, ar fi CONVERTIRILE unor caractere în alte caractere.

      Aceste convertiri nu depind de rularea alte opţiuni ale Punctuaţiei, în schimb sunt unele dintre opţiuni care, cred că ar rula mai bine dacă aceste convertiri ar fi deja realizate.

      Deocamdată am în vedere convertirile în apostrof românesc, ghilimele româneşti şi Elipsis.
      ■ Convertire orice apostrof în apostrof românesc – Cod 146 [actualmente este Implementat la OCR_Plus – Rulează în dic. S1.imd]

      ■ Convertire două virgule în ghilimele de început – Cod 132 [Implementat la PCR_Plus 2.2]
      ■ Convertire două apostrofuri în ghilimele de sfârşit – Cod 148
      ■ Convertire ghilimele în ghilimele româneşti – Cod 132 şi 148

      ■ Convertire puncte suspensie în Elipsis [Implementat la OCR_Plus 2.1]
      ■ Convertire suplimentară Elipsis [Implementat la OCR_Plus 2.3 - rulează dicţionarul DE.]

      În acest moment ne interesează cel puţin două lucruri:
          1. Dacă sunt alte puncte de vedere privind ordinea de rulare; practic eu mă refer la cronologia rulării şi nu neapărat la locul unde ar apărea ele ca setări.
          2. Unele dintre aceste opţiuni rulează în acest moment în Meniul OCR_Plus, iar două dintre ele [Convertirea în Apostrof românesc şi Convertire suplimentară Elipsis rulează cu dicţionare.
      Se pune problema să analizăm situaţia fiecăreia şi să vedem dacă:
           — e mai bine ca ele să rămână în OCR_Plus sau trebuie rulate în cadrul Punctuaţiei. Practic, rămânerea lor în OCR_Plus ar înseamna că unele ar rula după ce rulează Punctuaţia [Exemplu: convertirea în apostro românesc].
           — e posibil ca cele două convertiri care se facă pe bază de dicţionar să fie implementate cu cod.

      E posibil să mai apară şi alte convertiri pe care nu le-am amintit aici.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, cred ca ar fi mai bine daca ar fi rulate inaintea celorlalte optiuni.
Unele sunt implementate momentan cu dictionare dar pot fi facute cu cod. Avantajul principal al folosirii dictionarelor imd e ca pot fi facute multe inlocuiri per o singura rulare dar in acest caz e vorba doar de inlocuirea a 1..3 caractere in altul. Deci acest avantaj nu e folosit si deci nu e neaparat necesara folosirea acestor imd.
Daca sa fie rulate in cadrul punctuatiei sau separat - nu tin neaparat sa fie rulate in cadrul punctuatiei dar ar fi avantajul mentionat de Seven.
Dar, daca vor fi implementate in punctuatie, intrebarea e: sa fie adaugate la optiunile de baza sau sa aiba bifa separata (si sa fie bifate implicit?)?
In plus poate exista vreo modalitate sa aratam utilizatorului ca acestea vor rula inainte (le punem intr-un cadru/panou cu textul ca acestea vor fi rulate prima data, de exemplu).


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      ■ Cod sau dicţionar:
      La aceste două opţiuni eu înclin pentru cod, deoarece numărul se înregistrări este foarte mic şi practic este limitat, adică e aproape imposibil să mai apară necesitatea înregistrării şi a altor situaţii.

      Pentru a realiza dicţionarul pentru convertirea în apostrof românesc, am cotrobăit prin toate simbolurile posibile şi am găsit un număr de 8 caractere şi răgălii care ar putea fi recunoscute de Abbyy ca apostrof. Mai mult ca sigur doar două-trei dintre ele vor fi puse de Abbyy, dar le-am trecut pe toate pentru orice eventualitate... Cu toate astea, sunt doar 8 situaţii.

      Celălalt dicţionar pentru convertire suplimentară în Elipsis, conţine un număr de 11 sau 12 înregistrări în care, la converirea prin cod în care 3 sau mai multe puncte se transformă în Elipsis, am adăugat combinaţii de puncte şi virgulă în grup de 4 semne în diferite aranjamente.
      Am verificat special numărul de înlocuiri pe care le face acest dicţionar: deoarece marea majoritate a înlocuirilor se face de opţiunea i,plementată prin cod, acestui dicţionar îi rămân de făcut un număr foarte-foarte mic de modificări; efectiv, niciodată nu am văzut să facă mai mult de 10÷15 înlocuiri într-un volum.

     
      ■ Cum să fie evidenţiate în Setări Punctuaţie?
      Am o propunere, dar nu ştiu cum o veţi primi, pentru că este altceva decât ceea ce s-a făcut până acum:
            —  Opţiune separată, dar care să cumuleze toate convertirile de mai sus. Opţiunea poate fi numită "Convertiri, apostrof, ghilimele şi elipsis" sau ceva în genul ăsta.
            —  Opţiunea să fie activă din program, fără posibilitatea de dezactivare. Practic ea trebuie să apară în fereastra de setare doar ca menţiune sau ca informare, fără posibilitatea de dezactivare.

      Dacă acceptaţi ideea de opţiune nedezactivabilă, ar mai fi câteva care se pot face astfel. Practic, o astfel de opţiune, este cumva opusă, deşi are asemănări cu setul "Principiile de bază..."
      "Principiile de bază... " le putem dezactiva, dar nu vedem ce cuprinde; Opţiunea nedezactivabilă ar fi opusul: nu se poate dezactiva, dar ştim ce conţine. 

      ■ Unde să fie pusă opţiunea în fereastra Setări Punctuaţie...
      Cred că cel mai bine ar fi să fie trecută pe prima poziţie, chiar dacă asta înseamnă chiar şi înaintea "Principiilor de bază..."

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Ar merge in mare parte dar nu sunt 100% sigur in privinta nedezactivarii. Pentru unii utilizatori ar parea ciudat ca la configurarea AutoCorect apar optiuni care nu se pot seta/debifa. Adica sa existe optiuni "neconfigurabile" in fereastra de configurare
Ca o idee: ma gandisem si eu mai demult sa fac "Principiile de baza" nedezactivabila. In fond sunt corectari de punctuatie care pentru texte obisnuite teoretic nu ar trebui niciodata dezactivate. Dar m-am gandit mai bine si am decis sa las totusi utilizatorului aceasta posibilitate.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Da, ai dreptate, o opţiune nedezactivabilă nu mai este de fapt o opţiune, ci o obligaţie.
      Ideea cu opţiunea nedezactivabilă mi-a venit de la modul de instalare al unor programe care sunt însoţite de diferite utilitare care se pot dezactiva de la instalare, în timp ce programul principal rămâne activat obligatoriu.
      Da, ai dreptate: toate opţiunile trebuie să permită activarea sau dezactivarea.

      Schimbând subiectul, dar rămânănd în zona lui...
      Insist ca aceste convertiri [şi eventual şi altele dacă vor mai apărea] să fie rulate şi afişate primele, pentru că am constatat nişte probleme legate de ghilimele în ultimul timp.
      Undeva am greşit ceva, pentru că am constatat la ultimul OCR curăţat, că unele dintre ghilimele de închidere aveau spaţii înaintea lor, fapt pentru care "au căzut" şi în loc să fie "sus" şi lipite de text, ele apăreau "jos" cu spaţiu înaintea lor.
      Nu mi-am mai permis să refac rularea AC OCR_Plus, pentru că eram într-un stadiu avansat al corecturii... aşa că nu am insistat să văd care opţiune avea acest efect secundar.

      Cred că e o chestie destul de dificil de rezolvat... datorită imperfecţiunilor OCR.
      Dacă la editare, este clar că toate ghilimele funcţionează în perechi...
      ...la OCR nu putem vorbi mereu de perechi de ghilimele, pentru că e posibil ca unele dintre ele să nu fie recunoscute, deci să nu existe în text, să lipsească... şi atunci, pur şi simplu s-ar putea face decalarea lor, dacă am merge pe principiul împerecherii.

      Nu-mi dau seama cam cum ar trebui să se facă convertirea, dar eu cred că treaba cu ghilimele este una dintre cele mai dificile opţiuni de implementat...
      Pentru asta va trebui să testăm de multe ori şi cu mare atenţie funcţionarea opţiunii după ce aceasta va fi implementată.


      LE:
      Am refăcut OCR de care vorbeam nai sus şi l-am mai analizat, fără a-l prelucra cu AC.
      Este vorba de un text atipic, în care citatele între ghilimele reprezintă mai mult de jumătate din text. Uneori apare text citat în interiorul unui alt citat, dar nu sunt folosite ghilimele de tipul « » ci ghilimele clasice, astfel că uneori se deschid două citate în locuri diferite ale textului [deci, avem de două ori ghilimele de deschidere] şi se închid ambele citate în acelaşi loc [deci, avem o singură închidere la două deschideri].
      Am constatat că nu AutoCorect a creat problemele, ci doar nu le-a rezolvat. [E vorba de executabilul cu prima formă de setări Punctuaţie OCR, deci este normal, deoarece rulau puţine opţiuni].

      Practic astfel de situaţii [apariţia de citate cu ghilimele în interiorul citatelor cu ghilimele] apar foarte extrem de rar în literatura beletristică, dar pot fi întâlnite frecvent în literatura de specialitate, în special în studii [fie ele de drept, istorice, critică literară... etc] şi analize.

      Ce am mai constatat că a făcut Abbyy?
            – la ghilimele de deschidere [de început] - a pus atât forma de ghilimele româneşti, cât şi varianta obişnuită [0022 Unicode Hex]; cred că varianta 0022 a pus-o în locurile incerte, unde nu este clar dacă sunt de deschidere sau închidere. Tot Abbyy este cel ce a pus uneori spaţii între ghilimele de deschidere şi cuvântul următor.
            – la ghilimele de închidere [de sfârşit] - a pus numai varianta obişnuită [0022 Unicode Hex]; E posibil ca acest caracter să nu fie peste tot Unicode 0022, dar oricum este ceva asemănător, deci nu vorbim niciodată despre ghilimele româneşti de sfârşit [cod 201D Unicode Hex, 00BB ASCII Hex]. Şi aici Abbyy a pus uneori spaţiu între text şi ghilimele.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
Rog verificaţi şi dv remarca:

Cand aplicăm diacritice în Autocorect contemporan, grupul de litere

             din cuvinte cum ar fi: neînţeles, neîndoielnic
             se transformă în

             neânţeles, neândoielnic.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Jullien,
      nu am folosit opţiunea asta... nu ştiu cam ce se poate întâmpla, aşa că nu pot nici să infirm nici să confirm "remarca" de mai sus... cel puţin deocamdată.
      Cosmin va putea să spună dacă se poate îmbunătăţi opţiunea respectivă...

      Până una-alta, am făcut un dicţionar de înlocuiri multiple ce poate corecta în mare măsură problema ridicată. Dicţionarul se bazează pe o listă de prefixe menţionate de Cosmin în prima pagină de la topicul principal AutoCorect - versiune pentru Romania-Inedit, la care am mai adăugat încă trei-patru prefixe.
      Dicţionarul este setat "Cuvânt întreg - la început" + "Păstrează capitalizarea", astfel că va căuta numai la începutul cuvintelor şi rezolvă atât cuvintele scrise cu minuscule cât şi pe cele cu majusculă iniţială.
      Practic fiecare cuvânt care începe cu unul dintre aceste prefixe urmate de â, se modifică în cuvânt care începe cu prefix urmat de î.

      Nume dicţionar:     Recorect_2 - â trece î.imd
      Adresa dicţionar: 

      Sper să fie de folos!.
      Seven

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
@jullien_alphonse
O intrebare: acele cuvinte le-ai testat separat ca sa fii sigur sau pur si simplu le-ai observat in text dupa adaugarea de diacritice (fara sa fii sigur ca au fost inainte cu î)?
Adica ai pus neînţeles, neîndoielnic intr-un mic text, ai rulat diacritice in Contemporan si ai constatat ca au fost transformate in  neânţeles, neândoielnic?
Asa am facut eu acum (desi oricum stiam ca nu transforma asa) si bineinteles nu a facut.
Dar daca la tine face, da-mi te rog un astfel de exemplu intr-un text mic in care se vede clar ca transforma.

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
Textul avea sute de pagini, si continea recunoscut BINE si CORECT (IN MOD SIGUR), grupul , intalnit in cuvintele:
neînţeles
neîndoielnic
.

Am procedat precum cineva care nu are timp de pierdut cu ''fineţuri'',
zilnic lucrez si transfer minimum 100 de fisiere, pe 2-3 calculatoare, astfel ca pot preciza DOAR urmatoarele:

1. Am ultimul exe contemporan (modificat pentru R.I)

2. Am adaugat in directorul OCR_DIC (contemporan) toate IMD-urile (pt contemporan) culese de la Seven (mediafire) (inclusiv cele din 19 precum si cele din 26 ianuarie = deci toate dic. imd, care se ordoneaza alfabetic in directorul corespunzator (OCR_DIC), si toate erau adaugate in AUTOCORECT pt a fi rulate.

3. Am introdus in AUTOCORECT CONTEMPORAN un text care continea deja un OCR BUNISOR.

4. Am dat direct OCR_Plus ---> Ruleaza toate functiile.
Folosesc aceasta optiune dupa ce am DEBIFAT, in prealabil, urmatoarele functii:
1.6
7.1
7.3
           si
de la 8.2 inclusiv pana la 10.4 inclusiv.
In rest, sunt  toate bifate.

5. in cursul executiei, urmaresc atent inlocuirile pe care le face programul AUTOCORECT, PANA LA FINALIZAREA documentului, aproband sau sarind eventualele sugestii de inlocuiri pe care mi le afiseaza programul.

5. Astfel, am observat inca din timpul inlocuirilor care imi cer aprobarea, ca respectivele cuvinte sunt MODIFICATE eronat de catre ''cârdul'' de dictionare adaugat de mine in OCR_DIC.

Iata extrasul complet cu fisierele din directorul OCR_DIC:

5.7. Stergere ragalii pentru carti obisnuite.imd
5.8. Stergere ragalii pentru carti tehnice.imd
Cifre romane - A+LEA-786.imd
Cifre romane - SIMPLE.imd
CO_DApco.imd
CO_DApct.imd
CO_DE.imd
CO_DF.imd
CO_DGcl.imd
CO_DGrn.imd
CO_DLd.imd
CO_DLp.imd
CO_DMidp.imd
CO_DVar1.imd
CO_DVar2.imd
CO_DVar3.imd
CO_DVar4.imd
CO_L1.imd
CO_L2.imd
CO_L3.imd
CO_S1.imd
CO_S2.imd
CO_S3.imd
CO_S4.imd
Secv_B.imd
Secv_D.imd
Secv_F.imd
Secv_G.imd
Secv_H.imd
Secv_J.imd
Secv_L.imd
Secv_M.imd
Secv_N.imd
Secv_P.imd
Secv_R.imd
Secv_RNM.imd
Secv_S.imd
Secv_Ş.imd
Secv_T.imd
Secv_Ţ.imd
Secv_V.imd
Secv_Z.imd
U1_Tmp1 Scurte.imd
U2_Tmp2 final_cuvant.imd
U3_Tmp3.imd
Uz_AB.imd
Uz_CD.imd
Uz_EF.imd
Uz_GH.imd
Uz_IÎ.imd
Uz_JK.imd
Uz_LM.imd
Uz_NO.imd
Uz_PR.imd
Uz_SŞ.imd
Uz_TŢ.imd
Uz_UV.imd
Uz_XY.imd
Uz_Z.imd
ZZ DF_Francez în lucru.imd

6. La urma, am inlocuit in word
eâ ---> eî
neânţeles ---> neînţeles.


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Stai putin, abia acum s-a inteles. Tu nu vorbesti de functia din AutoCorect care adauga diacritice - apelabila din panoul din stanga (al doilea buton) respectiv din meniul Instrumente >> Aplica diacritice.
Din ce s-a scris pina acum asta se intelegea.

Am sa testez sa vad care din optiunile/functiile din OCR Plus face asta.
Multumesc ca ne-ai semnalat ca sa putem corecta.

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
xtybyx
MEMBRU VIP

Inregistrat: acum 13 ani
Nu sunt sigur , dar bănuiesc  ca e vorba de Conversie text clasic în contemporan. care transformă î din interiorul cuvantului în â, am paţit si eu acelasi lucru ca si Julien.

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Pai e simplu de testat - scrii acele 2 cuvinte in text si dai conversie din meniu.
La mine nu a schimbat nimic. Asta pentru ca la cuvintele compuse evita sa schimbe.

Nici cand am rulat OCR Plus dupa setarile lui jullien_alphonse nu s-a intamplat nimic.

Dar ceva interesant: am rulat toate dictionarele imd la "gramada" si a inlocuit neînţeles cu neânţeles. De neîndoielnic nu s-a atins.

PS: jullien_alphonse, la "11. Rulare grup de dictionare inlocuire multipla" ai adaugat vreunul din dictionarele imd?

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Gata, am gasit unde era problema: in dictionarul Uz_N.imd inregistrarea nr 4 trebuie stearsa sau cel putin modificata pentru scopul initial cu care a fost pusa acolo.

autocorect ocr plus continuare gata, gasit unde era problema: uz_n.imd trebuie stearsa sau cel putin

48KB

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
       Am găsit eu una dintre cauze.
       E vorba de dicţionarul suplimentar Uz_NO.imd pe care eu nu-l mai am în această formă, deoarece le-am reorganizat, câte un dicţionat pentru fiecare literă şi... practic acestea aceste dicţionare au fost editate şi reeditate de multe ori de la momentul urcării lor pe mediafire...
       La acest moment am Uz_N.imd, în care am găsit "neînţeles"...
       Posibil să fi fost şi "neîndoielnic"... şi între timp l-am şters...
       Îmi cer scuze, n-am o explicaţie pentru înregistrarea unei asemenea prostii...
       Trebuie văzut dacă există şi ceva care ar putea modifica "neîndoielnic"... pentru ca să ştim exact unde e cauza unei astfel de modificări. Eu nu mai am vechile forme de dicţionare a câte 2 litere.

       LE:
       Da, iată că din nou am scris în acelaşi timp cu Cosmin mesajele....
       Totuşi, trebuie verificată şi cauza lui "neîndoielnic"

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Probabil problema cu "neîndoielnic" s-a rezolvat deja in noile dictionare...
Cum am zis le-am rulat pe toate la gramada si nu l-a schimbat.


pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
@cosmin
Da, la pct 11 Rulare grup de dictionare inlocuire multipla,
la optiuni, imi apar toate dictionarele din lista de mai sus (toate din OCR_DIC) ADAUGATE.

Ar fi bine de explicat/specificat in fisierul
0 Descriere dicţionare OCR_DIC.doc
un alineat ajutor/indrumare pas cu pas , CONCIS si F. PRECIS, - cu privire la PROCEDURA exacta DE ADAUGARE A DICTIONARELOR,
si de setare a OPTIUNILOR, pct.cu pct.
De asemeni, e bine de specificat si CE anume ESTE INTERZIS.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
       Am mai căutat prin dicţionare... Mă interesează în special cele cu prefixul CO_ şi CL_ care rulează automat.
       Am mai găsit o eroare la dicţionarele pentru Clasic;
       Dicţionarul CL_S3.imd, înregistrarea 56 e valabilă doar în forma de la Contemporan.
       Trebuie ştearsă înregistrarea sîn --> sân [Cuvânt întreg], ori modificată în sin --> sîn [Ci].

       În legătură cu cele prezentate de Jullien... e posibil să mai existe o cauză, care trebuie verificată.
       În dicţionarele S pe care le-am reorganizat, actualmente în CO_S1 / CL_S1 există o înregistrare pentru final de cuvânt; este vorba de nr. 20 âncl --> ând, respectiv încl --> înd; trebuie văzut dacă nu cumva într-o formă mai veche de dicţionare acestă înregistrare să fi fost doar "potrivire perfectă" şi cumva sub forma încl --> ând... deşi... nu cred că a avut o astfel de formă.

   
       Jullien,
       Practic, ar trebui făcut un Help sau un fel de tutorial.
       Adevărul este că sunt câteva opţiuni care necesită setări mai complicate, iar fereastra de la editare Înlocuiri multiple este destul de complexă. Cel puţin pentru fereastra asta voi încerca să fac ceva destul de repede...

       Mă interesează cam la ce te referi când spui că "e bine de specificat si CE anume ESTE INTERZIS"?... Te referi la editarea înregistrărilor de la Înlocuiri multiple?... sau la meniul OCR_Plus în general?...

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
"ce anume ar fi de INTERZIS''.
Ma refer la faptul
DACA e bine sa adaugam continutul folderului DIC_OCR in setarile OCR_PLUS la INCEPUT,
si apoi, INCA O DATA, sa re-adaugam acelasi continut al folderului DIC_OCR si la
OPTIUNILE punctului 11.

Am impresia ca in acest caz, (cazul meu)
se reiau sugestiile de INLOCUIRI AUTOMATE DEJA EXECUTATE.
- actualmente in cursul prelucrarii fisierului, imi apar (mi se cere aprobarea) - DE DOUA ORI, la interval de aprox. 1 minut,
pentru ACELEASI sugestii de inlocuiri ale secventelor:

intru   --> întru
stinga --> stângă
Ia       --> la
ou       --> cu
ele      -->  de
etc.

1. Cred ca ar fi bine de precizat daca e corect SA ADAUGI aceleasi dictionare de doua ori, sau daca este interzis.

2. De asemeni, in cazul in care decideti ca E INTERZIS, ar fi bine de precizat:

- care dictionare se adauga in setarile OCR_PLUS
       la INCEPUT, si
- care dictionare se adauga la OPTIUNILE punctului 11.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Am înţeles. Am să refac  fişierul "Descriere dicţionare OCR_DIC.doc" cu menţiuni în acest sens.

       Deocamdată, pentru cei ce vizitează acest topic, dau un răspuns aici:
           - La opţiunea ■ 11. RULARE GRUP DE DICŢIONARE ÎNLOCUIRE MULTIPLĂ se rulează ALTE dicţionare decât cele care au numele cu prefixul CO_ [pentru AC Contemporan] sau CL_ [pentru AC Clasic], deci alte dicţionare decât cele care rulează automat în Meniul OCR_Plus. la acestă opţiune se pot rula dicţionare uzuale/personale create sau reeditate de fiecare utilizator în parte, după necesitate.

           - NU trebuie rulate dicţionarele CO_ sau CL_ de două ori, deoarece modificările necesare se fac toate dintr-o singură rulare. Nu este necesară a doua rulare.
           - NU trebuie rulate dicţionarele CO_ sau CL_ de două ori, deoarece modificările sunt gândite să aibă o anumită cronologie şi unele dicţionare depind de cele rulate înaintea lor.


       E posibil ca să pară complicat, dar poate că ar fi bine ca în folderul "Dictionare" să punem două subfoldere şi anume:
          ■ OCR_DIC
          în care punem dicţionarele: CO_DApco.imd, CO_DApct.imd, CO_DE.imd, CO_DF.imd, CO_DGcl.imd, CO_DGrn.imd, CO_DLd.imd, CO_DLp.imd, CO_DMidp.imd, CO_DVar1.imd, CO_DVar2.imd, CO_DVar3.imd, CO_DVar4.imd, CO_L1.imd, CO_L2.imd, CO_L3.imd, CO_S1.imd, CO_S2.imd, CO_S3.imd, CO_S4.imd - în cazul AutoCorect Contemporan
         şi, respectiv: CL_DApct.imd, CL_DE.imd, CL_DF.imd, CL_DGcl.imd, CL_DGrn.imd, CL_DLd.imd, CL_DLp.imd, CL_DMidp.imd, CL_DVar1.imd, CL_DVar2.imd, CL_DVar3.imd, CL_DVar4.imd, CL_L1.imd, CL_L2.imd, CL_L3.imd, CL_S1.imd, CL_S2.imd, CL_S3.imd, CL_S4.imd - pentru AutoCorect Clasic.

          ■ Dic Suplimentare
          în care punem celelalte dicţionare. Dicţionarele din acest subfolder vor fi cele ce rulează cu opţiunea 11.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
Deocamdata e f.bine SEPARAREA in 2 foldere....asa cum zice Seven.

Intrebare pt Cosmin:
Ce implicatii pentru munca TA efectiva (in ore-zile-luni) ar avea sugestia de mai jos:

EXECUTABILUL CONTEMPORAN sa auto-instaleze direct
dictionarele imd - in CALEA INDICATA in fisierul "0 Descriere dictionare", fara a mai lasa userii sa isi bata capul cu adaugarea dic.


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
N-ar fi chiar asa de usor de implementat dar nici chiar asa de greu (mediu). Estimez cateva zile de munca + oricum aceasta nu va mai fi utila daca si cand dictionarele vor fi bagate in tot kitul de instalare (pe langa dic obisnuite).
Dar alta problema e si de "logistica" - Seven va trebui sa mi le trimita de fiecare data cand le modifica ca sa le includ in acel "kit de instalare" si sa-l refac.
In acest fel va scade nitel viteza de imbunatatire a acestor dictionare.

Dar totusi chiar daca unii ne "injura" (evident in gluma ) pentru ca ii punem sa le traga si sa le copie ei acolo cred ca e bine totusi ca lumea sa mai invete sa lucreze cu aceste imd-uri, cu fisiere in general - ca asta prinde bine mai pe urma...

Daca dupa toate acestea zise totusi se mai doreste sa fac asta, voi incerca...


pus acum 12 ani
   
jullien_alphonse
Pe lista neagra

Inregistrat: acum 17 ani
Referindu-ma la procesul de CORECTARE,
multi INCA NU folosesc uneltele de curatare/corectura automata.
(Altii, multi, stau si doar... privesc, din comoditate, lene, lipsa de timp.)

Mesajul meu e ca AUTOCORECT sa devina o unealta performanta si simplificata,
PRODUCER-ul manifestand INTENTIA DECLARATA
de a nu obliga pe unii nascuti gata obositi - SA MAI SI INVETE sa lucreze cu multe-multe programe, ci DOAR de a-i stimula sa corecteze opere literare, care maine-poimaine vor fi "puse sub sechestru" de ACTA.

Fara Autocorect, ne trezim cu multe goange scapate in versiuni v.1.0 sau chiar v.2.0, intrucat in Carpati auto-suficienta e la ea acasa.

Daca o corectura v.1.0 de nota 10
(echivalenta unui actual v.3.0 produs de 3 corectori)
ia aprox. 24 de ore de munca efectiva la butoane,
cei 3 corectori (superficiali) pierd impreuna 50 de ore.
(simpla parcurgere a cartii CERE TIMP).

In aceasta idee, m-as bucura sincer sa nu complicam existenta unora care nu-si bat capul cu programele, DAR care TOTUSI lucreaza la corectura,
si mai aduc cate ceva nou pe forum.
Mai mult de atat, altora le-am ingreuna in mod nedorit misiunea pe Terra
(observam in jur ca multi se sinucid din cauza ca au prea multi nasturi de incheiat si de descheiat, zilnic).


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Poate ar merge alta cale - nu sa facem exe-ul sa le puna el acolo ci sa facem din dictionare o arhiva autoextractabila care sa se dezarhiveze acolo si poate chiar sa le si stearga pe cele vechi.
O sa ma uit la sfx-ul la Winrar sa vad daca se poate face asa ceva cu el...
Aceasta abordare, daca e posibila, ar putea fi mai usoara de implementat.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am o propunere de mijloc:
     Fiind mult de muncă la acest moment la implementarea Punctuaţiei pentru OCR_Plus şi la altele, mă gândeam ca deocamdată să nu mergem până la instalarea tuturor dicţionarelor de către executabilul AutoCorect, dar să facem ceva în plus faţă de acum: executabilul să creeze cele două subfoldere: OCR_DIC şi Dic_Suplimentare, dar să le lase goale, fără a instala şi dicţionarele.

     Cred că ar fi un pic mai uşor pentru utilizatori; ar şti exact unde să  copieze/reactualizeze fiecare dicţionar, fără a mai face confuzii.

     Bănuiesc că acest lucru ar fi mai uşor de implementat şi nu ar crea nici "momentul de aşteptare" dintre reactualizările de dicţionare pe care le fac eu şi implementarea de către Cosmin în executabil.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am si gasit cum sa facem cu Winrar.
E simplu.
De exemplu se seteaza (bifeaza in) Winrar sa faca Sfx (adica "autoextractabil" ) si se seteaza acest comentariu:

Code:

;The comment below contains SFX script commands

Path=%APPDATA%\AutoCorect Contemporan\Dictionare\OCR_DIC
SavePath
Overwrite=1
Delete=*.imd

Exe-ul de test:

Cu mici modificari se poate implementa la toate. Iar pentru Seven nu cred ca va fi asa de greu sa bifeze Sfx si sa copie comentariul potrivit acelei arhive.
Mentiune: ultima linie sterge imd-urile deja existente in acel folder, poate trebuie scos sau modificat la alte arhive.

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Cred că trebuie să mai cugetăm...
      Nu mă deranjează să fac arhive autoextractabile, dar cred că-i avantajăm pe cei ce nu ştiu şi îi dezavantajăm pe cei ce se pricep.
      Mă refer la faptul că dacă unii useri îşi mai îmbunătăţesc o parte din dicţionare, venind direct cu arhiva autoxtractabilă care face şi înlocuirea dicţionarelor existente... nu-i prea plăcut...
      Probabil că mai bine ar fi să fac arhive în ambele variante: clasice şi autoxtractabile... dar şi asta ar putea să-i încurce pe cei ce nu se pricep, în sensul că li s-ar părea prea multe...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, e si asta un punct de vedere.
Dar pe de o parte asta-i o solutie de moment pina terminam lucrul cat de cat la ele, iar pe de alta parte mai sunt setari in Winrar chiar si pentru cei care nu le vor suprascrise:

autocorect ocr plus continuare da, asta punct vedere.dar parte asta-i solutie moment pina terminam

25.4KB


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Acestea au fost sugestia mea in ce priveste formatul in care dictionarele sa ajunga la utilizatori. Nu tin neparat sa fie implementata, se poate alege si ce a zis Seven.

Acu, revenind la subiectul principal, daca mai sunt alte sugestii de modificare la Punctuatia OCR Plus, sa le prezentam si sa le discutam.
Daca nu mai sunt, sugerez sa le organizam pe cele discutate si neimplementate - ca sa stiu exact ce e de facut cand o sa modific AutoCorect.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     În acest moment editez un document word care centralizează propunerilor făcute şi care aduce şi noi propuneri de restructurare a opţiunilor de setare.
     Documentul va fi urcat pe forum în maxim 2-3 ore.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Cat de des se intampla ca Abby sa recunoasca EMdash/EnDash ca dublu cratima?
Am un text ce are problema asta.
Eu nu am mai intalnit-o pana acum, voi?
Am rulat Punctuatia pe acest text, nu e semnalizata problema.

Modificat de utilitasetveritas (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Se întâmplă destul de des ca Abbyy să pună în locul unei linii de dialog [dar nu numai] un număr de 2, chiar 3 liniuţe de diferite tipuri, inclusiv cratimă dublă sau cratimă triplă.
      O parte din aceste probleme le rezolvă opţiunea 4.5
      Nu cred că e cazul ca aceste probleme să fie rezolvate la Punctuaţie, deoarece codul ar fi foarte complicat.
      La acest moment există două dicționare care au în total 36 + 127 = 163 înregistrări, deci a realiza un cod cu toate aceste situaţii este mult prea dificil.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Dar ca avertizare la Punctuatie, ar merge?

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am reuşit să fac o variantă a propunerilor pentru Setări Punctuaţie pentru OCR_Plus.
     Am urcat-o pe mediafire.
     Nume fişier:     Configurare PUNCTUAŢIE OCR_Plus [V0.4].doc
     Adresa fişier: 
     Aştept criticile!...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
M-am uitat nitel si am cateva de lamurit:
1. De ce sa fie impartit „Aplică principiile de bază ale punctuaţiei” in doua parti rulabile la momente diferite? Mai exact la ce ajuta?
2. Cum vezi tu diferenta dintre "orice paragraf" si "paragraf intreg"?
3. La unele optiuni n-am inteles 100% daca sa fie bifate implicit sau nu respectiv daca sa fie una (titlul) sau cele constituente.
4. Despre ghilimelele romanesti am mai discutat acu cateva zile, am zis ca in cele 4 optiuni sunt prezentate 3 tipuri de ghilimele + ca cele franceze sunt bagate in pachetul de baza. N-ai zis nimic atunci despre asta dar vad ca dai exact aceeasi sugestie. Bine, daca e sa eliminam atunci al treilea tip de ghilimea si sa le "comasam" nu-i mare problema.
5. "Sugerează eliminarea liniuţe de despărţire eronate": n-am mentionat des in ultimul timp (a fost mentionata in topic la vremea respectiva) dar de ceva timp e implementat, la sugestia lui utilitasetveritas sa arate sugestie pentru o parte din situatiile de acest gen si anume:
[litera mica][cratima][spatiu][litera mica]
[litera mica][spatiu][cratima][litera mica]
Mesajul care-l da e "Se recomandă modificarea în linie de pauză sau lipirea bucăţilor de cuvânt".
In momentul de fata punctuatia nu e facuta sa intrebe utilizatorul ce sa faca (ca la alte functii) si sa ii astepte decizia. Se poate modifica dar e ceva de munca.
La ortografie nu cred ca ar fi potrivita.
Deci pe moment cea mai indicata e transformarea in optiune speciala in meniul OCR Plus (cod sau dictionar, nu conteaza) + scoaterea acestei sugestii dat fiind ca acele cazuri ar fi incluse in aceasta optiune.
6. ¨ Modifică poziţia elipsis: „…!” se transformă în „!…”
¨ Modifică poziţia elipsis: „…?” se transformă în „?…”
Aici nu stiu daca e bine sa fie mutat elipsis dupa ?!, am vazut destule cazuri cand e corect pus inainte. Daca totusi le vom implementa recomand sa fie debifate implicit.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     1. De ce sa fie împărţit „Aplică principiile de bază ale punctuaţiei” în două părţi rulabile la momente diferite?
     Există un singur motiv, care e posibil să fie fals: m-am gândit că dacă mai întâi unele opţiuni elimină spaţii şi apoi altele adaugă spaţii, în final ar putea rămâne pe undeva spaţii nedorite.  De aceea am propus ca mai înainte să ruleze toate opţiunile care adaugă spaţii şi apoi să ruleze cele care elimină spaţii.
     Dacă ordinea opţiunilor nu dau erori în acest sens, atunci pachetul „Aplică principiile de bază ale punctuaţiei” poate funcţiona ca şi până acum, ca o opţiune compactă..
     Cred totuşi că e bine ca pachetul să ruleze în poziţia 2, după executarea convertirilor [apostrof, ghilimele şi elipsis].

     2.Paragraf…
     Nu e vorba de opţiuni noi, nediscutate, ci este vorba doar de căutarea unor nume mai scurte pentru opţiuni. Se pare că numele opţiunilor nu sunt cele mai inspirate.
     Am greşit: „orice paragraf” este acelaşi lucru cu „paragraf întreg”, este vorba de paragraful normal, obişnuit…
     Practic opţiunile „Majusculă început paragraf”, ar fi bine să ruleze în 3 situaţii:
          – majusculă la început de paragraf, aşa cum este ea implementată în acest moment;
          – majusculă doar la începutul paragrafelor întregi. Aici am vrut să evit situaţiile despre care am mai vorbit când paragraful începe la sfârşitul unei pagini, apoi este întrerupt de numărul de pagină şi eventual un rând gol şi apoi se continuă la începutul paginii următoare. Este situaţia prezentată în fragmentul de text din „Ultimul mohican” pe care l-am urcat în urmă cu câteva zile.
          – majusculă doar pentru litera Î şi numai paragraf întreg, ar fi opţiunea care execută cele mai puţine modificări. Ar trebui să caute doar litera Î şi să le ignore pe toate celelalte şi să ruleze doar în cazul paragrafelor întregi şi nu şi a celor întrerupte despre care am vorbit mai sus.

     3. N-am făcut încă propuneri care opţiune să fie activată default şi care să fie dezactivată, pentru că m-am gândit ca mai înainte să clarificăm care ar fi opţiunile.
     Pe de altă parte, nu am ştiut dacă se poate face o "opţiune titlu", eu am pus titluri doar ca să grupez opţiunile;
     Ar fi bine să existe şi opţiune titlu, la care se poate seta separat fiecare opţiune subordonată sau să se poată actuva toate atunci când opţiunea titlu este activă.
     Chestiile astea depind de munca necesară pentru implementare. Deocamdată nu aş insista pe aceste aspecte.

     4. Despre ghilimelele romanesti.
     Rămâne aşa cum am discutat şi ştii că este mai bine. Eu am vrut doar să punctez opţiunea… detaliile îţi aparţin. Nu am eliminat al treilea tip de ghilimele, doar că nu am ştiut cum să le reprezint ca să arate corect şi fără a produce confuzii.

     5. Scuze… dacă problema cu liniuţa este deja implementată, atunci eliminăm problema asta.

     6. Eu am găsit într-un volum de literatură clasică franceză, [dar nu-mi mai amintesc despre care volum e vorba], situaţia în care toate combinaţiile de ! sau ? şi elipsis erau în forma …! sau …?, deşi acolo era corect să fie !... sau ?...
     Cred că se poate renunţa la o astfel de opţiune, deoarece astfel de situaţii sunt rare şi se poate rezolva manual; de fapt, este mai corectă o corectare manuală.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Leaveyou
Membru Puf

Din: Madrid
Inregistrat: acum 13 ani
Cosmin am gasit o situatie in care Abby adauga spatiu inainte de elipsis si in AC nu avem optiune de a scoate pauza inainte de elipsis nici la „OCR_Plus” si nici la „Punctuatie”. Nu e un capat de tara, dar daca se poate implementa, de ce nu?
Sper ca nu sunt pe aratura cu remarca asta!   


_______________________________________
Always be brief.

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
@Seven
1. In primul rand optiunile sunt astfel construite incat nu exista pereche care sa faca actiuni in opozitie - adica sa puna/scoata acelasi spatiu.
In al doilea rand la fiecare paragraf corectarea cu toate optiunile bifate e reluata pina in momentul in care nu mai are ce schimba (adica detecteaza 0 modificari). De exemplu, daca codul ce scoate spatiul inaintea virgulei ar scoate unul cate unul, toate optiunile bifate ar fi rulate de 4 ori ca sa scoata 3 spatii.
Deci fiecare optiune bifata e rulata de cel putin 2 ori.
Deci nu cred ca va fi vreo diferenta daca vor fi rulate in diferite momente.
2. Da-mi te rog exemple pentru fiecare situatie.
3. Am inteles.
4. Bine, poate mai discutam totusi ca sa ajungem la o concluzie. Nu tin neaparat sa existe si a 3-a ghilimea, vreau doar sa fiu sigur ca s-a ajuns la o optiune care sa foloseasca cat mai mult.
5. Cum am spus este implementata dar in alta modalitate si la cazuri mai restranse decat ai aratat. Verifica te rog daca e suficient ce e bagat pina acum sau daca trebuie modificat.
6. Cel mult se poate pune o optiune nebifata implicit - daca crezi ca totusi va folosi cuiva.

@Leaveyou
Multumesc pentru sugestie.
Momentan codul scoate spatiul dinaintea punctelor de suspensie dar nu si dinaintea elipsis (e o poveste mai lunga de ce nu am implementat inca).
O sa implementez la punctuatia obisnuita.
Seven, cred ca e buna si pentru Punctuatia OCR Plus. Ce zici?

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Revin mai târziu cu detalii...

     1a. E perfect. Neavând habar de programare m-am gândit că ar putea apărea probleme. Am înţeles, deci nu e nevoie spargerea pachetului „Aplică principiile de bază ale punctuaţiei” în bucăţi.

     1b. Atunci rămâne opţiunea „Aplică principiile de bază ale punctuaţiei” în poziţia 2. prefer ca la poziţia 1 să rămână acele convertiri de apostrof, ghilimele, elipsis.

     1c. Nu aş vrea să faceţi modificări în cod, dar aş propune dacă se poate ca în fereastra de setări să apară doar această opţiune, iar activarea ei să însemne că se execută toate adăugările de spaţii şi eliminare de spaţii la semnele de punctuaţie, fără a mai apărea şi alte opţiuni suplimentare de genul "Scoate/ adaugă spaţiu înaintea/după caracterul "X".
      Acest lucru ar fi mai uşor pentru utilizator... nu ar mai trebui să se complice, alegând dacă e bine sau nu să mai bifeze opţiuni suplimentare.

      2. Am să revin cu detalii despre paragrafe.

      4. Cred că nu am înţeles foarte clar.
      Am crezut că spui că există mai multe tipuri de ghilimele care trebuiesc transformate în ghilimele româneşti... eu am văzut nişte ghilimele drepte perfect verticale şi altele drepte dar înclinate...
      Înţeleg că vrei să spui că trebuie să rămână 3 tipuri de ghilimele, adică cele româneşti, cele sub formă de « » şi, în plus, ar mai fi unele...
      Dacă-i aşa, atunci să rămână 3... doar că trebuie să ştim care sunt acelea, ca să nu reclamăm nemodificarea lor.

      6. Nu, nu ne mai complicăm... Eventual, merge într-un dicţionar cu confirmare, deşi e mai bine ca eventualele modificări să se facă pe timpul citirii.

      Elipsis.. da. Eu am prins toate semnele de punctuaţie la adăugre/eliminare spaţii, inclusiv elipsis.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Probabil am fost insuficient de explicit în legătură cu adăugare/eliminare spaţii şi ordinea setărilor.

     Susţin ca mai înainte să se realizeze convertirea apostrof, ghilimele şi elipsis, pentru ca mai apoi să lucrăm doar cu cele deja convertite, adică un singur apostrof, mai puţine tipuri de ghilimele şi cu elipsis.
     Cred că aici nu mai este nevoie de argumente.


     Privind adăugări/eliminări spaţii.
     Dacă în programare se lucrează în perechi, pentru un utilizator e mai simplu de setat pe grupuri de semne... am putea să le împărţim astfel:

        - 7 semne de punctuaţie obişnuite . : , ; ? ! ... [punct, două puncte, virgulă, punct şi virgulă, semnul întrebării, semnul exclamării şi elipsis]. Toate aceste semne au aceleaşi reguli. Tuturor li se adaugă spaţiu după [dacă e cazul] şi se elimină spaţiile dinainte. Nu avem ce alege... nu putem să setăm ca la unele să se elimine sau să se adauge spaţiu şi la altele nu.

        - 5 [6] semne care deschid ceva: paranteze şi ghilimele de început  ( [ { „ « şi cea de-a treia variantă de ghilimele. Toate au aceeaşi regulă: se adaugă spaţiu înainte [dacă e cazul] şi se elimină spaţiul după. Nici aici nu avem de ales alte variante intermediare.

        - 5 [6] semne care închid ceva: paranteze şi ghilimele de sfârşit  ) ] } ” »  şi cea de-a treia variantă de ghilimele. Toate au aceeaşi regulă: se adaugă spaţiu după [dacă e cazul] şi se elimină spaţiul dinaintea semnelor. Fără comentarii.

        - 6 variante de combinaţii de semne: !?  ?!  !...   ?...  ...!   ...?
     La aceste combinaţii avem o singură regulă: să eliminăm [să nu existe] spaţiile din interiorul combinaţiilor.

        - Ar mai fi două comentarii: programul nu va adăuga spaţiu după punct sau după virgulă între două cifre - asta este deja rezolvată; a doua problemă ar fi abrevierile de genul O.C.R., care nu ar fi bine să devină O. C. R. - acest lucru nu ştiu dacă este implementată sau implementabilă, dar nici nu este o problemă stringentă... deşi în cazul unor cărţi SF, conspiraţii, dezvăluiri apar destul de frecvent.
     
     Bazându-mă pe cele de mai sus, am propus ca toate aceste modificări, fiind ele eliminări sau adăugări de spaţiu să fie activate şi cumulate într-o singură setare: „Aplică principiile de bază ale punctuaţiei”, fără a mai apărea şi alte opţiuni care să se ocupe de eliminare/adăugare spaţii.

     Sper că acum am fost suficient de clar, pentru a se înţelege la ce anume m-am referit.
     Dacă la acest punct s-au clarificat lucrurile, aş vrea să fac câteva comentarii privind majuscularea.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Referindu-ma la ghilimele deocamdata:
La configurare punctuatie nu e prea clar deoarece imaginea e mica.
Inafara de ghilimelele de inceput 132 am mai vazut cateodata folosite si 147.
Uite aici un exemplu de text care le contine + o imagine:
Am adaugat imaginea si aici (ghilimelele respective sunt a treia de la stanga la dreapta, la inceputul celei de-a doua "zone"):

autocorect ocr plus continuare ghilimele punctuatie prea clar deoarece imaginea inceput 132 mai

18.9KB


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Gata, am înţeles.
      Dacă ar fi după mine, aş propune ca această 147 sub formă de 66 să fie convertită în 132 în formă de 99 şi să rămânem doar cu 132 pentru ghilimele de început şi 148 pentru ghilimele de sfârşit.
      De fapt, în acelaşi mod am procedat şi cu apostrofurile: pe 145 în formă de 6, l-am convertit în 146 sub formă de 9.
      Asta e doar părerea mea... nu ştiu ce spun ceilalţi, dar dacă ar fi doar după mine, ei aşa aş proceda.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Nu-i rea ideea, mai ales daca 147 nu prea e folosita in carti...
Dar totusi as lasa posibilitatea sa debifezi optiunea, in caz ca cineva o utilizeaza prin texte.
Sunt curios cum s-ar descurca Abby daca ar intalni-o... As incerca eu dar n-am scanner...


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Uite aici:
     Am pus în arhivă documentul iniţial în Word, o imagine după un pdf al paginii şi OCR-ul făcut de Abbyy după imagine.
     Dekomdată nu comentesc...

     LE:
     Deci, Abbyy s-a descurcat bine cu ghilimelele româneşti de început [cod 132] şi le-a convertit exact aşa, dar s-a împiedicat de aceaste ghilimele de început în formă de 66 [cod 147], precum şi de cele de sfârşit [cod 148] pe care nu le-a recunoscut...

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Aha, deci probabil ca am adauga 147 la optiuni cam degeaba - pentru ca ar folosi numai daca o alta optiune pune 147 inainte prin text 

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am făcut OCR şi cu Abbyy 10; iniţial am încărcat imaginea în Abbyy 9.
     Rezultatul este acelaşi. Nu recunoaşte 147, nu recunoaşte 148.

     Pe de o parte îmi pare rău de faptul că ai muncit să implementezi şi cod 147, dar pe de altă parte e mai bine că rămânem doar cu o singură pereche de ghilimele... simplifică lucrurile mai mult.

     Nu cred că există vreo altă posibilitate în care Abbyy ar pune 147, deoarece imaginea folosită de mine era mult mai fidelă textului iniţial decât orice imagine scanată... aşa că dacă nici acum nu a recunoscut acest caracter, atunci sunt foarte slabe speranţe s-o facă din imagini scanate, oricât de perfecte ar fi ele.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Nu-i problema mare, stai linistit.


Seven a scris:

***
     Probabil am fost insuficient de explicit în legătură cu adăugare/eliminare spaţii şi ordinea setărilor.

     Susţin ca mai înainte să se realizeze convertirea apostrof, ghilimele şi elipsis, pentru ca mai apoi să lucrăm doar cu cele deja convertite, adică un singur apostrof, mai puţine tipuri de ghilimele şi cu elipsis.
     Cred că aici nu mai este nevoie de argumente.


     Privind adăugări/eliminări spaţii.
     Dacă în programare se lucrează în perechi, pentru un utilizator e mai simplu de setat pe grupuri de semne... am putea să le împărţim astfel:

        - 7 semne de punctuaţie obişnuite . : , ; ? ! ... [punct, două puncte, virgulă, punct şi virgulă, semnul întrebării, semnul exclamării şi elipsis]. Toate aceste semne au aceleaşi reguli. Tuturor li se adaugă spaţiu după [dacă e cazul] şi se elimină spaţiile dinainte. Nu avem ce alege... nu putem să setăm ca la unele să se elimine sau să se adauge spaţiu şi la altele nu.

        - 5 [6] semne care deschid ceva: paranteze şi ghilimele de început  ( [ { „ « şi cea de-a treia variantă de ghilimele. Toate au aceeaşi regulă: se adaugă spaţiu înainte [dacă e cazul] şi se elimină spaţiul după. Nici aici nu avem de ales alte variante intermediare.

        - 5 [6] semne care închid ceva: paranteze şi ghilimele de sfârşit  ) ] } ” »  şi cea de-a treia variantă de ghilimele. Toate au aceeaşi regulă: se adaugă spaţiu după [dacă e cazul] şi se elimină spaţiul dinaintea semnelor. Fără comentarii.

        - 6 variante de combinaţii de semne: !?  ?!  !...   ?...  ...!   ...?
     La aceste combinaţii avem o singură regulă: să eliminăm [să nu existe] spaţiile din interiorul combinaţiilor.

        - Ar mai fi două comentarii: programul nu va adăuga spaţiu după punct sau după virgulă între două cifre - asta este deja rezolvată; a doua problemă ar fi abrevierile de genul O.C.R., care nu ar fi bine să devină O. C. R. - acest lucru nu ştiu dacă este implementată sau implementabilă, dar nici nu este o problemă stringentă... deşi în cazul unor cărţi SF, conspiraţii, dezvăluiri apar destul de frecvent.
     
     Bazându-mă pe cele de mai sus, am propus ca toate aceste modificări, fiind ele eliminări sau adăugări de spaţiu să fie activate şi cumulate într-o singură setare: „Aplică principiile de bază ale punctuaţiei”, fără a mai apărea şi alte opţiuni care să se ocupe de eliminare/adăugare spaţii.

     Sper că acum am fost suficient de clar, pentru a se înţelege la ce anume m-am referit.
     Dacă la acest punct s-au clarificat lucrurile, aş vrea să fac câteva comentarii privind majuscularea.


Da, cred ca e bine asa...


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Să zicem că la opţiunea „Aplică principiile de bază ale punctuaţiei” nu mai sunt discuţii.

      La prima opţiune, cea cu convertirile ar mai fi ceva de clarificat?

          - Luăm convertirea cu apostrifurile din OCR_Plus? dacă da, reamintesc că am pus o listă cu apostrofurile folosite de mine AICI
      Mai mult ca sigur nu vor fi puse toate acestea de Abbyy, dar eu le-am pus în dicţionar pe toate pentru orice eventualitate. Nu ştiu dacă în cod este la îndemână să le punem pe toate. Oricum, este cert că am găsit în texte mai multe variante.

          - Luăm convertirea suplimentară elipsis din meniul OCR_Plus?
      Practic în dicţionarul de la această opţiune am pus combinaţii... de fapt aranjamente de puncte şi virgule luate câte 4. Sunt cazuri în care Abbyy nu pune totdeauna 3 puncte, ci pe unele dintre puncte le "vede" virgule.  Opţiunea asta ar fi mult mai simplu să rămână în meniul OCR_Plus, dar asta ar însemna să ruleze ca şi până acum înaintea Punctuaţiei cuplată şi după cealaltă convertire în elipsis, implemenată cu cod.

      Cosmin, nu am nicio propunere în legătură cu implementarea sau neimplementarea acestor opţiuni la Punctuaţie sau cu rămânerea în meniul OCR_Plus. Cred că cel mai bine este să horărăşti tu, dacă ai timp pentru implementarea acestora.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Pentru o mai buna "organizare" as inclina nitel sa fie implementate cu cod. Oricum in alte parti - de exemplu la viteza de rulare - nu cred ca vor apare imbunatatiri mari care sa justifice transformarea.

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Şi eu înclin să fie implementate cu cod... la punctuaţie.
     Asta ar face ca meniul OCR_Plus să fie un pic mai aerisit... iar "organizarea" mai logică.
     N-am vrut să propun eu asta pentru că m-am gândit ca deocamdată să fiu o "doamnă" şi să nu-ţi cer prea multe....

     Am deja două probleme care nu ţin de punctuaţie şi pe care intenţionez să le propun spre rezolvare destul de repede... aşa că deocamdată încerc să mă port mai cu mănuşi...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Am să încerc să refac "Configurare PUNCTUAŢIE OCR_Plus.doc" reactualizată cu ceea ce a rezultat din discuţiile de mai sus.

      M-am gândit ca mai înainte de a reface Configurarea, ar fi bine să clarificăm complet lucrurile şi în legătură cu Majuscula.
     Majuscula la început de dialog nu necesită prea multe discuţii, aici lucrurile sunt clare.
     Majuscula la început de frază necesotă discuţii... la fel şi majuscula la început de paragraf... şi într-un caz şi în celălalt sunt mai multe situaţii.


     Pe de altă parte, am refăcut minitutorialul TAC_01 Instalare si reactualizare AutoCorect OCR_Plus. Nu-mi place nici mie ce a rezultat... am vrut să clarific cât mai mult nişte lucururi, dar cred că e cam încurcat.
     Înainte de a-l pune la dispoziţia tuturor aş vrea să fiu ajutat să-l mai "limpezesc" un pic şi să eliminăm eventualele greşeli, astfel încât el să ajute şi să nu-i încurce şi mai mult pe utilizatori.
      Deocamdată urc varianta pdf. Dacă cineva doreşte să corecteze direct varianta Word, o pot pune la dispoziţie.

     Nume fişier: "TAC_01 Instalare si reactualizare AutoCorect OCR_Plus"
     Adresa:


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, discutam, cum sa nu.

Tutorialul arata bine.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Înainte de a trece la Majuscule, revin la „Aplică principiile de bază ale punctuaţiei” cu următoarele propuneri:

      Opţiunea de setare poate apărea simplu, doar cu numele „Aplică principiile de bază ale punctuaţiei”, cu posibilitate de bifare/debifare ca în imaginea următoare:


      O altă variantă ar fi să apară ca un pachet de opţiuni, care conţine şi opţiune-titlu ca mai jos.


      M-am gândit că poate fi astfel realizată încât dacă se activează opţiunea-titlu "APLICĂ PRINCIPIILE DE BAZĂ ALE PUNCTUAŢIEI", să se activeze automat toate opţiunile ca în imaginea 3, iar dacă nu se activează opţiunea-titlu, atunci opţiunile componente să poată fi activate invidual, ca în ultima imagine.





      O ultimă variantă ar fi ca deocamdată să se implementeze prima variantă, cea mai simplă şi mai târziu, după ce vom fi definitivat principalele probleme să revenim îmbunătăţind fereastra de setare cu varianta a doua de afişare.
      Cred sincer că asta este cea mai bună soluţie.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Inclin spre prima (doar o bifa) cum e acum implementat. Sa explic de ce: in primele versiuni ale AutoCorect am avut toate optiunile la vedere. Fiecare tab era plin de bife. Dar cand am intrebat utilizatorii ne-au spus ca nu stiu sa se descurce pe acolo ca's prea multe
Ce propui in a doua parte e un pic mai simplificat decat daca ar fi cate o bifa de fiecare optiune in parte dar tot e posibil sa incurce utilizatorul.
Sunt curios, felul in care le-ai organizat acum cum ajuta efectiv utilizatorul? Adica, de exemplu, crezi ca vor fi situatii in care scoaterea spatiului dinaintea parantezei inchise sa fie dezactivata dar introducerea spatiului dupa ea sa ramana activata...?
Vad totusi un avantaj la a doua, desi nu stiu daca justifica adaugarea de bife la toate: sa arate utilizatorului ce optiuni sunt in "principiile de baza"...

Sper ca si altii sa-si dea cu parerea in aceasta privinta, oricum ei vor fi cei care vor configura punctuatia OCR Plus pentru rezultate optime...


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     În cazul concret al acestei opţiuni cred că toate componentele trebuie să fie activate de toată lumea. Nu se justifică actibarea unora şi dezactivarea altora.
     Este totuşi important ca utilizatorul să ştie ce face o astfel de opţiune foarte complexă.

     Ştiu că nu se obişnuieşte, dar poate că ar fi bine să facem ceva intermediar?!...

     Dacă am pune varianta cu opţiune-titlu şi opţiunile componente, dar cu posibilitatea de activare/dezactivare doar pentru opţiunea-titlu, iar opţiunile componente ar fi afişate doar cu scop informativ?



_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, asa cred ca ar fi mai bine.

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Cred că la majuscule nu mai sunt chiar aşa multe lucruri de clarificat, cum am crezut.
     În principiu opţiunile ar putea arăta cam aşa:

   □ MAJUSCULĂ LA ÎNCEPUT DE PROPOZIŢIE ŞI PARAGRAF
         □ Majusculă la început de dialog (inclusiv dialog cu ghilimele).
         □ Majusculă început paragraf – [orice literă – orice paragraf]
         □ Majusculă început paragraf – [numai paragraf întreg]
         □ Majusculă început paragraf – [numai litera Î paragraf întreg]

         □ Majusculă la început de frază – doar după punct urmat de spaţiu.
         □ Majusculă la început de frază – după ! şi ? urmat de spaţiu.

     Să le luăm pe rând:


         □ Majusculă la început de dialog
     Aici lucrurile par destul de simple, dar există mai multe situaţii:
         dialog obişnuit:
                   — Nu-mi prea place omul ăsta, răspunse tânăra doamnă.

         dialog cu ghilimele, care are mai multe variante de scriere:
                   „— Nu-mi prea place omul ăsta”, răspunsese tânăra doamnă.
                   — „Nu-mi prea place omul ăsta”, răspunsese tânăra doamnă.
                   «— Nu-mi prea place omul ăsta», răspunsese tânăra doamnă.
                   — «Nu-mi prea place omul ăsta», răspunsese tânăra doamnă.

         dialog care nu trebuie majusculat: cel ce începe cu elipsis:
                   — ...nu-mi prea place omul ăsta, răspunse tânăra doamnă.

     Cel mai important este să se rezolve majuscularea în cazul dialogurilor obişnuite. Dialogurile cu ghilimele apar mai rar, dar există şi astfel de situaţii.


         □ Majusculă început paragraf – [orice literă – orice paragraf]
     Opţiunea se referă la orice tip de paragraf şi la majuscularea tuturor literelor ce ar fi găsite scrise cu minusculă. - nu cred că e nevoie de comenatarii.

         □ Majusculă început paragraf – [numai paragraf întreg]
     Prin condiţia "numai paragraf întreg" încerc să evit majuscularea paragrafelor de genul celor din imaginile următoare.









         □ Majusculă început paragraf – [numai litera Î paragraf întreg]
     Această opţiune aş vrea să majusculeze doar litera î-Î, nu şi pe celelalte şi doar în cazul paragrafelor întregi, fără a majuscula situaţii ca în imaginile de mai sus.

     Fiind destul de lungă postarea, despre majuscula şa început de frază, voi comenta într-o altă postare.

      LE: practic marea problemă cu majusculele în OCR sunt cele ale literei î.
      Abbyy nu recunoşate niciodată litera Î; totdeauna litera Î va fi scrisă î mic c sau I mare.
      Corectarea lui I mare în loc de Î mare este rezolvată în mare parte cu ajutorul dicţionarului CO_DMidp.imd [CL_DMidp.imd].
      E rămâne doar problema lui î în loc de Î.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
         □ Majusculă la început de frază – doar după punct urmat de spaţiu.

     La această opţiune nu ar trebui să fie prea mult de comentat.
     Practic, opţiunea "Majusculă la început de frază – doar după punct urmat de spaţiu" nu poate produce efecte nedorite, decât în situaţia în care Abbyy pune punct eronat în locul unei virgule... să sperăm că astfel de cazuri nu sunt foarte multe...

         □ Majusculă la început de frază – după ! şi ? urmat de spaţiu.
     Este de subliniat faptul că semnele ! şi ? nu marchează totdeauna un final de frază şi, în concluzie, nu totdeauna după aceste semne trebuie ca să existe majusculă.
     Utilizatorul poate renunţa la activarea opţiunii, pentru ca mai apoi să rezolve eventualele cazuri de majusculare, în mod manual, cu ocazia corecturii. Personal prefer această soluţie.
     Utilizatorul poate opta pentru activarea ei, dar în mod obligatoriu va trebui ca mai apoi să acceseze toate opţiunile care se referă la problemele de dialog francez.
     Această opţiune trebuie să fie cu adevărat opţională deoarece dacă nu o activăm vor rămâne probleme de majusculare de rezolvat, iar dacă o activăm se vor realiza şi modificări nedorite, pe care, din nou, trebuie să le rezolvăm.

     Din aceste motive am preferat să nu folosim o opţiune generală, care s-ar putea numi "Majusculă la început de frază", ci să folosim varianta împărţirii în două opţiuni "mai mici": una care nu are efecte secundare şi o a doua care ridică probleme, atât la activare, cât şi la dezactivare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Am urcat pe mediafire ultima propunere de configurare Punctuaţie.
      Am pus în acelaşi document două variante de afişare a opţiunilor: una mai scurtă şi una mai lungă.

      [C9] Configurare PUNCTUAŢIE OCR_Plus [V1.1].doc
     

      Chestia cu [C9] din faţa fişierului are rol doar în sortarea fişierului. Următorul document se va chema [C8]..... [C1], astfel încât cel mai npu document să fie afişat primul. Dacă aş fi folosit număr de versiune în faţa fişierului, sortarea îl afişează în partea de jos şi ar fi mai greu vizibil.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Ce ar fi daca in loc de a mai adauga la Punctuatie, de exemplu, noi reguli cu bifa, ce ar fi daca ai face o fereastra in care sa adauge fiecare ce vrea si acele optiuni sa apara ca atentionari?

Nu ma intreba ce s-ar putea face cu ea
Am observat acum ca desi am rulat punctiatia pe un text, am gasit situatii cu 2 puncte ce nu mi-au fost indicate.
Programul merge foarte bine, iti zic chestia de mai sus ca posibila imbunatatire.


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Scuze ca n-am raspuns de ceva timp aici dar am avut de rezolvat ceva probleme zilele astea si n-am avut timp decat de lucruri marunte - precum instantele multiple din topicul principal.
M-am uitat la ce ai scris Seven si sunt de acord in privinta optiunilor la majuscule.
In "[C9] Configurare PUNCTUAŢIE OCR_Plus [V1.1].doc" inclin spre a doua varianta de afisare.

@utilitasetveritas
Sa inteleg ca sugerezi ceva de genul sa isi seteze cineva manual regula de punctuatie respectiv mesajul care-l da ca sugestie.
Sa stii ca m-am gandit si eu la asta acu 1..2 ani dar am renuntat - motivele sunt ca e greu de implementat si destul de putini o vor utiliza (unii profesionisti) + nu pare sa aiba potentialul de a rezolva multe probleme (spre deosebire de optiunile implementate deja). Majoritatea utilizatorilor nu vor sa-si bata capul cu setarile AutoCorect. Deci pe moment nu parea si inca nu pare fezabil de implementat.
Dar daca sunt si altii care cred ca le-ar folosi vom incerca...


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      "[C9] Configurare PUNCTUAŢIE OCR_Plus [V1.1].doc"
      Tot spre a doua variantă înclin şi eu.
      A doua variantă oferă mai multe informaţii utilizatorului, chiar dacă nu are posibilităţi de setare în plus faţă de a doua.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Nu, Cosmin. M-am mai gandit si nu are rost.
Poti ajunge tot acolo folosind Word 2010, scrii in Find ce te intereseaza si iti apare in stanga ditamai lista cu locatii.
Oricum am ajuns la conluzia ca nu exista suficient de multe situatii-exceptie care sa justifice asta. Am un text pe aici, dar e raritate.


pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
O problema intalnita des in textul la care lucrez.


AC-ul nu o vede la rularea Punctuatiei.


pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
E vorba de linia ce contine doar un punct...?
Daca da - la texte obisnuite n-am pus deocamdata vreo avertizare/sugestie deoarece cateodata liniile alcatuite din puncte sunt normale.
Dar poate la OCR Plus ar merge... Ce parere ai, Seven..?


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     La OCR_Plus merg multe îmbunătăţiri care la AutoCorect oficial nu se justifică, aşa că eu sunt dispus la orice îmbunătăţire.

      La situaţia concretă, semnalată de utilitasetveritas am o idee... dar n-am verificat dacă se poate aplica...

      Altfel spus, situaţia semnalată înseamnă un paragraf care conţine un singur caracter.
      În afară de această situaţie, cu un singur punct, eu am mai văzut şi paragrafe care conţin câte o singură răgălie... cum ar fi □ sau altceva.
      În word e simplu; se poate pune la Find&Replace ^p□^p se modifică cu ^p sau cu "nimic".

      M-am gândit la Înlociri multiple... cred că ne-am putea folosi de condiţiile "Început de paragraf" şi "Sfârşit de paragraf" în acelaşi timp.
      Dacă la "Caută" punem un punct sau o răgălie şi la "Înlocuieşte cu" nu punem nimic, iar la condiţii punem Ip Sp, atunci putem curăţa astfel de paragrafe.


      LE:
      Am verificat... Merge, dar nu prea bine...
      Sintaxa e corectă. Dicţionarul rulează fără probleme.
      Problema este că nu dispare paragraful cu totul, ci rămâne un paragraf gol.
      Deci e bine că putem scăpa de răgăliile solitare... doar că... aş fi preferat să dispară paragraful cu totul.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Nu am intalnit nicaieri linii dintr-un singur punct sau un singur caracter.

Poate fi vorba uneori de numerotari de capitole, dar cu o inlocuire automata nu se rezolva nimic, ba din contra se strica.
Daca nu merge avertizat utilizatorul, nu cred ca are rost sa intervenim automat.


pus acum 12 ani
   
Pagini:  1 2 3 4 ... 5  

Mergi la