Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Lista de useri | Cauta | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Mariana tha
Femeie
25 ani
Galati
cauta Barbat
25 - 69 ani
Forum Romania Inedit / Totul despre cărți - About e-books / AutoCorect OCR Plus - continuare discuţii Moderat de Seven, Stelevadris, cuculean, uncris  
Autor
Mesaj Pagini:  1 2 3 4 ... 17
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Dupa cum a sugerat Seven am creat acest topic ca sa discutam setarile de punctuatie la OCR Plus.

Referitor la acestea Seven a zis:



      Setări punctuaţie OCR_Plus


     Revin docamdată cu un singur punct din Setări punctuaţie clasică, deoarece este mai complex şi nu are elementele componente la vedere.
     Este vorba de primul punct din Setări punctuaţie clasică, „Aplică principiile de bază ale punctuaţiei”.
     Această opţiune-setare rezolvă următoarele probleme:

     1. Scoate spaţile de la sfârşitul paragrafului;
     2. Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă
constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului);

     3. Spaţiu înainte de paranteza deschisă ( [ {
     4. Spaţiu după paranteza închisă ) ] }
     5. Scoate spaţiu după paranteza deschisă ( [ {
     6. Scoate spaţiu înainte de paranteza închisă ) ] }
     7. Scoate repetare ; : ,
     8. Scoate spaţiu dinainte , . ;
     9. Scoate spaţiu înainte de ? !
     10. Pune spaţiu după virgula
     11. Pune spaţiu după punct
     12. Pune spaţiu după ; ! ?
     13. Scoate spaţiu dintre combinaţiile de ? şi !


    Propunere:
          ? a. Se elimină opţiunea „2. Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului)”, deoarece problema este rezolvată în mod special în opţiunile OCR_Plus

          ? b. Se completează poziţia 13 sau se introduce un nou punct cu următorul rol:
     13’. Scoate spaţiu dintre combinaţiile de ?... şi !...

      Dacă suntem de acord cu acest punct, putem merge mai departe cu „Configurare PUNCTUAŢIE OCR_Plus [V0.3]”


a. Da, cred ca se poate elimina.
b. Personal n-am vazut astfel de cazuri dar cred ca se poate implementa un 13'


pus acum 8 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 8 ani
Pare ok.

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Acum să clarificăm câteva probleme:

              1. Ordinea setărilor este aceeaşi cu ordinea de rulare a opţiunilor din Punctuaţie?
       Bănuiesc că da.
       În acest caz, poate ar fi bine să le facem în ordinea următoare:
            - mai întâi convertiri de caractere: Elipsis, apostrof românesc, ghilimele româneşti etc.
            - apoi adăugare de spaţii înaintea sau după unele semne de punctuaţie, după caz.
            - în final scoatere de spaţii din faţa sau după unele semne de punctuaţie.

       De ce spun acest lucru?
       Presupunem că mai întâi rezolvăm cu scoatere şi introducere spaţii înainte şi după paranteze şi ghilimele şi deci eliminăm spaţiile înaintea parantezelor şi ghilimelelor de închidere. Dacă după ce rezolvăm acest lucru, venim şi adăugăm spaţiu după punct, semnul exclamării şi semnul întrebării, am putea ajunge în situaţia când avem scris:
       ....text. ]
       ....text. "
adică vom avea din nou spaţiu înainte de închiderea parantezelor şi a ghilimelelor.
       Dacă lucrurile ar putea să se întâmple astfel, atunci este foarte important să stabilim ordinea perfectă în care rulează opţiunile, înainte de a trece la realizarea codului.

              2. Setări ale punctuaţiei dublate
       Sunt câteva setări sau opţiuni în meniul de setări clasice, care apar atât în prima setare „Aplică principiile de bază ale punctuaţiei”, dar şi în plus în mod separat.
       Bănuiesc că asta s-a întâmplat ca urmare a dezvoltării pe parcurs a programului.
       Cred că ar fi mai bine ca aceste dubluri să fie eliminate şi să apară opţiunea o singură dată.
       Personal, mie mi-ar conveni mai mult ca aceste opţiuni să fie vizibile, adică să fie separate; Mi se pare că e mai uşor pentru utilizator să activeze/bifeze o opţiune pe care o vede în clar decât atunci când aceste setări sunt "ascunse" sub genericul „Aplică principiile de bază ale punctuaţiei”.

              3. Setări ale punctuaţiei dublate de opţiuni din OCR_Plus
       O parte din setări ale punctuaţiei sunt imlementate la acest moment în meniul OCR_Plus. Mă refer la convertire puncte de suspensie în Elipsis, Apostrof românesc, Ghilimele româneşti...
       Cum ar fi mai bine să se procedeze?
       O parte dintre cele deja implementate în meniul OCR_Plus să încercăm să le aducem la Punctuaţie şi să eliminăm din meniu sau să le lăsăm acolo unde ele sunt deja implementate?


        În legătură cu grupul de semne de punctuaţue ?... şi !... aceste grupuri apar frecvent în literatura clasică... mai ales literatura clasică franceză, dar nu numai.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
1. Da, este aceeasi.
Cred ca e buna ordinea.
2. Posibil sa fie, sa mi le spui te rog care sunt. Un detaliu: in cod optiunile „Aplică principiile de bază ale punctuaţiei” nu sunt asa de clar separate "vizual" si "logic" de celelalte. De exemplu la unele in anumite situatii merge pe "baza" dar in alte situatii ar merge pe restul. De aceea va pare ca e dublata, desi in realitate merg in situatii diferite.
2(care e 3). Cred ca sunt situatii aparte si trebuie discutate fiecare in parte.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
       1. Am înţeles. Mă mai gândesc la ordine, să vedem dacă mai sunt şi alte situaţii care depind de o condiţie anume, dar în principiu, am înţeles că agreezi ordinea propusă.
       2. Le voi sublinia pe fiecare în parte.
       3. Exact, sunt situaţii care merită o discuţie pentru fiecare în parte. Şi mie mi se pare că unele opţiuni ar trebui să rămână acolo unde sunt, iar altele ar putea fi aduse la Punctuaţie, chiar şi dacă ar fi doar pentru simplificarea meniului OCR_Plus. Mă interesa doar ca principiu, dacă se poate aduce ceva de la meniul OCR_Plus la Punctuaţie.

       4. De verificat: În legătură cu convertirea diferitelor tipuri de apostrof în apostrof românesc, mă interesează dacă s-a făcut şi cod sau a rămas ca această convertire să ruleze în baza dicţionarului S1.imd. Aceasta ar fi una dintre situaţii pe care aş propune s-o mutăm la Punctuaţie.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
3. Da, se pot aduce.
4. Deocamdata nu s-a facut cod dar se poate muta usor la punctuatie (facut cod nu cu dic).

Modificat de ciuperca_cosmin (acum 8 ani)


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      M-am gândit ca ar fi mai uşor ca propunerile pentru noul tabel pentru Setări Punctuaţie OCR_Plus să plece de la modificarea vechiului tabel de setări.
      Am transformat fereastra de setări clasie, într-un tabel, astfel încât modificările să fie mai uşor de urmărit.
      Redau mai jos acest tabel, care are şi varianta doc ce va fi urcată pe mediafire.


     Tabel Setare Punctuaţie Clasică

     01. □ Aplică principiile de bază ale punctuaţiei
          a. Scoate spaţile de la sfârşitul paragrafului;
          b Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului);
          c. Spaţiu înainte de paranteza deschisă ( [ {
          d. Spaţiu după paranteza închisă ) ] }
          e. Scoate spaţiu după paranteza deschisă ( [ {
          f. Scoate spaţiu înainte de paranteza închisă ) ] }
          g. Scoate repetare ; : ,
          h. Scoate spaţiu dinainte , . ;
          i. Scoate spaţiu înainte de ? !
          j. Pune spaţiu după virgula
          k. Pune spaţiu după punct
          l. Pune spaţiu după ; ! ?
          m. Scoate spaţiu dintre combinaţiile de ? şi !
     _________________________________________

     02. □ Majusculă la început de propoziţie/frază
     03. □ Majusculă la început de dialog
     04. □  ; : ,  ?  ! de la începutul liniei se mută la sfârşitul liniei precedente
     05. □ Schimbă virgula în punct înainte de liniuţa de dialog
     06. □ Apostrof repetat de 2 ori se transformă în ghilimele
     07. □ Mai mult de 3 puncte se transformă în 3 puncte de suspensie ...
     08. □ Scoate spaţiul înainte de caracterele ! şi ?
     09. □ Adaugă spaţiu înainte de caracterele ! şi ?
     10. □ Scoate spaţiul înainte de caracterul :
     11. □ Adaugă spaţiu înainte de caracterul :
     12. □ Adaugă spaţiu după caracterul :
     13. □ 2 spaţii sau mai multe trec într-unul singur (nu la începutul liniei)
     _________________________________________

     14. □ Adaugă spaţiu înainte de caracterele / şi \
     15. □ Scoate spaţiul înainte de caracterele / şi \
     16. □ Adaugă spaţiu după caracterele / şi \
     17. □ Scoate spaţiul după caracterele / şi \
     18. □ Adaugă spaţiu înainte de caracterele "„
     19. □ Scoate spaţiul după caracterele "„
     20. □ Adaugă spaţiu după caracterul "
     21. □ Scoate spaţiul înainte de caracterul "
     22. □ Converteşte ghilimele obişnuite In ghilimele româneştii
     23. □ Sugerează tipul corect de liniuţă
     24. □ Sugerează scoaterea virgulei înainte de "şi"
     25. □ Arată posibilele cazuri de dialog francez ca sugestii
     _________________________________________


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
     Plecând de la acest tabel, va trebui să facem modificări, astfel:
         – eliminarea unor opţiuni care nu sunt valabile pentru OCR;
         – modificarea unor opţiuni şi adaptarea lor;
         – propunere de noi opţiuni.

     Încerc să fac propunere de eliminare a unor opţiuni care nu sunt necesare în OCR:

         – 01.b. – Introduce spaţiu între liniuţa de dialog şi cuvânt; face pentru orice tip de liniuţă dacă constată că e dialog în acel loc (la început paragraf sau în interiorul paragrafului);

         – 01.g. – Scoate repetare ; : ,
         Notă: dacă la editarea de documente, repetarea unor astfel de semne apar din cauza apăsării tastei mai mult timp, în OCR ele pot fi erori, dar ţin locul la nişte caractere... o repetare de virgule poate fi în locul punctelor de suspensie etc.

         – 04. □  ; : ,  ?  ! de la începutul liniei se mută la sfârşitul liniei precedente
         Notă: În OCR nu e valabil. Semnele ; : ,  ?  ! la început de rând pot apărea din cauza zonei întunecate a spaţiului dintre pagini. Ele trebuie şterse, dar nu foloseşte trecerea lor la sfârşitul rândului precedent.

         – 05. □ Schimbă virgula în punct înainte de liniuţa de dialog
         Notă: Ar putea fi vorba de linii de pauză şi nu de linii de dialog. Opţiunea ar putea produce efecte secundare nedorite.

         – 09. □ Adaugă spaţiu înainte de caracterele ! şi ?
         – 11. □ Adaugă spaţiu înainte de caracterul :
         Notă: Nu se pune apaţiu înaintea semnelor de punctuaţie care marchează sfârşit de propoziţie, cum ar fi , ; . : ! ?

         – 14. □ Adaugă spaţiu înainte de caracterele / şi \
         – 15. □ Scoate spaţiul înainte de caracterele / şi \ 
         – 16. □ Adaugă spaţiu după caracterele / şi \ 
         – 17. □ Scoate spaţiul după caracterele / şi \ 
         Notă: Caracterele / şi \  nu prezintă interes în OCR de literatură beletristică; în situaţia în care în mod excepţional apar astfel de situaţii, ele vor fi atât de puţine, încât este simplu să fie rezolvate manual. Cărţile tehnice, de regulă, se digitalizează în format imagini şi nu se face OCR. Cele 4 opţiuni consumă cod şi efort de implementare, dar nu rezolvă probleme în OCR.

     Cam acestea ar fi propunerile pentru opţiunile ce trebuiesc eliminate.
     Trebuie să analizăm bine oportunitatea ştergerii lor şi numai după aceea le voi trece în Planul de lucru, ca opţiuni ce trebuiesc eliminate.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Am discutat cu Daniel si cred ca pot fi scoase, da.

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Perfect. Deci din punctul de vedere al programării există acceptul, asta înseamnă că tehnic e rezolvabil.
      Este foarte important ca de la utilizatori să avem mai multe păreri pentru ca să nu facem o mişcare pripită, care ar putea fi contestată ulterior.
       
      În acelaşi timp am o propunere pentru colegii de forum:
      E nevoie de mai multe păreri şi mai multe discuţii.
      Mulţi useri mi-au trimis mesaje foarte frumoase în legătură cu munca şi rezultatele obţinute în dezvoltarea AutoCorect şi au subliniat că nu intră în discuţie deoarece consideră că cei ce lucrează în echipa de dezvoltare ştiu ei foarte bine ce au de făcut.
   
      Ei, eu cred că lucrurile nu stau chiar aşa şi că fiecare poate contribui cu o părere, cu o iniţiativă de opţiune, cu o critică...
      Chiar dacă după discuţii este posibil ca unele iniţiative să se dovedească neviabile este foarte important ca să existe cât mai multe păreri.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Am adaugat tab OCR Plus si la configurarea punctuatiei din AutoCorect Clasic.
La amandoua am implementat bifele din acel tab (pina acum erau doar vizuale) in codul de la punctuatie.
In plus am si scos optiunile despre care am discutat ultima oara.
Am pus cele 2 exe in topicul principal.

Daca dupa teste nu apar probleme, sugerez sa trecem la urmatoarea etapa: modificarea si adaugarea de alte optiuni.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      N-am apucat să fac download la versiunile din seara asta, aşa că nu am văzut încă ce modificări aţi făcut. Urmează să mă uit un pic mai târziu.
     

      În legătură cu adăugarea de opţiuni, mă interesează dacă este posibil de implementat [deci, acestea nu sunt propuneri de implementare, ci întrebări dacă implementarea e posibilă:

      ■     — Em dash aflată între litere mici se transformă în cratimă; ex: într—o --> într-o
      ■     ~ [tilda] aflată între litere mici se transformă în cratimă; ex: într~o --> într-o
      ■     punct urmat de spaţiu între două cifre se transformă în punct; ex: 25. 000 --> 25.000
      ■     virgulă urmată de spaţiu între două cifre se transformă în virgulă; ex: 725, 00 --> 725,00

       Situaţiile de la punct, respectiv virgulă urmată de spaţiu între cifre, poate apărea de la opţiunile adaugă spaţiu după punct/virgulă...

      Mai am o problemă la care mă gândesc.
      Este vorba de majuscularea la început de paragraf, fără a majuscula paragraful fals care apare la început de pagină, deşi el este în realitate un paragraf care începe la sfârşitul paginii anterioare. Acest fals paragraf apare după numărul de pagină, sau după un rând gol.
      ■     scrierea cu majuscule la început de paragraf, doar dacă paragraful anterior se termină cu literă mică urmată de punct sau literă mică urmată de ? ! ...
      Ideea este să nu se majusculeze începutul de paragraf, dacă paragraful anterior este:
         - paragraf gol;
         - paragraf care conţine cifre sau caractere, altele decât litere.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani

Seven a scris:

În legătură cu adăugarea de opţiuni, mă interesează dacă este posibil de implementat [deci, acestea nu sunt propuneri de implementare, ci întrebări dacă implementarea e posibilă:

      ■     — Em dash aflată între litere mici se transformă în cratimă; ex: într—o --> într-o
      ■     ~ [tilda] aflată între litere mici se transformă în cratimă; ex: într~o --> într-o
      ■     punct urmat de spaţiu între două cifre se transformă în punct; ex: 25. 000 --> 25.000
      ■     virgulă urmată de spaţiu între două cifre se transformă în virgulă; ex: 725, 00 --> 725,00


Da, e posibila.


Seven a scris:

Situaţiile de la punct, respectiv virgulă urmată de spaţiu între cifre, poate apărea de la opţiunile adaugă spaţiu după punct/virgulă...


Nu cred, deoarece codul actual detecteaza ca punctul/virgula se afla intre cifre si nu baga spatiu.
Ca o paranteza: optiunile asa cum ti le-am enumerat nu arata toate conditiile care sunt bagate in ele (ca de exemplu cea prezentata mai sus) - adica acele situatii care sunt considerate exceptie de la regula. Ca sa le descriu in amanunt ar trebui sa scriu ceva pagini...
Despre aceste conditii vorbesc cand spun despre cod ca a fost "cizelat" mult timp pina s-a ajuns la nivelul actual de performanta pe texte obisnuite.


Seven a scris:

Mai am o problemă la care mă gândesc.
      Este vorba de majuscularea la început de paragraf, fără a majuscula paragraful fals care apare la început de pagină, deşi el este în realitate un paragraf care începe la sfârşitul paginii anterioare. Acest fals paragraf apare după numărul de pagină, sau după un rând gol.
      ■     scrierea cu majuscule la început de paragraf, doar dacă paragraful anterior se termină cu literă mică urmată de punct sau literă mică urmată de ? ! ...
      Ideea este să nu se majusculeze începutul de paragraf, dacă paragraful anterior este:
         - paragraf gol;
         - paragraf care conţine cifre sau caractere, altele decât litere.


Poti te rog sa-mi dai exemple pe un text scurt unde nu ar trebui sa majusculeze?


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Chestia cu spaţiu după punct şi după virgulă.
      Este perfect dacă sunt evitate aceste situaţii... şi scuze!... 
      E posibil să mai semnalez şi alte situaţii false...
      Important este ca ele să fie evitate, aşa că le voi semna chiar dacă se va dovedi că ele erau rezolvate de mult timp... dar, mai bine aşa decât să scape ceva.

      Pregătesc un OCR ca fişier ca exemplu pentru problema cu majuscula la început de paragraf şi-l urc în circa 10 minute.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
       Gata. Am urcat pe mediafire un exemplu, un fragment din Ultimul mohican.
       Am marcat cu text roșu primul rând din paragrafele false.
       Nu am prins toate variantele. Cred că e suficient ca să/ți dai seama la ce mă refer.
       Fișier:        Exemplu_UM.doc
       Adresa:     http://www.mediafire.com/download.php?edlh8p5dfjxcb7a


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Multumesc.
Cred ca se poate implementa.
O intrebare: lungimea paragrafului anterior conteaza?
Conteaza ca e mixt (cifre + alte caractere decat litere)..?


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Lungimea paragrafului anterior: hai să mergem pe cel puţin 2 rânduri;
dacă paragraful ar avea un singur rând ar putea fi un antet rămas neşters [mă refer la nume autor sau titlu carte, ce pot fi tipărite în partea de sus a paginilor];

      Dacă e mixt...
      Aş vrea să evit tot acest antet care poate fi număr de pagină plus nume autor...

      Acum, nu ştiu cum să spun? Dacă paragraful anterioar ar avea cel puţin două rânduri, atunci... poate că nu ar mai conta faptul că apar şi cifre...
      În beletristică apar foarte rar cifre, dar uneori poate fi ocerizată şi o carte de alt gen, care ar putea conţine şi cifre...
      Al vrea şi părerea altora, dacă s-ar putea!....


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Înţeleg că opţiunile 3 şi 4 din imaginea următoare se referă la ghilimele de închidere.
      Am o neclaritate în legătură cu primele două opţiuni.
      Nu înţeleg exact dacă opţiunile se referă la ambele ghilimele [atât cele de deschidere, cât şi cele de închidere] sau e vorba de alte tipuri de ghilimele.


      Dacă în ordine cronologică, mai întâi facem convertirea diferitelor caractere, printre care şi diferitele ghilimele în ghilimele româneşti, atunci practic am putea ca cele 4 opţiuni să se restructureze astfel?
            • Adaugă spaţiu ÎNAINTE de caracterele  « şi  „
            • Elimină spaţiu DUPĂ caracterele  « şi  „
            • Adaugă spaţiu DUPĂ de caracterele  »  şi  ”
            • Elimină spaţiu ÎNAINTE caracterele  »  şi  ”

      Sau mai e ceva în plus... ce n-am înţeles?...

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 8 ani
Ce face AC-ul in cazul in care in text apare:

1987 -1999

O formatiune de genul celei de mai sus, dar cu un spatiu inainte sau dupa cratima.
La textul pe care lucrez acum, am primit multe sugestii de convertire a "-1" in "-I".
Desi situatia e cea de sus.
Nu se poate face o exceptie in cazul in care primul caracter de dinaintea cratimei e un numar?

E vorba de rularea OCr_Plus.

Modificat de utilitasetveritas (acum 8 ani)


pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
@Seven

La acele optiuni sunt prezentate 3 tipuri de ghilimele.
La 1 si 2 pe langa ghilimelele obisnuite de deschidere am adaugat si alt tip. Am vazut ceva texte in care acestea erau de fapt folosite pe post de deschidere si de aceea le-am pus impreuna.
Probabil la OCR Plus ar trebui scoase si folosite numai cele 2 standard.

A, mi se pare ca am uitat sa mentionez ca la "principiile de baza" prelucreaza si ghilimelele franceze automat (adica pune respectiv scoate spatiu). Deci nu trebuie adaugate optiuni si pentru ele.

@utilitasetveritas

O sa studiez problema.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      utilitasetveritas,
      La întrebarea asta trebuie să răspund eu.
      Sugestiile nu sunt date de un cod, ci de un dicţionar, aşa că eu sunt vinovat pentru asta.
      Acele sugestii ţi le face dicţionarul CO_L3.imd [CL_L3.imd] la rularea opţiunii  4.2.

      Putem modifica, dar aş prefera să nu facem modificarea foarte repede.
      Despre ce e vorba?
      Înainte de a avea multitudinea de opţiuni de la Înlocuiri multiple, în dicţionarele care rezolvau problema cu cifra 1 în loc de L mic, aveam drept condiţie "Cuvânt întreg" şi/sau "Potrivire perfectă".
      Condiţia "Potrivire perfectă" nu era chiar aşa de perfectă, pentru că puteau să mai apară şi modificări nedorite.
      După dezvoltarea ferestrei "Înlocuiri multiple" cu opţiunile pe care le ştii, inclusiv cele cu Cuvânt întreg la un singur capăt, am reorganizat complet dicţionarele, punând în L1 doar cuvinte întregi [deci fără putinţă de eroare], în L2 doar cuvânt întreg la sfârşit şi în L3 doar cuvânt întreg la început.

      Pentru că era fi posibil să mai fi scăpat vreo secvenţă posibilă netrecută în dicţionare, atunci am hotărât să trec în ultimul dicţionar 8 variante de poziţii ale lui 1 şi 0, dar modificările realizându-se doar cu confirmare.

     Practic, dacă dicţionarele sunt corect făcute, atunci toate aceste rulări cu confirmare ar trebui să facă zero modificări.
     Dacă dicţionarele nu sunt complete, atunci ar trebui să apară modificări. Aceste modificări m-ar interesa unde apara, pentru completarea dicţionarelor.

      Acum... ce să spun?
      Deocamdată aş merge încă ceva timp cu această variantă a dicţionarelor. dacă constatăm că nu se fac modificări, atunci ştergem cele 8 înregistrări.
      Tu, utilitasetveritas, cam cum crezi că e mai bine?

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Se pare ca am dat de un efect secundar nedorit al scoaterii acelor optiuni din punctuatie (enumerate cateva postari in urma).
Una din ele transforma "1987 -1999" in "1987 - 1999". Acum, deoarece ramane "1987 -1999", optiunea "Corectarea literelor l, d si m reproduse eronat" intreaba de "-1" daca sa fie transformata in "-l".
O solutie ar fi si sa aducem acea optiune inapoi, partial sau total.

Modificat de ciuperca_cosmin (acum 8 ani)


pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Am reverificat totusi ca sa fiu sigur si se pare ca nu e vorba de acele optiuni.

O alta solutie deci ar fi sa fac un cod care sa introduca un spatiu dupa cratima sau sa scoata spatiul dinainte.


pus acum 8 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 8 ani
Daca e prea mult de munca, las-o asa.

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
      Privind dicţionarul L3:
      Deoarece cred că secvenţele finale posibile sunt înregistrate în totalitate, se pot şterge fără mari probleme din dicţionar 4 înregistrări şi anume:
            - "Caută"  —1  /  -1   şi "înlocuieşte cu"   -l
            - "Caută"  —0  /  -0   şi "înlocuieşte cu"   -o

      Despre un eventual cod:
      Nu sunt foarte sigur, dar după câte îmi amintesc nişte discuţii mai vechi de pe forum, liniuţa dintre date, perioade, numere etc... nu este o cratimă, ci este un En dash...
      Cred că BlankCd sau Aleph a abordat discuţia... îmi pare rău nu prea stăpânesc regulile de editare.... ar fi foarte bine dacă cineva care se ocupă de editare clarifică asta.
       
      Dacă aşa este corect şi liniuţa dintre cifre este un En dash, atunci poate ar fi bine ca în acel cod să se facă şi această modificare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Pagini:  1 2 3 4 ... 17    
Mergi la