Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Lista de useri | Cauta | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Anne98 pe Simpatie.ro
Femeie
21 ani
Buzau
cauta Barbat
25 - 50 ani
Forum Romania Inedit / Totul despre cărți - About e-books / [AC] AutoCorect OCR_Plus - Instructiuni de folosire Moderat de Seven, Stelevadris, cuculean, uncris  
Autor
Mesaj Pagini:  1 2 3
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani



     Din corespondenta personală rezultă că o parte dintre useri ar dori câteva explicaţii despre cum poate fi folosit AutoCorect OCR_Plus pentru curăţarea OCR-urilor.

     Încerc să realizez niste tutoriale pe care să le pun pe acest topic.
     Până voi reuşi să realizez aceste tutoriale, am să încerc să prezint direct pe forum câteva lucruri despre:
          - rularea automată în meniul OCR_Plus şi setări ce se pot face înainte de rulare;
          - modul de setare al Punctuaţiei, fereastra pentru OCR_Plus
          - modul de realizare a dicţionarelor personale de Înlocuiri multiple.


      Deocamdată am făcut un foarte mic tutorial despre instalarea AutoCorect şi a dicţionarelor ce rulează în AutoCorect OCR_Plus.

      Nume Tutorial: [AC1] Instalare si reactualizare AutoCorect OCR_Plus.pdf

      Nume folder:    Tutoriale AC OCR_Plus
      Adresa folder:   http://www.mediafire.com/?62xlh5x2ekdaw


      Update:
      Dicţionare şi documentaţie AutoCorect OCR Plus:  [varianta finală – aprilie 2012]
      pe folderul deschis "Versiune finală - aprilie 2012"
      la adresa: Mediafire
      Fişierele sunt organizate în subfoldere cu acces direct de la adresa mediafire de mai sus.



      Foarte important



      Să stabilim care este asemănarea şi diferenţa dintre programul AutoCorect STANDARD şi AutoCorect OCR Plus.
      AutoCorect OCR Plus este practic programul AutoCorect STANDARD la care s-au adăugat următoarele 3 elemente:
          ■  un meniu în plus, numit "OCR Plus";
meniul OCR Plus a fost inserat între meniul "Inserare" şi meniul "Instrumente, astfel că în acest moment ocupă poziţia a patra de la stânga la dreapta.
          ■  o fereastră nouă pentru Setări - Punctuaţie - OCR Plus.
Alături de ferestrele  "Configurare - Punctuaţie - Document" şi "Configurare - Punctuaţie - Subtitrări" care sunt implementate în AC Standard, a fost creată o nouă fereastră pentru setarea punctuaţiei care rulează în meniul OCR Plus.
          ■  o comandă rapidă [scurtătură] în coloana de comenzi rapide din stânga ferestrei principale a programului.
Este vorba de ultima comandă rapidă, numită "OCR", aflată pe poziţia 5.

      Foarte important: primele patru comenzi rapide din coloana din stânga ferestrei principale nu trebuie folosite pentru corectarea OCR-urilor.
      Ele sunt comenzi rapide pentru corectarea documentelor standard şi nu a OCR.


      Dacă la programul AutoCorect OCR Plus ignorăm existenţa meniului OCR Plus, atunci înseamnă că avem programul AutoCorect STANDARD.

      Opţiunile speciale implementate pentru corectarea fişierelor OCR se pot rula numai din meniul OCR Plus. O rulare automată a meniului OCR Plus se poate face şi acţionând asupra ultimei comenzi rapide, aşa cum se vede în imaginea de mai sus.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

                  ═════════     CONFIGURARE PUNCTUAŢIE OCR_Plus    ═════════



     Înainte de a face prelucrări în AutoCorect este necesar să stabilim setările Punctuaţiei. Acest lucru se poate face înainte de a încărca un document în AutoCorect, dar se poate realiza şi cu un document încărcat, fără să afecteze aceste setări.

     Este important de reţinut că setările punctuaţiei [ca de altfel şi setările din meniul OCR_Plus] sunt salvate şi păstrate de către AutoCorect şi după închiderea programului, până la o nouă modificare a setărilor sau la o nouă instalare a AutoCorect.
     În concluzie aceste setări sunt valabile oricând vom folosi AutoCorect; ele se fac o singură dată şi nu la fiecare deschidere a programului.


     Cum procedăm?
     După deschiderea programului AutoCorect, din meniul principal, accesăm opţiunea „Instrumente” — > „Configurare” – ca în prima imagine – şi se va deschide fereastra „Configurare – General”.
     Accesăm tabul-icon „Punctuaţie”, apoi tabul „OCR Plus”.
     Fereastra „Configurare – Punctuaţie – OCR Plus” are în acest moment 5 taburi componente:
           ■ Conversii
           ■ Punctuaţia de bază
           ■ Majusculă
           ■ Diverse
           ■ Sugestii

     Să le discutăm pe rând.


          ■ Conversii
     Aici nu este mult de discutat. Fereastra de setare este mai mult decât sugestivă.
     Opţiunea va face conversiile menţionate în fereastră.
     Ea trebuie activată în mod obligatoriu de către toţi utilizatorii.



          ■ Punctuaţia de bază
     Aici sunt două setări: prima este obligatorie şi cea de-a doua se activează în funcţie de preferinţele utilizatorului.
      „Aplică principiile de bază ale punctuaţiei” trebuie activată în mod obligatoriu.
     Ca şi la tabul precedent şi aici sunt menţionate toate modificările pe care le va face opţiunea.
     Practic opţiunea nu face altceva decât să aplice regulile de scriere a semnelor de punctuaţie şi să adauge sau să şteargă spaţii în faţa sau după fiecare semn de punctuaţie, aşa cum cer regulile ortografice ale limbii române.
      „Crează listă de sugestii”
     Dacă vom activa această setare, pe timpul rulării Punctuaţiei, programul va crea o listă cu propuneri de corectare a punctuaţiei; această listă cuprinde propuneri ale programului, dar a căror rezolvare depinde de utilizator; utilizatorul va putea să verifice fiecare propunere şi să accepte sau nu modificarea propusă de program.
     Dacă utilizatorul va dori să facă doar o curăţare automată a OCR-ului, fără alte corecturi, atunci nu trebuie activată această setare.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
CONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P2   


          ■ Majusculă
     Aici este mai mult de discutat. Sunt trei situaţii în care se face majuscularea:
           La început de dialog
           La început de paragraf
           La început de frază

     Prima setare „Majusculă la început de dialog [inclusiv dialog cu ghilimele]” trebuie activată în mod obligatoriu.
     Rularea opţiunii va corecta toate literele mici la început de dialog fie el cu ghilimele sau nu.
     Rularea opţiunii nu produce modificări nedorite.

     Al doilea pachet de opţiuni se referă la corectarea majusculelor la început de paragraf şi necesită câteva explicaţii în plus.
     Mai întâi să definim paragraful:
     Iată o definiţie scurtă din dicţionare: paragraful este „Pasaj al unei lucrări despărțit de restul textului printr-un aliniat nou (şi printr-un semn grafic special); fragment (unitar) dintr-un text care cuprinde o anumită idee. Fragment mic al unui capitol, al unui discurs, al unui articol de lege etc. cuprins într-un alineat.”
     Pentru computer, pentru editoarele de text, paragraful este ceva mai mult de atât.
     Din punct de vedere al logicii editoarelor, paragraful cuprinde orice text/nontext cuprins între două comenzi „Enter”. Pe editor nu-l interesează dacă între cele două comenzi Enter se află un paragraf care are înţeles, dacă sunt una sau mai multe cifre, ori răgălii sau dacă între două Enter nu se află nimic, nici măcar un spaţiu. Editorul va considera că acela este un paragraf.
   
     Acestea fiind spuse, să încercăm să analizăm imaginea următoare şi să privim atent paragraful care începe la sfârşitul paginii 58 şi se termină la începutul paginii 59.
     Acest paragraf ar fi corect în forma următoare:
      — Lemn umed – răspunse războinicul, tot atât de calm ca un pedagog care-i face o demonstraţie aritmetică elevului său încurcat. Prea mult umezeală, prea mult fum; prea mult apă… fum negru.
 

     Ce constatăm?
     Paragraful real din punct de vedere literar şi a logicii limbajului, începe la sfârşit de pagină şi nu încape în totalitate pe pagina respectivă, ci se continuă pe pagina 59. Atenţie la ultimul cuvânt scris pe pagina 58: cuvântul elevu-, este de fapt cuvântul elevului, despărţit la capăt [sfârşit] de rând, sfârşit de rând care, în acest caz, corespunde şi cu sfârşit de pagină. Primul cuvânt de pe pagina 59 lui nici nu este un cuvânt real, ci este secvenţa finală a cuvântul elevului.

     Să privim mai departe: cele două părţi ale paragrafului real sunt despărţite de 4 „paragrafe digitale”:
          – paragraf 1 – nota de subsol „1 Colibă de piei-roşii” – cu font roşu în imagine;
          – paragraf 2 – nota de subsol „2 Oameni albi” – cu font roşu în imagine;
          – paragraf 3 – număr de pagină – numărul 58 – pe fundal bleu
          – paragraf 4 – paragraf [rând] gol, marcat cu |
     Din păcate, calculatorul a majusculat secvenţa de cuvânt lui cu care începe pagina, transformând-o în cuvântul Lui, calculatorul considerând că e vorba de un paragraf nou.

     Acum să încercăm să definim „Paragraful Întreg” şi „Paragraful Întrerupt” în sensul folosit la aceste setări.
     „Paragraful Întreg” este un paragraf normal, un paragraf obişnuit, aşa cum este definit în dicţionare, care urmează după un paragraf format din caractere de tip literă, mai lung de 7 caractere şi care se termină cu semne de punctuaţie corecte.
     „Paragraful Întrerupt” este acel paragraf care urmează după un paragraf gol [deci un rând gol] sau după un paragraf care conţine numai cifre [cum ar fi cazul numerelor de pagină].

     În sfârşit, acum revenim la setările privind majuscularea paragrafelor.
     Subliniez că din cele 3 setări posibile ale majusculării paragrafului se poate activa doar UNA SINGURĂ, la alegere.
     Să le analizăm pe rând:

      „Majusculă la început de paragraf – [orice literă – orice paragraf]”
     Această opţiune va majuscula orice literă la toate paragrafele, indiferent dacă ele urmează după un paragraf normal, ori după unul gol sau după unul format din cifre, dacă este un „Paragraf Întreg” sau un „Paragraf Întrerupt”

     Atenţie! Activând această opţiune se vor majuscula şi paragrafele care încep la sfârşit de pagină şi se continuă la începutul paginii următoare, fiind întrerupt de rândul gol dintre pagini sau de numărul de pagină, aşa cum s-a întâmplat în exemplul din imaginea de mai sus.

     Recomand ca această opţiune să fie activată doar în cazurile în care utilizatorul nu a păstrat [sau a şters] numerele de pagină şi nici nu are marcată trecerea de la o pagină la alta cu rând gol şi, de asemenea, a corectat despărţirea paragrafelor cu opţiunea „1.5 Repararea rândurilor rupte”.

      „Majusculă la început de paragraf [numai paragraf întreg]”
     Această setare va permite ca majuscularea să se facă la toate literele cu care încep paragrafele, dar doar la paragrafele care „curg” unul după altul, la paragrafele întregi. Efectul secundar al opţiunii este acela că dacă între titlul capitolului şi primul paragraf aven un rând gol, programul nu va majuscula acest paragraf.
     Recomand activarea acestei opţiuni.

      „Majusculă la început de paragraf [numai litera Î paragraf întreg]”
     Această setare va permite doar majuscularea literei î — > Î şi numai în cazul paragrafelor întregi. Practic aceasta seamănă cu setarea a doua, doar că nu caută toate literele mici la început de paragraf întreg, ci doar litera î.

     Notă: în general, Abbyy face puţine confuzii între literele mici şi literele mari, fapt pentru care nu sunt multe cazuri de început de paragraf care vor fi scrise cu litere mici, mai ales dacă s-a făcut un antrenament suficient al Abbyy cu caracterele [adică minim 5-6 pagini].
     Singura problemă majoră a lui Abbyy este aceea că nu recunoaşte niciodată pentru limba română litera Î [Î majusculă], ci o va scrie totdeauna cu î [î minusculă]. Practic aceasta, problema lui î, este principala problemă de rezolvat la majusculare.

     Avantajul setării acesteia faţă de setarea a doua este că majuscularea va rula mai repede, având mai puţine căutări de realizat; dezavantajul este că pot exista şi alte litere scrise cu minusculă la început de paragraf, pe care programul nu le va corecta. În funcţie de aspectul textului, utilizatorul ca avea posibilitatea să aleagă între setarea 2 sau 3, ori chiar setarea 1.

     Tot la tabul "Majusculă", mai sunt de discutat setările care se referă la "Majusculă la început de frază."
     Redau în imaginea de mai jos un fragment din fereastra se setare, spre a reaminti cum arată aceste setări.


     Prima setare, „Majusculă la început de frază – doar după punct urmat de spaţiu”, este setarea pe care o recomand. Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decât în situaţia în care Abbyy a pus în mod eronat un punct în locul unei virgule. Subliniez că punctele de suspensie, în acest moment, sunt deja convertite în Elipsis, astfel că opţiunea nu va majuscula propoziţiile care încep după puncte de suspensie.
     Avantaje şi dezavantaje ale setării. Rularea punctuaţiei astfel setate nu va produce erori de majusculare în plus, adică nu va majuscula situaţii în care trebuie păstrată minuscula. Dezavantajul este că pot rămâne începuturi de frază care urmează după ? ! şi elipsis, ce vor trebui corectate manual.

     Cea de-a doua setare, „Majusculă la început de frază – după ! şi ? urmat de spaţiu”, are dezavantajul că poate face majusculări în plus faţă de situaţiile corecte. Această opţiune va face majuscularea cazurilor de dialog francez, astfel că dacă va fi activată, în mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul „Sugestii” sau opţiunea specială din meniul OCR_Plus „4.5. Convertire majusculă în minusculă în dialog francez”.

     Niciuna dintre cele două setări nu este perfectă, fiecare dintre ele are avantaje şi dezavantaje.
     Personal prefer prima opţiune, pentru simplul motiv că aşa m-am obişnuit să lucrez.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
CONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3   


          ■ Diverse
     Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii.
     Recomand activarea tuturor setărilor.



          ■ Sugestii

     Pentru că personal nu am folosit aceste sugestii, am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă.
     Setarea a doua nu cred că necesită explicaţii, fiind suficient de sugestivă.
     Cea de-a treia setare, privind dialogul francez, se activează după cum am mai spus, doar dacă se activează opţiunea „Majusculă la început de frază – după ! şi ? urmat de spaţiu”.
     Aceste două setări şi opţiuni funcţionează în pereche: ori activate ambele, ori dezactivate.

     Cred că cele de mai sus sunt suficient de detaliate ori, poate, enervant de detaliate.
     Dacă a fost mai greu la citit... îmi cer scuze!... dar să ştiţi că nici la scris n-a fost foarte uşor. 

     Stimă şi Respect!
     Seven     

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

                  ═════════     Probleme constatate de useri la rularea Meniului OCR_Plus    ═════════


 
      "cind rules functiile de la OCR plus imi spune ca "nu poate deschide" urmatoarele dictionare CO_DE, L1, S1, Midp, Dlp, Df. Am verificat si dictionarele sint la locul lor."

      Mai întâi trebuie stabilit dacă rulează vreunul dintre dicţionare; dacă nu rulează niciunul atunci pot fi următoarele cauze:
            - dicţionarele nu au fost instalate în folderul corect;
            - dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi. Dicţionarelor iniţiale au fost redenumite, adăugându-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic. E bine de verificat pe baza anexelor Tutorialului din prima postare.

                  ═══════════════════════════

      Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor.

      Foarte important: Există în computer două foldere numite "Dictionare" Nu trebuie făcută confuzie între ele.

      Unul dintre ele se găseşte în Program Files, unde AutoCorect se instalează:
           „C:\Program Files\AutoCorect\ Dictionare”
      În acest folder "Dictionare" AutoCorect îşi instalează dictionarele sale de limba română, necesare funcţionării. Aceste dicţionare n-au nicio legătură cu cele ce rulează în Meniul OCR_Plus.

      Mai există un folder "Dictionare" si este cel care ne interesează si pe care Autoorect îl crează la prima lui rulare.
      Acest al doilea folder, cel ce ne interesează, are următoarea locaţie:
                 
        ■ în Windows XP:
     „C:\Documents and Settings\NUME_USER\Application Data\AutoCorect Clasic\ Dictionare” – pentru versiunea AutoCorect Clasic.
sau
     „C:\Documents and Settings\NUME_USER\Application Data\AutoCorect Contemporan\ Dictionare” – pt. versiunea AutoCorect Contemporan.


        ■ în Windows 7, Windows Vista:
     „C:\Users\NUME_USER\AppData\Roaming\AutoCorect Clasic \Dictionare” – pentru versiunea AutoCorect Clasic.
sau
     „C:\Users\NUME_USER\AppData\Roaming\AutoCorect Contemporan\ Dictionare” – pentru versiunea AutoCorect Contemporan.

      În aceste foldere numite "Dictionare" se crează folderul "OCR_DIC" şi aici se copiază dicţionarele ce rulează cu Meniul OCR_Plus.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 8 ani
2002 - 2012 = 10 ani.

10 ani din viaţa mea pentru AutoCorect, pentru a fi ce este acum, pentru un start, un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul...

Acum, eu renunţ complet la ce înseamnă AutoCorect, las moştenire tot ce înseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltând aplicaţia mai sus menţionată, chiar dacă nu ne-am întâlnit niciodată face-to-face.

Doresc şi voi trece în uitare aşa cum am început dezvoltarea AC, în linişte, fără susţinători.

Succes în continuare Cosmin, de acum tot greul va fi pe umerii tăi.
Sună ciudat, dar îmi este inima grea, simt că mă despart de ceva drag... cu bine..., tuturor.

Daniel Morlova.


pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
***
   Dragă Daniel,
 
   Nu ştiu exact când am descoperit AutoCorect, dar ştiu sigur că din vara anului 2009 am început să-i folosesc frecvent opţiunea de înlocuri multiple. Cred că era vorba de AutoCorect 2.3.
     E adevărat că se putea rula doar dicţionarul „implicit.dic”, dar am făcut mai multe dicţionare în Notepad, le-am ordonat înregistrările în ordine alfabetică şi le rulam prin redenumire şi copiere în folderul principal. Atunci am realizat cât de important era programul în corectura preliminară a OCR-urilor.

     Mai târziu, când a apărut AutoCorect 3.3 am fost un pic descumpănit. Dicţionarele primiseră extensia „imd” şi nu mai puteam să le editez în Notepad, ci doar în AutoCorect, ceea ce era un pic mai dificil, dar am descoperit că acum se puteau salva un număr infinit de dicţionare, iar rularea lor era mult mai uşoară. Programul era deja foarte puternic.

     Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect, topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor.

     Deşi nu-i văzusem niciodată în viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvânt, ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă. Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util. Şi mai ales, într-o ţară în care se vinde sau se fură orice, ei ofereau totul fără să primească nimic. Poate din când în când câte o mulţumire. Da, cred că la momentul în care am început eu să folosesc AutoCorect, e posibil să fi funcţionat şi forumul de pe Softset… Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect.
     Poate că există, mai mult ca sigur că există, mai multe programe româneşti free şi mulţi programatori demni de respect. Eu nu am avut onoarea să-i cunosc pe aceea, dar îi „ştiam” sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect. Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva în schimb.

     Când aţi apărut pe forum, pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci când caută o lămurire, iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat. Nu m-am gândit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus.
     M-am gândit că se mai pot face ceva îmbunătăţiri, mi se părea că Menssana vă cere prea mult şi, la început m-am şi opus la prea multe schimbări, dar mai apoi când aţi implementat noul meniu „OCR_Plus” am încercat să ajut cât pot…
     Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vârsta la care oamenii uită din ce în ce mai mult din ceea ce odată au ştiut, aşa că nu prea mai am timp să mă apuc de învăţat]; deci nepricepându-mă la altceva, am făcut ceea ce face tot românul: mi-am dat cu părerea, am chibiţat pe lângă… şi, e adevărat… am bibilit câteva dicţionare.

     În acest moment eram foarte mulţumit. Un timp mă ofticaseră ruşii şi chinezii, dar nu numai ei, că realizaseră programe speciale pentru digitalizarea cărţilor…
     Dacă ruşii au Scan Tailor sau ScanKromsator, dacă chinezii au DjVuToy… acum pot spune cu mândrie că şi noi, românii, avem un program special pentru digitalizare: AutoCorect OCR_Plus, şi asta e opera voastră, Daniel Morlova şi Cosmin Ciupercă.

     Mie mi-au trebui şapte ani să descopăr AutoCorect… Nu ştiu cât timp va trece până ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare, dar sigur este că va veni momentul când oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus.

     Şi că vrem… sau că nu vrem, AutoCorect înseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna.
     
     Am fost onorat să chibiţez pe lângă o asemenea echipă şi vă mulţumesc pentru toată munca voastră.
   
     Cu stimă şi respect,
     Seven


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 8 ani
O, da.... cat timp l-am batut pe Cosmin la cap sa vina aici )

pus acum 8 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 9 ani
Multumesc, Seven.

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

                  ═════════     RULAREA AUTOMATĂ A MENIULUI OCR_Plus    ═════════




          ■ GENERALITĂŢI



      Îmi cer scuze dacă vor fi prea multe postări!
      Deoarece este foarte dificilă editarea şi reeditarea în postări lungi am ales varianta ca fiecare pachet de opţiuni să fie tratat în câte o postare separată.
      Va dura o perioadă până ce toate postările vor fi complete. Mai întâi voi insera imaginile necesare şi apoi vor fi adăugate explicaţii, astfel că la un moment dat vor fi editate mai multe postări, dar făcă ca vreuna dintre ele să fie completă.

                  ════════════════════════════════════


     Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat. Am ales varianta în care să prezentăm mai întâi fiecare pachet de opţiuni în parte, deoarece rularea cronologică mi se pare mai dificil de explicat.

     Mai întâi să stabilim câteva aspecte:
     ■ a. Programul AutoCorect OCR_Plus poate fi folosit în cel puţin două variante:
          – CORECTURA sau varianta LUNGĂ – este varianta de lucru care permite o corectură completă, în care se rulează atât opţiunile din meniul OCR_Plus cât şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă, inclusiv corectura cap-coadă prin citire.
          – CURĂŢAREA sau varianta SCURTĂ – se foloseşte pentru o curăţare rapidă a OCR-ului, după care utilizatorul va continua corectura prin citire-cap coadă în alt editor de text. Aceasta este varianta pe care o vom discuta în continuare.

     ■ b. Timpul de rulare a meniului OCR_Plus.
     Timpul depinde de mărimea documentului de corectat, ceea ce este normal, dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 × 200 = 400 pagini, timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare, ci de aproximativ 2 × 2, adică de vreo patru ori.
      Dacă avem cărţi mari de curăţat este bine să le împărţim în câte două sau trei părţi de circa 200 de pagini. Din teste, rezultă că mărimea optimă este în jurul a 200 de pagini.
      Programul păstrează setările, astfel că toate părţile vor fi curăţate în acelaşi mod.

     ■ c. Aşa cum am menţionat şi altădată, programul AC nu face totul… şi nici nu e necesar să facă totul. Practic el este un instrument care ne ajută să curăţăm grosul greşelilor. Adevărata curăţenie… adevărata corectură o face omul. Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează, alegând opţiunile care-l avantajează… şi, de asemenea, el va putea îmbunătăţi programul prin adăugarea de noi dicţionare cu înregistrări specifice cărţilor pe care le corectează. Aceste dicţionare suplimentare le va putea adăuga, după cum vom vedea, la opţiunea 11.







     Din meniul principal, alegem „OCR_Plus” — > „Rulează toate opţiunile”, ca în prima imagine.
     Programul va deschide fereastra cu lista de opţiuni, aşa cum se vede în cea de-a doua imagine.
     În această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm.
     La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările default sunt cele care ne convin sau le vom modifica după dorinţă.
     Este important de reţinut că aceste setări şi activarea/nonactivarea opţiunilor se păstrează până la o eventuală modificare sau o nouă instalare de executabil. În concluzie, setările se fac o singiră dată pentru mai multe utilizări ale programului.
     După stabilirea tuturor setărilor se apasă butonul „Rulează”.

     Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă. Cu toate acestea, opţiunile pot fi mutate în sus şi în jos, astfel că ordinea lor se poate schimba, dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor.

     Pentru a putea hotărî care dintre opţiuni să fie activate şi care nu, precum şi care sunt setările necesare, vom proceda la explicarea în detaliu a fiecărei opţiuni.
     Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni, fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni, voi explica avantajele folosirii fiecăreia în parte, dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii.


     Legea nr.1: AutoCorect PCR_Plus face o precorectură şi nu o corectură textului. După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului.

     Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe înlocuiri corecte, dar nu este exclus ca în text să facă şi înlocuiri eronate, chiar dacă acestea sunt în număr mic până la extrem de mic.
     La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cât mai mult pe cel ce corectează manual; cu alte cuvinte, dacă o înregistrare face foarte multe înlocuiri corecte, dar din când în când produce şi modificări incorecte, această înregistrare a fost făcută. Practic s-a avut în vederea frecvenţa apariţiei într-un text a unui anumit cuvânt într-o anumită formă.
    Exemplu: există în limba română, atât cuvântul < în > cu o frecvenţă foarte-foarte mare în orice text, dar există şi cuvântul < in > ce are o frecvenţă foarte mică. Am ales să facem modificarea in >> în, iar când corectorul găseşte în text că este vorba de cuvântul < in = plantă tehnică> - atunci corectorul face modificarea manuală. Sunt multe alte exemple.

     Legea nr.2: vom activa TOATE acele opţiuni pe care le considerăm necesare.
     Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid în AutoCorect.

     Legea nr.3: vom activa DOAR acele opţiuni pe care le considerăm necesare.
     Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile.
     
     Legea nr.4: Legea 1 este OBLIGATORIE TOTDEAUNA, ORIUNDE şi pentru ORICE TEXT; Cine procedează altfel, are şanse sigure SĂ STRICE un text deja corectat. Din păcate sunt câţiva "isteţi" care au procedat astfel, realizând o versiune "superioară" la o calitate "inferioară".
     Legile 2 şi 3 pot fi complet ignorate, da' e păcat.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 1. CONVERTIRI PRELIMINARE


       1.1. Conversie dialog bullets în dialog text
       1.2. Setare text la font şi mărime unică
       1.3. Eliminare tab şi spaţii multiple
       1.4. Eliminare spaţii la început de paragraf
       1.5. Repararea rândurilor rupte
       1.6. Rupere rânduri care încep cu dialog aflate în interiorul paragrafului.




       1.1. Conversie dialog bullets în dialog text
     Opţiunea, aşa cum sugerează şi numele, transformă liniile de dialog de tip bullets în linii de dialog de tip text.
     Păstrarea într-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de dialog, din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului.
     Opţiunea nu necesită multe explicaţii. Va fi ACTIVATĂ obligatoriu. Nu produce efecte secundare nedorite.
     Recomand ca această opţiune să fie rulată separat si la terminarea corecturii, deoarece pe timpul corecturii pot să mai apară în mod accidental situaţii în care linii noi de dialog apar ca buletts.


       1.2. Setare text la font şi mărime unică
     Un OCR poate fi salvat de Abbyy în diferite formate: doc, rtf, pdf, htm, lit etc...
     Recomand o singură variantă şi anume: RTF.
     La rândul lui şi RTF-ul poate fi salvat în mai multe variante de formatare:
                  – RTF – Exact copy
                  – RTF – Editable copy
                  – RTF – Formatted text
                  – RTF – Plain text
     Primele două ["RTF – Exact copy" şi "RTF – Editable copy"] pot fi acceptate doar dacă OCR-ul extras va fi printat sau citit fără a fi corectat. Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate, deoarece la aceste formatări apar zone de Text Box şi în principiu tot textul este inserat în Frame-uri, câte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy, deci fiecare pagină va avea cel puţin două-trei Frame]. Pentru a realiza corectura va trebui ca mai întâi să fie şterse aceste Frame şi încadrări de la Text Box.

     Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise în acest mod sau, pur şi simplu cartea este scrisă doar cu font drept [regular], atunci putem salva în varianta cea mai simplă, "RTF – Plain text" şi vom avea text cu acelaşi font şi la aceeaşi mărime.

     În principiu, varianta optimă de salvare a unui text OCR în Abbyy este RTF - Formatted text.
     Această variantă salvează toate formatările de text, dar fără încadrări de tip Box Text sau Frame. Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi, o mulţime de valori pentru mărimea textului, de la 4-5 puncte tipografice până la valori foarte mari [chiar şi 150 puncte pentru câte un caracter singular, recunoscut eronat], precum şi o serie de formatări false ale textului. Din acest motiv este necesară o formatare a textului la font şi mărime unică.

     Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus. Setările sunt de asemenea complexe, astfel că vom insista mai mult pe fiecare grup de setări.



     ■ Setare font
     Deşi fereastra de setare este suficient de sugestivă, sunt necesare câteva explicaţii.
          – Nume font şi Mărime font. Vom stabili fontul şi mărimea ca în orice editor. Personal folosesc "Bookman Old Style" la mărimea 11, dar pot fi folosite şi alte fonturi şi mărimi, conform obişnuinţei. Recomand fontul "Droid Serif"; este un font foarte uşor de citit, în special pe Readere.
          – culoare – setarea poate rămâne inactivă; opţional se poate activa şi stabili culoarea [în principiu la cărţi se foloseşte culoarea Black şi nu Automatic]. Recomandare personală: setare inactivă.
          – "B + I = I" – această setare va înlocui toate bucăţile de text formatate bold+italic în font italic simplu, neboldat.
     De regulă, în cărţile de beletristică nu este folosită formatarea Bold+Italic, astfel că zonele de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy. Recomandare personală: setare ACTIVĂ.
          – "B >> N" – această setare va înlocui toate bucăţile de text formatate cu  Bold simplu în font drept simplu, neboldat. La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor, dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect, în special cuvintele care conţin litera O şi L mic lângă cratimă, deoarece nu va şti sigur dacă acolo se află literele O sau L mic, ori cifrele 0  sau 1.  Recomandare personală: setare ACTIVĂ.
          – Resetare zoom 100% – la alegerea utilizatorului. Recomandare personală: setare inactivă.



     ■ Setare paragraf
     Aceste setări nu implică prea multe discuţii. Se pot alege orice valori, dar le recomand pe următoarele:
          – Alineatul: are valori zero în marginea stângă şi dreaptă a paginii, iar primul rând începe mai din interior cu 0,5 cm [0,2 inches]
          – Spaţiere rânduri = 1; textul este scris "la un rând".
          – Spaţiere caractere = 0. Spaţiu dintre două litere este un spaţiu normal, adică nu este nici condensat, nici expandat.
          – Spaţiu paragraf: Înainte = 0. După = 0. Spaţiul dintre paragrafe este unul normal, ca şi cel dintre rânduri, adică distanţa dintre două paragrafe este aceaşi cu cea dintre două rânduri ale aceluiaşi paragraf, deci tot "la un rând"
          – Aliniere paragraf = stânga-dreapta sau, ceea ce cunoaştem ca "Justify".



     ■ Setare pagină
     La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii în orice editor. Recomand folosirea valorilor din imagine: pagina format A5 cu marginile de 1 cm, iar Antetul şi Subsolul de 0,5 cm.
     Menţionez că: 0,5 cm ≈ 0,2 inches, iar 1 cm ≈ 0,39 inches

      Sunt foarte importante setările de font şi cele de paragraf, dar poate rămâne neactivată opţiunea de setare a paginii. Setarea paginii se poate face atunci când începe corectarea propriu-zisă prin citire-cap coadă a textului.

     După ce am definitivat setările de font, paragraf şi pagină, acţionăm butonul "Setează" pentru a salva setările şi a ieşi din fereastra de setare.


       1.3. Eliminare tab şi spaţii multiple
     Opţiunea converteşte toate taburile în spaţii simple şi, de asemenea converteşte toate spaţiile multiple într-un singur spaţiu, astfel că între cuvinte va exista în tot textul câte un singur spaţiu. Recomandare personală: setare ACTIVĂ.


       1.4. Eliminare spaţii la început de paragraf
     Opţiunea elimină spaţiile existente la început de paragraf.
     Este necesară eliminarea spaţiilor aflate la început de paragraf, deoarece opţiunile de corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la început de paragraf.
     Utilizatorul de Word sau alte editoare de text, care se respectă, nu va alinia începutul de paragtaf prin adăugare de spaţii sau taburi în faţa primului rând ci va seta paragraful astfel încât prima linie să fie scrisă mai din interior. Recomandare personală: setare ACTIVĂ.


       1.5. Reparare rânduri rupte
     S-a ales formularea "rânduri rupte", ca fiind mai sugestivă, dar opţiunea poate fi numită şi "repararea paragrafelor rupte".
     Într-un OCR pot apărea situaţii în care unele dintre paragrafe sunt "rupte".
     Cauzele apariţiei paragrafelor rupte sunt mai multe, printre care:
           - o simplă eroare de interpretare a Abbyy, deşi setările au fost făcute corect.
           - setare greşită în Abbyy [a fost activată opţiunea "Keep line breaks" din Tools -> Options -> 3. Save -> Text settings].
           - copiere directă cu Copy&Paste dintr-un fişier de alt tip: pdf, htm etc...

      Iată un exemplu de pagină rezultată din Abbyy care a avut setarea "Keep line breaks" activă - Vezi Img.1.
      Se observă că toate rândurile au devenit "un fel de" paragrafe.
      În a doua imagine se văd şi codurile de sfârşit de rând [semnul sub formă de săgeată orientată în jos] şi codurile de sfârşit de paragraf [cel sub formă de P întors] - Vezi Img.2.
      În cazul în care "ruperea paragrafelor ar fi avut un alt motiv decât setarea din Abbyy, la sfârşitul rândurilor ar fi putut apărea semnul sfârşit de paragraf în locul semnului sfârşit de rând.
      Iată cum apare pagina după rularea opţiunii 1.5. Reparare rânduri rupte - Vezi Img.3.

      Este important de menţionat că opţiunea are implementate opţiuni de setare, aşa cum se vede în imaginea de mai jos.


      Recomandări privind setările opţiunii:
      Din experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de beletristică. În cazul cărţilor de specialitate [drept, economie, medicină, tehnică  etc.] se va evita activarea opţiunilor nr. 5 şi 10 sau se vor folosi cu mare atenţie. În cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă, în cazul în care este vorba despre o enumerare.
     
      Comentarii despre opţiune.
      Opţiunea rezolvă un număr relativ de erori în cazul unui OCR rezultat dintr-o extragere Abbyy cu setări corecte. Efectele negative ale opţiunii sunt limitate sau inexistente. Singura menţiunea este cea privind setările 5 şi 10 în cazul unor cărţi cu structură diferită de literatura beletristică. În cazul textului obţinut cu Copy&Paste din formate speciale [pdf, htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la câteva ore la unul-două minute. Recomandare opţiune: setare ACTIVĂ.


       1.6. Rupere rânduri care încep cu dialog aflate în interiorul paragrafului
      Sunt cazuri în care Abbyy "lipeşte" în mod eronat două paragrafe sau mai multe paragrafe. Cazurile sunt mai dese în cazul paragrafelor obişnuite, dar există şi cazuri în care un paragraf care începe cu linie de dialog a fost lipit la sfârşitul paragrafului din faţa sa.
      Opţiunea încearcă să repare această ultimă eroare şi "rupe" paragraful atunci când găseşte o liniuţă care îndeplineşte condiţiile unei linii de dialog. Astfel, liniuţa trebuie să aibă spaţiu înainte şi după, are o frază care se termină corect înaintea spaţiului din faţă şi are o frază care începe cu literă mare după spaţiu de după liniuţă.
      Sunt cazuri de beletristică în care toate condiţiile de mai sus apar şi în cazul unei linii de pauză. Situaţiile sunt destul de rare, dar există. Mai mult decât atât, aceste situaţii apar, de regulă, în cazul dialogurilor, iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul; deci confuzia poate fi mare, dacă se face o rupere eronată.
      Rularea opţiunii poate produce erori în cazul unui anumit autor sau traducător; dacă marcarea comentariilor autorului în dialoguri se face cu linii de pauză, erorile pot avea o frecvenţă mai mare; dacă aceste comentarii sunt marcate prin virgule, erorile sunt minime sau inexistente. Opţiunea trebuie folosită cu atenţie, după o vizualizare cât de sumară a textului, pentru stabilirea modului în care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele într-un dialog.
      Iată două moduri corecte de marcare a comentariilor autorului într-un dialog.
            — Nu sunt credincios – zise el – dar am să spun Tatăl Nostru de zece ori, ca să prind peştele.
            — Nu sunt credincios, zise el, dar am să spun Tatăl Nostru de zece ori, ca să prind peştele.
      În cazul în care în carte se foloseşte metoda liniilor explicative ca în primul exemplu, activarea opţiunii ar putea produse erori; În cel de-al doilea caz, erorile sunt aproape excluse.
      Recomandare personală: utilizatori începători = setare inactivă şi utilizatori avansaţi = setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 2. PUNCTUAŢIE


       2.1. Eliminare artefact-paragraf
       2.2. Corectare linii de pauză şi linii de dialog
       2.3. Funcţii obişnuite
       2.4. Corectare suplimentară elipsis
       2.5. Conversie combinaţii ? ! şi . ,



       2.1. Eliminare artefact-paragraf
     Paragraf-artefact sau artefact-paragraf în cazul de faţă este un paragraf care nu conţine text, cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de "răgălie"].
     Opţiunea caută şi modifică un astfel de paragraf şi şterge "răgăliile", transformând paragraful în unul gol, fără conţinut.
     Această opţiune funcţionează prin rularea dicţionarului CO_Artef.imd, respectiv CL_DArtef.imd.
     Exemplu de caractere-răgălii înregistrate la acest moment: ■ ♦ • ^ < > | ► □ ▫ ● ▼ ◄ ▲ ◊ ○ ◘ ◙ ◦ │ ¦ _ @ # $ Ł % + = { } [ ] · §
     Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite în OCR.
     Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate înregistrările au în mod obligatoriu condiţiile "Început de paragraf" Pi şi "Sfârşit de paragraf" Ps, la care se adaugă "Potrivire perfectă" Pp.
     În ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps
     Dacă una dintre cele două condiţii Pi sau Ps lipseşte, programul va căuta astfel de situaţii şi la începutul sau sfârşitul unor paragrafe care conţin text, ceea ce poate afecta corectitudinea textului, deoarece pe lângă răgălii au fost înregistrate sau se pot înregistra şi semne de punctuaţie solitare sau chiar litere solitare.
     Aşa cum este editat dicţionarul la momentul actual, nu există efecte secundare nedorite.
     Recomandare personală: setare ACTIVĂ


       2.2. Corectare linii de pauză şi linii de dialog
     Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare: CO_LinP.imd şi CO_LinD.imd [CL_LinP.imd şi CL_LinD.imd]
     CO_LinP.imd ia în calcul liniile de pauză, deci linii indiferent unde s-ar afla în text şi rulează primul, iar CO_LinD.imd se ocupă doar de curăţarea liniilor de dialog, deci are condiţia onligatorie "Început de paragraf" Pi.
     La rularea acestei opţiuni, sunt "curăţate" de răgălii liniile de pauză şi liniile de dialog; altfel spus, se elimină din jurul liniilor de dialog şi liniilor de pauză, diferite caractere recunoscute eronat, indifernt dacă acestea sunt lipite de linii în faţa lor sau după ele sau dacă între linii şi răgălii există spaţiu. Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere.
     Efectele negative ale opţiunii sunt minime, de circa două-trei procente.
     Folosirea opţiunii scurtează în foarte-foarte măsură timpul necesar la corectura manuală.
     Cele două dicţionare pot fi îmbunătăţite; se vor urmări cu atebţie condiţiile ce trebuie puse înregistrărilor.
     Recomandare personală: setare ACTIVĂ
     

       2.3. Funcţii obişnuite
     Opţiunea pune în aplicare toate setările care s-au făcut la "Configurare - Punctuaţie - OCR_Plus"
     Problemele au fost tratate detaliat în postarea privind "Configurare - Punctuaţie - OCR_Plus", aşa că nu mai reluăm explicaţiile.
     Recomandare personală: setare ACTIVĂ

       2.4. Corectare suplimentară elipsis
     Elipsis este caracterul asemănător cu trei puncte color=#7FFFD4]…Pi[/color] doar că este un singur caracter şi nu o succesiune de 3 caractere. Este foarte important ca în locul punctelor de suspensie să fie folosit caracterul Elipsis, deoarece în interpretarea unor opţiuni se poate face confuzie între caracterul "punct" şi unul dintre punctele componente de la punctele de suspensie. Discuția s-a purtat pe forum, fapt pentru care nu insist asupra importanţei caracterului Elipsis.
     La opţiunea "2.3. Funcţii obişnuite" se face conversia succesiunii de 3 sau mai multe puncte în Elipsis.
     Această opţiune adaugă în plus alte câteva situaţii, în care succesiunea este compusă din puncte şi virgule în diferite combinaţii, aşa ca în exemplele următoare:
     ,..  .,.  ..,  ,,.  ,.,  .,,  ....  ,...  ,…  .,..  ..,.  ...,  …,  ,,..  ,.,.  ,..,  .,,.  .,.,  ..,,
     Toate aceste combinaţii sunt transformate într-un singur caracter Elipsis.
     Recomandare personală: setare ACTIVĂ


       2.5. Conversie combinaţii ? ! şi . ,
     Există situaţii în care caracterul ? este însoţit în mod eronat de un caracter punct sau de un caracter virgulă.
     Punctul sau virgula sunt lipite de caracterul ? înainte sau după el, astfel: .?  ,?  ?.  ?,
     Acelaşi lucru este posibil şi cu caracterul !. Exemplu: .!  ,!  !.  !,
     Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de vechimea hârtie sau textura de slabă calitate a hârtiei, ori din alte morive. Practic aceste puncte sau virgule nu există în textul original şi ar trebui eliminate.
     În principiu, la rularea acestei opţiuni, punctul sau virgula lipită de ? sau de ! sunt eliminate, astfel că:
        .?  ,?  ?.  ?,     se transformă în      ?
        .!  ,!  !.  !,       se transformă în      !
     Opţiunea are o fereastră de setare a combinaţiilor.
     Aceasză opţiune este implementată în ultima perioadă, astfel că nu au fost făcute foarte multe teste.
     Recomandare personală: setare ACTIVĂ cu activarea tuturor situaţiilor din setare, dar şi urmărirea pe cât posibil a efectelor opţiunii asupra textului.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 3. CONVERSIE TEXT CLASIC ÎN TEXT CONTEMPORAN


     Aceasta opţiune este implementată în AutoCorect oficial încă de la apariţia primelor versiuni şi se află ca opţiune independentă în meniu la Editare --> Conversie text clasic în text contemporan.
     Deoarece opţiunea este folosită frecvent în curăţarea OCR, s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat în cadrul meniului OCR_Plus.
     Practic, opţiunea înlocuieşte formele < sînt, sîntem, sînteţi > cu < sunt, suntem, sunteţi > şi înlocuieşte litera < î > din interiorul cuvintelor cu litera < â >.
     Opţiunea funcţionează astfel încât să nu afecteze scrierea cu < î > în interiorul cuvintelor compuse, astfel că nu face înlocuirea lui < î > în cazul cuvintelor compuse cu prefixele din imaginea următoare: Vezi imagine
     Înlocuirea NU FACE şi o corectare a cuvintelor, ci doar conversia literei  î >> â şi a celor trei forme sînt.
     Există o singură excepţie: la rularea opţiunii cuvintele < nici o > şi < nici un > se transformă în < nicio > şi < niciun >.
     Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii, au fost făcute câteva înregistrări de forma: nicio singură >> nici o singură; niciunei singure >> nici unei singure; niciun singur >> nici un singur; niciunui singur >> nici unui singur.

     Foarte important!
     Sunt împărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană.
     Nu încerc să susţin o variantă sau alta, chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria în urmă cu aproape 20 de ani, dar trebuie avut în vedere că: TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT ÎN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE ÎN LIMBA ROMÂNĂ CONTEMPORANĂ.
     Aceste dicţionare au fost gândite şi au o anumită logică pentru erori ce apar la texte în varianta Contemporană. Pentru varianta Clasic s-a făcut doar o înlocuire simplă a literei < â > cu < î > în înregistrări. Este posibil ca unele înregistrări în varianta Clasic să nu producă efecte.

     În concluzie, cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune.
     Recomandare personală: setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 4. CORECTARE CARACTERE REPRODUSE ERONAT


       4.1. Corectarea majusculelor încorporate
       4.2. Corectarea literelor l, d şi m reproduse eronat
       4.3. Corectare cuvinte foarte scurte
       4.4. Corectarea minuscule la început de paragraf
       4.5. Convertire majusculă în minusculă în dialog francez
       4.6. Înlocuire secvenţe cuvinte




     Când spunem erori de OCR, cel mai adesea ne referim la erori de recunoaştere a caracterelor.
     Există caractere asemănătoare ca formă, precum cifra 1 sau semnul de punctuaţie ! şi litera L mic, cifra 0 şi litera O, grupul c+l şi litera d, grupul r+n şi litera m, caracterele $ sau § şi litera Ş, confuzii între literele e şi c...
     Erori de OCR sunt şi rocade de două litere alăturate, astfel că grupul et poate fi reprodus ca te... şi multe alte erori în care în locul unui caracter, Abbyy "recunoaşte" un alt caracter.
     Unele erori sunt date de insuficienţa înregistrărilor în dicţionarul de limba română la care Abbyy are acces.
     Acest pachet de opţiuni încearcă să rezolve o parte din aceste erori.
     Pachetul se bazează în principal pe rularea automată a unui număr mare de dicţionare de tip OCR_Plus.
     În acest moment pachetul în totalitatea lui rulează 12 dicţionare cu peste 4600 de înregistrări. Mai sunt în lucru alte câteva dicţionare de secvenţe care nu au fost definitivate şi implementate.
     Este posibil ca în perioada următoare pachetul să mai fie îmbunătăţit şi cu alte opţiuni, dar acest lucru nu va complica modul de lucru al utilizatorului, deoarece opţiunile au un element comun - rularea automată de dicţionare care fac înlocuiri de cuvinte sau secvenţe de cuvinte.
     Practic toate opţiunile din pachet ar putea fi comprimate în una singură, numită "Corectare caractere reproduse eronat". A fost aleasă varianta divizării în mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de înlocuiri pe care o anume opţiune le face.
     O caracteristică un pic aparte o are opţiunea 4.5. Convertire majusculă în minusculă în dialog francez, pe care o vom sublinia la momentul respectiv.

     Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor, pe motiv că ele ar produce efecte secundare nedorite, vom descrie în detaliu fiecare opţiune în parte.

     E posibil ca explicaţiile să fie ceva mai lungi decât la alte opţiuni, astfel că am ales varianta ca unele dintre opţiuni să fie tratate în câte o postare separată. Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat.


       4.1. Corectarea majusculelor încorporate

     Termenul de majusculă încorporată se referă [în acest caz] la scrierea eronată cu una sau mai multe litere majuscule în interiorul unor cuvinte ce trebuie să conţină doar litere minuscule.
     Există câteva litere care au aceeaşi formă, atât în forma majusculă, cât şi în forma minusculă.
     Este vorba despre literele C, J, O, P, S, Ş, U, V, W,  Z, care seamănă până la identificare cu forma lor minusculă: c, j, o, p, s, ş, u, v, w, z.
     În cazul acestor litere, între majusculă şi minusculă există doar diferenţă de mărime.
     Din acest motiv Abbyy poate face confuzii între minuscula şi majuscula unei litere, fapt pentru care pot rezulta OCR, care au litere majuscule în interiorul cuvintelor scrise cu minuscule.

     Iată ultima frază scrisă în acest mod:
     Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii între minUSCUla şi majUSCUla unei litere, fapt pentrU care pOt rezUlta OCR, care aU litere majUSCUle în interiOrUl CUvintelOr SCriSe CU minUSCUle.

     Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus.
     Recomandare personală: setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
       4.2. Corectarea literelor l, d şi m reproduse eronat

     Opţiunea rulează automat următoarele 5 dicţionare:
           – CO_L1.imd, CO_L2.imd şi CO_L3.imd – pentru corecţiile: cifra 1 >> L mic, ! >> L mic şi cifra 0 >> litera O.
           – CO_Gcl.imd – pentru corectarea: grupul c+l >> litera d.
           – CO_Grn.imd – pentru corectarea: grupul r+n >> litera m.

     Să analizăm pe rând fiecare grupă de erori.

     Cifra 1 în locul literei l [L mic]
     La marea majoritate a fonturilor de tip serif, cifra 1 şi litera L mic sunt foarte asemănătoare. Fontul Bookman Old Style le reproduce identic, iar în Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare; pentru detalii despre fonturi serif şi sans serif, vezi imagine aici şi detalii suplimentare aici.
     Abbyy face frecvent această confuzie şi scrie cifra 1 în loc de litera l [L mic] în situaţiile în care litera L mic este lipită de cratimă, indiferent dacă este vorba de cratimă înaintea literei sau cratimă după litera L mic. Abbyy crede că respectiva cratimă este semnul "minus" din matematică, iar litera L mic este cifra 1; în concluzie, cratimă lipită de litera L este considerat a fi "unu minus..." sau "minus unu".
     Există un număr mic de useri începători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere "cifra 1" acolo unde trebuia să fie L mic.
     Cifra 0 în locul literei O [mic sau mare]
     Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 >> litera L mic. Subliniiez că cifra 0 neînspţită de alte semne este corectată ca fiind litera O mare, iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvânt cu cratimă.
     Semnul exclamării în locul literei l [L mic]
     Semnul exclamării poate fi reprodus de Abbyy în locul literei L mic, atunci când baza literei L mic nu este clar reprodusă în carte, ca urmare a unui tipar defectuos sau uzura în timp [ştergerea merginilor literei, "găurirea" literei. Pentru corectarea ! >> l nu au fost luate în calcul situaţiile în care litera L mic ocupă poziţia finală în cuvânt, ci doar dacă după semnul ! urmează cel puţin o literă mică.

     Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1.imd, CO_L2.imd şi CO_L3.imd, respectiv CL_L1.imd, CL_L2.imd şi CL_L3.imd pentru AC Clasic.
     În principiu, la acest moment, dicţionarele sunt structurate astfel: L1 cuprinde cuvinte întregi, L2 cuprinde secvenţe de sfârşit de cuvânt şi L3 cuprinde secvenţe de început de cuvânt. Faţă de această structură există şi înregistrări care fac excepţie: este vorba de înregistrările care converteşte semnul ! în L mic, şi care deşi nu sunt cuvinte întregi, ci secvenţe de două caractere, au fost înregistrate în primul dicţionar.
     Variante de dicţionare cu acest rol au început să fie editate şi rulate în AutoCorect în urmă cu peste doi ani. Actualele dicţionare au la bază acele dicţionare care au fost îmbogăţite şi perfecţionate de-a lungul timpului. Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate.
     În mod sigur dicţionarele nu sunt perfecte şi necesită îmbunătăţire permanentă, dar în ultima perioadă nu au fost constatate sau raportate efecte secundare importante.
     Menţionez că în acest moment există în dicţionarul CO_L3.imd câteva înregistrări care necesită confirmare la rulare. Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi întreruptă şi programul [dacă găseşte astfel de situaţii în textul de corectat] să aştepte confirmarea pentru a rula mai departe.
     Viitoarea versiune de dicţionare, aflată acum în lucru, încearcă să elimine la maxim condiţia de confirmare; la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a înlocuirilor.

     Succesiunea de litere c l în locul literei d şi succesiunea de litere r n în locul literei m
     Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l < cl >; uneori confuzia se poate face şi în sens invers.
     Astfel de confuzii se pot face şi între litera m [M mic] şi succesiunea de litere r+n < rn >.
     Se poate urmări asemănarea dintre succesiunile şi literele menţionate în imaginea cl=d şi rn=m
     Dicţionarul CO_Gcl.imd realizează o serie de corecţii ale succesiunii cl >> d pentru cuvinte cu frecvenţă mai mare în limba română.
     Dicţionarul CO_Grn.imd realizează corecţii ale succesiunii rn >> m.

     Din testări rezultă că astfel de confuzii se produc mai mult în cazul cuvintelor scurte şi mai rar în cazul cuvintelor lungi.
     Există şi câteva cuvinte la care nu se pot face modificări automate, deoarece sunt valabile în limba română atât cuvintele care conţin litera d, dar şi succesiunea cl, cum ar fi cele din exemplul următor:
          clacă - dacă; clar - dar; clin - din; clădea - dădea.
     Astfel de cuvinte au fost trecute în dicţionarele cu variante şi confirmare care rulează la opţiunea 12.2
     Pentru succesiunea rn >> m există noi înregistrări care vor fi cuprinse în noua versiune de dicţionare.

     Menţionez că dicţionarele pot fi şi trebuie să fie îmbunătăţite cu alte înregistrări; la acest moment ele pot rezolva majoritate confuziilor de tip cl >> d   şi   rn >> m.
     La rularea dicţionarelor nu am constatat efecte secundare nedorite.
     În principiu, dicţionarele de la întregul pachet de opţiuni sunt gândite să realizeze cât mai multe corecturi, fără a face modificări nedorite. Atunci când o anume înregistrare ar fi putut produce efecte secundare nedorite, am preferat să nu fac înregistrarea respectuvă în dicţionar.

     Recomandare personală: setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
       4.3. Corectare cuvinte foarte scurte

     Opţiunea rulează automat următoarele 4 dicţionare: CO_Sc1.imd, CO_Sc2.imd, CO_Sc3.imd şi CO_Sc4.imd
     Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte, de până la 4 litere inclusiv.
     Există ca excepţie şi un număr foarte-foarte mic de înregistrări care se referă la cuvinte formate din cinci litere.
     Pentru dezvoltatori, menţionez că structura dicţionarelor nu este respectată ferm, dar în principiu se poate menţiona că dicţionarul CO_Sc1.imd face corecţii atât pentru cuvinte întregi formate din două litere, dar şi pentru câteva secvenţe de câte două litere aflate la început sau la sfârşit de cuvinte; dicţionarul cuprinde şi situaţii foarte rare, dar posibile, în care litera "Ş" este recunoscută ca "$" sau "§", iar litera "E" este recunoscută ca "Ł".
     Dicționarele CO_Sc2.imd, CO_Sc3.imd şi CO_Sc4.imd corectează numai cuvinte întregi formate din 3 sau 4 litere.
     Toate cele 4 dicţionare cuprind înregistrări de cuvinte cu şi fără cratimă.
     Posibilitatea de realizare a unor înlocuiri nedorite este teoretic imposibilă.

     Recomandare personală: setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
       4.4. Corectarea minuscule la început de paragraf

     Opţiunea rulează automat dicţionarul CO_Midp.imd [CL_Midp.imd], care cuprinde aproape 2000 de înregistrări.
     Practic, opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 2.3 Punctuaţie >> Funcţii obişnuite.
     Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca în imaginea următoare de mai jos.
     Activarea mai multor opţiuni de setare faţă de cele activate în imagine nu este recomandată, deoarece se vor realiza majusculări în plus în poziţii de text în care majuscularea este incorectă.



     Dicţionarul execută două categorii de înlocuiri:
          – Majuscularea unor litere care au atât în varianta majusculă cât şi în cea minusculă formă identică. Următoarele litere  c-C;  î-Î;  j-J;  o-O;  p-P;  s-S;  ş-Ş;  u-U;  v-V;  x-X;  y-Y;  z-Z   se majusculează doar dacă ele apar ca prima literă după linia de dialog.
     Nu recomand dezvoltarea dicţionarului cu înregistrări care să realizeze majuscularea acestor litere în alte situaţii.

          – Un număr de circa 650 de cuvinte care încep cu litera Î şi sunt recunoscute în mod eronat ca începând cu litera I, se corectează în următoarele 3 situaţii: la început de paragraf, la început de dialog şi la începutul unei fraze [care începe după frază terminată cu PUNCT],  aflată în interiorul paragrafului.

     La editarea dicţionarelor s-a urmărit evitarea înregistrării paronimelor [cuvinte care au atât varianta corectă care începe cu Î, cât şi variantă corectă care începe cu I, ca de exemplu Între - Intre].
     Posibilitatea de realizare a unor înlocuiri nedorite, în forma actuală a dicţionarului, este teoretic imposibilă.

     Recomandare personală: setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
       4.5. Înlocuire secvenţe cuvinte


     Opţiunea rulează automat următoarele 6 dicţionare:
     CO_SInc1.imd – CO_SInc2.imd – corectează secvenţe de început de cuvânt;
     CO_SMed1.imd – CO_SMed2.imd – corectează secvenţe de la mijlocul cuvântului [medii];
     CO_STer1.imd – CO_STer2.imd – corectează secvenţe de sfârşit de cuvânt [terminale].

     Prin noţiunea de "secvenţă de cuvânt", în sensul prezentei opţiuni, se înţelege o succesiune de litere aflate la începutul, la mijlocul sau la sfârşitul cuvântului.
     
     S-a notat cu "SInc" - secvenţele aflate la începutul cuvintelor, cu "SMed" - secvenţele aflate în interiorul cuvântului [SMed = secvenţe mediane] şi cu "STer" - secvenţele aflate la sfârşitul cuvintelor [STer = secvenţe terminale]. Numele nu sunt, probabil, cele mai inspirate, dar au fost alese astfel pentru a păstra o ordine alfabetică a lor.

     Pentru a înţelege mai bine rolul acestei opţiuni, e bine să discutăm câteva exemple de secvențe:
     Secvențe de început: aplee >> aplec. Există circa 90 de cuvinte care încep cu secvenţa aplec, printre care: aplec, apleca, aplecai, aplecam, aplecară, aplecarăm, aplecarăţi, aplecare, aplecarea… aplecător, aplecători, aplecătorii, aplecătorilor, aplecătorul... aplecuşurilor, dar nu există niciun cuvânt care să înceapă cu secvenţa aplee.
     Secvențe mediane: bcg >> beg. Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg, dar nu există niciun cuvânt care să conţină secvenţa bcg. Dicţionarele conţin foarte multe înregistrări care modifică litera c aflată între consoane cu litera e între consoane; de asemenea multe situaţii în care litera L mic aflată între consoane a fost modificată cu litera i între două consoane.
     Fiecare secvenţă, înainte de a fi înregistrată, a fost verificată dacă există sau nu în componenţa cuvintelor aflate în dicţionarele limbii române pe care le încarcă AutoCorect în folderul de instalare.
      Secvențe de sfârşit: lulul >> lului. Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului, dar nu există niciun cuvânt care să se sfârşească cu secvenţa lulul. Şi la editarea acestor dicţionare, ca de altfel la marea majoritate a înregistrărilor, fiecare secvenţă, înainte de a fi înregistrată, a fost verificată dacă există sau nu în componenţa cuvintelor aflate în dicţionarele limbii române pe care le încarcă AutoCorect.

     Foarte important:
     Opţiunea este relativ de curând implementată, fapt pentru care unele dintre dicţionare sunt la început de drum. Dicţionarele SMed1 şi SMed2 sunt relativ complete, dar pot fi dezvoltate cu mare atenţie, astfel ca secvenţele propuse modificării să nu provoace înlocuiri nedorite.
     Dicţionarele care fac înlocuiri ale secvenţelor de început [SInc1 şi SInc2] şi cele care fac înlocuiri ale secvenţelor de sfârşit [STer1 şi STer2] conţin foarte puţine înregistrări şi este necesară îmbogăţirea și perfecționarea lor. 


     Comentariu:
     În legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea, se cuvine să facem un scurt comentariu:

     Înlocuirile de cuvinte întregi au avantajul că au o corectitudine maximă, iar efectele secundare sunt practic imposibile.
     Dezavantajul în cazul înlocuirii cuvintelor întregi este faptul că probabilitatea existenţei în text a erorilor de acest gen este relativ mică.
     De exemplu, în cazul înlocuirii imponderabilitatc >> imponderabilitate corectitudinea este de 100%, iar efectele secundare sunt zero. Probabilitatea ca acest cuvânt să existe în text în această formă este foarte mică.

     Înlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite, dar au avantajul că frecvenţa lor în text este mult mai mare şi se vor face mult mai multe înlocuiri.
     De exemplu, secvenţa finală oarc >> oare poate fi valabilă pentru circa 3787 de cuvinte din limba română. Partea neplăcută este că uneori şi secvenţa finală carc poate fi recunoscută în mod eronat în forma oarc, deci înlocuirea de mai sus nu prezintă corectitudinea de 100%.

     Recomandare personală: setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
       4.6. Corectare cuvinte întregi şi expresii

     Opţiunea rulează automat următoarele 5 dicţionare:
     CO_CImf1.imd – CO_CImf3.imd – corectează cuvinte întregi;
     CO_Expr1.imd – CO_Expr2.imd – corectează grupuri de cuvinte [expresii].

     Această opţiune, ca şi cea anterioară este implementată în ultima perioadă, fapt pentru care dicţionarele cuprind un număr relativ mic de înregistrări, faţă de posibilităţile reale. De aceea este necesară îmbunătăţirea în continuare a acestor dicţionare.
     Pentru dezvoltatori este relativ simplu de adăugat cuvinte în dicţionarele CO_CImf1.imd – CO_CImf3.imd, dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1.imd – CO_Expr1.imd].

      De ce este necesară o opţiune specială pentru înlocuiri de cuvinte întregi şi expresii?
      Practic, această opţiune face o dezvoltare, o lărgire, a opţiunii 4.3. Corectare cuvinte foarte scurte. La acest moment nu pare să existe o diferenţă foarte clară între tipurile de înlocuiri ale cuvintelor întregi ale celor două opţiuni, dar în timp ce opţiunea 4.3. face corectări ale cuvintelor scurte, de maxim 4 litere, această opţiune, prin dicţionarele sale  CO_CImf1.imd – CO_CImf3.imd, trebuie să realizeze corectări ale cuvintelor mai lungi.

      Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decât o lărgire a înlocuirilor de cuvinte întregi. Deşi înregistrările fac înlocuiri de grupuri de cuvinte, practic modificarea se face doar asupra unui singur cuvânt din grup, celelalte cuvinte având rolul de coordonate în căutarea cu precizie a cuvântului de înlocuit.
      Cuvintele ce sunt corectate se pot modifica prin varianta înlocuire cu confirmare, dar această metodă solicită mai mult timp pentru rezolvare, precum şi intervenţia utilizatorului la fiecare cuvânt găsit.

      Există câteva paronime întâlnite frecvent în OCR-uri care necesită corectare, aşa cum ar fi de exemplu: sting-stâng, stingi-stângi, stingă-stângă, lingă-lângă, intre-între.
      Abbyy recunoaşte ambele variante de cuvinte în forma scrisă cu litera "i", deci: sting, stingi, stingă, lingă, intre; menţionez că în text au frecvenţă mai mare exact celelalte cuvinte, adică: stâng, stângi, stângă, lângă, între.
      Dacă s-ar face înregistrarea sting >> stâng, înlocuirea cuvântului "sting" cu cuvântul "stâng" ar trebui confirmată sau respinsă pentru fiecare înlocuire în parte. Făcând înregistrări de grupuri de cuvinte de forma: picior/piciorul/piciorului sting >> picior/piciorul/piciorului stâng, umăr sting >> umăr stâng... atunci înlocuirea se poate face automat, fără confirmare. Pentru cuvintele lingă-lângă şi intre-între, mai întâi s-au făcut înlocuirile lingă >> lângă şi intre >> între, după care au fost făcute înlocuiri în expresii de două până la cinci cuvinte, astfel încât înlocuirile să se facă fără confirmare şi cât mai sigur.

     În afara acestor paronime, Abbyy face uneori confuzii de recunoaştere între cuvintele "ele" şi "de". În cazul acestor cuvinte confuzia poate exista sau nu, iar atunci când există, este frecventă folosirea cuvântului "ele" în locul lui "de".
     Prin folosirea înregistrărilor de tipul: faţă ele >> faţă de; faţă ele >> faţă de; formă ele >> formă de; la un pas ele >> la un pas de, numărul de situaţii ce trebuie corectate manual se reduce foarte mult.

     Recomandare personală: setare ACTIVĂ

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani
       4.7. Convertire majusculă în minusculă în dialog francez

     Opţiunea se bazează pe rularea automată a dicţionarului CO_DFr.imd.
     Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR Plus. Este vorba despre setarea din imaginea următoare:



     Dacă se activează setarea "Majusculă la început de frază – după ! şi ? urmat de spaţiu", se vor majuscula toate cuvintele care încep după semnele "!" şi "?", inclusiv în poziţiile din text în care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez].
     Din acest motiv [pentru că se majusculează şi situaţiile în care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni "4.7. Convertire majusculă în minusculă în dialog francez", care va rula dicţionarul CO_DFr.imd.

     Dicţionarul face corecţii de genul:
          ! Îi spuse >> ! îi spuse;  ! Îi strigă >> ! îi strigă;  ! Îi şopti >> ! îi şopti;  ! Îi vorbi >> ! îi vorbi;  ! Îi zise >> ! îi zise.
          ? Îi spuse >> ? îi spuse; ? Îi strigă >> ? îi strigă;  ? Îi şopti >> ? îi şopti;  ? Îi vorbi >> ? îi vorbi;  ? Îi zise >> ? îi zise.

     Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea "Majusculă la început de frază – după ! şi ? urmat de spaţiu", atunci nu este nevoie să ruleze opţiunea de faţă. Este posibil ca în această situaţie să rămână câteva situaţii care vor necesita majusculare, dar acest lucru se va putea face manual cu ocazia corecturii.

     În concluzie:
          – Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea "Majusculă la început de frază – după ! şi ? urmat de spaţiu", atunci este obligatorie activarea opţiunii "4.7. Convertire majusculă în minusculă în dialog francez".
          – Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea "Majusculă la început de frază – după ! şi ? urmat de spaţiu", atunci nu vom activa nici opţiunea "4.7. Convertire majusculă în minusculă în dialog francez".

     Care este varianta cea mai bună?
     Părerile sunt împărţite: useri cu experinţă în corectură preferă să nu activeze aceste opţiuni şi să execute eventualele majusculări în mod manual, iar alţi useri cu experinţă în corectură adoptă varianta activării ambelor opţiuni.
     Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor, pentru alt utilizator poate părea greoi şi dificil şi invers.

     Cel mai bine este ca fiecare user să-şi stabilească varianta preferată.
     Pentru a stabili varianta optimă este bine să se facă testări în ambele variante, prin ceea ce vom numi "Test 100", adică testarea a o sută de pagini de carte.
     Se alege un text de maxim 100 de pagini de carte, se prelucrează separat în cele două variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă, dar fără a face o corectură prin citire cuvânt cu cuvânt], se stabileşte varianta care pare mai comodă.

     Menţiune importantă:
     Există 8 înregistri care ar trebui să ruleze în acest dicţionar, dar pentru că necesitau confirmare în mod obligatoriu, au fost mutate în ultimul dicţionar care rulează în cadrul Meniului OCR Plus; este vorba de dicţionarul CO_Var4.imd, iar înregistrările se alflă pe ultimele 8 poziţii ale dicţionarului.
     Aceste înregistrări sunt:
          ! I^_ >> ! i^_    ! Le^_ >> ! le^_    ! O^_ >> ! o^_    ! Se^_ >> ! se^_
          ? I^_ >> ? i^_    ? Le^_ >> ? le^_    ? O^_ >> ? o^_    ? Se^_ >> ? se^_
     Informez utilizatorii că grupul de caractere  ^_  este codul pentru spaţiu.

     Utilizatorii care nu activează opţiunea "4.7. Convertire majusculă în minusculă în dialog francez", când programul va ajunge să ruleze aceste înregistrări cu confirmare vor acţiona asupra butonului "renunţ" pentru fiecare dintre înregistrări pentru ca programul să renunţe la căutări.
     Butonul "Renunţă" ocupă poziţia a treia în fereastra de confirmare, redată în imaginea de mai jos:



Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 5. MARCARE CARACTERE:


       – Marcare ghilimele
       – Marcare apostroafe
       – Marcare consoane independente în format „Spaţiu_Consoană_Spaţiu”
       – Marcare caracterele: ~ & * ( ) \ /
       – Marcare caracterele: ~ & = + $ % Ł # { } [ ] ( ) / \ > < *



     Numele opţiunii este suficient de sugestiv, iar fereastra de setări este foarte clară, astfel că nu va fi nevoie de prea multe explicaţii în legătură cu această opţiune.

     Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere, pentru a fi mai uşor de urmărit la corectare.
     După cum se poate vedea în imagine, utilizatorul poate marca doar anumite caractere sau toate caracterele implementate în opţiune. Pentru fiecare dintre cele 5 categorii de caractere se poate alege câte o culoare diferită de marcare a fontului, ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate.
     De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului.

     Nu se pot face recomandări pentru activarea sau neactivarea opţiunii.
     Pentru unii utilizatori marcarea poate fi benefică, prin scoaterea în evidenţă a unor caractere ce trebuie urmărite; de exemplu, prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele, fie ele de deschodere sau închidere.
     Pentru alţi utilizatori marcarea poate să deranjeze, să atragă mai mult atenţia asupra caracterelor marcate, "sărind" peste alte tipuri de erori ce trebuiesc corectate.
     După corectarea câtorva volume, fiecare utilizator va şti sigur care dintre variante i se "potriveşte" cel mai bine, care variantă [marcarea sau nonmarcarea] i se pare mai comodă.
     Recomand ca şi la această opţiune să se facă ceea ce am numit "Test 100", pentru a stabili care metodă de lucru mare mai comodă.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 6. ŞTERGERE CARACTERE:


       – Eliminare Cratimă semiindependentă ["Cratimă_spaţiu" şi "Spaţiu_Cratimă]
       – Eliminare Apostrof independent ["Spaţiu_ Apostrof _Spaţiu”]
       – Eliminare Artefacte cărţi obişnuite [„Spaţiu_Artefact_Spaţiu”]
       – Eliminare Artefacte cărţi tehnice [„Spaţiu_Artefact_Spaţiu”]



     Opţiunea este oarecum similară cu opţiunea precedentă, doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate.
     De asemenea, numele opţiunii este suficient de sugestiv, iar fereastra de setări este foarte clară, astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune.
     Şi... nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii.

      Este important de reţinut că există două cauze ale apariţiei în text a acestor "răgălii".
         – Prima cauză: unele dintre "răgălii" apar în text fără să existe un caracter asemănător în original; aceste "răgălii" apar ca urmare a unor defecţiuni la scanare, ori ca urmare a unor mici pete pe pagina scanată sau defecţiuni ale texturii hârtiei pe care a fost tipărită cartea. Într-un mod sau altul, automat sau manual, ele vor fi şterse deoarece nu există în text.
         – A doua cauză: o altă categorie de "răgălii" apar în text în locul unor alte caractere asemănătoare; de exemplu: caracterul < j > poate înlocui caracterul < ; >, caracterul < / > poate înlocui caracterul < z >, caracterul < $ > poate înlocui caracterul < ş > etc... etc... În astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci când se păstrează caracterul "răgălie" în locul respectiv şi se poate "sări" mai uşor peste eroare dacă acel caracter a fost şters.

      Ca şi la opţiunea precedentă, propun executarea "Test 100" pentru ca fiecare utilizator să poată alege varianta de lucru optimă: activarea, activarea parţială sau nonactivarea opţiunii.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 7. Înlocuieşte toate liniile de pauză cu:


       – EmDash
       – EnDash
       – Horizontal Bar.



     Să începem prin a face câteva comentarii în legătură cu "Linia de pauză.

     Prin "Linie de pauză", conform DOOM 2/2010 se înţelege:
        "1.2.5. Linia de pauză [–]
     Este utilizată ca semn ortografic numai în scrierea unor cuvinte compuse complexe (cu caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvânt compus scris cu cratimă: americano–sud-coreean, nord–nord-vest, sud-est–nord-vest.
     În această situaţie nu este precedată sau urmată de blanc."
     În nota de subsol nr. 39, de la  pagina XLIII se arată:  Linia de pauză este "Plasată aproximativ la jumătatea înălţimii rândului. Numită şi pauză. Este mai lungă decât cratima. Este şi semn de punctuaţie."

     În realitate, în sensul acestei opţiuni, nu este vorba de Linia de pauză tratată de DOOM 2, ci de o altă liniuţă, cunoscută şi sub numele de "Linie explicativă" sau "Cratima mare". Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte în următoarele două situaţii:

          ■ Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj, într-un dialog, exemplu:
     — De altfel – adăugă ea, coborând vocea – va fi un prieten în plus la caz de nevoie.
     — Nu sunt un om învăţat – adăugă el – şi nu mi-e ruşine s-o mărturisesc.
     Comentariu autorului într-un dialog poate fi marcat prin încadrarea între linii explicative sau prin încadrarea între virgule; nu se folosesc în acelaşi text ambele variante.

          ■ Linia explicativă care introduce un comentariu, o explicaţie şi care poate fi înlocuită cu paranteze, ca în exemplul următor:
     Tocmai atunci vânătorul, făcând un gest cu mâna – ca şi cum ar fi anunţat că cedează – rosti în engleză, parcă vorbind cu sine însuşi:
această frază ar putea fi scrisă şi în varianta în care se folosesc paranteze în locul liniilor explicative, astfel:
     Tocmai atunci vânătorul, făcând un gest cu mâna (ca şi cum ar fi anunţat că cedează ), rosti în engleză, parcă vorbind cu sine însuşi:          

     Recomand ca liniile de pauză să fie marcate cu EnDash, aducând următoarele argumente:
       – argumentul 1 – DOOM 2/2010 spune că Linia de pauză "Este mai lungă decât cratima".
       – argumentul 2 – în Word, atunci când facem editare şi introducem linia explicativă folosind cratima încadrată de spaţiu, editorul o transformă automat în EnDash.
       – argumentul 3 – argument estetic: EnDash are lăţimea unui caracter obişnuit şi arată elegant ca linie de pauză, timp în care cratima este prea mică şi se pot produce confuzii, iar EmDash încadrat de spaţii este neelegant şi mult prea mare. Este adevărat că în limba engleză linia de pauză este redată prin Emdash, dar în acest caz linia este lipită de cuvintele alăturate.
       – argumentul 4 – nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză, deoarece pe multe eReadere, dar şi în unele editoare, caracterul nu este redat corespunzător, ci este înlocuit cu semnul întrebării sau cu pătrăţel.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 8. Înlocuieşte toate liniile de dialog cu:


       – EmDash
       – EnDash
       – Horizontal Bar.



     Recomand ca liniile de dialog să fie marcate cu EmDash, aducând următoarele argumente:
       – argumentul 1 – Prin prelucrările făcute de opţiunea "2.2. Corectare linii de pauză şi linii de dialog", teoretic toate liniile de dialog sunt deja convertite în Emdash. Păstrarea în continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii, timp în care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare, deoarece uneori sunt mii de linii de dialog într-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii în parte.
       – argumentul 2 – Linia de dialog nu poate fi redată prin cratimă; acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic.
       – argumentul 3 – Linia de dialog nu poate fi redată prin EnDash, deoarece linia de dialog trebuie să fie diferită şi mai mare decât linia de pauză.
       – argumentul 4 – Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant, linia de dialog nu poate fi redată prin Horizontal Bar, deoarece pe multe eReadere, dar şi în unele editoare, caracterul nu este redat corespunzător, ci este înlocuit cu semnul întrebării sau cu pătrăţel.
       – argumentul 5 – în regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite; liniile care îndeplinesc această condiţie sunt Horizontal Bar şi EmDash; am explicat mai sus de ce nu se poate folosi Horizontal Bar, deci singura linie care îndeplineşte toate condiţiile este EmDash.

     Părerea mea personală este că nu trebuie să ne facem mari probleme în alegerea tipului de liniuţă în această etapă a corecturii, deoarece liniile de dialog, ca şi liniile de pauză, pot fi oricând înlocuite prin comenzi foarte simple de Find&Replace în Word sau alt editor.
     Stabilirea tipului de linie de dialog, ca şi înlocuirea spaţiului de după linia de dialog cu spaţiu neseparator, ţin mai degrabă de formatarea finală a unui document corectat decât de precorectura unui OCR.

     Notă: Dacă dorim să printăm pe hârtie un text [o carte] care conţine linii de dialog, atunci recomand ca liniile de dialog să fie înlocuite cu Horizontal Bar, deoarece textul tipărit astfel arată elegant. Dacă documentul nu este destinat tipăririi, ci folosirii şi/sau prelucrării şi corectării de alte persoane, atunci vom folosi EmDash.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 10 ani

          ■ 9. Elimină linii de pauză exclusiv din Dialoguri:


       9.1. – Înlocuieşte "Spaţiu_LiniePauză_Spaţiu" în "Virgulă_Spaţiu".
       9.2. – Elimină virgula de după semnul de exclamare/întrebare.
       9.3. – Înlocuieşte "Spaţiu_ LiniePauză _Virgulă_Spaţiu" în "Virgulă_Spaţiu"


          ■ 10. Elimină TOATE liniile de pauză din text


       10.1. – din "!_Spaţiu_ LiniePauză_Spaţiu" în "!_Spaţiu"
       10.2. – din "?_Spaţiu_ LiniePauză_Spaţiu" în "?_Spaţiu"
       10.3. – din "Spaţiu_ LiniePauză_Spaţiu" în "Virgulă_Spaţiu"
       10.4. – din "Spaţiu_ LiniePauză_Virgulă_Spaţiu" în "Virgulă_Spaţiu"




     Apreciez că aceste două opţiuni pot fi tratate împreună, deoarece au caracteristici comune.
          – Ambele opţiuni se referă la eliminarea liniilor de pauză din text şi înlocuirea lor, după caz, cu virgulă, ori doar eliminarea fără a fi înlocuite cu un caracter anume.
          – Ambele opţiuni sunt opţiuni pretenţioase şi de înaltă fineţe. Practic modificările pe care le fac aceste opţiuni nu ţin de simpla curăţare a unui text de tip OCR, ci realizează o modificare importantă a modului de editare a textului. Acest drept nu e recomandat să fie folosit de un simplu utilizator care încearcă să reproducă o carte din format clasic tipărit în format electronic, ci este dreptul editorilor de carte, al traducătorilor şi autorilor de carte.

     Recomand utilizatorilor, în special celor cu experienţă redusă, să nu activeze niciuna dintre aceste opţiuni.
     Eventuala activare a acestor opţiuni sau doar a uneia dintre ele să fie făcută doar după o profundă analiză şi doar de utilizatorii cu experienţă care ţin neapărat să facă astfel de modificări.

     Recomandare personală: setare INACTIVĂ   pentru ambele opţiuni.

Modificat de Seven (acum 8 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani
   
Pagini:  1 2 3    
Mergi la