Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Popa Bianca pe Simpatie.ro
Femeie
24 ani
Valcea
cauta Barbat
25 - 63 ani
Forum Romania Inedit / Totul despre cărți - About e-books / AutoCorect versiune pentru Romania-Inedit Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini:  1 2 3 4 5 6 ... 13
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     @ AutoCorect


        Probabil că meniul OCR_PLUS este sau va fi probabil cel mai complex meniu din AutoCorect, pe parcurs ce se vor implementa/îmbunătăţi funcţii cu atât este posibil să apară şi erorile.
         Pentru teste mă bazez sper pe colegii de pe acest topic, la mine AutoCorectul rulează greu, cu opinteli... cu blocări...
         Rularea celor 8 meniuri astăzi mi-a luat mai bine de o oră, din care 45 minute a ocupat-o AutoCorectul cu salvarea... gândirea... etc. Exemplu: am marcat cu roşu într-un fişier postat mai sus nişte artefacte de OCR, efectiv după fiecare marcare cu roşu, programul a stat câte 4-5 minute...
          Vreau să spun cu asta că eu sunt limitat în a face teste mai grele, sper ca colegii de topic să facă şi ei teste riguroase.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

AutoCorect a scris:

Poate ai ceva probleme cu PC-ul, ne poti da ceva info legate de configuratia hard dar si soft a PC-ului tau ?

Ar fi pacat sa nu poti testa ce propui, mai ales ca tu stii cel mai bine ce ai dorit sa faca optiunea X



---> Am un PC modest, trag pe el de ani buni - mai ales în ultimul an jumate.
      Procesor Intel Celeron CPU 1.60 Ghz, memorie Ram 1 Giga, Hard 80 Giga, Windows XP Professional SP2
      Rulează foarte bine fişiere Word - aici lucrez cel mai mult - care au imagini încorporate, fişiere care au şi 20 MB. Cu wordul chiar nu îmi face probleme deloc, am Office 2007 complet instalat.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

AutoCorect a scris:

P.S. Daca nu utilizezi ortografia si/sau adaugarea de diacritice de la AC ai putea scoate o parte din dictionare, astfel nu s-ar mai incarca RAM-ul inutil.



       Nu cred că Ram-ul este de vină, probabil PC-ul meu nu îi "place" AutoCorectul. De altfel specificaţiile de la voi pe site, pentru rularea AutoCorectului, sunt mult inferioare modestului meu PC.
       Dacă ar fi problema RAM-ului nu aş putea în acelaşi timp:
      - să am deschis bsplayerul pe care rulează un film
      - să am deschise 4 ferestre în browser
      - să am deschis word-ul
      - să am deschis messengerul
      - etc.
      Toate acestea le fac simultan şi nu se blochează nimic.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Salutare tuturor!
Imi pare rau... deocamdata nu pot colabora.
In maxim doua zile ajung acasa si am sa pun la dispozitie tot ce am lucrat in ultimul timp.
Toate cele bune!
Seven


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

      @ Seven - stai liniştit, deocamdată suntem la faza de căutare probleme, propunere rezolvare probleme, încercare rezolvare probleme şi implementarea lor etc. etc. Cu cât se înaintează cu meniurile cu atât vor apărea probleme care vor da peste cap meniurile actuale, se vor comprima unele meniuri [sper să nu mă înjure ciuperca_cosmin], altele vor necesita adăugiri-corectări; din cauza numărului mare de meniuri care trebuiesc rulate, apare problema ergonomiei meniurilor [adică uşurinţa rulării lor - o să revin mai jos cu observaţii] etc.
      Deci mai este mult de muncă... şi de testare.



      @ colegi de topic

      Alte observaţii:
      Precizare: toate aceste observaţii personale, pe care încerc să le spun, nu sunt "structurate" în mintea mea ca un tot unitar-coerent-cronologic, ele sunt spuse de mine oarecum haotic - în funcţie de ce observ - şi reprezintă mai mult un sumar al problemelor ce ar trebui rezolvate. Este posibil să revin cu modificări asupra meniurilor realizate de ciuperca_cosmin.

      Propuneam anterior marcarea cu roşu a apostrofului, a unor combinaţii de semne de punctuaţie - am început eu o listă pe care am postat-o în pagina anterioară a acestui topic -, este bine ca acestea să fie rulate împreună cu marcarea cu roşu a ghilimelelor. Ar mai trebui marcate cu roşu următoarele: paranteze rotunde deschise şi închise, paranteze pătrate deschise şi închise, acolade închise şi deschise, semnele / şi \ , «, şi » precum şi _ , la care aş mai adăuga:
          < adică less-than sign
          > adică greater-than sign
          › adică single right-pointing Angle Quotation Mark
          ‹ adică single left-pointing Angle Quotation Mark
      Toate aceste semne ar trebui rulate cu meniul actual "Marcare ghilimele cu roşu" [sper că nu am uitat vreun semn]. Evident toate aceste semne colorate vor fi recolorate cu culoarea "Automat", de către corector MANUAL.

      O altă problemă MAJORĂ încă nediscutată: este vorba de bullets sau pe româneşte spus, marcatorii pe care în mod accidental OCR-ul le pune în locul liniilor de dialog... sau care sunt puse intenţionat de useri.
      Am identificat 4-5 astfel de posibili "inamici": cratima, EmDash, EnDash, Horizontal Bar şi Symbol: 190 [adică tot un fel de EmDash].
      Nu ştiu dacă AutoCorectul poate converti aceste tipuri de bullets cu obişnuitul EmDash. S-ar putea?


      Problema ergonomiei meniurilor:
      Acum sunt 11 meniuri [sunt şanse să mai crească] care trebuiesc rulate. Rularea lor corectă-cronologic, depinde de user sau de factorii ambientali care pot influenţa acest lucru sau de combinaţia useri + factorii ambientali. Prin factori ambientali denumesc orice acţiune accidentală sau nu, care întrerupe userul - la un moment dat - în timp ce rulează dicţionarele. Să spunem că userul a rulat deja 3 meniuri, meniul 4 rulează şi în acest moment sună telefonul, sau vine iubita să-l sărute de dimineaţă, cu drag...
      El este distras de acest lucru şi se gândeşte doar la cum o va duce pe iubita lui în pat... 
      După 2-3 minute îşi aduce aminte că trebuie să se întoarcă la AutoCorect. Acesta a terminat rularea meniului şi a anunţat printr-o fereastră că a terminat. ATENŢIE! În fereastra apărută nu spune CARE meniu a fost rulat, fereastra "AutoCorect" spune doar că a terminat. Userul distras, a uitat unde a ajuns cu rularea meniurilor, acum el poate crede - eronat, evident - că a rulat TOATE meniurile, sau poate crede că mai are de rulat doar un meniu... Cine poate ştii ce este în capul lui? Acum începe să ruleze cine ştie ce meniuri în cine ştie ce ordine... Rezultatul este că va avea un text mai prost decât crede el.
      În faza asta - parcă am mai spus - este util ca meniurile din OCR_PLUS să aibă fiecare câte o căsuţă de bifare - majoritatea meniurilor vor fi bifate default - iar sub ultimul meniu să fie butonul "Rulează dicţionare bifate" care va rula dicţionarele bifate.
      Cu acest lucru se rezolvă:
          - problema userului "boboc" sau "avansat", care foloseşte "haotic" şi nu cronologic-ordonat, meniul "OCR_PLUS"
          - problema userului distras de factorii ambientali
          - problema userului "uituc" sau "cu capul în nori"
          - problema userului nou, care nu cunoaşte AutoCorectul, el putând astfel rula complet şi corect programul, rezultând un text acceptabil şi mult mai bun
          - lasă posibilitatea userilor mai avansaţi să poată bifa ce anume vor să folosească - aici mă gândesc la preferinţele userilor în ceea ce priveşte formatare liniilor de dialog şi a liniilor de pauză, care vor putea fi bifate în orice configuraţie; şi altele.
          - lasă posibilitatea userilor mai avansaţi - Ex.: care au un text care nu necesită rularea completă a meniului OCR_PLUS - să bifeze doar "Marcare ghilimele cu roşu", deoarece a observat că în textul său lipsesc ghilimele de deschidere la unele propoziţii.
       Astfel AutoCorectul va fi un program adaptabil pentru orice fel de user mai avansat sau începător, care va mulţumi pe toată lumea.
       Momentan am făcut eu o schiţă provizorie care ar arăta cam cum ar trebui să arate meniul OCR_PLUS, cu meniurile bifate şi cu butonul "Rulare dicţionare bifate".
     

      Altă problemă, tot majoră aş spune, este prezenţa în OCR-uri a cuvintelor care au în componenţa lor 2 cratime!!! Una din ele este eronată şi va trebui scoasă.
      Exemplu cuvântul "spunân-du-se" [teoretic TOATE cuvintele ar putea avea 2 cratime].
      Ar trebui ca AutoCorectul - nu ştiu dacă merge cu "Înlocuire cu confirmare" - ca acolo unde există 2 cratime într-un cuvânt, programul să arate cratimile din acesta şi în funcţie de cuvânt să poţi elimina MANUAL una din cratime. Apoi AutoCorectul ar trebui să arate următorul cuvânt cu două cratime... s.a.m.d.


      L.E.: Rugăminte:

      Aş avea nevoie de un OCR cât mai mizerabil cu putinţă, cu multe erori, artefacte de OCR etc., pentru a testa AutoCorectul.
      Dacă vreun user are un astfel de OCR îl rog să mi-l pună la dispoziţie.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
menssana1984
Vizitator



Decat sa marchezi cu rosu apostroafe si etc. cred ca ar fi mai simplu sa renunti complet la optiunea asta din meniul OCR.
E suficient sa mai fie adaugata la punctuatie inca 2-3 optiuni optionale suplimentare.
Asa cum e in cazul celor 3 tipuri de linii.
Doar sa atentioneze si sa duca userul acolo.

Cu tot respectul, dar problema user-ului nou nu ne priveste, cu atat mai mult cu cat depcamdata nu s-a ajuns la o versiune finala. Nu avem cum sa "invatam" lumea sa lucreze cu optiunile ce provin de aici. Dar daca doriti sa faceti ceva  gen acel pdf cu standardul RIF, e altceva.

Concentrati-va pe functionalitate, lasa-ti restul mai incolo.

Complet de acord in privinta cuvintelor formate din doua cratime si a ordinii si numerotarii optiunilor.

Uite un ocr:


Sper sa fie suficient de mizerabil

Am mai intrebat si inainte....
Nu poate lua legatura nimeni cu cei care au lucrat la acel template? Daca Cosmin ar avea permisiunea sa lucreze cu el am mai grabi oleaca treaba.

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

menssana1984 a scris:

Decat sa marchezi cu rosu apostroafe si etc. cred ca ar fi mai simplu sa renunti complet la optiunea asta din meniul OCR.
E suficient sa mai fie adaugata la punctuatie inca 2-3 optiuni optionale suplimentare.
Asa cum e in cazul celor 3 tipuri de linii.
Doar sa atentioneze si sa duca userul acolo.

 
     Ducerea acestei/acestor opţiuni în meniul "Punctuaţie" actual, ar însemna ca cei care corectează exclusiv texte oficiale, să se trezească că folosind meniul "Punctuaţie" ajung ca anumite semne de punctuaţie să fie colorate cu roşu - nici nu cred că aceşti useri vor ştii de ce au fost colorate cu roşu - mă refer la ghilimelele [care sunt corecte] dar ele apar colorate. Nici nu vor reuşi să-şi dea seama ce-s cu ele şi le vor recolora "Automat" fără a verifica dacă în textul lor ghilimele de închidere sunt egale ca număr cu ghilimelele deschise. Ideea este că sunt diferenţe între textele oficiale şi anumite operaţiuni/setări/opţiuni din cadrul OCR_PLUS, este de dorit a se evita eventualele confuzii.
     Subiectul rămâne în discuţie oricum.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
menssana1984
Vizitator



Nu ai inteles.
Se renunta complet la colorarea in rosu si la rularea ei in OCR. Se muta optiunea la Punctuatie... cu bifa optionala. Iar daca e activata in lista de posibile probleme de punctuatie o sa apara si acele semne ce te deranjeaza pe tine.


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

menssana1984 a scris:

Nu ai inteles.
Se renunta complet la colorarea in rosu si la rularea ei in OCR. Se muta optiunea la Punctuatie... cu bifa optionala. Iar daca e activata in lista de posibile probleme de punctuatie o sa apara si acele semne ce te deranjeaza pe tine.


     Înţeleg ce spui: să fie ca o opţiune care să poată fi bifată opţional, în meniul "Punctuaţie". Cred că este bine şi aşa.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


     Completare: Dacă va fi pus în meniul "Punctuaţie" aceste va rula primul, apoi vor urma celelalte meniuri...
     Urmarea este că apare cel puţin o eroare sau mai multe în funcţie de câte virgule duble sunt în text.
     Este vorba de meniul "Convertire virgule duble în ghilimele" care va face din virgula dublă o pereche de ghilimele. Aceste ghilimele NU vor mai apărea colorate întrucât la momentul "colorării" lor acele ghilimele nu erau decât virgulă dublă.
      Parcă tot mai bună este varianta mea.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     @ Seven

      Posibile probleme cu cratima.
      Exemplu:
                     "spunându- se" sau "spunându -se",
                     "- Du-te mai încolo - zise maiorul.", adică "spaţiul" în plus care trebuie scos.
     
      Nu ştiu dacă ai în dicţionarele tale de înlocuire automată, secvenţa de mai jos, dar dacă sunt, este bine să le scoţi din dicţionar:
          - din "cratimă""spaţiu" în "cratimă"
          - din "spaţiu""cratimă" în "cratimă"
     
      Având în vedere că dicţionarul înlocuirilor automate va rula înaintea meniului care va converti liniile de dialog şi liniile de pauză în alte linii - aşa cum am spus în pagina anterioară - mă gândesc că cele 2 exemple de mai sus să nu influenţeze viitorul meniu al liniilor de dialog.
      Exemplu:
      "- Du-te mai încolo - zise maiorul." [unde linia de pauză este cratimă nu altă linie]
     
      Dacă se rulează dicţionarul cu înlocuiri automate ÎNAINTEA viitorului meniu al liniilor, atunci va modificarea va fi:
      "- Du-te mai încolo -zise maiorul." sau "- Du-te mai încolo- zise maiorul."

      Apoi ar urma rularea viitorului meniu al dialogurilor care ar trebui să înlocuiască: "spaţiu""cratimă""spaţiu" cu "spaţiu""EmDash""spaţiu".
      Se observă că nu va mai putea înlocui cratima întrucât lipseşte un "spaţiu".
      Cam asta ar fi eroarea.
      După realizarea meniului cu convertirea liniilor de dialog vom vedea unde le punem pe cele 2, ideal ar fi după meniul cu convertirea liniilor, pentru că după rularea acestui meniu, eventualele cratime au fost înlocuite, iar în text vor rămâne cele 2 exemple de mai sus: "spunându- se" şi "spunându -se".
      Părerea ta este identică cu a mea sau este diferită? Greşesc?
      Alte păreri?

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

     Liniuţe, cratime, bullets...


     1. Eu personal, până acum am considerat că primul şi primul lucru pe care trebuie să-l fac, atunci când iau contact cu un OCR realizat de mine sau de altă persoană este să fac convertirea eventualelor linii de dialog de tip bullets în linii de dialog de tip text, indiferent dacă aceste linii ar fi Em dash, Horizontal bar, En dash, cratimă etc...  Acest lucru l-am realizat cu o macrocomandă în Word.
     
     2. În dicţionarele [de fapt este un singur dicţionar în sensul ăsta] în care am încercat să rezolv câteva lucruri, m-am ocupat tot de liniiile de dialog în exclusivitate; practic acolo unde diferite liniuţe erau însoţite de una sau mai multe "răgălii" şi alte situaţii am transformat totul în Em dash.
     Au fost situaţii când în faţa dialogului exista şi câte un caracter literă, ca de exemplu: I, j... la aceste situaţii încâ nu am umblat, ci doar la cele de genul: ―- ; ― • ; ■— ; ■.― ; » — ........ şi alte combinaţii cu astfel de semne şi diferite tipuri de liniuţe.
     Acest dicţionar are acum 80 de înregistrări, dar poate fi încă dezvoltat cu înregistrarea altor situaţii.

     3. Problemele cu cratime, liniuţe explicative... practic tot ce este în interiorul paragrafului le-am rezolvat doar în Word şi numai şi numai, după ce prin vizualizarea textului şi "corectura pe diagonală" am adus la locul lor dialogurile ce dintr-o eroare sau alta, rămăseseră în interiorul paragrafului.
     Situaţii de genul 
                            "spunându- se" sau "spunându -se",
le-am corectat doar prin înlocuiri cu confirmare în Word; cele mai multe situaţii în care cratima este urmată de spaţiu apar la cuvintele despărţite la capăt de rând.


     Revenind la AutoCorect,
     Este nevoie de încă o perioadă mai lungă sau mai scurtă de testări, făcute de mai multe persoane ca să ajungem la o concluzie comună despre ordinea rulării opţiunilor, astfel încât să găsim varianta cea mai eficientă. Personal încă nu folosesc toate posibilităţile oferite de AC [la punctuaţie am activate doar unele dintre opţiuni].

     Pe de altă parte eu mai folosesc şi nişte macrocomenzi în Word înaintea rulării în AC. În principiu aş vrea să renunţ la aceste macrouri [care rulează mult mai greu decât opţiunile din AC, în măsura în care problemele respective se pot reyolva în AutoCorect.

     În principiu ar fi vorba despre:
          - converire caractere Bullets în caractere text
          - convertire de 3 puncte în caracterul Elipsis [aici am adăugat multe situaţii asemănătoare, inclusiv aranjamente de puncte şi virgulă, luate câte 3 sau 4].
          - converiri legate de ghilimele, dublu apostrof, dublă virgulă...
          - adăugarea de spaţii [cu eliminarea ulterioară a spaţiilor duble] după unele semne de punctuaţie: sunt frecvente erori Abbyy, în care apar lipite semnele de punctuaţie de cuvântul următor.
          - corectarea unor situaţii ale liniilor de dialog [practic macroul l-am folosit înaintea de realizarea dicţionarului din AC, iar acum încerc să elimin secvenţe din macrou, pe măsură ce toate situaţiile sunt trecute în AutoCorect.


     Cred că dacă Cosmin şi Daniel ar putea realiza în AC convertirea caracterelor de tip Bullets în caractere de tip text, aceasta ar fi prima opţiune ce trebuie rulată.

     Cred că v-am ameţit de cap, aşa că mă opresc aici.
     Toate cele bune!
     Seven

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

Seven a scris:


     Situaţii de genul 
                            "spunându- se" sau "spunându -se",
le-am corectat doar prin înlocuiri cu confirmare în Word; cele mai multe situaţii în care cratima este urmată de spaţiu apar la cuvintele despărţite la capăt de rând.


    Dacă ai face acelaşi lucru într-un text în care liniile de pauză ar fi cratime, ar trebui să treci peste ele, ca să ajungi la cele care trebuiesc înlocuite: "spunându- se" - ar trebui să faci zeci sau dacă nu sute de astfel de nonconfirmări prin tot textul. Prectic ai trece manual peste fiecare "spaţiu""cratimă".
    Da mai este mult de testat, trebuiesc testate dicţionarele tale - [mai ai alte dicţionare în afară de ce este pus acum în AutoCorect? Mă gândesc că ar trebui testate şi ele], de realizat combinaţiile de semne de punctuaţie care ar trebui colorate odată cu ghilimelele, lucifer completează acum dicţionarul meu...
    O să vedem ce mai reuşesc - programatorii de la AutoCorect - să implementeze în program şi facem apoi o mică recapitulare cu ce s-a implementat, ce erori sunt sau pot apărea, ce adăugiri şi completări la dicţionare mai trebuiesc făcute. Eu sunt curios dacă vor putea implementa meniul acela cu liniile şi problema bullets-urilor... Dacă implementează aceste două opţiuni, şi evident implementează şi butonul pentru "Rulare dicţionare bifate" părerea mea este că aproape s-au rezolvat problemele majore ale unui OCR, rămân evident de completat, de adăugat unele lucruri, sper să nu apară motive să modificăm ceva în rularea meniurilor.

    L.E.: Mă gândesc că dacă reuşesc băieţii de la AutoCorect implementarea meniului acela cu convertirea liniilior de dialog şi a liniilor de pauză, este posibil să avem surpriza ca bullets-urile să fie convertite în bullets de tip text în mod default - habar n-am dacă AutoCorectul poate face diferenţa între ele -, astfel am scăpa de meniul convertirilor bullets în text. E interesant oricum.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
menssana1984
Vizitator



Pe mine m-ati ametit sigur.
Blank, optiunea cu pricina poate sa ramana si cum vrei tu. Ti-am facut doar o propunere. Eu, partial, cam sunt in intuneric cu ce se intampla pe aici.
Pentru mine ocr-ul s-a rezolvat mereu usor cu exceptia acelor cazuri in care ai text lipsa si in locul ai tot felul de ciudatenii ):


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

menssana1984 a scris:

    Pentru mine ocr-ul s-a rezolvat mereu usor cu exceptia acelor cazuri in care ai text lipsa si in locul ai tot felul de ciudatenii ):

     Ăsta este cel mai mare adevăr şi singurul.
     Atât timp cât nu există text lipsă, totul este rezolvabil; Este rezolvabilă şi problema asta, dacă avem la dispoziţie scan control.
     Pentru faptul că sunt chestii pe care nu le înţelegi sunt într-o mare măsură "vinovatul principal", deoarece o seamă de lucruri nu le-am mai discutat pe forum, ci direct cu Cosmin, iar aici au apărut doar informaţii tangenţiale.
     
     Ca să înţelegem toţi despre ce e vorba am să încerc să urc un text cu toate etapele pe care le-am urmat eu până acum; de asemeni am să urc în acelaşi folder mediafire deschis [adică dintre cele la care se văd toate fişierele urcate, indiferent de momentul upload] toate dicţionarele pe care le-am lucrat, la care adaug la nume "2011.10.31", aceasta fiind data uploadului - astfel se poate vedea ultima versiune.
     Folderul "Dictionare AutoCorect" va fi reactualizat şi are următoarea adresă:
   


     În altă ordine de idei, am să-i rog pe cei ce corectează Karl May [acestea fiind ultimile OCR "curăţate" de mine] să spună ce probleme au întâmpinat pe timpul corecturii. Pe de o parte, dacă unele probleme apar frecvent la mai mulţi, acelea ar fi problemele ce trebuie rezolvate, iar pe de altă parte, mă gândesc la faptul că dacă ei consideră OCR-urile ca fiind bune sau foarte bune, atunci metoda folosită, inclusiv ordinea rulării opţiunilor, ar putea fi metoda de plecare la discuţii.
      În principiu, eu am folosit aceeaşi tehnică la aproape toate textele Karl May - exceptând prima serie de volume, unde timpul a fost scurt şi nu am reuşit să fac tot ce era necesar.

      În afară de dicţionarele L1..., S1... şi cel cu Liniuţele de dialog, am unele care sunt valabile la orice text, axate pe erorile c+l = d <cl=d> şi r+n = m <rn=m>;
      Ca să nu mai complic pe Cosmin, la dicţionarele uzuale am folosit aceeaşi structură ca la cele de limbaj interbelic, doar că ele sunt păstrate într-un folder de rezervă şi le descărcam în folderul "OCR_DIC" atunci când aveam nevoie de ele. Deocamdată nu le urc şi pe acestea, fiind încă într-o formă de lucru.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

AutoCorect a scris:

@Seven, daca poti trimite-ne totusi fisierele tale (...)

     "Fişierele"...  Bănuiesc că te referi la OCR-uri brute, care nu au fost încă rulate prin nici-un fel de opţiune.
     Nu mai am foarte multe păstrate în stadiul brut, dar 5-6 volume [poate chiar mai multe] pot pune la dispoziţie...  o singură rugăminte: le pregătesc mai spre seară; acum am ceva probleme de rezolvat, iar unele dintre ele trebuie să le extrag din nou din Abbyy şi durează un pic de timp.
     Ar mai fi o problemă: faptul că tot ceea ce am la dispoziţie acum are caracteristici comune privind calitatea hârtiei, caracteristici de tipar, de scanare... etc., deci erorile de recunoaştere sunt din aceeaşi gamă.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Adica dictionarele imd folosite la functiile din meniuri.
As fi si eu curios de parerea voastra despre ideea lui Daniel de a face o fereastra in care se poate seta modul in care vor fi rulate functiile - in practic orice varianta.
V-ar folosi o asemenea "versatilitate"? Sau preferati doar o anumita combinatie sau anumite combinatii..?


PS: se pot salva/incarca profile ce reprezinta o anumite ordine de rulare (ceva asemanator cu salvarea/incarcarea dictionarelor de la Inlocuire Multipla).

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Am făcut o schiţă provizorie despre cum are trebui să arate meniul OCR_PLUS. Evident schiţa poate suferi modificări.
   


     L.E.: CORECTARE

          Am greşit colorarea meniului "Convertire linii de dialog şi linii de pauză".... mai exact bifarea lor.
          Primul submeniu din "Convertire linii de dialog şi linii de pauză" ar trebui bifat default. Iar celelalte 4 submeniuri să nu poată fi bifate decât câte unul singur!! Adică când se bifează unul celelalte 3 să nu mai poată fi bifate, să fie inactive. Altfel iese prăpăd.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Cosmin şi Daniel,
      Eu înţeleg că vreţi să faceţi astfel încât să dăm o singură comandă în AutoCorect şi  computerul să înceapă să zbârnâie şi să facă toată treaba de unul singur...
      Mă depăşesc total problemele de programare, folosire resurse şi şi alte chestii legate de computere... aşa că ceea ce spun poate fi greşit...
      ... am constatat că unele dintre programele pe care le folosim în digitalizare, precum softurile din zona DjVu, Scan Tailor... şi... cred eu că şi AutoCorect, acestea şi altele folosesc toate resursele pe care le găsesc disponibile prin computer, indiferent cât de slab sau puternic este computerul.
      Legat de acest lucru, întrebarea mea este: luând în calcul un computer mai slăbuţ [aşa cum probabil au mulţi useri] e indicată rularea automată a opţiunilor sau rămâne mai convenabilă rularea opţiunilor una câte una cu comenzi separate?
   
      În altă ordine de idei unele dintre opţiuni pot fi rulate de mai multe ori în diferite momente de corectare; exemplu: convertirea caractere bullets în caractere text [neimplementată] şi corectare linii de dialog - aceste opţiuni se rulează la începutul corectării, dar de multe ori trebuie reluată rularea lor, deoarece apar situaţii noi care trebuie corectate.

      În concluzie: părerea mea este că o rulare automată e foarte bună şi vine în ajutorul începătorilor în special; în acelaşi timp este necesar să existe şi posibilitatea rulării separate a opţiunilor.


      BlancCd, deocamdată am o singură menţiune la ordinea propusă:
      Opţiunea "Eliminarea spaţiilor aflate la început de paragraf", trebuie urcată în listă cât mai sus [cred că în poziţia 2], deoarece o seamă de înlocuiri - precum corectarea liniilor de dialog - sunt setate să lucreze la început de paragraf... ori, fiind spaţii la început de paragraf, programul nu găseşte înregistrarea de corectat.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Am făcut upload pentru câteva fişiere OCR brut.
           Nume folder:    OCR BRUT TEST
           Adresa folder:

      iar o parte din dicţionare se găsesc la:
           Nume folder:    Dictionare AutoCorect
           Adresa folder:

       
      LE: În folderul cu OCR am urcat şi un Template Word pe care-l folosesc înaintea rulării OCR-ului în AutoCorect.
            Acest template are multe hibe [în primul rând nu am ştiut să redau nişte caractere speciale], dar se poate constata genul de probleme pe care am vrut să le rezolv.

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Multumesc Seven.
Am comparat rezultatul folosirii functiilor implementate pina acum cu fisierul original:
Par sa mearga bine

BlankCD, acele meniuri cred ca pot fi implementate asa, cu acele mici modificari mentionate ulterior (de tine si Seven).
Intrebare pentru toti: e bun asa sau mai sunt necesare mici schimbari? Ca sa stiu daca ma pot apuca sa-l implementez...


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

ciuperca_cosmin a scris:

Multumesc Seven.
Am comparat rezultatul folosirii functiilor implementate pina acum cu fisierul original:
Par sa mearga bine

BlankCD, acele meniuri cred ca pot fi implementate asa, cu acele mici modificari mentionate ulterior (de tine si Seven).
Intrebare pentru toti: e bun asa sau mai sunt necesare mici schimbari? Ca sa stiu daca ma pot apuca sa-l implementez...



    Mai aşteaptă puţin am observat o posibilă eroare la liniile de dialog, încă nu am pus în fişierul de aseară convertirea liniilor de pauză.


    @lucifer76

     Completare pentru dicţionarul tău, dacă nu le ai, apoi să ne dai şi nouă dicţionarul:

     - din "! Îi tăie" în "! îi tăie" (vine de la "Îi tăie vorba"
     - din "? Îi tăie" în "? îi tăie"
     - din "! Le comandă" în "! le comandă"
     - din "? Le comandă" în "? le comandă"
     - din "! Se răspunse" în "! se răspunse"
     - din "? Se răspunse" în "? se răspunse"

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


     Cred că am structurat cam 90% din ce s-a discutat aici, cele 10% reprezintă eventuale erori care pot apărea:
        - alte probleme neidentificate până acum
        - completarea dicţionarelor,
        - marcarea cu roşu a unor semne de punctuaţie care necesită confruntarea cu originalul,
        - convertirea semnelor de punctuaţie, exemplu: .., în ... sau elipsis - depinde de poziţia din meniu în care va fi implementată
        - problema "spaţiu""cratimă" şi "cratimă""spaţiu
        - problema conversiei "literă""punct""literă" în "literă""punct""spaţiu""literă". Exemplu: "...mare ca o balenă.Mare ca o..." în "...mare ca o balenă. Mare ca o...". Cred că se poate implementa în meniul Punctuaţie aşa cum s-a implementat modificarea ghilimelelor. Este posibil ca să dea eroare, mă gândesc la cuvintele/acronimele/iniţialele de tipul s.a.m.d sau iniţiale T.V. care ar putea să arate aşa: ş. m. d. p. Cred că mai corectă ar fi configuraţia asta: din "literă mică"literă mică"punct""literă mare" în "literă mică""literă mică""punct""spaţiu""literă mare".

     @ AutoCorect este bună ideea cu ruperea rândului dacă o poţi implementa. Este posibil să aducă erori în cazul în care linia de dialog nu este de fapt linie de dialog ci este linie de pauză din interiorul textului, poate ar fi bine cu confirmare...
         Dacă se implementează este podibil să fie avantajos aşa, deoarece sunt destul de des întâlnite asemenea cazuri.


     @ ciuperca_cosmin - Am făcut varianta 2 a meniurilor, am mutat un meniu mai sus aşa cum a spus Seven, am adus modificări la meniurile cu linii de dialog şi linii da pauză. Dacă Seven este de acord cu structura meniurilor, din fişierul pus mai jos, cred că poţi începe lucrul.
       


      L.E. @ AutoCorect - în legătură cu rândul rupt propus de tine. Meniul "Eliminarea "răgăliilor" din vecinătatea liniilor de dialog şi din text" este pus acum pe poziţia 3, la rularea lui - este posibil să ÎNLĂTURE răgăliile din jurul liniei rspective iar comanda de reparare a rândurilor rupte să nu mai poată găsi combinaţia respectivă deci să nu-şi mai atingă scopul. Trebuie testat.


      L.E. 2 Meniul "Conversie text clasic in contemporan" poate că ar trebui mutat penultimul sau ultimul, deoarece ar fi bine să acţioneze după repararea textului de toate erorile. Depinde cum vreţi.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      BlankCd
      am o problemă cu ultima variantă a structurii meniurilor - nu reuşesc să o accesez. Când se rezolvă problema, revin cu o postare;       

      Daniel
      când m-am referit la reluarea rulării unei opţiuni voiam să spun că această reluare intervine după câteva ore sau zile, pe măsura verificării pe diagonală a OCR; deci nu este vorba de o reluare în timpul aceluiaşi set de opţiuni.
      Un singur exemplu: până acum am "rupt" manual dialogurile aflate în interiorul paragrafului; în funcţie de experienţa utilizatorului, pot apărea linii de dialog de tip bullets, ori linii de dialog de alt tip decât Em dash urmată de Nonbreaking space; în concluzie, ar bine să se poată rula cele două opţiuni şi separat.


      Pentru toţi:
      Eu aş mai avea nişte probleme în plus faţă de ce s-a discutat până acum şi la care v-aş ruga să vă gândiţi dacă se pot rezolva.

      În ultimul timp am salvat din Abbyy în format RTF - Formatted text, format ce păstrează caracteristici ale fontului.  Să le iau pe rând:
            – Tipul fontului: nu este important să se păstreze mai multe tipuri de font; aş rămâne la unul singur [deocamdată eu lucrez cu Bookman Old Style - dar poate fi oricare]
            – Mărimea fontului: nici mărimea diferită nu o consider importantă şi aş uniformiza şi mărimea [setarea titlurilor şi capitolelor se poate face mult mai târziu]; momentan lucrez cu Bookman Old Style 11, dar poate fi orice mărime. mai mult decât atât, Abbyy dă multe erori, micşorând o parte din text... din nu ştiu ce motive...
            – caracteristici Font style: Italic, Bold...   aici pot fi mai multe păreri: în beletristică eu am păstrat doar regular şi italice, dar se mai poate păstra şi boldul [personal titlurile capitolelor le colorez şi le transform în regular]... pot fi şi alte păreri ale celor ce lucrează la prelucrarea OCR.
            – efecte ale fontului: sunt situaţii în care unele litere şi chiar cuvinte sunt scrise în mod eronat cu Superscript şi mai rar cu Subscript
            – caracteristici de spaţiere a fontului: aici apar tot felul de erori, în sensul că Abbyy expandează sau condensează spaţii.

      Practic eu am procedat astfel:
            ■ Selectat tot textul şi setat cu un singur tip şi mărime de font [în cazul meu Bookman Old Style 11] - se pierd formatările de la notele de subsol
            ■ Selectat tot textul şi adus spaţierea fontului la 100%, fără expandări şi condensări
            ■ Eliminat toate Superscript şi Subscript [ocazie cu care pierdeam setările de la indicii notelor de subsol;
            ■ Eliminat setări bold, underline şi combinate, orice altele decât regular şi italice; aici este de discutat în legătură cu boldul... probabil sunt multe păreri că ar trebui păstrat.
   
      Întrebări:
      Pentru colegii care prelucrează OCR:
           Consideraţi că este necesar implementarea unei opţiuni care să prelucreze textul ca mai sus sau numai o parte din uniformizările propuse?

      Pentru Daniel şi Cosmin:
           E posibil să fie implementat ceva dintre cele propuse? menţionez că cea mai mare bătaie de cap o dau setările de expandare sau condensare a spaţierii fontului.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     @ Seven

      Mediafire a avut o pană, cred că acum merge, dacă iar nu merge spune-mi şi îţi trimit fişierul pe mail.
      Dintre toate cele propuse de tine cea cu spaţierea dintre litere, respectiv cuvinte: unele sunt mai condensate, altele nu, este problema cea mai mare aş spune. Eu o rezolv în Word: Font -> Spaţiere caractere - Scară 100%, spaţiere Normală, Poziţie Normală. Dacă se poate implementa ar fi foarte bine.
       La celelalte propuneri las la latitudinea ta cum sau ce va fi implementat, personal formatez notele de subsol manual după ce duc textul în Word pe un fundal ce imită hârtia - asta pentru a nu obosi ochii, pentru că oricum notele de subsol au cea mai mare rată a erorilor dintr-un text deoarece ele sunt scrise cu font mărunt - de aceea le verific întotdeauna cu pdf-ul de control, le corectez apoi le formatez.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
menssana1984
Vizitator



De acord cu Blank. Textul initial trebuie formatat cat mai unitar posibil. Sa ramana doar cuvintele scrise cu italic si bold. Refacerea notelor de subsol si a celorllte chichite vizuale se va face in baza scan-ului de control.

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Am fost atenţionat că submeniul "Conversie text clasic în contemporan" este pus atât în meniul "OCR_PLUS" cât şi în meniul "Conversie texte".
     
     Precizare: Am uitat să spun că l-am pus în ambele meniuri, întrucât nu ştiu dacă se va implementa meniul "Conversie texte" - depinde de programatorii AutoCorectului, de problemele întâlnite, etc. -, dacă nu se va putea implementa meniul "Conversie texte" atunci probabil va rămâne în meniul "OCR_PLUS" pe poziţia 5 din meniu; sau penultima sau ultima poziţie din meniu - aşa cum am scris într-un post mai sus.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Restructurare font
      De acord cu Blank - cele mai mari probleme le aveam cu spaţierea care trebuia corectată de mai multe ori, până rămânea 100%.
      De acord cu Blank şi menssana - să rămână un singur tip de font, cu o singură mărime şi să se păstreze doar setările regular, italic şi bold.
      Despre font şi mărime... propunerea mea a fost "Bookman Old Style 11", dar poate fi orice, pentru că se poate schimba fontul şi mărimea foarte uşor după rularea în AC.

   
      Despre răgălii şi liniuţe
      Am o poziţie un pic diferită la răgălii şi liniuţe, deoarece:
           - unele dintre răgălii ţin locul unor caractere literă pe care Abbyy nu a reuşit să le recunoască. De exemplu, am găsit caracterul ˄ pe post de cratimă, ori î sau â... oricum acest caracter ţinea locul unui semn sau unei litere; caracterul / apare de multe ori în locul lui z... din acest motiv nu aş merge pe eliminarea tuturor răgăliilor.
      Mie mi se pare că păstrarea unora dintre răgălii în interiorul paragrafului, ajută la corectare, ies în evidenţă şi atrag atenţia... 

           - nu aş umbla pentru început la liniuţele explicative sau de pauză; adică nu le-aş transforma în Horizontal bar sau En dash, deoarece multe linii de dialog rămân în interiorul paragrafului; personal după rularea AC fac o vizualizare a întregului text cu corectări pe ici pe colo, adică ceea ce se cheamă corectură pe diagonală, ocazie cu care duc dialogurile la locul lor; dacă nu se intervine asupra liniuţelor interioare, atunci aceste dialoguri rămase lipite în interiorul paragrafului sunt mai uşor de remarcat; dacă ar fi transformate direct în Horizontal bar sau Em dash ar fi mai puţin vizibile.

      Practic după corectura pe diagonală este mult mai uşor de setat liniuţele de pauză [explicative], deoarece circa 90% dintre ele se corectează la înlocuirea în Word a situaţiilor spaţiu-linie-spaţiu şi spaţiu-linie-virgulă-spaţiu. De cele mai multe ori Abbyy le face el singur Em dash sau altă liniuţă mai mare decât cratima, fapt pentru care nu se compară cu exemplele lui Blank de la cuvintele ce se scriu cu cratimă, în situaţiile în care cratima avea spaţiu înainte sau după.

      În concluzie, am ceva abţineri la opţiunea: "Convertire linii de pauză".

       
        Text clasic, contemporan şi interbelic
      Convertirea textului interbelic în contemporan este o opţiune necesară accidental, deci nu trebuie să fie prinsă în acest bloc de opţiuni, ci să ruleze separat, indiferent de meniul în care s-ar afla..

      Trebuie să subliniez că toate dicţionarele sunt făcute pentru text contemporan.
      Singurele care sunt valabile şi în varianta clasică sunt L1-L3 şi bineînţeles, cel cu liniile de dialog.
     
      În afară de dicţionarele de tip S, mai am nişte dicţionare, pe care eu le numesc UZUALE. În aceste dicţionare sunt încă multe cuvinte cu frecvenţă relativ mare în limba română şi ar trebui dezvoltate. Am să le urc şi pe ele pentru informare în folderele cu adresele puse mai sus.


       LE: Blankule, nu prea înţeleg secvenţa următoare din opţiunea "Eliminare linii de pauză exclusiv din Dialoguri!"
       E vorba de: [Înlocuieşte "spaţiu" "linie de pauză – oricare ar fi ea" "spaţiu" în "virgulă" "spaţiu".  ATENŢIE! înlocuirea să se facă EXCLUSIV la paragrafele care încep cu linie de dialog şi se încheie cu semnul de punctuaţie "punct".]

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

       Comentarii MENIU propus de Blankcd


      Redau în mod prescurtat meniul.
      Faţă de meniul propus, am inserat câteva opţiuni la care am pus semnul ► pentru a le evidenţia. Mai jos fac câteva comentarii.

     – 1. Convertire linii de dialog de tip bullets în linii de dialog de tip text [NEIMPLEMENTAT]
            ► 1*. Setare text la font şi mărime unică, regular + italic + bold [NEIMPLEMENTAT]

     – 2. Eliminare spaţii la început de paragraf
     – 3. Eliminarea "răgăliilor" din vecinătatea liniilor de dialog şi din text = 10 ?
     – 4. Punctuaţie – AŞ SCOATE PUNCTUAŢIA DE AICI
     – 5. Conversie text clasic in contemporan
     – 6. Corectarea majusculelor încorporate
     – 7. Repararea rândurilor rupte
            ► 7*. Ruperea rândurilor care încep cu dialog aflate în interiorul paragrafului.

     – 8. Corectarea literei L mic reprodusă eronat ca 1, ! şi I
     – 9. Corectare cuvinte foarte scurte reproduse eronat
            ► 9*. Corectare alte cuvinte pe bază de dicţionare UZUALE pe litere

     – 10. Convertire linii de dialog = 3 – REZOLVARE CU DICŢIONAR

              ABŢINERE MOMENTAN
     – 11. Convertire linii de pauză
     – 12. Eliminare linii de pauză exclusiv din Dialoguri!
     – 13. Elimină TOATE liniile de pauză din text - cu excepţia liniilor de dialog:
     – 14. Convertire majusculă în minusculă în dialog francez

             [PUNCTUAŢIE]
     ■ 15 [PCT] Convertire virgule duble in ghilimele
     ■ 16 [PCT / DIC] Convertire trei puncte de suspensie in elipsis orizontal


     Deci,
          ■ la pct.1 am inserat opţiunea privind uniformizarea fonturilor.
          ■ 3. Eliminarea "răgăliilor" din vecinătatea liniilor de dialog şi din text – mi se pare că s-ar regăsi aproximativ în pct. 10 + 11, 12 şi 13;
     Există nişte răgălii care apar uneori pe ultimul rând al unui paragraf, atunci când sunt mai multe rânduri scurte; frecvent Abbyy pune multe semne non-litere şi non-cifre la sfârşitul rândurilor scurte, considerând că unele pete de pe hârtie ar fi caractere. Personal elimin aceste grupuri de răgălii în mod manual... cred că implementarea eliminării lor este prea dificilă.

          ■ 4. Punctuaţie - aş lăsa opţiunea acolo unde este şi acum, deoarece este o opţiune de interes general şi nu este specifică digitalizării.
     La Punctuaţie aş mai aduce şi opţiunea 15 "Convertire virgule duble in ghilimele".
     Opţiunea 16 "Convertire puncte de suspensie in elipsis" poate fi implementată la punctuaţie doar în varianta "trei puncte trece în elipsis". Pentru toate celelalte variante semieronate cum ar fi: .,. ; .., ; ..,. şi alte aranjamente de puncte şi virgulă luate câte trei şi câte patru - ar fi foarte uşor de rezolvat printr-un dicţionar, care este în curs de rezolvare.

          ■ 7. Repararea rândurilor rupte;
     am propus inserarea propunerii lui Daniel privind ruperea rândurilor care conţin linie de dialog.

          ■ 9. Corectare cuvinte foarte scurte reproduse eronat;
     Deoarece mai există şi se pot dezvolta nişte dicţionare organizate pe litere cu cuvinte de frecvenţă relativ mare, propun inserarea unei opţiuni de rulare automată a unui grup de dicţionare; aici trebuie stabilite detalii cu Daniel şi Cosmin.

          ■ 10. Convertire linii de dialog - aceste probleme se pot rezolva pe baza dicţionarului existent, ce trebuie dezvoltat.

          ■ 11–14 am scris "abţinere momentan", deoarece nu am avut timp suficient de analiză şi nu am înţeles foarte bine motivaţiile lui Blank.


          ALTE PROBLEME
     1. Pobleme de genul ! şi ? urmate de virgulă se modifică în ! şi ? şi altele de acest gen cred că pot fi corectate cu dicţionar; sunt situaţii caracteristice OCR, deci locul lor este aici şi nu la punctuaţie.
     2. Eliminare spaţii din faţa semnelor de punctuaţie - sunt implementate la punctuaţie, dar cred că mai lipsesc nişte semne.

     3. Adăugarea de spaţii după semnele de punctuaţie [pentru corectarea situaţiilor când semnul este lipit de cuvântul următor]
     Am încercat să rezolv acest lucru cu ajutorul Template Word, astfel: am adăugat spaţiu după o serie de semne de punctuaţie, după care am redus spaţiile duble la un singur spaţiu; au rezultat următoarele efecte secundare:
          ■ Virgula şi două puncte nu au avut efecte secundare.
          ■ PUNCTUL - efecte secundare: T.N.T. şi 12.500 au devenit T. N. T. şi 12. 500
          ■ Punctul, elipsis, semnul exclamării, semnul întrebării [uneori punct şi virgulă] - în situaţia în care apăreau la terminarea unui citat între ghilimele sau unei explicaţii între paranteze, rămânea spaţiu înainte de semnul care arăta închiderea ghilimelelor sau parantezelor. dacă spaţiul din faţa ]) au putut fi rezolvate... la cele din faţa ” nu am reuşit să o rezolv, deoarece nu am ştiut să fac diferenţa dintre „ şi ” . nu ştiu dacă se poate rezolva acest aspect în AutoCorect


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     @ Seven

       Spuneai aşa:
       
       1. LE: Blankule, nu prea înţeleg secvenţa următoare din opţiunea "Eliminare linii de pauză exclusiv din Dialoguri!"
       E vorba de: [Înlocuieşte "spaţiu" "linie de pauză – oricare ar fi ea" "spaţiu" în "virgulă" "spaţiu".  ATENŢIE! înlocuirea să se facă EXCLUSIV la paragrafele care încep cu linie de dialog şi se încheie cu semnul de punctuaţie "punct".]
       
       2. ABŢINERE MOMENTAN
              – 11. Convertire linii de pauză
              – 12. Eliminare linii de pauză exclusiv din Dialoguri!
              – 13. Elimină TOATE liniile de pauză din text - cu excepţia liniilor de dialog:
              – 14. Convertire majusculă în minusculă în dialog francez


      Răspuns:

          Este vorba de linia de pauză care uneori în dialoguri înlocuieşte VIRGULA. Poate m-am exprimat greşit, mai corect ar fi aşa: [Înlocuieşte "spaţiu" "linie de pauză – oricare ar fi ea" "spaţiu" în "virgulă" "spaţiu".  ATENŢIE! înlocuirea să se facă EXCLUSIV la PROPOZIŢIILE care încep cu linie de dialog şi se încheie cu semnul de punctuaţie "punct".]
       

     
@ Seven ---> linie de pauză care are rolul virgulei în Dialog: - Vom merge pe aici - spuse locotenentul. Este bine să mergem pe drumul castelului - adică acelaşi castel unde rămăsese fără cal acum 2 ani - deoarece vom susţine, dacă vom fi întrebaţi ce este cu noi, că suntem oamenii regelui. Bine că suntem aproape - de parcă ar fi contat -, şi vom dormi.

         
@ Seven ---> Eliminare linie de pauză aflată EXCLUSIV în Dialog: - Vom merge pe aici, spuse locotenentul. Este bine să mergem pe drumul castelului - adică acelaşi castel unde rămăsese fără cal acum 2 ani - deoarece vom susţine, dacă vom fi întrebaţi ce este cu noi, că suntem oamenii regelui. Bine că suntem aproape - de parcă ar fi contat -, şi vom dormi.

         

        Acum despre meniul "Convertire linii de dialog" şi "Convertire linii de pauză" pe care nu le agreezi, acestea 2 sunt meniuri care vor fi bifate DOAR dacă userul doreşte, nu intră în pachetul bifat "Basic" - o să revin mai jos cu explicaţii -, care va rula NUMAI meniurile bifate default.
        Pe de altă parte, eu ca user, vreau să am opţiunea de a converti ORICE linie de dialog şi ORICE linie de pauză, să am posibilitatea să elimin liniile de pauză dacă doresc DOAR bifând opţiunea şi apăsând butonul "Rulare opţiuni bifate". NU trebuie mereu să mă duc în nu ştiu care dicţionar abreviat şi prescurtat să caut acolo prin 20-30 de dicţionare - dacă aş fi un user "boboc" nici nu aş şti să caut dicţionarele, deoarece ele sunt oarecum ascunse -, adică să fac circa 10-15 clickuri prin meniuri ca să rulez un dicţionar.
       
       Să mă explic în "amănunt" despre cum ar trebui să arate - în viziunea mea PERSONALĂ - AutoCorectul mai exact meniul OCR_PLUS.
       Pentru mine personal - în momentul actual - NU îmi trebuie AutoCorect cu meniu OCR_PLUS, folosesc exclusiv Word. AutoCorect îl folosesc mai mult pentru opţiunea aceea cu click-dreapta de a corecta cuvintele eronate, în rest aşa cum am mai spus folosesc Word.
       Meniul OCR_PLUS se doreşte - sper că aşa va fi - un meniu care să poată fi utilizat atât de userul "boboc" - prin pachetul bifat "Basic", cât şi de userii mai experimentaţi, ca noi aşa, care pot bifa opţiunile ŞI ÎN ALTĂ ordine decât "Basic" în funcţie de ce are nevoie textul. Pentru un OCR BRUT oricum trebuiesc rulate obligatoriu aproape toate opţiunile, deoarece textul necesită acest lucru.
       
       Ce este pachetul bifat "Basic". Programul va veni bifat default la unele meniuri [vom vedea care meniuri trebuiesc bifate default], unele nu vor fi bifate.
       Meniul OCR_PLUS se adresează EXCLUSIV corectării de OCR-uri [meniul "Punctuaţie" este necesar] şi reprezintă o serie de meniuri bifate default - cine nu doreşte poate debifa orice meniu - astfel încât rularea acestor meniuri prin accesarea butonului "Rulare dicţionare bifate", să permită obţinerea unui OCR curăţat, atât cât se poate, de erorile cauzate de OCR-uri defectuoase.
       Cu alte cuvinte un neica nimeni de pe stradă dacă vrea să corecteze un OCR tot ce are de făcut este să încarce OCR-ul, să se ducă în meniul OCR_PLUS şi să apese butonul "Rulare dicţionare bifate". Astfel va avea un OCR curăţat bun de a fi confruntat cu pdf-ul.
       Despre meniul "Punctuaţie".... de aceea este pus în meniul "OCR_PLUS", pentru ca el să poată fi rulat în cadrul pachetului "Basic", să nu trebuiască userul boboc să umble prin nu ştiu câte meniuri într-o ordine aleatorie şi la întâmplare de tipul: hai să apăs şi aici, uite şi aici să apăs... etc.
       Asta a fost sugestia mea: aducerea tuturor meniurilor/opţiunilor care pot contribui la corectarea unui OCR într-un singur meniu, care să le ruleze ordonat-cronologic şi care să poată fi rulat doar printr-un buton. şi să nu trebuiască să încarci manual nu ştiu ce dicţionar abreviat.
       Programul va putea fi bifat de userii experimentaţi ÎN ORICE CONFIGURAŢIE, dacă doresc vor putea bifa meniurile "Convertire linii de dialog" şi "Convertire linii de pauză".

       Despre structura meniului meu.... rămân la ceea ce am propus anterior ca structură şi cronologie - mi-e greu să mă gândesc la complicaţiile care pot apărea dacă muţi meniul "Punctuaţie" - de aceea din partea mea ai acceptul de a modifica structura meniului dacă consideri necesar.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      1. Despre eliminarea liniuţelor: acum am inteles; credeam că vrei ca toate liniutele explicative/de pauză să fie inlocuite cu un anume tip de liniute şi nu-mi ieşea succesiunea modificării; acum îmi este clar ce voiai; mă mai uit cu atentie la ele mai târziu; de exemplu, e posibil ca intr-un dialog să apară două perechi de liniuţe, iar cea care trebuie să dispară este doar prima pereche - adică prima pereche este cea care trebuie înlocuită cu virgule şi încadrează explicaţii de genul <zise el>, <şopti ea foarte încet> etc... şi a doua pereche poate fi cea care are rol de paranteză... Nu ştiu dacă am reuşit să mă fac înţeles... ideea era că poate ar trebui o condiţie din care să rezulte că se modifică doar prima pereche de liniuţe, atunci când există mai multe perechi în cadrul unui dialog.


      2. Despre dicţionare
      Referirea mea la dicţionare se adresa lui Cosmin şi Daniel.
      Practic, voiam să spun că nu mai e cazul să scrie un cod foarte complex care să ia fiecare situaţie în parte [să zicem la trecerea din puncte de suspensie combinate cu virgilă în elipsis], ci codul ar fi mai simplu; în cod se specifica faptul că la activarea opţiunii "X" se rulează automat dicţionarul cutare.
      Userul ar face absolut acelaşi lucru... ar da aceleaşi comenzi...

      Singura problemă este ca eu/noi să punem aceste dicţionare la punct şi ele să se poată downloada sau instala direct de pe "softset.ro"
      Cei ce ştiu câte ceva despre ele le pot modifica şi îmbunătăţi... ceilalţi le folosesc pe cele existente pe Site.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

Seven a scris:

***
      1. Despre eliminarea liniuţelor: acum am inteles; credeam că vrei ca toate liniutele explicative/de pauză să fie inlocuite cu un anume tip de liniute şi nu-mi ieşea succesiunea modificării; acum îmi este clar ce voiai; mă mai uit cu atentie la ele mai târziu; de exemplu, e posibil ca intr-un dialog să apară două perechi de liniuţe, iar cea care trebuie să dispară este doar prima pereche - adică prima pereche este cea care trebuie înlocuită cu virgule şi încadrează explicaţii de genul <zise el>, <şopti ea foarte încet> etc... şi a doua pereche poate fi cea care are rol de paranteză... Nu ştiu dacă am reuşit să mă fac înţeles... ideea era că poate ar trebui o condiţie din care să rezulte că se modifică doar prima pereche de liniuţe, atunci când există mai multe perechi în cadrul unui dialog.

 
   Te referi la o situaţie similară cu asta:

  - Vom merge pe aici - spuse locotenentul - este bine să mergem pe drumul castelului - adică acelaşi castel unde rămăsese fără cal acum 2 ani - deoarece vom susţine, dacă vom fi întrebaţi ce este cu noi, că suntem oamenii regelui. Bine că suntem aproape - de parcă ar fi contat -, şi vom dormi.

     Înlocuirea primelor 2 liniuţe din dialog, nu cred că se poate în mod automat, eventual doar cu un alt submeniu al liniilor de pauză, şi cu confirmare la înlocuire OBLIGATORIU.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Da, da. Exact la acest gen de situaţii mă gândeam.
      Habar n-am dacă se poate face modificarea doar în cazul primei perechi.
     ...dar, nebănuite sunt căile programării.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Programul cât de deştept ar fi el, nu va putea să facă să facă diferenţa între linia de pauză cu rol de virgulă şi linia de pauză cu rol de paranteză, ba mai mult decât atât de multe ori liniile de pauză şi cele cu rol de paranteză nu vin ÎNTOTDEAUNA în perechi, uneori această linie vine şi singură sau mai vine şi cu virgulă după ea - totul depinde de text şi contextul textului. Chestia asta o poate face doar omul prin citirea textului.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Sută la sută de acord.
      Modificările automate sunt de mare ajutor, dar, oricât ar fi de bune, ele nu vor fi perfecte; vor avea şi efecte secundare nedorite într-un procent mai mare sau mai mic.
      Important este să alegem varianta care ajută mai mult.

      Pentru că eu fac, atunci când timpul îmi permite, şi o corectură pe diagonală, multe corecturi le fac cu această ocazie. E unul dintre motivele pentru care am unele abţineri cu privire la una sau alta dintre opţiuni.

      Atât timp cât există posibilitatea de activare sau de neactivare a opţiunilor, utilizatorii cu experienţă vor alege ceea ce cred că-i avantajează mai mult, ceilalţi se vor mulţumi cu setările default şi pe parcurs vor începe să aleagă şi ei.
     
      Un lucru este cert: pentru cei care ca şi mine au folosit AutoCorect la curăţarea OCR, modificările programului făcute pe forum de către Cosmin şi Daniel de până acum ne-au redus foarte-foarte mult din timpul folosit la curăţare.
      Personal cred că acum fac acelaşi lucru la o calitate superioară, într-un timp de circa 10-15% din timpul consumat înainte de intervenţia lor pe forum.
      E motivul pentru care sunt foarte-foarte mulţumit cu ceea ce au realizat, iar orice îmbunătăţire în plus este deja peste aşteptările şi pretenţiile mele.
      Aş vrea să ajut mai mult, dar cum nu mă pricep decât la dicţionare... le voi face pe acestea şi le voi dezvolta şi îmbunătăţi cu mare plăcere.
      Stimă tuturor!
      Seven


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Daca s-a ajuns la un consens privind o modificare a variantei 2 facuta de BlankCD ar fi folositoare o varianta 3 care sa le includa (facuta tot in doc).
De asemenea ar trebui gasite niste denumiri scurte pentru meniurile care au denumiri foarte lungi - unele sugestive pentru ceea ce fac. Stiu ca, pentru usurinta folosirii, ar fi fost de preferat sa le fi lasat cu aceste denumiri lungi dar practic nu e posibil.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
menssana1984
Vizitator



Eu nu ma prea pricep la dictionare de aceea prefer sa citesc... desi nu prea inteleg mereu ce se zice pe aici.   

Nu prea pot folosi ce discutati si lucrati voi aici deoarece toate ocr-urile mele au fost trecute prin template. Primele 2 seturi de dictionare facute de Seven aveau zero inlocuiri pe un astfel de text... deci intelegeti si voi....
Folosesc totusi cu succes executabilul modificat si il slavesc e o adevarat comoara la casa omului.

Legat de liniute:
- convertirea tuturor liniilor in cratime.

Apoi urmeaza inlocuiri automate:

Spatiu Cratima Spatiu >>>>  Spatiu EnDash Spatiu

^p Cratima Spatiu >>>>> ^p EmDash ^s

Spatiu Cratima Virgula Spatiu >>>>> Spatiu EnDash Virgula Spatiu

Si atat.

Nu cred ca nevoie de automatizarea si indexarea situatiilor cu cratime sau altfel de liniute multiple. Aceste cazuri, daca nu gresesc, sunt indicate de functia Punctuatie a programului.

Mai sus sunt niste inlocuiri complet automate ce dau niste rezultate excelente, dar chiar si ele mai dau chix uneori. Important e ca programul sa faca grosul muncii, iar cazurile particulare sa fie evidentiate si sa ramana la atitudinea utilizatorului.

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Cosmin,
     Am înţeles ce vrei, referitor la scurtarea numelor opţiunilor.
     Dacă nu apare BlankCd cu versiunea 3, încerc în cursul nopţii să structurez eu o variantă, inclusiv un minihelp cu minime explicaţii.


     menssana1984,
     Am înţeles ce spui şi ai dreptate. Nu am explicat suficient opţiunile AutoCorect.
     Templatele RI de care vorbeşti este ceva foarte bun şi deosebit de puternic, aşa că era normal ca un text trecut prin el să dea zero [sau foarte puţine] înlocuiri.
     El, despre template vorbesc, este deosebit de bun, dar tocmai calităţile lui superioare îi dau un efect de bumerang. El trebuie folosit doar de persoane corecte şi cinstite. Prin faptul că după rularea lui, textul arată foarte-foarte curat, poate fi folosit de o persoană mai puţin cinstită şi care vrea să impresioneze prin urcarea unor texte pe care le notează cu versiuni superioare, fără să facă şi corectură, ci doar rulând acel template.

      Suntem cu toţii de acord că AutoCorect sau orice altă metodă de precorectură trebuie să facă doar "grosul muncii", să de o "mână de ajutor"... restul îl face OMUL...

      Pe de altă parte, mult timp am făcut dicţionare, în care cuvintele înregistrate aveau frecvenţă mare doar într-o serie de volume, erau un fel de cuvinte ale unui limbaj specific, dar aceste cuvinte nu aveau neapărat frecvenţă mare în limbajul obişnuit, fapt pentru care erau foarte bune pentru seria respectivă şi aproape fără rezultat la alte cărţi.

     Ultimele dicţionare la care lucrez încearcă să corecteze erori ale cuvintelor din limbajul comun, astfel încât ele să aibă rezultate în corectarea erorilor oricărui tip de carte. Din cauza asta dezvoltarea lor merge mult mai greu.

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
menssana1984
Vizitator



Bun, dar efectul asta de bumerang nu o sa il aiba si toate aceste dictionare la care se lucreaza aici?

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     @ menssana1984, Seven

      Aşa cum am schiţat eu meniul OCR_PLUS varianta 2, efectul de bumerang ar fi minim sau exclus. Eu mă gândeam la acel meniu ca un fel de prototip - din cauza complicaţiilor care pot apărea - pe care să-l testăm, apoi urma faza a doua, de fineţe, adăugarea unor submeniuri noi etc.
      Puteam propune şi alte meniuri dar am ezitat întrucât nu ştiu ce complicaţii pot apărea. Deocamdată sunt destule meniuri, ar fi bine să le testăm pe acelea, apoi putem veni cu propuneri de îmbunătăţire.
      Îmi menţin meniul OCR_PLUS cu adăugirile lui Seven:
            ► 1*. Setare text la font şi mărime unică, regular + italic + bold [NEIMPLEMENTAT]
            ► 7*. Ruperea rândurilor care încep cu dialog aflate în interiorul paragrafului.

      Aşa cum spuneam într-un post anterior dacă doreşte Seven poate să mai adauge noi meniuri, are libertatea să o facă - dar trebuiesc gândite bine adăugarea de alte meniuri - vor apărea complicaţii dacă sunt plasate inadecvat, unele meniuri vor da erori etc. Eu nu renunţ la meniul "Punctuaţie" şi nici la meniurile cu liniile de dialog sau liniile de pauză.
      Seven are ultimul cuvânt privitor la meniu, eu aş spune să testăm ce am propus şi apoi putem veni cu adăugiri.
      Nu este indicat să facem totul dintr-o dată.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
menssana1984
Vizitator



Nu ai inteles
Efectul de bumerang consta in faptul ca face textul prea curatel si se pot folosi unii  de acest lucru pentru a posta "noi" materiale cine stie pe unde.


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

menssana1984 a scris:

Nu ai inteles
Efectul de bumerang consta in faptul ca face textul prea curatel si se pot folosi unii  de acest lucru pentru a posta "noi" materiale cine stie pe unde.

 

     Mă amuzi când spui aşa ceva.  =D  Tu crezi că dacă un text este curăţel şi frumos aranjat este v1.0? Un user ca mine poate vedea dacă este v1.0 sau dacă este frumos aranjat. Dacă vrei să ştii dacă un text a fost citit şi confruntat nu trebuie decât să te uiţi la notele de subsol să vezi dacă păstrează înclinarea anumitor cuvinte. Mai sunt şi alte chichiţe de a vedea dacă un text este v1.0 doar uitându-te pe text - dar prefer să nu le spun.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

AutoCorect a scris:

Legat de numarul de pagina ce apare singurel pe rand. Cateodata este corect cateodata este gresit (este compus din litere cifre sau carcalaci). Ce ar trebui facut in cazul acestor numere ?



     Dacă înţeleg bine te referi la numărul paginii care de obicei se află în dreapta-josul paginii (dar nu numai).
     Aceste numere de pagină trebuie să rămână acolo unde sunt, deoarece corectorul va corecta textul confruntându-l cu pdf-ul. Numărul de pagină ajută corectorul să ştie unde este în text - adică la ce pagină - şi se va rătăci mai rar.
     Numărul de pagină îl scoate corectorul manual după ce a corectat textul.
     De altfel cine face scanarea cu ABBYY ştie că exită o opţiune de scoatere a numerelor de pagină - deci ele nu vor mai fi în OCR - dar va îngreuna corectarea textului, mai exact confruntarea cu pdf-ul de control.
     Eventual aceste numere de pagină - care sunt numere sau o amestecătură de numere-litere - ar trebui evidenţiate cu roşu, similar cum am făcut cu ghilimelele. Adică acolo unde este "cifră""cifră""cifră""cifră" - asta ca să acoperim şi cifrele din text (ex. anii) - să fie colorat cu roşu.
     Eu aş zice ca astfel de fineţuri să fie adăugate mai târziu - după ce testăm prima variantă de meniu - întrucât mai sunt situaţii care ar trebui evidenţiate cu roşu. Ex.: anii secolelor XVII-XVIII-lea etc. - care şi aici sunt destule erori de tipul înlocuirii "I"-ului, XVI1-XV1II - care ar trebui corectate.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
@AutoCorect,
      Aşa cum a spus Blank, numărul de pagină este foarte important, chiar dacă el nu este mereu corect. Reprezintă un fel de coordonate pentru confruntarea textului cu pdf-ul din imagini. Când e vorba doar de numărul de pagină, problema e foarte simplă. Complicat este atunci când numărul de pagină este în antet, pe acelaşi rând cu titlul şi respectiv numele autorului. În astfel de situaţii trebuie să ştergem Aceste titluri şi nume de autori din antent şi ele sunt recunoscute în mai multe variante....
      Deci, nu constituie o problemă numerele de pagină. Cred că nici nu trebuie marcate, cel puţin deocamdată pentru a nu complica prea mult textul cu marcaje.

      PUNCTUAŢIA
      Blankule nu sunt împotriva acestei opţiuni.
      Pur şi simplu m-am gândit că Programul AutoCorect nu a fost creat special pentru OCR-işti, ci pentru corectarea textelor oficiale, obişnuite, uzuale... deci, noi suntem ultimii care am urcat cumva în trenul altora...
      Luând opţiunea "Punctuaţie" de la locul ei de unde o ştie toată lumea care foloseşte de ani de zile programul şi aducând-o în zona noastră, mă gândeam că nu e foarte corect. Despre asta e vorba.
      Dacă Această opţiune poate fi accesată din ambele locuri [meniuri], atunci e perfect.

      Şi da... în acest moment sunt suficiente opţiuni... va fi foarte mult de muncă pentru perfecţionarea acestor opţiuni.
      Revin peste ceva timp cu structura promisă.
      Nu intenţionez să fac modificări ale opţiunilor, ci doar o încercare de condensare în câte-o opţiuni principală a mai multor secvenţe... şi asta doar acolo unde se face rularea unor dicţionare.

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Gata, am schiţat o nouă variantă a meniului OCR_PLUS, dar este doar în varianta text.
     Fişierul se numeşte: MENIU OCR_PLUS - PRESCURTAT [V0.3].doc
     şi se află în folderul cunoscut de la adresa:

     LE: Am modificat deja fişierul şi am urcat în acelaşi loc: MENIU OCR_PLUS - PRESCURTAT [V0.31].doc

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

Seven a scris:


      PUNCTUAŢIA
      Blankule nu sunt împotriva acestei opţiuni.
      Pur şi simplu m-am gândit că Programul AutoCorect nu a fost creat special pentru OCR-işti, ci pentru corectarea textelor oficiale, obişnuite, uzuale... deci, noi suntem ultimii care am urcat cumva în trenul altora...
      Luând opţiunea "Punctuaţie" de la locul ei de unde o ştie toată lumea care foloseşte de ani de zile programul şi aducând-o în zona noastră, mă gândeam că nu e foarte corect. Despre asta e vorba.
      Dacă Această opţiune poate fi accesată din ambele locuri [meniuri], atunci e perfect.



     @ Seven

      Ai înţeles greşit, nici nu a fost vorba de a elimina meniul "Punctuaţie" aşa unde este el acum ci pur şi simplu de a putea fi accesat ŞI din meniul OCR_PLUS.
      Ca să folosesc analogia ta cu trenul... exemplu: dacă călătoresc la categoria a II-a şi vreau să comand ceva la restaurantul trenului trebuie să mă duc la categoria I-a să găsesc chelnerul ca să-i dau comanda. Eu vreau doar ca chelnerul să treacă şi pe la categoria a II-a să ia comenzi. Atât. Nu vreau să mănânc şi nici să stau la categoria I-a.
       Deci la asta mă referisem: meniul "Punctuaţie" să poată fi accesat ŞI din meniul OCR_PLUS, nu m-am referit DELOC ca meniul "Punctuaţie" să fie mutat din locul în care este în prezent. Mă repet: toate opţiunile/meniurile care pot contribui la corectarea unui OCR trebuiesc puse în acest meniu pentru a putea fi rulate cronologic-ordonat.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Multumesc Seven pentru noua varianta.
Am inceput sa o implementez.
Ar putea cineva sa-mi dea exemplu de toate situatiile in care bullets ar trebui sa fie transformate in dialog?
Si sa transforme in liniuta de dialog, Horizontal bar, liniuta de pauza sau cratima? Utilizatorul sa aleaga intre ele sau sa puna una dintre ele automat?


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
Cosmin,
    La întrebarea despre bullets sunt un pic în ofsaid.
    În Word era foarte simplu pentru că macrocomanda avea o singură linie şi nu se specifica la ce forme de bullets se face referire:
    Iată toată înregistrarea care se făcea:

' ConvertNumbersToText Macro
' Macro created 02.02.2011
'
ActiveDocument.ConvertNumbersToText
End Sub

     Cred că ar trebui luate în seamă doar linii: Em dash, Horizontal bar, En dash şi cratima. Şi ar mai fi liniuţa de pauză pe care o realizează Word. Concret nu ştiu ce liniuţă este, deşi am considerat-o ca fiind En dash.
     Personal eu nu am întâlnit alte situaţii, în afara liniuţelor.

     În altă ordine de idei pregătisem o postare, care privea pe toţi utilizatorii de AutoCorect, dar care conţine o trimitere specială la tine şi la Daniel. Lipsesc vreo două-trei ore, după care am să revin. Iată postarea!

     Cosmin şi Daniel
     Aş vrea, dacă se poate, să clarificăm câteva probleme din fereastra dicţionarelor de „înlocuiri multiple”.

     Mă refer la opţiunile:
     □ Cuvânt întreg – [Ci]
     □ Păstrează capitalizarea – [Pc]
     □ Potrivire perfectă – [Pp]

     □ Început de paragraf – [Pi]
     □ Sfârşit de paragraf – [Pi]

     Mai întâi, încerc eu să spun câteva lucruri, aşa cum le-am înţeles eu.
     Să luăm mai întâi ca exemplu, cuvântul <dete> - formă populară a perfectului simplu a verbului <a da>. Presupunem că-l înlocuim cu <dădu>.

          □ Cuvânt întreg – înseamnă că se va face modificarea în cazul cuvântului <dete>, fără să se facă modificări şi în cazul unor cuvinte ca: determinat, deteriorat… care conţin secvenţa <dete>;

          □ Păstrează capitalizarea – înseamnă că modificarea se face atât în cazul cuvântului scris cu minusculă <dete>, dar şi în cazul cuvântului scris cu majusculă <Dete>.
     Să subliniem că opţiunea „Păstrează capitalizarea” se poate activa doar atunci când este activată şi opţiunea „Cuvânt întreg”; ea nu funcţionează separat.

          □ Potrivire perfectă – funcţionează independent de opţiunea „Cuvânt întreg”; pot fi cuplate ambele sau separat.
     Revenind la <dete>; dacă se activează „Potrivire perfectă”, fără alte opţiuni se va face modificarea atât în cazul cuvântului întreg <dete>, dar şi a tuturor secvenţelor de cuvânt, indiferent dacă secvenţa <dete> se află şa începutul, la mijlocul sau la sfârşitul cuvântului. Vom constata că <determinat, deteriorat> vor fi modificate în <dădurminat, dăduriorat> – ceea ce ar fi o mare eroare.
     Mai este un aspect: nu se va modifica forma cu majusculă <Dădu>, deoarece aceasta nu se potriveşte perfect.
     Mai mult decât atât, dacă vom pune spre modificare forma scrisă <deTe>, programul va căuta doar secvenţe scrise cu T majusculă şi nu va modifica secvenţa <dete>.

          □ Început de paragraf – [Pi] – caută numai la început de paragraf.
     Dacă la căutare punem liniuţa Em Dash, practic va găsi doar liniuţele de dialog şi nu va căuta astfel de liniuţe în interiorul rândului.

          □ Sfârşit de paragraf – [Pi] – caută secvenţa doar la sfârşitul paragrafului.

     Probabil mai trebuie detaliat pentru cei mai noi utilizatori de AutoCorect.

     Să revenim la opţiunea Cuvânt întreg, să vedem ce înseamnă acest lucru în înţelesul AutoCorect.
     Cuvinte întregi sunt şi cuvintele scrise cu cratimă: într-un, bucurându-se, duce-te-ai… etc. [De menţionat că Word nu acceptă decât cuvintele scrise exclusiv cu caracter-literă]

     Întrebare pentru Cosmin şi Daniel:
     O secvenţă care cuprinde şi spaţiu, poate fi interpretată cuvânt întreg?
     Presupunem că vreau să modific cuvântul <însă> scris cu minusculă în forma <Însă>, scris cu majusculă, la început de dialog.
     Practic aş pune în fereastra „Caută”: <— însă> iar în fereastra „Înlocuieşte cu”: <— Însă>, apoi activez opţiunile ■ Început de paragraf – [Pi] şi ■ Cuvânt întreg – [Ci].

     Întrebarea este: poate fi considerată secvenţa <— însă> ca fiind cuvânt întreg?
     Deci „Cuvânt întreg” înseamnă ceea ce se înţelege în mod obişnuit prin noţiunea de cuvânt sau poate fi orice succesiune, indiferent cât ar fi de lungă, chiar dacă cuprinde şi spaţii, şi în acest caz „Cuvânt întreg” are sensul de „toată succesiunea”, în forma în care este ea scrisă?


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani

Cosmin,
    La întrebarea despre bullets sunt un pic în ofsaid.
    În Word era foarte simplu pentru că macrocomanda avea o singură linie şi nu se specifica la ce forme de bullets se face referire:
    Iată toată înregistrarea care se făcea:

' ConvertNumbersToText Macro
' Macro created 02.02.2011
'
ActiveDocument.ConvertNumbersToText
End Sub

     Cred că ar trebui luate în seamă doar linii: Em dash, Horizontal bar, En dash şi cratima. Şi ar mai fi liniuţa de pauză pe care o realizează Word. Concret nu ştiu ce liniuţă este, deşi am considerat-o ca fiind En dash.
     Personal eu nu am întâlnit alte situaţii, în afara liniuţelor.


Sa inteleg deci ca vrei "Em dash, En dash, Horizontal bar si cratima" puse la categoria "Convertire dialog bullets in dialog text "?
Pentru clarificare cred ca totusi ar fi necesare cateva exemple in care sa se arate ce se va inlocui si cu ce se va inlocui.
In acest fel voi implementa exact ce este nevoie.


O secvenţă care cuprinde şi spaţiu, poate fi interpretată cuvânt întreg?
     Presupunem că vreau să modific cuvântul <însă> scris cu minusculă în forma <Însă>, scris cu majusculă, la început de dialog.
     Practic aş pune în fereastra „Caută”: <— însă> iar în fereastra „Înlocuieşte cu”: <— Însă>, apoi activez opţiunile ■ Început de paragraf – [Pi] şi ■ Cuvânt întreg – [Ci].

     Întrebarea este: poate fi considerată secvenţa <— însă> ca fiind cuvânt întreg?
     Deci „Cuvânt întreg” înseamnă ceea ce se înţelege în mod obişnuit prin noţiunea de cuvânt sau poate fi orice succesiune, indiferent cât ar fi de lungă, chiar dacă cuprinde şi spaţii, şi în acest caz „Cuvânt întreg” are sensul de „toată succesiunea”, în forma în care este ea scrisă?


In AutoCorect "Cuvant intreg" este extinsa la orice sir de caractere marginite de caractere care nu pot face parte dintr-un cuvant respectiv de inceputul/sfarsitul textului sau de inceput/sfarsit de paragraf etc.
Practic deci nu conteaza ce este in acel sir de caractere, conteaza doar ce e in text inainte si dupa sir.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


     Exemple de marcatori tip bullets:


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Multumesc, BlankCD.
Ma apuc sa implementez.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Este perfect exemplul dat de BlankCd privind marcatorii de tip bullets.
     
BlankCd a scris:

Toate aceste tipuri de marcatori ar trebui converite in EmDash de tip text. Ulterior daca se doreste inlocuirea lui EmDash de tip text cu alta linie se poate face cu ajutorul meniului care va converti diversele linii de dialog

     Şi cu acest lucru notat în exemplu sunt perfect de acord.
     Modificarea liniei de dialog se poate face foarte uşor şi rapid de către oricine din Em dash în orice altă linie după rularea pachetului de opţiuni OCR_PLUS.
     Menţionez că şi dicţionarul meu privind liniiile de dialog, ia în calcul tot linia de tip Em dash; el modifică orice tipuri de linii şi combinaţii de linii în Em dash.
     Alte dicţionare [cel care modifică literele mici în majuscule la început de dialog] lucrează tot cu Em dash.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
AutoCorect
Membru Puf

Inregistrat: acum 13 ani
fara mess

Modificat de AutoCorect (acum 12 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Daniel, ne pare rău de răceala ta şi îţi dorim însănătoşire grabnică!
     Cât despre treaba cu trenul AutoCorect... am înţeles; mi-am luat otorizaţie la clasa întâi.


     Pentru mai tinerii mei colegi într-ale corecturii, vreau să fac câteva comentarii sau precizări cu privire la unele erori Abbyy, ale cauzelor apariţiilor lor şi modului de rezolvare. Acest lucru îl voi face pe parcursul mai multor postări.
     Deocamdată încep cu un tip de erori aparte, care au cauze diferite de celelalte erori.
     

     Redarea cifrei 1 în loc de litera L mic

     În continuare voi folosi numele Abbyy, atât pentru programul Abbyy cât şi pentru orice alt program de tip recognito, care realizează OCR.
     Realizarea OCR-ului în limba română se face pe baza unor dicţionare de limba română. [Unele programe, altele decât Abbyy, nici nu au astfel de dicţionare pentru limba română.] Aceste dicţionare nu cuprind toate cuvintele din limba română, şi, mai ales, nu cuprind toate formele rezultate din declinare ori conjugare, ori alte situaţii speciale. În concluzie, în aceste dicţionare nu apar cuvinte scrise cu cratimă sau ele vor fi în număr foarte mic şi insuficient.

     Înlocuirea de către Abbyy a literei L mic cu cifra 1 nu se face în orice situaţie, ci el [programul Abbyy] ţine cont de câteva considerente logice. Înlocuirea nu se face în urma unei confuzii a formei caracterelor, ci are la bază un fals argument: Abbyy crede că e vorba de matematică.
     Abbyy nu va înlocui niciodată L mic cu cifra 1 undeva la mijlocul cuvântului, ci doar acolo unde apare cratima sau în cuvinte foarte scurte – de exemplu, uneori apare şi numărul 11 în loc de Îl, Îi, il, îi…

     În mărinimia şi aroganţa sa, Abbyy crede că a găsit nişte formule sau operaţiuni matematice şi se grăbeşte să le scoată în evidenţă.
     Abbyy consideră că în exemplele: l-am, l-au, să-l, aducându-l… cratima ar fi semnul minus din matematică şi atunci crede că e vorba de formule matematice; astfel că în cazul primelor două exemple Abbyy scrie 1- [unu minus] şi în exemplele 3 şi 4, Abbyy crede că e vorba de -1 [minus unu].
     De aceea, indiferent dacă scanul este perfect sau mai slăbuţ, dacă vorbim de o carte cu hârtie îngălbenită şi tipar deteriorat sau de o carte relativ nouă şi cu tipar de calitate, indiferent de toate acestea, până când programele de recunoaştere nu vor fi dotate cu dicţionare româneşti deosebit de complexe, vor face astfel de erori.
     Din aceste motive dicţionarele L1.imd, L2.imd şi L3.imd vor face întotdeauna înlocuiri într-un OCR brut.
     Aceste dicţionare nu sunt perfecte, dar rezolvă în mod corect cele mai multe dintre situaţii; există şi posibilitatea ca uneori dicţionarele să producă ele însele unele erori, dar aceste efecte secundare sunt mult-mult mai puţine. Erorile apar atunci când Abbyy îl vede şi pe i [litera i mic] ca fiind cifra 1 – oricum astfel de situaţii sunt foarte rare şi de de cele multe ori ele nu există.

     Încă o subliniere.
     Este foarte important de reţinut că în cazul multor fonturi, asemănarea dintre forma grafică a literei L mic şi cifra 1 este atât de mare, uneori semnele sunt identice [vezi fontul Bookman Old Style, dar şi alte fonturi], astfel că persoanele care corectectează texte, fără să apeleze la corectoarele de limba română ale editoarelor, au neşansa să nu constate că în text există cifra 1 în locul literei L mic.
     Recomandare: pentru evitarea acestor situaţii, recomand folosirea AutoCorect şi executarea corecturii într-un editor la care sunt activate corectoarele de limba română.

      Despre confuzia Abbyy a caracterelor fusiforme, erori de genul d=cl şi m=rn şi alte erori, despre diferenţa dintre fonturi serif şi fonturi sans-serif etc… în alte postări.

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
menssana1984
Vizitator



Si hai ca pic si eu ca musca in zeama....

La folosirea functiei Ortografie, daca utilizatorul isi extinde modificarile dincolo de ceea ce ii evidentiaza programul in fereastra de Ortografie...

Adica programul iti semnaleaza in fereastra cuvantul CUCUVEAU, iti ofera sau nu o sugestie corecta, dar tu observi in aceeasi fereastra si alte cuvinte naspa.
Prin urmare modifici totul manual si apoi apesi modifica.

Data viitoare cand te vei mai intalni cu CUCUVEAU, vei avea drept sugestie TOATE cuvintele pe care le-ai modificat manual.

Stiu, stiu, stiu. Va intrebati de ce pana mea procedez eu asa?
Pai o eroare constata vizual si modificata manual e o eroare de aur
Iar AC-ul inca are oarece lipsuri la capitolul dictionar, asa ca pentru a evita posibilitatea ca AC-ul sa zboare, dupa eroarea gasita de el, pe pagina urmatoare, aleg sa "impusc" tot ce prind.

Ca posibila solutie, propun un butonas in plus "Modifica, dar nu retine".


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am discutat cu menssana si problema era de fapt ca la sugestii rareori aparea cate una cu probleme, ramasa in dictionare de la o versiune veche de exe. Exele a fost reparat de ceva timp dar sugestiile au ramas in dictionar si cateodata apar.
Solutia e sa intri in i.dic de la locatia "c:\Documents and Settings\Nume_user\Application Data\AutoCorect Contemporan\Dictionare\" (reala pe Windows XP si virtuala pe Vista/7) si sa stergi acele sugestii. Atentie: in i.dic inregistrarile sunt pe doua linii - pe cele impare sunt cuvintele scrise gresit, pe cele pare sugestia stocata. Deci cand se sterge o sugestie de pe linia para trebuie sters si cuvantul asociat de pe linia impara.

M-am mai uitat prin OCR-uri si cateodata apar aceste caractere $%^*& care ori trebuie sterse ori "transformate" in litere/cifre/semne de punctuatie. Acum, prin felul cum arata "sar" in ochi nitel cand te uiti intr-un text dar poate ar fi mai bine sa fie marcate cu alta culoare ca sa iasa si mai mult in evidenta.
S-ar mai putea marca si parantezele fara pereche respectiv ghilimelele fara pereche.


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

ciuperca_cosmin a scris:



M-am mai uitat prin OCR-uri si cateodata apar aceste caractere $%^*& care ori trebuie sterse ori "transformate" in litere/cifre/semne de punctuatie. Acum, prin felul cum arata "sar" in ochi nitel cand te uiti intr-un text dar poate ar fi mai bine sa fie marcate cu alta culoare ca sa iasa si mai mult in evidenta.



     Artefactele de tipul: $%^*& trebuiesc şterse din text. Uneori unul din caracterele eronate este de fapt o literă/litere interpretate eronat de ABBYY.
     Exemplu: me^seră [merseră este corect]. După ştergerea caracterului "^" şi rularea dicţionarelor vom avea aşa: meseră. Nu este o problemă pentru că ultimul lucru făcut după rularea dicţionarelor, va fi activarea meniului "Ortografie" - pentru a evidenţia cuvintele incerte sau incomplete - care va sublinia cuvântul "meseră" şi va putea fi corectat uşor.
      De abia după aceea se va corecta textul prin confruntarea cu pdf-ul de control.

     Menţiune: semnul asterix * ar fi bine dacă nu ar fi şters, poate doar evidenţiat cu culoare deoarece de multe ori în text asterixul are rol de notă de subsol. Exemplu unele volume de Karl May au acest asterix la notele de subsol.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Salutări tuturor!
     Plec la discuţie de la principiu că părerile diferite construiesc şi nu distrug şi că respectul reciproc nu înseamnă neapărat abţinere de la păreri de altă nuanţă.

ciuperca_cosmin a scris:

M-am mai uitat prin OCR-uri si cateodata apar aceste caractere $%^*& care ori trebuie sterse ori "transformate" in litere/cifre/semne de punctuatie. Acum, prin felul cum arata "sar" in ochi nitel cand te uiti intr-un text dar poate ar fi mai bine sa fie marcate cu alta culoare ca sa iasa si mai mult in evidenta.

     Mai plec de la premiza că respectivele răgălii ţin locul unui caracter şi nu mă refer la grupul de răgălii ce pot apărea la sfârşitul unui rând scurt, când ele apar cu totul şi cu totul eronat, Abbyy interpretând anumite pete de pe hârtia cărţii ar fi caractere.
     Faţă de prietenul BlankCd am o altă părere.
     Eu aş prefera ca aceste artefacte să rămână şi, iată de ce:
         - atunci când artefactele se păstrează, ele ies în evidenţă şi ne atrag atenţia că acolo e nevoie de o corectură; în momentul în care ele dispar, se poate trece mai uşor peste greşeala respectivă.
         - aş face o comparaţie între textul de corectat şi o stradă din România; adeseori, marţienii ori saturnienii fură capacele de la canalele de pe stradă, lăsând ditamai groapa deschisă. Unii pământeni, pun câte o creangă de pom în canal pentru semnalizarea gurii de canal fără capac. Creanga nu rezolvă problema capacului, dar semnalizează gura de canal deschisă. Creanga este artefactul din text: el atrage atenţia, deşi nu rezolvă problema.
         - astfel de artefacte eu le corectez cu ocazia a ceea ce numesc "corectură pe diagonală"; Cu editorul setat în "Overtype mode", în timp ce defilez prin text pun caracterul corespunzător exact în locul răgăliei respective, fără a ma pierde timpul cu insert şi delete. În principiu, rezolvarea acestora nu este ceva deosebit de complicat.
         - un argument mai subţire: e posibil ca prin dispariţia unui artefact aflat la mijlocul unui cuvânt şi respectiv unirea celor două părţi ale cuvântului, din această mişcare să rezulte un nou cuvânt existent în limba română, pe care corectoarele nu-l mai subliniază, iar ochiul ar putea să nu-l detecteze ca nefiind corect.
         - şi, o ultimă tentativă de argument; există un număr de useri mai tineri care preferă să corecteze OCR-uri necurăţate, dintr-un motiv relativ simplu: atunci când au puţine intervenţii în text, îi "fură subiectul" cărţii şi nu mai sunt suficienţi de atenţi la erori mici ce a trebui corectate; de aceea ei preferă texte cu mai multe erori, care să-i ţină "în priză permanent"; Acesta este un motiv pentru care nu oricine se ocupă de corecturi pentru versiunile [V2.0] şi [V3.0]; la corectura pentru aceste versiuni rămân foarte puţine greşeli şi ele trebuiesc vânate cu mare atenţie, iar pentru acest lucru e nevoie de ceva experienţă.

     În concluzie, militez pentru păstrarea lor, deoarece deşi arată rău, ele fac de multe ori bine.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
menssana1984
Vizitator



Imi pare rau sa va dezamagesc pe toti 

Eu am propus problema %^&**( spre rezolvare lui Cosmin.
Si sunt de acord si cu Seven si cu Blanck... partial.

Dar e necesara doar marcarea acestor simboluri pentru a putea fi vazute mai usor la o corectare in diagonala. La ocr-urile proaste se poate pierde destul de mult din text prin simpla lor eliminare si imbinarea capetelor de randuri din ochi ce vine mai tarziu.

Deci doar marcarea lor e suficienta. Utilizatorul va hotara ce si cum.
Eventual se poate face o singura optiune care bifata sa marcheze si debifata sa stearga.

Si, Cosmin, ai grija la felul in care se va realiza marcarea. De regula marcarea din AC nu se scoate prea usor in WOrd.

P.S.
Unde gasesc lista completa de fonturi ce suporta diacrticele din Word?

Modificat de menssana1984 (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
@ menssana1984,

       Nu e vorba de nicio dezamăgire. Sunt perfect de acord cu tine.
       Poate că având o propunere un pic nuanţată se rezolvă toate variantele: dacă stergerea s-ar face din două etape [opţiuni]:
           - întâia opţiune: "Marchează răgălii" cu buton "Activat-Neactivat"
           - a doua opţiune: "Şterge răgăliile marcate"  cu buton "Activat-Neactivat"
       În felul ăsta răgăliile pot rămâne la locul lor aşa cum sunt, pot fi doar marcate şi neşterse, şi pot fi şterse definitiv - lăsând asta la alegerea utilizatorului.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

Seven a scris:

@ menssana1984,

       Nu e vorba de nicio dezamăgire. Sunt perfect de acord cu tine.
       Poate că având o propunere un pic nuanţată se rezolvă toate variantele: dacă stergerea s-ar face din două etape [opţiuni]:
           - întâia opţiune: "Marchează răgălii" cu buton "Activat-Neactivat"
           - a doua opţiune: "Şterge răgăliile marcate"  cu buton "Activat-Neactivat"
       În felul ăsta răgăliile pot rămâne la locul lor aşa cum sunt, pot fi doar marcate şi neşterse, şi pot fi şterse definitiv - lăsând asta la alegerea utilizatorului.



          De acord cu Seven cu cele 2 opţiuni, e mai comod aşa, împarte şi varza şi capra adică:

                - dacă într-un text sunt multe răgălii provenite în majoritate din defectele hârtiei şi nu a caracterelor, ele pot fi eliminate.
                - dacă avem un text în care răgăliile sunt în mare parte erori ale literelor avem opţiunea de marcare a lor cu culoare.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
La optiunea 2 din "OCR Plus" s-a scris:
Eliminarea "răgăliilor" din vecinătatea liniilor de dialog şi din text. [NIMP]
Va fi facuta cu dictionar (total sau partial) sau numai cu cod?
In cazul cand va trebui utilizat cod atunci sa folosesc caracterele din "Dic Linii dialog [2011.10.31].imd"?


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Cosmin,
      Convingerea mea este că nu are rost să scrieţi kilometri de cod.
      Mai întâi că nu merită atâta efort din partea voastră, atâta timp cât există şi o variantă mai comodă - pe de o parte, iar pe de altă parte varianta cu dicţionar permite o mai uşoară îmbunătăţire.
     
      Dicţionarul dă în acest moment rezultate destul de bune şi poate fi completat şi îmbunătăţit.
     
      Ar trebui totuşi clarificate 2 probleme în legătură cu dicţionarele.

      ■ 1. Ar fi foarte important de ştiut dacă după editarea unui dicţionar cu o formă cât de cât finală să se poată bloca opţiunea de sortare.
      Concret: la acest dicţionar cu linii de dialog, după ce pun variantele de liniuţe însoţite de răgălii de corectat, în ultimele 3 înregistrări aş vrea să pun în ordine următoarele:
             - "linie de dialog" se modifică în "linie de dialog urmată de un spaţiu"
             - "linie de dialog urmată de spaţiu dublu" se modifică în "linie de dialog urmată de un spaţiu"
             - "linie de dialog urmată de un spaţiu" se modifică în Em dash urmată de Nonbreaking Space"

      Practic, aş vrea ca după rularea dicţionarului respectiv toate liniile de dialog să fie de tip Em dash urmate de Nonbreaking Space, iar pentru asta ultimele trei înregistrări trebuie să fie exact acestea. Dacă nu merge cu blocarea selectării, atunci ar fi varianta cu un dicţionar 2 sau trecute aceste 3 chestii sub formă de cod.

      ■ 2. În legătură cu numele dicţionarelor.
      Numele acestor dicţionare pot fi modificate după cum credeţi că e mai bine.
      Atunci când am implementat dicţionarele L1-L3 şi S1-S4 am folosit L de la litera L şi S de la cuvinte Scurte... şi am încercat să pun nişte nume cât mai scurte ca să nu complic prea mult codul.
      Acum, deoarece apar alte dicţionare în plus, poate e bine să fie reorganizate.
      Numele pe care le-am dat ultimelor 3-4 sunt nume de conjunctură şi nu e important să fie păstrate.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Daca crezi ca e mai bine cu dictionar, asa lasam.

1. Inteleg de ce vrei sa pastrezi ordinea dar cred ca cel mai bine e sa lasi totusi posibilitatea modificarii ulterioare. E rau sa le modifice prost, da, dar totusi cred ca e posibil sa apara si ceva bun.
Oricum nu cred ca vor fi multi cei care vor cauta sa le editeze dar pentru ei s-ar putea scrie o avertizare in program atunci cand incearca sa modifice unul din dictionarele aflate in OCR_DIC.
Dar daca esti sigur ca e mai bine sa fie implementata o modalitate de a preveni sortarea atunci ma voi gandi la o modalitate.

2. Am inteles.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Blocarea sortării mă interesa doar în cazul acestui dicţionar privind liniile de dialog, dar nu e neapărat o problemă foarte importantă.

      Pentru că mâine dispar din nou pentru vreo 5-6 zile, mai vreau să subliniez câteva lucruri, deşi nu st fi pe "ordinea de zi".

      La Punctuaţie
      Cred că mai trebuiesc adăugate nişte opţiuni, pe care nu le-am văzut.
      Ar fi vorba de:
               □ Scoate spaţiu înainte de caracterul . [punct]
               □ Scoate spaţiu înainte de caracterul , [virgulă]
               □ Scoate spaţiu înainte de caracterul ; [punct şi virgulă]
     
      Din punctul meu de vedere, cred că cine doreşte scoaterea spaţiilor din faţa unui semn de punctuaţie, este de acord de fapt cu scoaterea spaţiilor din faţa principalelor  semne de punctuaţie.
      Mă refer la: . : , ; ? ! ... [punct, două puncte, virgulă, punct şi virgulă, semnul întrebării, semnul exclamării, puncte de suspensie/elipsis]

      În acest caz, poate nu ar fi rău dacă ar fi modificată o opţiune şi rescrisă sub forma:
               □ Scoate spaţiu înainte de caracterele . : , ; ? ! ... [punct, două puncte, virgulă, punct şi virgulă, semnul întrebării, semnul exclamării, puncte de suspensie/elipsis]
      Această variantă ar putea reduce numărul de setări ale punctuaţiei.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Scoaterea spatiilor dinaintea acelor semne de punctuatie, precum si a altora, e deja implementata la "Aplica principiile de baza ale punctuatiei".
Acum cativa ani aveam toate functiile setabile separat dar intr-un final ne-am dat seama ca "ameteam" utilizatorii degeaba cu n-spe functii care nu erau dezactivate niciodata.
Asa ca le-am pus in "Aplica principiile de baza ale punctuatiei", lasand afara doar pe cele care efectiv cateodata mai sunt bifate/debifate.

PS: uite si ultima versiune de AutoCorect la care au fost implementate unele din functii la OCR Plus:

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
       Punctuaţia - am înţeles; am crezut că sunt doar cele ce se pot activa.

       Am făcut download şi am instalat ultima versiune de AutoCorect.
       Am apucat să arunc doar o privire fugitivă.
       Acum mă documentam cu privire la numele dicţionarelor ca să le redenumesc.
       Deocamdată nu ştiu dacă am la dispoziţie un OCR brut, bun pentru testări şi nici nu mai am foarte mult timp; dar oricum, mâine [adică azi] înainte de plecarea din oraş, revin cu primele constatări.

       Mulţumim frumos şi toate cele bune!
       Cu stimă,
       Seven

       LE: Deocamdată am rulat programul la rece, dar îmi place foarte mult.
       Am rezolvat-o şi cu redenumirea dicţionarelor din opţiuni.
       Mai am ceva de rezolvat cu dicţionarele UZUALE, dar m-am prins care e logica numelor.

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

    Am făcut eu o testare incompletă - din cauza că se blochează AutoCorectul - primele observaţii:

     - se simte nevoia butonului care să ruleze meniurile, efectiv unele meniuri le-am rulat de 2 chiar 3 ori întrucât uitam ce meniu rulez.
     - AutoCorectul salvează în timp ce rulează dicţionarele - asta încetineşte şi chiar poate bloca AutoCorectul [cel puţin la mine aşa face]. După implementarea butonului de rulare dicţionare bifate, poate ar trebui ca salvarea să se facă după rularea tuturor meniurilor.
     - am descoperit o posibilă eroare. La rularea submeniului "Convertire majusculă în minuscula la dialogul francez" există fereastra de înlocuire cu confirmare a unor litere mici din text unde ar trebui confirmate. Această fereastră acţionează ŞI asupra cuvintelor aflate în PARAGRAF care au linie de dialog, ceea ce nu e tocmai bine întrucât te pune să confirmi acolo unde nu ar fi cazul. Asta înseamnă muncă şi timp mai mult acolo unde nu ar fi cazul.

     În urmă cu câteva pagini spuneam:
             "Această fereastră ar trebui să modifice - obligatoriu cu confirmare - ca acolo unde după semnul întrebării şi/sau exclamării apare LITERĂ MICĂ să fie înlocuită cu Literă MARE, dar ATENŢIE!! numai acolo unde paragraful NU începe cu "marcaj de sfârşit de paragraf""linie de dialog" - linie de dialog care poate fi de tip EmDash, EnDash şi Horizontal Bar.
      Adică fereastra să "acţioneze" exclusiv asupra paragrafelor care nu au linie de dialog la începutul paragrafelor."

      Am testat pe OCR-ul Alexandre Dumas - Călăul din Paris vol. 1, aş vrea să ştiu dacă şi la voi v-a dat această eroare adică trebuie să confirmaţi înlocuirea minusculei cu majusculă din paragrafele care încep cu linie de dialog.

      Nu am găsit dicţionarul DDGac.imd. Poate ar fi bine ce executabilul să vină cu aceste dicţionare redenumite, eu le-am redenumit intuitiv după fereastra de eroare care apărea la rularea meniurilor, apoi făceam corespondenţa cu dicţionarele puse de Seven... cred că nu am greşit dar nu am găsit dicţionarul DDGac.imd.
      Ar mai fi de spus câte ceva dar mă opresc aici, întrucât AutoCorectul se blochează mereu şi m-a enervat peste măsură.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Da, inca nu e implementata evitarea salvarii pe timpul rularii functiilor de la OCR Plus. Momentan inca se lucreaza la ele.
Dar exista o rezolvare simpla: daca faci totul manual (rulare functii si salvare text) pur si simplu ai putea seta timpul de salvare automata la o valoare mai mare sau chiar ai putea s-o dezactivezi. Salvarea automata e folositoare mai ales cand scrii text si nu vrei sa-l pierzi dar daca cineva doar face modificare la text folosind functii din program nu e absolut necesar sa fie activata deoarece, daca se intampla ceva cu Windows sau se ia curentul, se poate relua rularea acestor functii.

Butonul ce ruleaza functiile din meniuri automat va fi implementat doar dupa ce se termina cu implementarea la celelalte, ca sa putem sti exact ce va fi rulat automat. Ai zis ca se va mai discuta despre aceste meniuri si probabil vor mai fi "ajustate" - dupa ce se ajunge la consens ca sunt bine implementate il vom face.

In ce priveste eroarea de la "dialog francez": am implementat dupa "Adică fereastra să "acţioneze" exclusiv asupra paragrafelor care nu au linie de dialog la începutul paragrafelor".
Face probleme la dialogurile care incep cu linie de dialog de tip "Horizontal bar" sau la toate?
Din ce ai mai zis parca vrei sa "sara" si peste paragrafele care contin (nu doar incep cu) linie de dialog: "Această fereastră acţionează ŞI asupra cuvintelor aflate în PARAGRAF care au linie de dialog" (cuvintelor...au) in loc de "Această fereastră acţionează ŞI asupra cuvintelor aflate în PARAGRAFE care incep cu linie de dialog". E corect?

DDGac.imd nu e facut inca. I-am dat totusi o denumire pentru a putea fi apelat de functia din meniu atunci cand va fi creat.

Modificat de ciuperca_cosmin (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

ciuperca_cosmin a scris:


In ce priveste eroarea de la "dialog francez": am implementat dupa "Adică fereastra să "acţioneze" exclusiv asupra paragrafelor care nu au linie de dialog la începutul paragrafelor".
Face probleme la dialogurile care incep cu linie de dialog de tip "Horizontal bar" sau la toate?


Nu am testat pentru toate tipurile de linii de dialog dar pe OCR-ul de la Călăul din Paris vol 1, sunt numai linii de tip EmDash.


ciuperca_cosmin a scris:


Din ce ai mai zis parca vrei sa "sara" si peste paragrafele care contin (nu doar incep cu) linie de dialog: "Această fereastră acţionează ŞI asupra cuvintelor aflate în PARAGRAF care au linie de dialog" (cuvintelor...au) in loc de "Această fereastră acţionează ŞI asupra cuvintelor aflate în PARAGRAFE care incep cu linie de dialog". E corect?


Cred că este corect aşa: "Această fereastră acţionează ŞI asupra cuvintelor aflate în PARAGRAF care au linie de dialog" (cuvintelor...au)".

Rămâne de testat oricum. Să vedem dacă şi Seven are această eroare pe care am menţionat-o eu.


Altă problemă observată de mine sunt litere de tip consoană - cu excepţia vocalelor a, e, i, o, u - care sunt precedate şi urmate de spaţiu. Toate aceste consoane ar trebui evidenţiate întrucât sunt fie erori de OCR fie fac parte din cuvinte alăturate şi care sunt incomplete.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani

Nu am testat pentru toate tipurile de linii de dialog dar pe OCR-ul de la Călăul din Paris vol 1, sunt numai linii de tip EmDash.


Poti sa-mi dai te rog un link de descarcat ca sa pot testa si eu? Multumesc.


Cred că este corect aşa: "Această fereastră acţionează ŞI asupra cuvintelor aflate în PARAGRAF care au linie de dialog" (cuvintelor...au)".


Deci sa implementez si cand liniutele de dialog sunt si interiorul paragrafelor. O sa incerc...


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


     Pe acest OCR am făcut testele: 

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Am gasit care era problema: codul nu "vedea" tab-urile dintre liniuta si restul textului.
Am corectat, multumesc ca mi-ai semnalat.
Exe:

Zilele astea o sa mai lucrez sa mai imbunatesc functiile deja implementate respectiv sa le implementez pe restul.
Daca cineva mai observa vreo problema sa nu ezite sa o mentioneze.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Un comentariu din fugă...
      Am făcut doar o testare, care a rulat foarte bine pe calculatorul meu. OCR-ul deşi era exact în forma rezultată din Abbyy, datorită calităţii foarte bune a scanului şi a cărţii, ei bine acest OCR era aşa de bun că nu a necesitat foarte multe modificări, aşa că nu am nişte constatări constructive.
     

      Pentru BlankCd şi ceilalţi useri interesaţi de pe forum:
      În intenţia mea este ca Dicţionarele la care face trimitere directă AutoCorect [L1-L3.imd, S1-S4.imd, DE.imd, DGcl.imd, DGrn, DLd.imd şi DMidp.imd] să încerc să le mai îmbunătăţesc, după care vor fi puse la dispoziţia lui Cosmin & Daniel pentru a putea fi descărcate direct de pe SoftSet.ro.

      Dicţionarul [Dicţionarele de tip] DDGac.imd nu există deocamdată.
      În intenţia mea a fost să se implementeze o opţiune de rulare automată a unui/unor dicţionar/dicţionare personale cu carater temporar, realizate de către fiecare utilizator, atunci când corectează OCR-urile unui set de cărţi cu aceleaşi caracteristici şi ar apărea necesitatea unor înlocuiri specifice acelei serii.
      Altfel spus, funcţia s-ar putea numi şi "Rulare automată grup dicţionare personale".
      Pentru ca programul AutoCorect să ruleze opţiunea fără a probleme, pentru început se poate crea un dicţionar cu numele DDGac.imd, care să aibă o singură înregistrare "paşnică", adică o înregistrare care nu produce efecte secundare: în fereastra "Caută" se pun 3 puncte şi în fereastra "Înlocuieşte cu" se pune elipsis orizontal.
      În acest mod, dicţionarul există, dar nu produce efecte, deoarece modificarea este deja făcută. Acest tip de dicţionare "paşnice" sau goale, le-am testat deja personal de mai multe ori şi nu produc efecte neplăcute în funcţionarea AutoCorect.


      Pentru Cosmin & Daniel
      Sunt sigur că, din păcate, vor apărea multe probleme de rezolvat...
      Pentru asta este nevoie de realizarea multor testări ale programului pe multe variante de OCR. Personal pot să mă ocup de astfel de testări, doar după data de 15 noiembrie.
      E nevoie de testări făcute de mai mulţi useri, pentru a verifica dacă ordinea de rulare a opţiunilor este cea mai eficientă; e posibil ca una sau mai multe dintre ele să trebuiască să fie urcate sau coborâte în lista de opţiuni...

      De exemplu: opţiunea 2, numită plastic "Eliminarea "răgăliilor" din vecinătatea liniilor de dialog şi din text" ar putea ajunge pe poziţia 6, deoarece la actuala opţiune 5.2 Corectare rânduri / Rupere rânduri care incep cu dialog aflate in interiorul paragrafului" vor apărea în text nişte paragrafe noi care încep cu linie de dialog şi care nu existau în momentul rulării opţiunii în actuala poziţie 2.
      E doar un exemplu... nu sunt foarte sigur că poziţia 6 e varianta cea mai bună, dar voiam să spun că astfel de situaţii vor exista în mod sigur...

      Alte constatări şi comentarii, după 15 noiembrie.
      Toate cele bune!
      Seven

      LE: Am uitat un amănunt.
      Dicţionarul care corectează liniile de dialog [DLd.imd] care deocamdată rulează la opţiunea 2, cea cu "răgăliile", dar ar putea să ruleze şi la actuala 6.6 care deocamdată este inactivă, ei bine, acest dicţionar transformă toate tipurile de linii de dialod în linii de dialog de tip Em dash. Această menţiune are legătură cu o problemă prezentată de BlancCd mai sus.

Modificat de Seven (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Cateva intrebari referitor la "Setare text la font si marime unica, regular + italic + bold".
Ma gandesc sa fac o mica fereastra in care sa poti seta:

Sa incarce/salveze setari de font personalizate sau sa incarce setarile textului de la pozitia cursorului?
La rularea din acel buton care va rula toate functiile din OCR Plus sa arate fereastra sau sa utilizeze setarea implicita?


pus acum 13 ani
   
menssana1984
Vizitator



Inca o alta chestie....

Autocorectul trebuie neaparat sa ne indice sub forma de sugestie locurile din text unde se gasesc litere de sine statatoare, Spatiu Litera Spatiu.

Cu exceptia lui E, O si a lui A, in rest nu prea au ce cauta pe acolo. Ocr-urile nu duc lipsa de asa ceva.


pus acum 13 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Ca sugestie nu e asa de usor de implementat la punctuatie sau ortografie. Plus ca aceste functii trebuie sa mearga si cu text obisnuit.
Dar se pot totusi marca cu alta culoare.
Ma gandesc sa le marchez la "Marcare ghilimele cu rosu" ce va fi transformata in "Marcare caractere cu rosu".
La atatea caractere de marcat ar fi necesara o fereastra de setare. In fereastra sa apara o lista cu caractere la care se pot adauga, sterge sau bifa/debifa (asemanatoare cu lista de la Inlocuire multipla).
Ce parere aveti de asta, va va fi folositoare...?

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     @ cosmin

     "Sa incarce/salveze setari de font personalizate sau sa incarce setarile textului de la pozitia cursorului?"
      Cred ca ar fi bine "Sa incarce/salveze setari de font personalizate".


     "La rularea din acel buton care va rula toate functiile din OCR Plus sa arate fereastra sau sa utilizeze setarea implicita?"
      Nu mi-e clar la ce fereastra faci referire si nici setare implicita. Poti reformula?

      De acord cu "Marcare caractere cu rosu".


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Sa incerc sa explic: dupa ce se implementeaza toate functiile din OCR Plus vom face acel buton care le va rula pe toate intr-o ordine prestabilita. Acest buton va rula si setarea de font. Dar setarea de font cand o rulezi manual apare acea fereastra mica din imagine in care poti sa setezi caracteristicile acestui font si dai click pe "Seteaza".
Intrebarea e: cand rulezi setarea de font la "gramada" cu acel buton ce le ruleaza pe toate, sa apara fereastra unde setezi manual caracteristicile fontului (ca la o rulare manuala) sau sa utilizeze acele setari personalizate (inmagazinate) si sa seteze fontul automat?


pus acum 12 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->


     Nici nu stiu ce sa-ti raspund, nu am o preferinta anume.
     Important este ca toate literele din text sa aiba acelasi font si aceeasi spatiere [pentru ca un OCR vine cu litere cu spatiere diferita si fonturi diferite].
     Las la aprecierea ta si a lui Seven.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Bine, deocamdata las manual.
Alta problema: la meniul "Elimină TOATE liniile de pauză din text - cu excepţia liniilor de dialog:" cand se specifica "liniile de pauză" inseamna efectiv linii de pauza (EnDash) sau linii de orice fel care in situatia de acolo sunt considerate linii de pauza?
In plus in meniul din el "din "!""spaţiu""linie de pauză""spaţiu" în "!""spaţiu"" nu vad situatii in care NU ar fi linie de dialog. Poti te rog sa-mi dai exemplu de situatii in care exista aceasta succesiune de caractere dar liniuta nu este de dialog ci de pauza?

Ceva de genul: "El se grabi - tare! - sa plece"?


pus acum 12 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

ciuperca_cosmin a scris:


Alta problema: la meniul "Elimină TOATE liniile de pauză din text - cu excepţia liniilor de dialog:" cand se specifica "liniile de pauză" inseamna efectiv linii de pauza (EnDash) sau linii de orice fel care in situatia de acolo sunt considerate linii de pauza?


    Da trebuiesc eliminate ORICE fel de linie de pauza din text. Care pot fi EmDash, EnDash, Horizontal Bar si uneori chiar si cratima precedata si urmata de spatiu, ea avand rol de linie da pauza in mod eronat.


ciuperca_cosmin a scris:


In plus in meniul din el "din "!""spaţiu""linie de pauză""spaţiu" în "!""spaţiu"" nu vad situatii in care NU ar fi linie de dialog. Poti te rog sa-mi dai exemplu de situatii in care exista aceasta succesiune de caractere dar liniuta nu este de dialog ci de pauza?


Exemplu:
    - Mergem spre apa! - zise maiorul.

Ar trebui sa ajunga asa:

    - Mergem spre apa! zise maiorul.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Inteleg.
Dar la exemplul care mi l-ai dat este o mica problema: cum se "decide" daca in acel loc e dialog bun sau care trebuie scos? Asa ajungem iar la acele dialoguri franceze care stii ca nu pot fi detectate 100%.
O solutie ar fi sa transformam dictionarul tau ca sa aiba "! - zise" >> "! zise".
Asta se poate aplica si la a doua de la 9 (cea cu ?).

La 3 si 4 de la 9 - mi se par cam prea asemanatoare cu 1 si 3 de la 8. E totusi vreo diferenta intre ele...?

Modificat de ciuperca_cosmin (acum 12 ani)


pus acum 12 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

ciuperca_cosmin a scris:

Inteleg.
Dar la exemplul care mi l-ai dat este o mica problema: cum se "decide" daca in acel loc e dialog bun sau care trebuie scos? Asa ajungem iar la acele dialoguri franceze care stii ca nu pot fi detectate 100%.
O solutie ar fi sa transformam dictionarul tau ca sa aiba "! - zise" >> "! zise".
Asta se poate aplica si la a doua de la 9 (cea cu ?).

La 3 si 4 de la 9 - mi se par cam prea asemanatoare cu 1 si 3 de la 8. E totusi vreo diferenta intre ele...?



    Trebuie sa ai in vedere ca meniul "Elimină TOATE liniile de pauză din text - cu excepţia liniilor de dialog" va fi unul optional, adica va fi utilizat doar de cei avansati, si nu va fi bifat default.
    Acest meniu va elimina toate liniile de pauza din text - fiindca este optional el va fi rulat manual dupa ce se ruleaza tot meniul "ruleaza dictionare bifate".

   
    "La 3 si 4 de la 9 - mi se par cam prea asemanatoare cu 1 si 3 de la 8. E totusi vreo diferenta intre ele...?"

      De altfel si meniul 8 va fi rulat tot manual, el nu va veni bifat default. Desi meniul 9 si cel 8 par similare oarecum, userul va folosi doar unul din ele, in functie de preferintele fiecaruia si experienta.

      Diferenta dintre meniul 8 si 9 este ca meniul 9 va elimina TOATE liniile de pauza din text iar meniul 8 nu va face acest lucru fiindca este conditia [aceea colorata cu rosu]: "ATENŢIE! înlocuirea să se facă EXCLUSIV la paragrafele care încep cu linie de dialog şi se încheie cu semnul de punctuaţie "punct".

      Stiu ca poate parea derutant la un moment dat, dar trebuie sa ai in vedere ca aceste lucruri nu le-a mai facut nimeni niciodata in modul acesta rulat automat, sigur vor aparea erori. In orice caz trebuie testat serios.
      Asa cum am mai spus meniul OCR_PLUS va fi cel mai complex meniu din AutoCorect, unul complicat ca ceea ce stie sa faca.
      Imi inchipui ca iti da mari batai de cap.
      Noi impreuna vom testa astfel incat utilizarea acestui meniu sa se faca cat mai usor.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Salutări tuturor.
     Deocamdată, un sigur comentariu, legat de o singură opţiune:

     Privind formatarea cu font unic
     Ce anume probleme apar la extragerea OCR?
     Practic, după extragerea OCR în format RTF – Formatted text, întâlnim următoarele tipuri de formatări:
      – mai multe tipuri de fonturi: poate apărea Bookman Old Style, împreună cu Arial, Times New Roman etc…
      – diferite valori ale spaţierii caracterelor – practic, reformatarea la spaţierea 100% este foarte dificilă; trebuie să formatăm de mai multe ori textul la 100% şi, cu toate acestea tot mai rămân zone de text care-şi păstrează formate condensate sau expandate.
      Notă: subliniez încă o dată, faptul că aceasta este problema pentru care am propus implementarea unei opţiuni în acest gen; celelalte reformatări se pot face, de regulă destul de uşor, fără probleme.
      – în mod normal, textul ar trebui să fie scris în mare parte cu font drept [regular], la care se mai adaugă cuvinte sau grupuri de cuvinte în format italic şi foarte rar în format bold.
     În afară de acestea, pentru notele de subsol ar putea exista şi câteva cazuri de font Superscript.
     Cu toate acestea, apar în mod eronat zone de text sau caractere în format Subscript, Underline etc…


     Dorinţa OCR-iştilor ar fi următoarea:
     – Întregul text să fie reformatat cu un singur tip de font;
     – Întregul text să fie reformatat la o singură mărime a fontului;
     – Să se păstreze stilurile de font regular, italic şi bold, iar toate celelalte stiluri de font să fie reformatate astfel încât să devină font regular.
     Dacă este cumva important, eventualul italic+bold, poate fi reformatat ca italic.
     Păstrarea stilului Superscript pentru indicii notelor de subsol nu este importantă; trebuie ca Superscript să devină Regular.
     
      Acum, revenind la întrebarea concretă a lui Cosmin, în legătură cu fereastra ce se poate adăuga opţiunii "Setare text la font si marime unica, regular + italic + bold".
      a) Numele opţiunii ar putea fi scurtat la varianta: "Setare text la font si marime unica".
      b) Cred că e binevenită o fereastră în care se poate seta numele fontului şi mărimea sa – cu condiţia ca implementarea ferestrei să nu necesite foarte multă muncă de programare. Această setare nu ar trebui să aibă legătură cu poziţia cursorului în text sau alte variante care l-ar putea complica prea mult pe utilizator.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani
Mi-ar fi de folos un asemenea text ca sa pot testa cum merge.
Eu deja am facut fereastra si am modificat-o o data la ce a spus BlankCD - ca vrea si setare de spatiere - de ea nu vad sa zici la "Dorinţa OCR-iştilor". S-o scot?
Din titlul original se intelegea ca e necesara o setare de Bold si Italic. Dar acu vad ca vrei sa fie pastrate, nu resetate.
"Celelalte" stiluri de font (diferite de Bold si Italic) sunt underline si strikeout. O sa le transformam in regular.
O sa fac si o bifa pentru tranformarea zonelor de bold+italic in italic.


pus acum 12 ani
   
menssana1984
Vizitator



Chestia cu spatierea nu se rezolva repede cu textul aruncat in Wordpad?
Eu nu am intalnit problema asta pana acum.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Pentru toţi:
     Mă gândeam ca undeva într-una din primele 3 opţiuni, toate taburile să se transforme în spaţii. Aceste taburi pot apărea după linia de dialog, dar şi în interiorul textului şi eu consider că nu există motiv pentru a fi păstrate.
     Acest lucru poate avea un efect secundar nedorit pentru utilizatori? E cineva care crede că e bine să fie păstrate?

     Menssana1984,
     Da, problema se rezolvă cu Wordpad. Eu m-am referit la faptul că e deficil de scăpat de spaţiere în Word;
     Ideea ar fi ca AutoCorect să poată fi folosit pentru "curăţarea" unui OCR şi de un user care nu ştie foarte multe despre editoare şi care să rezolve aproape tot, folosind AC.


      Cosmin,
      Setarea spaţiului nu deranjează, deci nu trebuie scoasă; ideea era să nu munciţi prea mult la cod, ci să setaţi doar ce era foarte important. Deşi acum folosesc numai spaţiere de 100%, am folosit în trecut şi Bookman Old Style 90%, deoarece Bookman-ul e cam lăbărţat, aşa că o setare a spaţierii poate fi de folos, dar nu o consideram ca fiind neapărat necesară... era bine şi doar dacă tot textul trece la spaţierea 100%.

      Revenind la stilurile fonturilor:
      Da, trebuie PĂSTRATE stilurile Regular, Italic [şi Bold].
         - trebuie să se păstreze stilul Regular acolo unde el deja există;
         - trebuie să se păstreze stilul Italic acolo unde el deja există;
         - trebuie să se păstreze stilul Bold acolo unde el deja există; păstrarea setării bold nu este foarte importantă, dar dacă nu este greu de implementat, atunci e bine să se păstreze şi această setare;
         - stilul bold+italic se transformă în stilul italic;
         - toate celelalte tipuri de formatări, stiluri sau efecte ale fonturilor se transformă în font regular.

      Practic, dacă s-ar putea dezactiva toate "Effects" fontului, asta ar rezolva problema.
      Astfel, ar dispărea toate Superscript, Subscript, Underline sau Small caps, All caps...
      Efectele Small caps şi All caps le-am întâlnit foarte rar, dar ele mai apar din când în când.
       
      Încerc să găsesc nişte OCR care au mai multe variante de spaţiere, dar trebuie să extrag OCR-uri din mai multe cărţi... Am dat peste astfel de situaţii în ultima perioadă, dar am făcut cam multe OCR şi unele au avut spaţiere diversă, altele nu; încerc să găsesc unul mai complex ca să poată fi folosit pentru testare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Cosmin,
     Cred că textul de mai jos conţine toată gama de setări eronate ale fontului şi poate fi folosit pentru testarea opţiunii.
      Numele fişierului:  TEST Op1 - Formatare font unic.rtf
      Adresa fişierului: 


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 13 ani

Seven a scris:

***
     Cosmin,
     Cred că textul de mai jos conţine toată gama de setări eronate ale fontului şi poate fi folosit pentru testarea opţiunii.
      Numele fişierului:  TEST Op1 - Formatare font unic.rtf
      Adresa fişierului: 


Multumesc.


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

menssana1984 a scris:

Inca o alta chestie....
    Autocorectul trebuie neaparat sa ne indice sub forma de sugestie locurile din text unde se gasesc litere de sine statatoare, Spatiu Litera Spatiu.
    Cu exceptia lui E, O si a lui A, in rest nu prea au ce cauta pe acolo. Ocr-urile nu duc lipsa de asa ceva.

    Menssana1984,
    Ai putea să detaliezi puţin problema asta?
    Era un OCR pe care l-ai extras tu şi, în concluzie, ştii sigur că aşa a rezultat din Abbyy? Literele respective erau pur şi simplu în plus faţă de text şi nu erau litere independente recunoscute eronat?
    Pe mine personal nu-mi amintesc să mă fi deranjat problema asta... sau, e posibil, ca doar să n-o fi remarcat sau să o fi uitat.
    Am constatat şi eu unele erori, dar care nu s-ar rezolva prin ştergere, ci prin înlocuiri, ca de exemplu:
         - 0 [cifra zero] la început de paragraf apare uneori în locul literei O mare;
         - litera p [P mic] apare uneori în locul literei o [O mic] - aici e greu de explicat motivul, ar fi mai uşor de explicat la tastare, deorece se află una lângă alta...
         - litere de formă rotunjită apar eronat în locul altor litere de formă rotunjită; de cele mai multe ori ele apar în locul literelor a, e sau o; e valabilă problema şi la literele sub formă de fusiformă [liniară]; în locul lui i [I mic] să apară literele I, î, l, j....
    Din acest motiv, înclin doar spre marcarea acestor caractere şi nu spre ştergere, iar marcarea să fie opţională.

    Pe de altă parte, poate ar fi bine să nu abuzăm nici de marcarea tuturor erorilor, deoarece şi acest lucru ar putea deveni obositor pentru ochi; în momentul în care apar prea multe cazuri de cuvinte [litere, semne de punctuaţie...] înroşite, scopul marcării, acela de a scoate în evidenţă numai anumite aspecte, ar putea eşua din cauza multitudinii de exemple.

     
    Există în mod clar nişte caractere ce apar în mod eronat şi în plus faţă de text, dar ele apar de regulă în faţa rândului corect de text, ori după terminarea rândului.
    E vorba de scanarea la care porţiunea de imaginea de la mijloc [zona interioară a cotorului, partea "albă" dintre cele două pagini] apare în scan mai înnegrită; în acest caz la pagina din dreapta, înainte de rândul real pot apărea caractere eronate în plus - Abbyy crezând că porţiunea înnegrită conţine caractere; la pagina din stânga, astfel de situaţii apar la sfârşitul rândului.
    Din păcate nu văd o condiţie logică ce s-ar putea aplica în cod pentru ştergerea acestor erori.

Modificat de Seven (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Pagini:  1 2 3 4 5 6 ... 13  

Mergi la