AutoCorect versiune pentru Romania-Inedit Pagina 8

Forum Romania Inedit
Romania Inedit - Resursa ta de Fun

Lista Forumurilor Pe Tematici

Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.

Nou pe simpatie:
sexyindianca pe Simpatie.ro

Femeie
24 ani
Ilfov
cauta Barbat
24 - 53 ani

Forum Romania Inedit / Totul despre cărți - About e-books / AutoCorect versiune pentru Romania-Inedit

Moderat de Seven, Stelevadris, cuculean, naid, uncris

Autor

Mesaj

Pagini: 1 ... 5 6 7 8 9 10 11 ... 13

uciN
MEMBRU VIP

Inregistrat: acum 17 ani

Mulţumesc prietene, remarcabilă promptitudine!

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Opţiunea "12.2 Dictionar cu variante"
Cred că numele opţiunii este bun... Dacă găsim ceva mai sugestiv... mai vedem.
De ce am propus o astfel de opţiune?
Există câteva cuvinte de frecvenţă mare şi medie care au forme eronate, dar eroarea este una specială, în sensul că există cuvinte în limba română care au această şi această formă.

Mai concret: cuvântul d a r apare scris de către Abbyy sub forma c l a r; în acelaşi timp cuvântul c l a r poate fi şi corect în text şi deci nu trebuie modificat, astfel că dicţionarele pot rula doar cu condiţia "Cu confirmare".

Deocamdată am un număr mic de cuvinte în aproximativ 4 categorii:

■ cuvinte cu două variante cu frecvenţă mare:
clacă – dacă; clar – dar; clin – din; ele – de; intre – între; lingă – lângă;

■ cuvinte cu două variante cu frecvenţă medie
clădea – dădea; dinţii – dintâi; lot – tot; lotul – totul; ou – cu; sting – stâng
stingă – stângă; miner – mâner; minerul – mânerul.

■ cuvinte cu două variante cu frecvenţă mică:
Cu – cu; CU – cu.

■ cuvinte cu două variante speciale:
aI : al – ai; Ia – la – ia

Cuvintele din ultima categorie au o situaţie specială, deoarece ele pot avea două variante corecte - dar altele decât cea reprodusă de către Abbyy sau pot avea 3 variante corecte.
Dicţionarul este mai dificil şi este unul atipic şi cumva fals, deoarece l-am realizat cu "păcălirea" AutoCorect, făcând pentru fiecare cuvânt câte două înregistrări, adică: aI -> al şi aI -> ai, mai întâi o înregistrare corectă, apoi o înregistrare la care am adăugat un spaţiu în plus pentru a preveni avertizarea "Înregistrarea există", după care l-am reeditat şi am sters spaţiul.
Rezultă că la "Caută" există câte 2 cuvinte identice, în timp ce la "Înlocuieşte cu" există cuvinte diferite.

Propuneri şi probleme:
- Numele opţiunii rămâne deocamdată aşa cum este scris, doar că ar fi mai corect "dictionare" în loc de "dictionar", deoarece sunt mai multe dicţionare;
- Numărul de dicţionare = 4
- Nume dicţionare: Duble1 ÷ Duble4 sau DVar1 ÷ DVar4.
- Ultimul dicţionar ar putea avea probleme ca urmare a modului incorect în care este editat; eu am făcut probe cu astfel de cuvinte şi nu am avut probleme... totuşi, e bine să fie urmărit pe cât posibil şi semnalate eventualele erori.

Modificat de Seven (acum 14 ani)

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

O sa schimb in "Dictionare cu variante"...
In ce priveste ultimul dictionar, e cam ciudat totusi sa fii intrebat o data de o varianta si apoi de alta - poate chiar "asincron".
Pe de alta parte, nu vad totusi cum s-ar putea modifica Inlocuirea Multipla ca sa proceseze simultan 2 inregistrari (adica respectand si "formatul" actual).
Dar daca crezi ca acest dictionar va ajuta, il implementez.

Revenind nitel la convertirea a 2 virgule in ghilimea. Ai dat 2 variante de reconfigurare a meniurilor - cred ca a doua merge dar as vrea sa aud si parerea altora...

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Inca o mica problema. Am facut un dictionar de inlocuire multipla cu unele expresii. De ex "? Îşi ". Daca fac un fisier rft mic de proba cu cateva expresii, functioneaza inlocuirea. Dar intr-o carte de cateva sute de pagini nu mai merge. @ciuperca_cosmin, poti sa incerci sa vezi unde e problema?

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Am incercat chiar pe acel rtf care mi l-ai trimis recent.
Sunt 3 de "? Îşi " in el. Inlocuirea Multipla le-a gasit pe toate 3.
Trimite-mi te rog dictionarul imd si textul in care nu le gaseste.

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Sry, l-am facut deja manual. Dar sa luam alt exemplu.
1. "! Se" in "- Haide! Se ridica el." Cu Ci si Pp, nu se face inlocuirea.
2. Doar cu Pp se face inlocuirea, DAR problema ca se inlocuieste si in "- Ai vazut! Semintele plutesc." Si nu e ok.
Deci, ce trebuie setat sa se faca inlocuirea doar in primul caz? In Word e simplu, pun un spatiu dupa "! Se" si se rezolva. As putea lasa setat Pp cu confirmare la inlocuire, dar as prefera automat.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Lucifer76,
Încearcă varianta "! Se^w" cu Pp, în care ^w este codul pentru spaţiu simplu şi care este implementat să poată fi folosit în dicţionarele de înlocuire multiplă..
Condiţia Cc nu funcţionează corect atunci când înregistrarea se termină cu spaţiu.

„12.2 Dictionare cu variante”
Necesitatea implementării: Şi DA şi NU.
Las la latitudinea colegilor de pe forum să aleagă şi eu încerc doar să dau câteva explicaţii pentru a fi mai uşor de hotărât.

În funcţie de forma fontului folosit la tipărire, dar şi de antrenamentul Abbyy în recunoaşterea caracterelor, astfel de situaţii pot apărea frecvent în anumite OCR, dar în alte OCR pot să nu apară deloc.
Până la implementarea condiţiei „Cu confirmare” la dicţionarele multiple, personal verificam dacă există astfel de situaţii în Word, doar că era mai multă muncă, deoarece trebuia să verific fiecare cuvânt în parte... uneori „sărind” peste verificarea unora dintre ele.
Repet, astfel de erori pot să nu apară deloc şi toată munca de verificare să aibă rezultate zero, doar că în astfel de cazuri verificarea este de scurtă durată.

Concret, să luăm doar cazurile cuvintelor cu frecvenţa cea mai mare: dar, din, dacă – ele pot apărea în mod eronat scrise: clar, clin, clacă.
Am luat ca exemplu OCR de la Ninja 3 [circa 475 pagini] şi avem următoarea statistică a frecvenţei cuvintelor:
dar = 639; din = 2048; dacă = 336; Total = 3023
clar = 46; clin = 5; clacă = 0; Total = 51

– situaţia 1 – există erori de recunoaştere: în acest caz merită efortul pentru convertire, deoarece aproape toate cuvintele dar, din, dacă = 3023 cazuri vor fi scrise eronat şi va fi mult de muncă la corectura manuală, datorită frecvenţei mari a erorilor în text.
– situaţia 2 – nu există erori de recunoaştere: în acest caz vom găsi la cuvintele căutate doar pe cele scrise corect sub forma clar, clin, clacă = 51 cazuri; ele au frecvenţă foarte mică, deci verificarea va necesita puţin timp.

În ce priveşte celelalte cuvinte, frecvenţa lor este foarte mică, astfel că pot lipsi din dicţionar şi se pot corecta manual pe timpul citirii. Oarecare frecvenţă mai mare o au stâng-stângă şi lângă…

Dicţionarul 4 este într-adevăr aiurea, dar nu am găsit altă soluţie.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

1. Nici nu e de mirare ca cu Ci nu face, deoarece e-ul de dinainte de ! din "- Haide! Se ridica el." face sa nu se indeplineasa conditia de "Cuvant intreg".
2. Nu-i problema AutoCorect, ci asa e corect sa faca cu setarile respective.
Si aici e simplu, pui la fel spatiu dupa si dezactivezi Ci. Am testat si la mine a inlocuit in "- Haide! Se ridica el." dar nu a inlocuit in "- Ai vazut! Semintele plutesc."

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Mersi la amandoi, a mers asa cu spatiu si Pp. Nu am trecut prea multe expresii, dar pentru inceput ... Mai adaug pe parcurs.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Am modificat numele la optiunea 12.2, am activat-o si acum utilizeaza DVar1..DVar4.imd.
M-am gandit ca-ti va fi mai usor sa le testezi asa...

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

@lucifer76: Am cautat sa imbunatatesc viteza de scanare a ortografiei la acel text.
Sa explic un pic mai detaliat care e problema: AutoCorect incearca sa puna in acea fereastra mica cat mai mult text dar fara sa depaseasca inaltimea ferestrei.
Codul de pina acum pune oleaca, masoara, mai pune oleaca, masoara, mai pune oleaca si tot asa pina cand se ajunge aproximativ la cat trebuie.
La text obisnuit merge cu brio dar la texte cu extrem de multe formatari va merge greu - pentru ca orice editor merge mai greu pe astfel de texte.
Am modificat codul sa utilizeze o metoda numita injumatatire/dublare a intervalului care pe acel text merge de cateva ori mai rapid.
De asemenea am modificat ca, daca trece prea mult timp, sa ramana la ce a facut pina atunci - presupunand ca utilizatorul ar vrea mai degraba sa nu fie textul "potrivit" exact pe acea fereastra de la ortografie decat sa astepte n-spe secunde pina apare.

@Seven, am implementat a doua idee a ta cu modificarea meniurilor.

Catre toti care au propus imbunatatiri si nu s-au implementat toate dar sunteti siguri ca vor ajuta: va rog sa le organizati nitel, mi le trimiteti cumva (mesaj privat sau aici pe topic) si le voi adauga la prima postare din topic - astfel incat toti sa vada ce s-a propus ca sa nu parcurga 30 de pagini de topic.
Parerea mea e ca putina organizare nu strica ci chiar va ajuta...

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Am downloadat şi vizualizat ultima versiune, fără să fac teste.
1. Am o întrebare în legătură cu convertirea a două virgule în ghilimele de început ca să ştiu ce anume elimin din dicţionar: ce anume convertiri ai făcut pe bază de cod?

2. Îmi pare foarte rău, dar cred că mai este necesară o rocadă de opţiuni în pachetul 4.
Ar fi mai comod pentru mine ca actuala opţiune 4.5 Corectare minuscule la început de paragraf să ruleze înaintea opţiunii 4.4 Corectare linii de pauză şi linii de dialog.
Explicaţie: Câteva sute de înregistrări din dicţionarul DMidp.imd [încă în curs de completare] se referă la cuvinte care sunt scrise cu I mare în loc de Î mare la început de dialog.
Dacă se face rocada mi-ar fi mai uşor să fac înlocuiri de genul:
"Caută" — Inainte şi "Înlocuieşte cu" — Înainte - Pp Pi -

Înregistrările ar fi şi mai vizibile şi mai uşor de urmărit.
Fără realizarea rocadei, deoarece este deja implementat Em dash şi spaţiul neseparabil, înregistrările ar trebui să aibă următoarea formă:
"Caută" ^+^sInainte şi "Înlocuieşte cu" ^+^sÎnainte - Pp Pi -

3. Ar mai fi încă o problemă tot la această opţiune cu două înregistrări: înlocuire î mic cu Î mare la început de dialog şi la început de frază după punct-urmat de spaţiu... Fiind foarte mult de căutat, dar şi multe înlocuiri de făcut, cele două modificări făcute cu dicţionar imd rulează mai greu... Nu ştiu cât este de dificil ca numai ele două să ruleze pe bază de cod. Nu e chiar o problemă să rămână în dicţionar, dar cred că ar rula mai repede pe bază de cod.
Doar ca idee, dicţionarul DMidp.imd are până în acest moment circa 800 de înregistrări... şi după calculele mele, la finalizare va avea între 1500 şi 1800, deşi modificările făcute de el vor fi mult mai puţine.

Modificat de Seven (acum 14 ani)

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

1. Cele 2 mentionate de tine: la inceput de paragraf sau in restul cazurilor cu conditia sa nu aiba spatiu inainte.
2. Bine, o sa fac rocada atunci.
3. Trimite-mi te rog un dictionar imd cu acestea doua - ca sa estimez mai bine daca va merge mai rapid cu cod respectiv sa ma apuc sa implementez daca intr-adevar va merge mai bine cu cod.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
1. Dacă aşa am spus, îmi pare rău, dar am greşit.
Cele două situaţii sunt:
- la început de paragraf, aşa cum ai implementat;
,,Judith n-are să se răzgândească niciodată şi nici nu-i trece prin cap să plece cu dumneata, jupâne March", îşi zicea fata în sinea ei.

- în interior, dar cu condiţia SĂ AIBĂ SPAŢIU înaintea celor două virgule de convertit.
— Păi n-ai auzit cum spun ofiţerii: ,,cutare şi-a pierdut busola”, ceea ce înseamnă, cel puţin aşa înţeleg eu, că în fiecare om există ceva ce-l ajută să meargă pe drumul cel drept.,,.

Condiţia SĂ NU AIBĂ spaţiu înainte, nu ar modifica ,,cutare, dar ar modifica .,,. de la sfârşitul frazei, care e o eroare a punctelor de suspensie şi care este transformată în elipsis pe bază de dicţinar la modificarea suplimentară.

2. Urc dicţionarele pentru testare.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

A, scuze, am gresit eu - am vrut sa spun ca sa aiba spatiu inainte - era invers de cum am spus.
Deci acum e implementata conditia sa aiba spatiu dinainte.
Scuze, mai lucrez si la ortografie acum si imi ia un pic din atentie

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
A... înseamnă că e corect. Înseamnă că pot şterge cele două situaţii din dicţionar.
Pănă aici e perfect.

Dicţionarul DMidp.imd
Mai întâi o menţiune: Abbyy [cel puţin până la Abbyy 10 inclusiv] nu recunoaşte Î mare. Totdeauna în locul lui Î mare, va apărea în OCR î mic sau I mare.

Pentru convertirea lui Î mic în Î mare am ales doar două variante:
- la început de dialog: "Caută" — î şi "Înlocuieşte cu" — Î - Pp Pi -
- şi la început de frază în interiorul paragrafului: "Caută" . î şi "Înlocuieşte cu" . Î - Pp -
Nu am pus decât câteva cuvinte la început de paragraf, pentru că dacă înlocuiam TOATE î mic în Î mare la început de paragraf, ar fi făcut modificarea şi la prima linie a fiecărei pagini, care practic este un paragraf fals, în realitate fiind un rând dintr-un paragraf care a început pe pagina anterioară.
Despre aceste două situaţii spuneam că e posibil să ruleze mai greu.

Pentru convertirea lui I mare în Î mare am hotărât să trec în dicţionar majoritatea cuvintelor posibile, în trei situaţii: la început de paragraf, la început de dialog şi la început de frază în interiorul paragrafului, astfel că rezultă că pentru un cuvânt există trei înregistrări:
"Caută" Inainte şi "Înlocuieşte cu" Înainte - Pp Pi - la început de paragraf
"Caută" — Inainte şi "Înlocuieşte cu" — Înainte - Pp Pi - la început de dialog
"Caută" . Inainte şi "Înlocuieşte cu" . Înainte - Pp - la început de frază în interiorul paragrafului.
Din acest motiv numărul de înregistrări este mare.

Am urcat 3 dicţionare "DMidp" pentru teste la adresa:
DMidp_1 - două înregistrări.imd - are doar aceste două înregistrări de care vorbeam;
DMidp_2 - fără I trece Î.imd - este dicţionarul care rulează acum, inclusiv cele două înregistrări, dar fără mulţimea de cuvinte care face modificarea lui I mare în Î mare.
DMidp_3 - completat cu I trece Î.imd - cuprinde tot ce am lucrat până acum, inclusiv cele două înregistrări.

Modificat de Seven (acum 14 ani)

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

M-am uitat la cele 2 inregistrari si drept sa spun nu cred ca va fi asa de mare sporul de viteza daca vor fi facute in cod. Cel mult 10..20%.
In cazul precedent (cu spatiu dupa EmDash) utilizai 2 inregistrari (cu "efecte" pe jumatate opuse) pentru un singur rezultat. "Unificarea" celor 2 a fost factorul principal pentru care a crescut viteza - pentru ca au fost mai putine inlocuiri.
In acest caz sunt doua inregistrari cu "efect" complet separat una de alta. Daca vor fi facute in cod va apare doar factorul secundar - ca se "particularizeaza" codul pentru aceste inregistrari - care va duce la acel spor de maxim 10..20%.
Dar daca crezi ca totusi se merita voi implementa...

PS: o intrebare - codul ce pune majuscula la inceput de fraza/paragraf/dialog din Punctuatia obisnuita nu trece automat aceste 'î' in majuscule? Sunt cazuri cand nu o face? Daca da, arata-mi-le te rog - ca sa incerc sa il imbunatatesc (daca e posibil) - in acest fel reducandu-se numarul de inlocuiri de dupa in "4.5 Corectare minuscule la început de paragraf" si deci marindu-se viteza pe ansamblu.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Dacă e vorba doar de mărirea vitezei doar cu 10 ÷ 20%, atunci rămâne doar cu dicţionar, fără a ne mai complica şi cu cod.

Ai dreptate, în cazul în care utilizatorul la "Configurare Punctuaţie" activează opţiunea "Majusculă la început de propoziţie/frază", atunci aceste înlocuiri rămân fără obiect, pentru că deja ele au fost realizate şi nu se va pierde prea mult timp la rulare.

Trebuie să recunosc faptul că am trecut aceste două înregistrări, deoarece eu nu activez această opţiune din punctuaţie.
Am uitat să întreb ce anume face concret şi m-am gândit că activând-o, ar putea fi înlocuite şi minusculele de după !, ? şi puncte de suspensie, ceea ce ar putea duce la mai multe înlocuiri decât este necesar. Înlocuirile în plus se pot reduce cu opţiunea de la Dialog francez, dar nu se pot rezolva şi după Elipsis decât după citire.
Din ce am constatat din corecturile făcute până acum, ar părea că este mai puţin de corectat dacă nu se majusculează toate propoziţiile care încep după !, ? şi Elipsis, decât dacă s-ar face înlocuirea şi după aceste semne de punctuaţie.

Practic câştig ceva timp renunţând la rularea a două opţiuni: opţiunea respectivă din punctuaţie şi, respectiv, revenire la minuscule prin corectarea dialogului francez, dar pierd timp rulând în totalitatea ei opţiunea de corectare pe baza dicţionarului DMidp.imd

Pe de altă parte, peste 90% din înregistrările dicţionarului se ocupă de corectarea cuvintelor care încep cu I mare în loc de Î mare, ori aceste situaţii nu cred că se pot rezolva decât cu ajutorul unor astfel de dicţionare.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Intrebare.
Daca se inlocuieste orice cuvant cu cratima lipita de el si urmata de paragraf cu orice cuvant si liniuta despartitoare dar fara paragraf, ar fi ok?
Ar fi utila in Ocr?

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Multumesc pentru idee dar cred ca e cumva deja implementata la optiunea "1.5 Repararea randurilor rupte" >> a doua bifa "[litera mica][liniuta][sfarsit paragraf][litera mica]" care scoate acest [sfarsit paragraf].
Fata de ce ai spus tu e bagata si verificarea de litera mica de la inceputul paragrafului urmator - cred ca se obtin rezultate mai bune asa.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Am actualizat dicţionarele OCR_DIC.
Ultima versiune se numeşte [12.12.2011] OCR_DIC.rar şi se află în folderul cunoscut,
la adresa permanentă:

Modificări făcute:
– Diacţionarul DF.imd [dicţionar francez] a fost completat cu ultimele înregistrări postate de lucifer76
– Diacţionarele DLd.imd şi DLd.imd au fost modificate astfel încât la "Înlocuieşte cu:" caracterul grafic — a fost înlocuit cu codul ^+ pentru Emdash.
– Diacţionarul DMidp.imd a fost completat cu înregistrări care modifică I mare în Î mare la început de paragraf, început de dialog şi început de frază după punct.
– Au fost adăugate dicţionarele DVar1...DVar4, care rulează la 12.2

Notă:
E posibil ca unii utilizatori să fie deranjaţi de numărul mare de înregistrări din DMidp.imd [în acest moment dicţionarul conţine 2000 de înregistrări].
Pentru aceştia există şi varianta veche care conţine decât 60 de înregistrări şi se află în folderul "Variante initiale".
Acest folder conţine şi variantele vechi ale dicţionarelor DLd.imd şi DLd.imd, care au la "Înlocuieşte cu" caracterul — şi nu codul ^+

În legătură cu dicţionarul DMidp.imd, menţionez că am făcut testări pe OCR_brut de la Ninja 2 = 675 pag., atât cu varianta redusă a dicţionarului, cât şi cu varianta completă. Timpii au fost de 2 min 40", respectiv 3 min 20"

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Ultima versiune de dictionar francez scurt. E inca in probe, unele situatii sunt cu confirmare. Daca gasiti vreo problema, va rog sa ma anuntati ca sa il perfectionez.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Am facut "rocada" intre 4.4 si 4.5.
De asemenea am marit iar viteza de scanare la Ortografie (la texte obisnuite nu se prea vede ca oricum era deja rapid acolo) dar la textul lui lucifer76 se vede clar ca e mai rapid.

Seven, mai mult ca sigur te-ai chinuit mult sa adaugi acele inregistrari in dictionarul DMidp.imd + ca probabil dictionarul va ajunge si mai mare dupa ce se mai adauga cuvinte (in limba romana sunt mult mai multe cuvinte care au î la inceput).
Scuze ca spun dupa "razboi" dar poate acele inregistrari la care trebuie sa pui multe cuvinte - de exemplu I >> Î in acele 3 situatii - ar merge mai bine sa fie implementate cu cod.
Argumente:
- e mult de munca ca sa pui toate cuvintele din limba romana care incep cu î;
- va rula greu; daca il pun cu cod nu numai ca se vor adauga cei 10..20% la viteza dar, din cauza ca dictionarul de astfel de cuvinte va lucra ca cele din folderul Dictionare de langa exe, va fi clar mai rapid (daca te intereseaza am sa explic mai detailat de ce);
- in cod se pot detecta mai exact acele situatii in care trebuie sa schimbe.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Sunt convins că înlocuirile din DMidp.imd ar rula mai bine cu cod, dar pur şi simplu am fost convins că este nevoie de foarte multă muncă pentru implementare pe bază de cod, aşa că am preferat să fac eu asta, chiar dacă dicţionarul rulează mai greu.

În principiu, dicţionarul nu ar trebui să se mai mărească, deoarece am pus în el cam tot ceea ce intenţionam. Practic a folosit baza de cuvinte de la litera Î din DOOM, din care am exclus un număr de cuvinte foarte rare... aproximativ 10% dintre cuvinte.
Numărul de cuvinte este mic [practic un număr de circa 650 cuvinte × 3 poziţii diferite, la care mai sunt adăugate circa 50 de alte situaţii], deoarece nu am folosit decât foarte rar cuvinte întregi, cele mai multe înregistrări fiind cuvinte la care am tăiat minimum din terminaţii, astfel că a rămas rădăcina unui cuvânt plus litere comune din terminaţii....
Chestia asta a micşorat numărul de cuvinte, dar pe de altă parte, probabil şi eficienţa dicţionarului.

În măsura în care codul face apel la o altă bază de cuvinte care există deja... ar fi de preferat implementarea codului... Dacă este nevoie de pregătirea unei liste de cuvinte sau ceva în genul ăsta, aş putea participa cu un pic de ajutor...

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Baza de cuvinte de acest gen nu exista inca dar se poate genera usor din dictionarele existente din AutoCorect. De exemplu nu e asa de greu sa extragi doar cuvintele care incep cu î. In max 20 min as putea face un cod pentru asta.
Sau putem utiliza baza ta de cuvinte, cum preferi...
Daca te hotarasti sa le facem cu cod doar spune-mi...

lucifer76 cum merge AutoCorect la ortografie pe acel text (pe calculatorul tau)? E acceptabila viteza..?

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Dacă se poate rezolva doar în 20 de minute... atunci cred că merită să fie implementată opţiunea pe bază de cod.
Fără discuţii, lista mea este mai săracă... aşa că nu o prefer.
Ar fi o problemă... care merită ceva atenţie.
Există câteva cuvinte care au forme corecte atât cu I iniţial cât şi cu Î iniţial, cum ar fi: Intre [să intre] şi Între... Dacă ar fi posibil să fie descoperite astfel de cuvinte ar fi foarte bine, pentru a nu le introduce în opţiune.

Ar mai fi două probleme de analizat:

Dialogul francez - aş avea o propunere...
Deoarece se lucrează încă la dicţionar, mă gândeam dacă nu ar fi mai bine să se ruleze 2 dicţionare la aceeaşi opţiune: un dicţionat DFbază.imd care să cuprindă primele 714 înregistrări ale lui Blank + lucifer şi al doilea dicţionar DFplus.imd să cuprindă dicţionarul la care lucrează acum lucifer...

Dacă eu adaug dicţionarele lui lucifer la ceea ce deja există, ar fi posibil să fac înregistrări duble; aşa, cu două dicţionare, primul ar rămâne definitiv, iar cel de-al doilea ar fi cel pe care-l lucrează lucifer şi practic ultima versiune a lui lucifer corespunde cu ultima versiune a dicţionarului, şi, în plus nu mai există posibilitatea înregistrărilor duble.

Spaţiu neseparator după linia de dialog
Trebuie să ne mai gândim, înainte de a face modificări, dar cred că ar fi bine ca modificarea spaţiului obişnuit de după linia de dialog în spaţiu neseparator să rămână implementat doar la 12.1 şi să fie scoasă din actualul 4.5.
Cele două opţiuni la care te-am rugat să faci rocada: "4.4. Corectarea minuscule la început de paragraf" şi "4.5. Curăţare linii de pauză şi linii de dialog" depind una de alta mai mult decât am bănuit iniţial.
Rocada a rezolvat o problemă şi a creat altele...
Acum nu mai sunt nevoit să introduc spaţiu neseparator în dicţionar... dar nici nu se vor face toate modificările, pentru că în acest moment există răgălii necorectate în zona liniilor de dialog.

Modificat de Seven (acum 14 ani)

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

De fapt era vorba de scoaterea bazei de cuvinte in 20 min. Codul care o va folosi il voi face in cateva ore maxim dar nu e mare problema.
Acele cuvinte "duale" se pot gasi.

Se poate seta 4.6 sa lucreze cu 2 dictionare..

Se poate scoate inserarea spatiului neseparator la 4.5 - singura problema care o vad e ca daca se ruleaza si 12.1 va dura mai mult pe ansamblu.

Daca mai vrei sa se schimbe pozitia unor optiuni, poti testa rapid inainte cum ar merge pe ansamblu din fereastra de rulare automata (le muti cu drag'n'drop respectiv Shift + Sus/Jos).

PS: acele cuvinte "duale" cum ai vrea sa fie implementate: ca dictionar imd cu confirmare rulabil la 12 sau 4.4, in cod cu confirmare la rularea 4.4 sau nu se vor utiliza pe moment...?

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Gasesti cele doua dictionare aici: - daca vrei sa vezi ce e prin ele, sa mai adaugi sau scoti...

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

ciuperca_cosmin a scris:

llucifer76 cum merge AutoCorect la ortografie pe acel text (pe calculatorul tau)? E acceptabila viteza..?

Acceptabil e putin zis, merge aproape perfect. Doar daca sunt atent se cunoaste ca intarzie cateva sutimi de secunda. Sunt foarte multumit de cum merge acum AC in textul ala.

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Nu stiam ca e posibil ca un om sa perceapa o sutime de secunda

Imi pare bine ca te-am convins sa folosesti AC-ul

P.S.
Ultima iconita e fin.ger.

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Mi s-a atras atentia ca sunt unele cazuri de semne de punctuatie care au formatare diferita fata de textul care le "inconjoara": de exemplu semnele de punctuatie au italic iar cuvintele nu au.
Ce parere aveti, sa incercam sa implementam ceva in aceasta privinta?

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Lucifer76,
Eşti de acord să ruleze două dicţionare DF [DFbază.imd şi DFplus.imd] aşa cum am propus mai sus şi să te ocupi de şlefuirea celui de-al doilea dicţionar?

Cosmin, chiar nu ştiu ce să spun...
Mă tot uit la zecile de mii de cuvinte din cele două dicţionare... Bănuiesc că trebuie folosite doar cuvinte întregi....
Înclin să cred că nu merită atâta efort...
Am numărat modificările făcute cu cele două dicţionare DMidp.imd: cel cu 60 de înregistrări şi cel cu 2000; dicţionarul mai mic, deşi are de 17 ori mai puţine înregistrări, a făcut peste 90% din modificările făcute de cel mare. Probabil la un alt OCR, diferenţa ar putea fi alta...

Personal mi-am dorit un instrument de curăţare a OCR şi nu neapărat un program de coretare la perfecţie a unui text rezultat din Abbyy.
Rezultatul obţinut este unul peste aşteptările oricărui user de pe acest forum.
Nu, cel puţin deocamdată, opţiunea "Corectarea minuscule la început de paragraf" poate rămâne aşa cum este implementată, iar userii vor putea alege ce dicţionar vor să ruleze.

Pe de altă parte, Crăciunul şi celelalte sărbători de iarnă sunt foarte aproape... aşa că e timpul pentru o binemeritată vacanţă...
Mai sunt câteva opţiuni de periat... se mai poate şlefui şi lustrui câte ceva pe ici pe colo... mai este de implementat opţiunea care rulează dicţionarul de cuvinte eronat despărţite la care lucrează BlankCd... şi cred că este mai mult decât suficient deocamdată.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Cu formatarea.... mai sunt multe probleme....

Ar fi bine, măcar să te gândeşti la nişte posibilităţi de soluţionare... chiar dacă nu vor fi implementate în perioada imediat următoare.

După rularea în AutoCorect, pe lângă alte lucruri pe care le mai fac, realizez şi o formatare a textului pe stiluri, şi, verificarea acestor formatări "aiurea" îmi consumă foarte mult timp.

Una dintre cauzele care duc la astfel formatări eronate, este faptul că Abbyy "evidenţiază" astfel secvenţele de text pe care nu este sigur că este corect.

Alte situaţii cu formatări diverse ar mai fi:
- numere de pagină care de cele mai multe ori sunt boldate eronat.
- cuvinte scurte în care literele o şi L mic sunt redate iniţial ca cifrele 0 şi 1... apar adeseori boldate.
- cuvinte necunoscute apar ca fiind italice;
- text italic eronat lângă text italic corect; aici apare o situaţie... Abbyy pierde undeva un cod, astfel că e posibil ca după un cuvânt [grup de cuvinte] ce sunt corect italice, să urmeze pagini întregi scrise cu italic, deşi textul este scris cu font drept.
Cred că sunt multe alte situaţii, dar dacă găsim rezolvarea măcar a câtorva situaţii tot ar fi bine...

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

O intrebare: tinand cont de numarul mare de formatari de tip bold sau italic puse aiurea de Abby - oare, la cel putin unele texte, nu ar fi mai eficient sa scoti bold sau italic de tot si sa le pui ulterior manual dupa pdf?

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
La majoritatea cărţilor, boldul este real doar în cazul numelui capitolelor - deci ar putea fi scos..
Italicul este mai problematic: el poate apărea doar de câteva zeci de ori pe volum [când sunt evidenţiate numele unor localuri, nave maritime etc..] până la câteva sute, în cazul unor cărţi în care apar cuvinte specifice unor limbi străine folosite de unele dintre personaje.

Dacă te gândeşti ca la formatare să apară nişte butoane gen B+I=I şi în cazul B=R şi I=R [R de la regular sau D de la drept] - atunci ar fi bine... chit că fereastra pentru setare ar putea păre destul de complexă pentru unii dintre useri.

Pentru cine doreşte să nu se mai complice cu astfel de formatări, pur şi simplu poate salva ca RTF Plain text în loc de RTF Formatted text.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Seven a scris:

***
Lucifer76,
Eşti de acord să ruleze două dicţionare DF [DFbază.imd şi DFplus.imd] aşa cum am propus mai sus şi să te ocupi de şlefuirea celui de-al doilea dicţionar?

Eu de fapt lucrez la 2, francez normal si francez scurt , la care e mult mai mult de testat.
La cel de baza, cum zici tu, nu mai sunt prea multe expresii de adaugat.
Dar, iar am gasit o problema

. Si o rezolvare, sper.
Pe cand incercam sa trec o carte deja corectata prin AC, am descoperit ca in AC erau mai multe greseli care trebuiau remediate decat in cartea bagata in el. Adica AC a facut el insusi o belea in timpul rularii. Imi modificase majoritatea dialogurilor franceze in litera mare. Pe cand in fisierul originar erau ok. Am luat la frunzarit optiunile si hopa, a doua optiune de la punctuatie "aplica majuscula la inceput de propozitie". De ex "— Haide! au zis ei." mi-l face in "— Haide! Au zis ei."
Rezolvarea ar fi propun eu, sa se faca doar cu confirmare, sau sa se faca doar o atentionare, cum e acum la sfarsiturile neterminate de propozitii. Deoarece sunt mai frecvente literele mici dupa ? si !, as fi de parere sa se atentioneze cand e litera mare dupa ele, nu invers. Si scapam de belelele cu dialogul francez, dictionare etc.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

lucifer76 a scris:

Pe cand incercam sa trec o carte deja corectata prin AC, am descoperit ca in AC erau mai multe greseli care trebuiau remediate decat in cartea bagata in el. Adica AC a facut el insusi o belea in timpul rularii. Imi modificase majoritatea dialogurilor franceze in litera mare. Pe cand in fisierul originar erau ok. Am luat la frunzarit optiunile si hopa, a doua optiune de la punctuatie "aplica majuscula la inceput de propozitie". De ex "— Haide! au zis ei." mi-l face in "— Haide! Au zis ei."
Rezolvarea ar fi propun eu, sa se faca doar cu confirmare, sau sa se faca doar o atentionare, cum e acum la sfarsiturile neterminate de propozitii. Deoarece sunt mai frecvente literele mici dupa ? si !, as fi de parere sa se atentioneze cand e litera mare dupa ele, nu invers. Si scapam de belelele cu dialogul francez, dictionare etc.

Despre asta s-a discutat mai demult si nu s-a putut gasi o rezolvare 100%.
Punctuatia din AutoCorect e folosita si in texte oficiale unde nu exista "dialog francez". Deci optiunea "Majuscula la inceput de propozitie/fraza" nu poate fi dezactivata implicit sau transformata asa usor in optiune cu confirmare sau care sa dea doar sugestii.
Ca rezolvare de moment unii au ales sa o dezactiveze, altii au ales sa o tina activata dar sa si bifeze "Arata posibilele cazuri de dialog francez ca sugestii" - care face "Majuscula la inceput de propozitie/fraza" sa nu mai puna automat majuscula daca gaseste fraza dupa ? si ! dar sa dea sugestie.
S-ar putea gasi poate o solutie care sa impace capra si varza si sa mearga invers, cum ai spus tu, adica sa dea sugestie daca gaseste majuscula dupa.
Intrebarea mea, pentru Seven si BlankCD, daca ei cred ca asta ar micsora numarul de probleme pe ansamblu.
In configurarea punctuatiei obisnuite as putea sa adaug o optiune de genul "Daca e rulata din OCR Plus sa faca cutare" dar trebuie sa fim 100% siguri ca va aduce imbunatatiri si nu va genera alte probleme.

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Simpla rulare a Punctuatiei cu bifarea "Arata posibilele cazuri de dialog francez ca sugestii" e suficienta. Nu a dat gres niciodata pana acum.
Ori iti arata o greseala, ori un asa-zis dialog francez.
Important e ca Ocr-ul sa nu aplice regula de baza a punctuatiei din acest caz.

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Oricum, parerea mea e ca functia de "Majuscula ..." nu ar trebui sa fie activata by default, pentru ca face prea multe belele. Pentru ca intr-o carte, ce corectam noi aici, sunt cateva sute de exemple de dialog francez. Si e contraproductiv sa le faci majuscula pe toate ca apoi sa te chinui sa le corectezi.
Optiunea de ""Arata posibilele cazuri de dialog francez ca sugestii" nu e (chiar) o solutie, pentru ca, cum ziceam, intr-o carte sunt sute de exemple de dialog francez. Si sa le revizuiesti pe toate manual e o pierdere serioasa de timp. Din cauza catorva posibile erori in care chiar este necesara majuscula dupa !? nu e necesar sa ne complicam inutil.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Avantajul activarii amandoura e ca va rezolva problemele in cazurile ce nu sunt dialog francez si nu va schimba in majuscula la orice fraza dupa ? si !.
Utilizatorul va decide daca sa verifice fiecare din aceste sugestii de posibil dialog francez, nu e obligatoriu, le poti rezolva manual in timpul corectarii daca zici ca sunt putine, important e ca le lasa asa cum sunt (nu le schimba in majuscula).
Ce nu cred ca s-a inteles bine e ca orice varianta se alege vor apare ceva probleme.
Daca le dezactivezi pe amandoua atunci vor fi probleme in situatiile in care va fi intr-adevar nevoie de majuscula la orice inceput de fraza (posibil dialog francez sau altceva). Ca o paranteza - asta cred ca incearca Seven sa rezolve cu "DMidp.imd".
Si tot ca o paranteza, partea buna e ca nu ne mai chinuim sa facem si sa rulam dictionarele.
Pe de alta parte activarea lor va genera probleme in cazurile cand e cu adevarat nevoie de majuscula dupa ? !. Dar daca zici ca sunt putine care e problema sa ignori sugestiile respective si sa rezolvi manual?

Acum, intrebarea care se pune e in care din cazuri apar mai putine probleme - daca se face o medie pentru toate textele.
Pe mine personal nu ma deranjeaza sa pun o optiune bifata implicit la Punctuatie care sa dezactiveze "Majuscula la inceput de propozitie/fraza" partial sau total atunci cand e rulata la OCR Plus.
Si, desi ar fi ceva de muncit la cod, nu m-ar deranja chiar sa fac o combinatie intre cele 2 de la Punctuatie si 4.6 - care sa fie pusa fie la punctuatia obisnuita dar rulabila doar cand Punctuatia e pornita din OCR Plus respectiv sa fie pusa chiar in OCR Plus.
Ideea e sa nu se decida calea care pare mai usoara pe moment ci sa se testeze bine si sa se aleaga calea care da cele mai bune rezultate - indiferent ca eu muncesc mai mult la cod si/sau altii se chinuie sa faca dictionarele. Astea sunt probleme de moment, important e ca OCR Plus sa mearga cat mai bine dupa terminare.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Sugestie modificare optiuni Punctuatie:

[x]Majuscula la inceput de fraza
Rulata dinafara OCR Plus:
[ ]Ignora posibilele cazuri de dialog francez
[x]dar arata-le ca sugestii
Rulata din OCR Plus
[x]Ignora posibilele cazuri de dialog francez
[ ]dar arata-le ca sugestii

Codul care determina ca e posibil dialog francez poate sa fie facut numai cu conditia sa gaseasca ! si ? inainte (si in acest caz va avea eficienta medie) sau se poate baza si pe cuvintele din DF.imd (si in acest caz va avea eficienta mai mare).

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Pai nici in primul caz nu face vreo modificare singur, nu? Adica tot le ignora.
In priviinta dictionarului, unele inregistrari tot cu confirmare or sa fie. "Am" de exemplu, nu e mereu cu majuscula dupa !?. "- E bine? Am pus 3." e corect cu majuscula.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Daca vorbesti de cazul cand sunt dezactivate amandoua din cele 2 optiuni actuale, da, le ignora, normal, nici n-am spus altceva. Am spus doar ca apar alte probleme si in penultimul meu mesaj am sugerat o modificare care cred ca va duce la mai putina corectare manuala ulterioara.
Daca codul ce determina ca e dialog francez va lucra si cu cuvintele din Df.imd - daca nu le gaseste la inceputul frazei va schimba in majuscula.
In acest fel vor fi probleme doar cazurile ce nu sunt incluse in DF.imd (putine) respectiv unele din acestea care totusi in unele cazuri speciale nu sunt dialog francez (si acestea putine).

Iar in ce priveste cele cu 'am' cred ca mai bine e sa adaugi si verbul care urmeaza: am spus, am zis, etc.
In acest fel nu va mai trebui sa le pui cu confirmare.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Sau daca totusi se prefera dezactivarea totala a primei optiuni se poate face asa:

[x]Majuscula la inceput de fraza
[x]Dezactiveaza la rulare din OCR Plus

Dar evident, apar problemele mentionate...

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Nu e asa de simplu. "- Nu merg! Am zis ca nu vreau sa dau cu ochii de el!". M-am gandit eu deja ....

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Da, acesta e un exemplu de acele putine situatii in care nu e dialog francez.
Sugerasem sa adaugi totusi si verbul ca sa maresti probabilitatea sa fie dialog francez.
Daca luam DF.imd la puricat, ma indoiesc ca gasim multe inregistrari care in 100% din situatii sunt dialog francez - se vor gasi contraexemple. Dar ideea e ca pe ansamblu probabilitatea de a nu fi e asa de mica ca se merita sa treci peste situatiile in care nu sunt.

Pina acum am dat sugestii, sunt curios ce zic Seven si BlankCD

Trebuie gasita o cale, indiferent care din sugestiile mele sau ale altora se alege.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Vă propun să începem discuţia plecând de la posibilele erori din Abbyy.
Ceea ce spun în continuare se referă la marea majoritate a cazurilor şi nu neg existenţa unor excepţii. De asemenea mă refer la erori pe care le face Abbyy până la versiunea Abbyy 10, inclusiv.

Un prim punct de vedere personal.
Abbyy nu pune obligatoriu litere mari sau mici după anumite semne de punctuaţie.
El face erori între literele mari şi mici atunci când acestea au aceeaşi formă sau formă foarte apropiată şi le diferenţiază doar mărimea; este vorba de următoarele litere: [ c-C j-J o-O p-P s-S ş-Ş u-U v-V x-X y-Y z-Z ]. Eroarea se poate face în ambele sensuri, atât minusculă în loc de majusculă corectă, cât şi invers.
În afară de acestea, frecvent apare o eroare specială la litera Î mare, în sensul că nu îl recunoaşte pe Î mare, ci îl va scrie î mic sau I mare.
De la erorile legate de aceste litere a apărut necesitatea opţiunilor „4.1 Eliminare majuscule încorporate în cuvinte scrise cu minuscule” şi „4.4. Corectarea minuscule la început de paragraf”.

În concluzie, în mod normal, Abbyy nu va pune a, b, d… r în loc de A, B, D… R.
Să zicem că după un punct apar cuvinte scrise cu minuscule cu litere de genul a, b, d… r; în acest caz, în mod normal eroarea este punctul [el poate fi în realitate virgulă sau pur şi simplu o mică pată pe imagine] şi minuscula este corectă.
În astfel de situaţii nu ar trebui corectat cu majusculă şi considerat că acolo începe o frază, ci trebuie corectat chiar punctul, la corectura manuală.

Deci, dacă după semnele ! ? … apar litere mici, altele decât [ î c j o p s ş u v x y z ], atunci aproape sigur, ele sunt corecte şi nu trebuie majusculate.
Pe de altă parte, nici în cazul literelor [ î c j o p s ş u v x y z ] nu suntem siguri că ele ar trebui majusculate, dar există o posibilitate mai mare ca ele să fie greşit reproduse.

Spre deosebire de situaţia când cineva redactează un text şi din neatenţie sau lipsă de experienţă face anumite greşeli privind scrierea cu majuscule, în OCR problema majusculelor are alte cauze.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

In afara rularii acelui dictionar de dialog francez din Ocr, in rest e obligatorie vizualizarea sugestiilor de dialog francez de la Punctuatie.
Optiunea poate fi inclusa si in OCr ca sugestie.
Procesul nu poate fi automatizat complet, iar cazurile de dialog francez pot exista in n feluri.
E necesara interventia omului.

Dictionarele sunt limitate ca uz, optiunea de atentionare nu e si poate depista si alte tipuri de probleme.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Am inteles, Seven.
Deci cazurile cand e posibil ca trebuie pus majuscula sunt:
1. punct (care nu e de la o prescurtare sau puncte de suspensie) urmat de [ î c j o p s ş u v x y z ].
2. ?! urmat de [ î c j o p s ş u v x y z ], daca cuvantul cu care incepe fraza nu face parte din DF.imd.
Intrebarea e: sa modific optiunea "Majuscula la inceput de fraza" ca sa puna majuscula in aceste cazuri sau sa sugereze acest lucru (atunci cand e rulata din OCR Plus) sau se prefera dezactivarea ei completa si rezolvarea acestor cazuri cu alte functii (cu dictionare) din OCR Plus (4.4 de exemplu)?
Si eu si Seven amandoi preferam sa facem cum stim mai bine - eu cred ca ar iesi mai bine in cod, Seven prefera cu dictionare.
Acu, daca se alege sa fie facuta cu dictionare nu-i problema pentru mine - important e sa se ajunga la un consens asupra celei mai bune metode (rezultatul ei in primul rand si timpul de rulare in al doilea rand).

Inca ceva: am discutat cu Daniel si luam in considerare ideea sa se faca o sectiune speciala de OCR Plus la configurarile Punctuatiei (asa cum exista acum deja 2: Documente si Subtitrari).
Daca astfel de "divergente" vor apare si la alte optiuni din cadrul Punctuatiei, cred ca intr-adevar ar fi indicat.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Cata vreme nu se renunta la "Arata posibilele cazuri de dialog francez ca sugesti" din meniul Punctuatie, pe mine nu ma deranjeaza alte posibilitati de atingere a acestui scop.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Încerc să nu fac afirmaţii ferme şi să nu aduc atingere niciunui user, niciunei păreri sau afirmaţii de pe forum.
Trebuie, totuşi, să găsim măcar un punct comun cu care toţi să fim de acord, de la care să putem porni în căutarea unor soluţii.

Eu cred că există nişte diferenţe între erorile unui OCR şi al unui text oficial editat de o persoană, pentru că aceste erori au multe cauze diferite.

Dacă acceptăm că există cauze diferite, putem să acceptăm că nu toate regulile din AutoCorect oficial sunt valabile în AutoCorect OCR_Plus şi invers, dar că există foarte multe reguli, respectiv opţiuni comune.

Cu OCR_Plus anumite persoane pot face toată corectura manuală, până la obținerea versiunii [V1.0] şi în acest caz va apela la mult mai multe opţiuni din AutoCorect, iar altele pot face doar o curăţare sumară şi să continue corectura în oricare dintre editoarele de text la dispoziţie şi, cu care el este obişnuit, îl stăpâneşte mai bine, ori, chiar jonglează cu el.
Nu se poate, nu avem cum şi nu cred trebuie să-l obligăm pe user să accepte doar una dintre variante.

Dacă acceptăm că există un specific al OCR_Plus, atunci putem stabili care sunt corecturile din Punctuaţia clasică, valabile în OCR_Plus şi ce anume este specific.
Dau un singur exemplu:
- eliminarea spaţiilor din faţa semnelor de punctuaţie , ; . : ? ! ... » ” ] } ) este valabilă în ambele cazuri.
- convertirea diferitelor tipuri de apostrofurilor şi ghilimele în apostrof şi ghilimele româneşti… etc. etc.

Cosmin,
am preferat să folosesc în multe situaţii dicţionare, deoarece ele sunt mai uşor de modificat pe timpul testelor, atunci când apar erori secundare.
O simplă ştergere sau adăugare de înregistrare poate rezolva o problemă.
Atunci când lucrurile vor părea că merg bine şi vom avea multe teste şi experimentări în spate, vom putea implementa pe bază de cod şi opţiuni care acum rulează pe bază de dicţionare.
Un singur exemplu: de foarte mult timp am crezut că am găsit toate situaţiile în care L mic este înlocuit cu cifra 1 şi am rezolvat problema. Aproape la fiecare OCR curăţat am dat căutarea cifrei 1 să vedem dacă ea mai apare în componenţa cuvintelor şi ea nu mai apărea, deci lucrurile păreau a fi rezolvate. În urmă cu câteva zile am precorectat un OCR în care apărea prescurtarea cuvântului „domnul” sub forma „D-l” sau „d-l” şi am constatat că aceste două situaţii nu erau trecute în dicţionar, fapt pentru care le-am adăugat. Dacă opţiunea ar fi fost implementată pe bază de cod, rezolvarea ar fi fost ceva mai complicată.

„O secţiune speciala de OCR Plus la configurările Punctuaţiei” cred că este mai mult decât binevenită.

Am să revin la problema majusculelor, dar trebuie să mai cuget oleacă.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Seven a scris:

***
Încerc să nu fac afirmaţii ferme şi să nu aduc atingere niciunui user, niciunei păreri sau afirmaţii de pe forum.
Trebuie, totuşi, să găsim măcar un punct comun cu care toţi să fim de acord, de la care să putem porni în căutarea unor soluţii.

Eu cred că există nişte diferenţe între erorile unui OCR şi al unui text oficial editat de o persoană, pentru că aceste erori au multe cauze diferite.

Dacă acceptăm că există cauze diferite, putem să acceptăm că nu toate regulile din AutoCorect oficial sunt valabile în AutoCorect OCR_Plus şi invers, dar că există foarte multe reguli, respectiv opţiuni comune.

Cu OCR_Plus anumite persoane pot face toată corectura manuală, până la obţinerea versiunii [V1.0] şi în acest caz va apela la mult mai multe opţiuni din AutoCorect, iar altele pot face doar o curăţare sumară şi să continue corectura în oricare dintre editoarele de text la dispoziţie şi, cu care el este obişnuit, îl stăpâneşte mai bine, ori, chiar jonglează cu el.
Nu se poate, nu avem cum şi nu cred trebuie să-l obligăm pe user să accepte doar una dintre variante.

Dacă acceptăm că există un specific al OCR_Plus, atunci putem stabili care sunt corecturile din Punctuaţia clasică, valabile în OCR_Plus şi ce anume este specific.
Dau un singur exemplu:
- eliminarea spaţiilor din faţa semnelor de punctuaţie , ; . : ? ! ... » ” ] } ) este valabilă în ambele cazuri.
- convertirea diferitelor tipuri de apostrofurilor şi ghilimele în apostrof şi ghilimele româneşti… etc. etc.

De acord.

Seven a scris:

Cosmin,
am preferat să folosesc în multe situaţii dicţionare, deoarece ele sunt mai uşor de modificat pe timpul testelor, atunci când apar erori secundare.
O simplă ştergere sau adăugare de înregistrare poate rezolva o problemă.
Atunci când lucrurile vor părea că merg bine şi vom avea multe teste şi experimentări în spate, vom putea implementa pe bază de cod şi opţiuni care acum rulează pe bază de dicţionare.
Un singur exemplu: de foarte mult timp am crezut că am găsit toate situaţiile în care L mic este înlocuit cu cifra 1 şi am rezolvat problema. Aproape la fiecare OCR curăţat am dat căutarea cifrei 1 să vedem dacă ea mai apare în componenţa cuvintelor şi ea nu mai apărea, deci lucrurile păreau a fi rezolvate. În urmă cu câteva zile am precorectat un OCR în care apărea prescurtarea cuvântului „domnul” sub forma „D-l” sau „d-l” şi am constatat că aceste două situaţii nu erau trecute în dicţionar, fapt pentru care le-am adăugat. Dacă opţiunea ar fi fost implementată pe bază de cod, rezolvarea ar fi fost ceva mai complicată.

Da, in astfel de cazuri (ca cel din exemplu) e mai eficient sa se utilizeze dictionare.
Dar eu vorbeam de cazuri care necesita conditii mai "speciale". Inlocuirea Multipla, oricat de avansata e, la baza e practic inlocuirea unui sir de caractere cu altul. Codul pe de alta parte e mai flexibil chiar daca dezavantajul e ca nu e la indemana utilizatorului sa il modifice. Ca o paranteza - daca as fi facut toate functiile din AutoCorect pe baza de dictionare imd nu cred ca ar fi ajuns sa fie apreciat de atat de multi utilizatori.
Ideea e sa utilizam ceea ce se potriveste situatiei.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Majuscule:
Situaţiile în care sunt sigur că nu apar efecte secundare la modificarea în majuscule:

■ Dialoguri:
Se poate seta ca orice minusculă aflată imediat după Em dash urmată de spaţiu la început de paragraf să se transforme în majusculă [e valabil pentru orice literă, de la a la z]. În afară de litere mai există cifra 0 [zero] urmată se spaţiu, care trebuie transformată în litera O mare urmată de spaţiu.

Există trei variante de dialoguri:
– dialogul obişnuit care începe cu linie de dialog — la început de paragraf;
— Text dialog….
– două variante de dialog între ghilimele, care pot avea următoarele forme:
„— Text dialog….”
«— Text dialog….»
Astfel de dialoguri cu ghilimele apar în textele clasice, când un personaj redă o situaţie, citând ceea ce au spus diverse alte persoane.

Există texte în care dialogul început de o persoană [şi care a fost întrerupt din diferite motive] să se continue cu linie mică într-un alt dialog. De regulă, astfel de situaţii încep cu puncte de suspensie [respectiv elipsis, pentru că deja este făcută transformarea] urmate de literă mică.
— …continuarea dialogului întrerupt…
Există situaţii foarte-foarte rare în care dialogul se continuă cu literă mică fără puncte de suspensie, din motive pe care nu le înţeleg, dar acestea sunt atât de rare încât nu merită atenţie în cadrul acestei opţiuni.
Deci, la dialoguri se pot majuscula toate literele, plus cifra Zero urmată de spaţiu, trece în litera O mare urmată de spaţiu

Aş vrea să ştiu dacă la dialoguri există şi alte păreri sau completări, ca mai apoi să putem trece mai departe.

Menţionez că toate situaţiile şi propunerile referitoare la majuscule şi Punctuaţie, le voi trece centraliza într-un document word, pe care-l voi reactualiza, aşa cum am făcut cu Meniurile OCR_Plus şi va fi urcat pe mediafire.

Modificat de Seven (acum 14 ani)

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Pare in regula...
Doar o mica problema: in configuratia actuala Punctuatia e rulata inaintea optiunilor care transforma liniutele de dialog in Em Dash - daca in text Abby a pus alt tip de liniuta la dialoguri atunci Punctuatia nu va transforma in majuscula.
Dar daca vrei sa faci aceste transformari cu o optiune rulata mai tarziu dupa acele optiuni atunci merge.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Corect.
Cu ordinea asta a rulării sunt probleme, dar sunt sigur că vom găsi ordinea ideală, chiar dacă la prima vedere pare că fiecare opţiune depinde de toate celelalte şi chiar dacă va trebui să mai umblăm încă la unele opţiuni.

De exemplu, în dicţionarele de corectare a liniilor de dialog, mai trebuiesc adăugate alte situaţii noi, pentru că până acum nu am luat în calcul dialogul între paranteze.
Mă gândeam, dar mai trebuie analizat, că dacă scoatem convertirea spaţiului obişnuit în spaţiu neseparabil din opţiunea "4.5 Corectare linii de pauză şi linii de dialog" şi opţiunea rămână să facă doar eliminare de răgălii din zona liniilor şi convertirea acestora în Em dash, atunci ea poate fi dusă chiar şi în în primul pachet "Convertiri preliminare", cu condiţia să ruleze după "Ruperea rândurilor..."l

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Seven a scris:

Mă gândeam, dar mai trebuie analizat, că dacă scoatem convertirea spaţiului obişnuit în spaţiu neseparabil din opţiunea "4.5 Corectare linii de pauză şi linii de dialog" şi opţiunea rămână să facă doar eliminare de răgălii din zona liniilor şi convertirea acestora în Em dash, atunci ea poate fi dusă chiar şi în în primul pachet "Convertiri preliminare", cu condiţia să ruleze după "Ruperea rândurilor..."l

Cred ca ar merge...

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
4.5 Corectare linii de pauză şi linii de dialog
- Convertirea spaţiului obişnuit după linia de dialog în spaţiu neseparabil, practic este o opţiune de formatare finală, de estetică şi fineţe, ce nu deranjează dacă este rulată la pachetul 12 - deci ar putea fi eliminată fără probleme din opţiunea 4.5.
- În acest moment nu văd ca vreo opţiune din pachetul 4 să trebuiască a fi rulată înaintea Corectării liniilor de pauză şi dialog, deci cred că poate fi urcată ca ultima opţiune în pachetul conversii preliminare.

Punctuaţie OCR – majuscule la început de paragraf
Iată de ce mă abţin de la convertirea în majuscule a literelor minuscule la început de paragraf:

În imagine apare sfârşitul unei pagini la care paragraful se continuă pe pagina următoare.
Paragraful, în cazul nostru un dialog, este întrerupt de nota de subsol, marcată cu albastru, urmează apoi numărul 22, care este numărul de pagină, un paragraf [rând] gol - care poate exista sau lipsi în funcţie de formatările din Abbyy, după care se continuă paragraful, în cazul nostru cu cuvântul "colonii" marcat cu roşu spre a fi mai vizibil.

Dacă am converti în majuscule toate începuturile de paragraf, cuvântul "colonii" ar deveni "Colonii" şi ar părea că este începutul unui paragraf nou. Astfel de situaţii sunt frecvente în OCR-uri.
Chiar dacă vor exista şi paragrafe noi la începutul paginii, majoritatea paginilor vor conţine astfel de situaţii.
Uneori este nevoie de multă atenţie la corectarea manuală pentru a constata că este o continuare de paragraf şi nu unul nou, pentru că textul ar putea avea sens şi cu paragraful divizat astfel.

Să privim din alt punct de vedere:
– În mod sigur paragrafele care încep cu litera Î vor fi scrise incorect, cu î mic sau I mare
– E posibil dar nu şi probabil ca unele paragrafe care încep cu [ c j o p s ş u v x y z ] să fie scrise cu litere mici.
– E improbabil şi aproape imposibil ca paragrafe care încep cu alte litere să fie scrise cu literă mică.

Modul de rezolvare la acest moment:
– câteva din situaţiile scrise cu î mic şi majoritatea celor scrise cu I mare sunt rezolvate cu dicţionarul DMidp.imd. Vor exista şi cazuri similare celui prezentat în imagine, când cuvântul cu care se continuă paragraful să fie majusculat în mod eronat dacă începe cu î mic. Am încercat să pun în dicţionar un număr de cuvinte foarte mic, cu care ar putea începe un paragraf. Rezolvarea tuturor paragrafelor nu este posibilă la OCR, dar este foarte simplă după corectura manuală, atunci când se poate aplica înlocuirea oricărui î cu Î la început de paragraf.
– la paragrafele care încep cu [ c j o p s ş u v x y z ] nu este implementată nicio rezolvare.

Luând în calcul cele de mai sus, mă abţin de la implementarea unor opţiuni în plus de corectare a minusculelor la început de paragraf pentru că mi se pare prea greu să găsim nişte condiţii ce ar putea fi puse ca să se poată realiza o corecţie eficientă.

Modificat de Seven (acum 14 ani)

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Seven a scris:

***
Am schiţat o primă variantă de posibile opţiuni ale Punctuaţiei în OCR_Plus.
O mare parte dintre opţiuni sunt implementate în diferite pachete.
Am urcat şi un tabel cu diferite caractere ce pot fi recunoscute de Abbyy ca apostrof.
Nume fişiere: Configurare PUNCTUAŢIE OCR_Plus [V0.1].doc
Variante apostrofuri.doc
Adresă folder:

O sa incercam sa implementam aceste optiuni.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

O intrebare: din optiunile actuale de la Punctuatie - Documente se pastreaza si altceva sau sa se puna numai ce sugerezi in " Configurare PUNCTUAŢIE OCR_Plus [V0.1].doc" ?

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Menţionez că documentul "Configurare PUNCTUAŢIE OCR_Plus" este doar o propunere, se vrea doar un fel de punct de plecare... şi poate fi modificată în funcţie de punctele de vedere ale altor useri.

Nu am spus încă nimic despre prima opţiune "Aplică principiile de bază ale punctuaţiei", pentru că nu ştiu exact ce anume corecturi face.
Celelalte opţiuni:
Practic, eu am luat la rând opţiunile din actuala configurare şi le-am periat pe toate.
Cele mai multe opţiuni le-am păstrat, dar e posibil să fie grupate, cumulate sau separate, altfel decât apăreau ele în Configurare.
Cel puţin 4 au fost eliminate complet - le-am amintit la punctul 1 şi 8.

Am refăcut propunerile de configurare, adăugând unele note explicative şi un nou punct 8, cu opţiunile vechi la care propun renunţarea în OCR_Plus, deoarece ele sunt greşeli de editare şi nu de recunoaştere a caracterelor, ca în cazul OCR.

Nume fişiere: Configurare PUNCTUAŢIE OCR_Plus [V0.2].doc
Aceeaşi adresă folder:

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Ce face "Aplică principiile de bază ale punctuaţiei" (le arat in ordinea in care sunt implementate in cod):
1. Scoate spatiile de la sfarsitul paragrafului;
2. introduce spatiu intre liniuta de dialog si cuvant; face pentru orice tip de liniuta daca constata ca e dialog in acel loc (la inceput paragraf sau in interiorul paragrafului);
3. Spatiu inainte de paranteza deschisa ( [ {
4. Spatiu dupa paranteza inchisa ) ] }
5. Scoate spatiu dupa paranteza deschisa ( [ {
6. Scoate spatiu inainte de paranteza inchisa ) ] }
7. Scoate repetare ; : ,
8. Scoate spatiu dinainte , . ;
9. Scoate spatiu inainte de ? !
10. Pune spatiu dupa virgula
11. Pune spatiu dupa punct
12. Pune spatiu dupa ; ! ?
13. Scoate spatiu dintre combinatiile de ? si !

PS: la fiecare sunt implementate situatii in care nu se aplica (exceptii).
De exemplu daca gaseste )) nu incearca sa bage spatiu intre ele.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
În cazul ăsta cele mai multe dintre propuneri de la "Configurare PUNCTUAŢIE OCR_Plus" sunt deja implementate.
Am să refac propunerile de Configurare, eventual păstrând opţiunile, dar menţionând în dreptul lor faptul că sunt implementate şi unde.

Am o întrebare care nu are legătură cu punctuaţia...
Am constatat că la rularea OCR_Plus se execută cel puţin două corecţii, despre care nu-mi dau seama cine o face, adică o anume opţiune din program sau un dicţionar suplimentar al meu pe care nu l-am verificat suficient.
Este vorba de "nici o" şi "nici un" care trece în "nicio" şi "niciun"
Mă interesează dacă poate fi de la o rulare a programului, şi dacă da, atunci e posibil să mai apară şi alte asemenea situaţii, cum ar fi de pildă "ăsta" să devină "acesta" sau alte corecţii?

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Pare a fi de la Conversia din clasic in contemporan.
Cu "ăsta" nu am implementat deocamdata.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Pe undeva inteleg ca unii prefera limbajul cu "nici o" si "nici un" dar totusi cartile trebuie sa respecte normele limbajului contemporan.
Inainte de a o implementa am primit mesaje ca de ce nu respectam normele

Acu sa o scoatem - chiar daca numai pentru OCR Plus?
Nu mi se pare chiar in regula...

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Optionala, poate?

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

N-am implementat decat trecerea lui "nici" + "o/un..".
Atat.
Nici n-am zis ca am implementat altceva - chiar am zis ca la "ăsta" n-am implementat.
AutoCorect nu face asa ceva - sa "repare" cica limbajul.

pus acum 14 ani

lucifer76
Membru Junior

Inregistrat: acum 15 ani

Am gasit o multime de "nici un" "nici o" gresite in carti.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Momentan se poate salva in format doc prin functia de export din meniul Fisier - daca filtrele de conversie sunt instalate pe Windows.
Aceste filtre nu sunt asa de performante (de, ca doar Microsoft n-o sa permita altor programe sa le utilizeze asa de eficient ca Word

).
Dar de regula probleme apar doar la formatari complexe, nu la cele de genul Bold, Italic etc.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Da, am reuşit să fac o probă... E bine.
Nu rezultă tocmai ceea ce-mi doream, nu se păstrează stilurile, dar se păstrează caracteristicile fonturilor.
Folosindu-ne de câteva artificii în folosirea culorilor pentru diferite stiluri, se poate face foarte uşor restabilirea stilurilor după salvare.

Este important acest fapt, pentru că ar fi necesare câteva verificări sau chiar convertiri ce ar trebui făcute după corectarea manuală, într-o verificare finală. Mă refer la câteva opţiuni care nu fac modificare de text, opţiuni care sunt deja implementate şi rulate în OCR_Plus, dar care ar fi bine să fie reluate şi după corectură.
Mă gândeam, de exemplu, la:
1.1. Convertire dialog bullets în dialog text
1.3. Eliminare tab şi spaţii multiple
1.4. Eliminare spaţii la început de paragraf
7. Înlocuieşte toate liniile de pauză cu:
8. Înlocuieşte toate liniile de dialog cu:
12.1 Înlocuire spaţiu după linia de dialog cu spaţiu neseparator
Eventual, o opțiune de înlocuire a cratimei cu cratimă neseparabilă sau cum s-ar putea traduce "Nonbreaking Hypen"

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

La sugestia lui Menssana am adaugat o noua optiune: o fereastra de caractere speciale.
E apelabila din meniul Instrumente sau din primul rand de pe toolbar (butonul cu ă colorat).
E o lista de caractere organizata pe limbaje: roman, francez, german, polonez, spaniol, italian. Fiecare are un set de caractere implicite care poate fi modificat cu meniul contextual sau cu Insert/Delete.
Caracterele pot fi inserate in text cu dublu click sau dand Enter in fereastra cand un caracter e selectat.

Astept parerile voastre...

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Arata bine si al naibii de util

.be

Totodata faptul ca acele caractere aferente unei limbi straine au codul la vedere, permite inserarea lor in meniul de Combinatii Taste daca dorim sa grabim oleaca procesul.

Din punctul de vedere a unei persoane complet afoane in ale Character Map, indexarea acestor caractere e o mina de aur

In functie de limba si de caracterele folosite, este posibil sa apelam la o combinatie de meniu Diacritice si Combinatii Taste. Tastatura nu poate sustine un numar nelimitat de combinatii.

Nu s-a facut nici o incercare de a lucra efectiv pe un text cu aceasta optiune, dar banuiesc ca la corectura lui Nills ar fi prins tare bine

Totodata accesul la aceste caractere e simplificat enorm fata de vechea metoda cu Alt+12334 (tastat pe NumPad). Si permite accesul rapid la aceste caractere, si nu numai, chiar si acelor persoane ce nu au NumPad, asa cum sunt detinatorii de laptopuri.

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Poate ca ai codurile corecte dar ai un alt font selectat si arata diferit.
Daca te referi la codurile de la franceza si restul, le ai intr-o postarea de a mea cu 1-2 pagini in urma. E o lista lunga.
Daca e vorba de romana, trebuie sa te lamureasca Cosmin.
Oricum caracterele din acele liste sunt complet editabile.

51 de versiuni? 32 de pagini de topic?

E ceva. Mai devreme ma uitam pe primele pagini si la felul in care inceput totul

P.S.
Pana acum am auzit doar aplauze pe mail si o sugestie legata de alfabetul grecesc.

P.P.S.
Cosmin si Daniel

P.P.P.S
Imediat ce Cosmin o sa aiba chef.....
Una din chestiile care uneori ma calca pe nervi, e faptul ca atunci cand doresti sa folosesti mai multe fonturi intr-un document, nu prea stii care sunt acele fonturi ce accepta diacritice si trebuie sa faci n incercari.
S-ar putea face o impartire la ele sau o marcare?

Si uite si o chestie interesanta pentru impatimiti:

P.P.P.P.S
Parca asta ar fi o lista, nu?

Ma intereseaza doar acele fonturi ce sunt complet functionale ca diacritice.

P.P.P.P.P.S.
Intre timp am gasit o lista de fonturi si la secarica.
Asa ca mi-am rezolvat problema

Sistemul de operare Windows Vista are incluse atît seria de fonturi de bază, cît și o serie nouă de fonturi, optimizate pentru tehnologia ClearType.

Din punctul de vedere al limbii române, situația fonturilor de bază („core fonts”) este următoarea:

Arial (Normal, Bold, Italic, BoldItalic): font actualizat; compatibil cu limba română
Arial Black (N): font actualizat; compatibil cu limba română
Comic Sans MS (N, B): font actualizat; compatibil cu limba română
Courier New (N, B, I, BI): font actualizat; compatibil cu limba română
Georgia (N, B, I, BI): font actualizat; compatibil cu limba română
Impact (N): font actualizat; compatibil cu limba română
Lucida Console (N): font actualizat; compatibil cu limba română
Lucida Sans Unicode (N): font actualizat; compatibil cu limba română
Microsoft Sans Serif (N): compatibil cu limba română (acesta era oricum compatibil și înainte, de pe vremea Windows XP)
Palatino Linotype (N, B, I, BI): compatibil cu limba română (acesta era oricum compatibil și înainte, de pe vremea Windows XP)
Tahoma (N, B): compatibil cu limba română (acesta era oricum compatibil și înainte, de pe vremea Windows XP)
Times New Roman (N, B, I, BI): font actualizat; compatibil cu limba română
Trebuchet MS (N, B, I, BI): font actualizat; compatibil cu limba română
Verdana (N, B, I, BI): font actualizat; compatibil cu limba română

Din punctul de vedere al limbii române, situația fonturilor noi, optimizate pentru tehnologia ClearType, este următoarea:

Calibri (N, B, I, BI): compatibil cu limba română
Cambria (N, B, I, BI): compatibil cu limba română
Candara (N, B, I, BI): compatibil cu limba română
Consolas (N, B, I, BI): compatibil cu limba română
Constantia (N, B, I, BI): compatibil cu limba română
Corbel (N, B, I, BI): compatibil cu limba română

Mai mult, la fonturile de bază, toate ţ/Ţ-urile cu sedilă (Unicode 0163/0162) au acum asociate glife tot cu sedilă, eliminând astfel posibilele confuzii, introduse în mod stupid acum mulți ani de către divizia de tipografie a companiei Adobe.

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Problema era de la codul respectiv - era 8217 nu 8216, scuze. Word 2010 imi daduse la un moment dat 8216.
Am refacut exe-ul cu 8217 ca implicit.
Daca cineva a modificat deja setul la caractere de la romana acesta se reseteaza stergand ex_romana.dic din locatia "c:\Documents and Settings\Nume_utilizator\Application Data\AutoCorect Contemporan\Dictionare" pentru cei care au Windows XP, respectiv la "c:\Users\Nume_utilizator\AppData\Roaming\AutoCorect Contemporan\Dictionare\" pentru cei cu Windows Vista/7.

Codurile la caractere se gasesc in fereastra care apare cand se da click dreapta pe o "celula" si se alege Schimbare/Adaugare.

Daca aveti sugestii si de alte caractere folosite des le voi adauga.

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

De fapt 2019 din Word si 8217 din AutoCorect sunt acelasi caracter. In Word e scris in baza 16, in AutoCorect e scris in baza 10.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Am înţeles. De fapt asta voiam să întreb, în ce sistem de codare apare codul 8217.
Acum am văzut că în Word era numai Unicode 16, ci doar ASCII era și în 10 și 16.
Cred că ghilimelele ălea franțuzești « » ar fi bine să fie şi la limba română.

Buun. Altă problemă.
Mă chinui să fac un dicţionar pentru cifre romane. Am făcut ceva, deşi am corectat doar variante în care I apare scris L mic, iar cifrele V, X, L ar fi corecte. Cel mai complicat este pentru numere de genul VIII, XIII, XVIII... pentru că la fiecare număr am luat în calcul 7 variante erori.
Merge bine în varianta "VIII-lea" pentru că se poate seta Cuvânt întreg [Ci] + Potrivire perfectă Pp].

Dacă pun numai numere, ca de exemplu "VIII" setat Ci Pp, atunci nu mai face modificarea în situaţia când găseşte "VIII-lea" sau "VIII-a"; dacă pun doar Pp fără Ci, atunci la sortare apare o bulibăşeală totală şi "VI" întră peste "VII" şi "VIII"... aşa că nu ştiu cam cum s-ar putea rezolva cu cifrele astea romane.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Cateva imbunatatiri:
Am facut sa arate acum ambele coduri: in baza 16 (hex) si in baza 10 (dec). In acest fel cei care stiu codurile din Word le pot folosi si in AutoCorect.
Iar caracterele apar acum cu Bold (ca sa se vada mai bine).
Acu, in privinta ghilimelelor franceze: teoretic n-ar avea ce sa caute la "romana" deoarece sunt, prin insasi denumirea lor, "franceze"; totusi, cum sunt folosite in limba romana, da, e mai practic sa fie puse si la sectiunea "romana".
Le-am adaugat...

Altceva: ma gandeam sa implementez ca la unele caractere sa apara ca hint numele caracterului (de exemplu Em Dash). Dar problema e ca acesta e un nume in engleza si trebuie un nume romanesc. Dar multi utilizatori cunosc doar numele in engleza, respectiv traducerile in romana nu sunt prea "inspirate".
Deocamdata n-am ajuns la o "rezolvare"...

In privinta cifrelor romane. O rezolvare care o vad e sa adaugi toate variantele "VIII", "VIII-a" si "VIII-lea" cu Ci si Pp.
Da, stiu, e cel mai mult de munca in acest caz - dar pe moment nu vad sa existe alta solutie...

PS: poate sa le adaugi de la cel mai mare spre cel mai mic si apoi sa nu mai sortezi?
Adica, daca cuvantul era VII, il rezolva si apoi cand cauta ulterior VI nu-l mai gaseste...

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
Păi cam aşa am procedat. Am făcut cu Cc + Pp de la "II" la "LXXXIX" [2 - 89] atât în varianta VIII-lea, cât şi VIII-a şi acestea pot rula fără nicio restricţie, pentru că nu pot avea efecte secundare.
Pentru varianta când nu există decât numărul simplu, cred că ar exista două variante:
- una doar cu Pp de la VIII spre VI fără sortare, dar cu confirmare şi pus în unul din dicţionarele cu variante;
- a doua variantă ar fi aşa cum spui, tot de la 2 la 89, cu Ci şi Pp. Mă gândisem la ceva cu cod de spaţiu... dar nu rezolvă problema atunci când este doar condiţia Pp.
Probabil că mâine plec din nou, aşa că-l voi definitiva la începutul săptămânii viitoare.

Am uitat: am reactualizat Meniul OCR_Plus, aşa cum rulează el acum şi am început să centralizez propuneri care nu au fost implementate, pentru ca după sărbători să vedem ce şi cum se mai poate implementa.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Am implementat fereastra de inserare simbol in fereastra de cautare respectiv la Inlocuire Multipla.

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Il iau imediat :*
Nu ar fi mai usor sa poti sa lucrezi si cu Cautare/Inlocuire si cu fereastra cu caractere speciale ordonate pe limbi in acelasi timp?

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Da, probabil ar fi ceva mai usor pentru cei care folosesc caractere din acea fereastra.
Problema e ca daca pui doar una din ferestre te trezesti ca sunt situatii in care ai nevoie de cealalta.
Iar daca le pui pe amandoua e redundant pe jumatate deoarece au in comun jumatate.
Greu de ales

As vrea sa stiu si parerea altora...

Seven, zilele acestea ma gandesc sa implementez OCR Plus si in AutoCorect Clasic. La dictionarele imd folosite e suficient sa faci o conversie text contemporan in clasic sau trebuie totusi si alte "adaptari" ca sa functioneze eficient si pe Clasic?

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
OCR Plus în Clasic?... Îmi pare rău, pur şi simplu, nu ştiu ce să răspund.
Nu ştiu dacă dicţionarele OCR_DIC ar funcţiona eficient la simpla înlocuirea lui â/Â cu î/Î în dicţionare...
Am lucrat tot timpul doar în limbaj contemporan, astfel că toate dicţionarele mai vechi sau mai noi au fost gândite pentru limbaj contemporan, plecând de la OCR-ul unei cărţi tipărite în limbaj contemporan sau de la OCR convertit în prealabil.
Sigur este faptul că multe înregistrări nu se justifică în limbaj clasic pentru că ele pleacă de la confuzia între ă/Ă şi â/Â...

Trebuie să fac o verificare mai atentă a fiecărui dicţionar în parte, dar în următoarele zile nu ştiu dacă am suficient timp la dispoziţie, pentru că realizarea dicţionarelor înlocuiri secvenţe de cuvinte îmi ia foarte mult timp.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Am inteles, nu-i nicio problema, cand ai timp, multumesc.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Da cred ca ar merge schimbate, cand e gata lista sa ne-o dai te rog sa ne uitam si noi. Multumesc.

pus acum 14 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 15 ani

***
În urmă cu câteva minute, am urcat ultimele variante de dicţionare care lucrează cu OCR_Plus şi chiar ceva în plus.
Dicţionarele se află în cunoscutul folder, ce se poate accesa şi din semnătura subsemnatului.
Adresa folder:
Nume fişiere:
[20.12.2011] Dic Cifre romane.rar
[20.12.2011] Dic Secvenţe.rar
[20.12.2011] OCR_DIC.rar

Câteva amănunte despre fiecare arhivă în parte:

[20.12.2011] Dic Cifre romane.rar – cuprinde cifre romane în forma «....-lea» şi «....-a» de la 2 la 89... am considerat că nu e nevoie de mai mult, dar pot merge până la 99.
Am făcut corecturi ale "cifrei" «I» scrise la litera L mic, ori H sau U acolo unde sunt în grup de cel puţin două «II»: Am să dau un exemplu, dar nu ştiu dacă se poate observa foarte bine: erori ce pot apărea în locul lui VIII-lea: VlII-lea, VIlI-lea, VIIl-lea, VllI-lea, VIll-lea, VlIl-lea, Vlll-lea, VHI-lea, VHl-lea, VIH-lea, VlH-lea, VUI-lea, VUl-lea, VIU-lea, VlU-lea.
Nu am făcut încă cele două combinaţii cu H şi U la numerele care au în componenţa lor doar doi de «I»;
Este în curs de editare dicţionarul cu numere nearticulate. Cred că acestea vor avea condiţia "cu confirmare" până la numărul 18, spre a evita producerea de modificări nedorite.
Deocamdată nu ştiu în ce poziţie a meniului OCR_Plus ar trebui să ruleze... dacp, eventual ar trebui inserată o nouă opţiune sau nu... înclin să fie o opţiune secundară spre finalul meniului, eventual la pachetul 12.

[20.12.2011] Dic Secvenţe.rar – cuprinde dicţionare în care modificările nu se fac asupra cuvintelor, ci asupra secvenţelor de cuvânt.
În dicţionarele AC sunt trei tipuri de secvenţe de cuvinte:
– secvenţe de câteva litere la început de cuvânt: acestea sunt precedate în dicţionare de codul ^w care înseamnă spaţiu; ex: ^wrc se modifică în ^wre, adică grupul «rc» la început de cuvânt se transformă în «re», deoarece niciun cuvânt în limba română nu începe cu grupul «RC» – astfel de secvenţe au fost adăugate la unele dintre vechile dicţionare L1-L3 şi S1-S4.
– secvenţe la sfârşit de cuvânt: acestea sunt urmate în dicţionare de codul ^w = spaţiu; ex: ndu-tc^w se modifică în ndu-te^w; – astfel de secvenţe au fost adăugate la unele dintre dicţionare L1-L3 şi S1-S4.
– secvenţe mediane, aflate la înteriorul cuvântului. De astfel de secvenţe se ocupă dicţionarele din arhiva Dic Secvenţe.rar.
Aceste dicţionare rezolvă următoarele 3 situaţii: litera L mic între două consoane se modifică în I mic; litera C mic între două consoane se modifică în E mic; grupul de litere RN minuscule înaintea unei consoane se transformă în litera M mic.
În situaţiile în care la o anumită secvenţă au rezultat un număr mare de cuvinte care există în formula iniţială "consoană-L-consoană" sau "consoană-C-consoană", această sevenţă nu a fost trecută în dicţionare; în cazurile în care existau un număr mic de cuvinte în formula iniţială, secvenţa a fost trecută în dicţionar, iar la sfârşitul dicţionarului, au fost făcute înregistrările pentru corectarea respectivelor cuvinte.

Deocamdată dicţionarele nu sunt integrate în meniu; Dicţionarul "Secv_RNM va fi adăugat la vechiul dicţionar "DGrn.imd", iar celelalte... ar putea fi inserate în "S3.dic" ori, eventual reorganizate în două dicţionare separate: unul pentru secvenţa "consoană-L-consoană" şi altul pentru secvenţa "consoană-C-consoană"...

[20.12.2011] OCR_DIC.rar – dicţionarele au fost îmbunătăţite cu înregistrări noi, în special secvenţe de cuvinte iniţiale şi finale, dar şi un număr respectabil de secvenţe mediane, precum şi alte înregistrări.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Hmmmm... Cosmin.... am un text oarecare, rulez functia de conversie diacritice cu diacritice virgula, apoi fac cateva inlocuiri manuale de diacritice. Dar acestea apar cu sedila.

Cum facem sa ii spunem AC-ului sa lucreze doar cu diacritice cu virgula sau doar cu sedila intr-un text?
Am folosit doar tastatura AC-ului.

Si tot acum am observat ca diacrticele cu virgula nu apar la fereastra de caractere speciale impartite pe limbi.

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

Pentru ca functiile din AutoCorect sa puna automat diacritice cu virgula te duci in meniul Instrumente >> Configurare >> Diacritice si dai o bifa la "Foloseste diacritice cu virgula". Aici nu e bifat implicit deoarece nu toate calculatoarele au fonturi care le pot afisa.
Pina inainte de a avea fereastra cu caractere aranjate pe limbi, cand dadeai click pe ş ţ in acea tabela de diacritice (care avea doar cate un buton de fiecare), iti dadea automat cu sedila sau cu virgula depinzand daca era bifat sau nu in locatia respectiva.
Acu, deoarece fereastra noua de caractere e prea specializata, nu e corect sa le transforme automat. Corect ar fi sa existe la tab-ul "Română" ambele categorii de diacritice astfel incat utilizatorul sa aleaga pe ce sa dea clic. Dar problema e ca pe unele calculatoare cele cu virgula nu vor fi afisate corect (lipsesc acele fonturi) si de aceea nu le putem adauga implicit la lista de caractere. Plus ca oricum nu e asa de usor sa faci rapid deosebire intre cele 2 tipuri de diacritice - probabil unii vor da clic din greseala pe celalalt tip.
Asta e problema cu noua fereastra de caractere...

pus acum 14 ani

xtybyx
MEMBRU VIP

Inregistrat: acum 15 ani

Multumesc frumos la toti cei care au cotribuit la acest program, care pentru mine este de mare ajutor. Va doresc sarbatori fericite si sa se implineasca toate dorintele voastre.

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Un moment, Cosmin.

Diacriticele sunt inserate automat de AC atunci cand:
- se ruleaza optiunea de conversie de text (functia "Conversie text clasic in text contemporan" sau viceversa).
- atunci cand de se face adaugarea automata de diacritice in text (functia Diacritice).
- sau atunci cand sunt adaugate manual de utilizator.

Am gasit intr-adevar optiunea din Configurare > Diacritice. De acolo se seteaza tipul de diacritice folosit.

Daca zici ca nu vrei sa fie confuzii in tabul de Romana din fereastra de Caractere Speciale, eu recomand sa faci 2 taburi de romana, Romana cu Sedile, Romana cu Virgula.

Problema pe care o aduc in discutie suna cam asa:

- se ruleaza conversia diacriticelor pe un text (se transforma in virgula) sau se deschide un text cu diacritice cu virgula.

- se lucreaza pe acel text cu functia Diacritice (asta inseamna ca in textul cu diacritice cu virgula, vor fi inserare diacritice cu sedila), apoi se ruleaza Ortografia (banuiesc ca acele cuvinte inserate vor fi tot cu sedila), apoi se fac diverse corectari din tastatura, iarasi vor fi cu sedila. In final vom avea un text cu diacritice mixte.

Nu e neaparat o problema majora, e o chestie de finisare finala. Presupun ca la urma se poate rula din nou conversia diacriticelor, fie in virgula, fie in sedila. Iar textul o sa capete diacriticele corecte si uniforme.

Dar, dupa cum ai zis si tu, nu toata lumea face deosebirea intre cele 2 tipuri de diacritice si exista riscul ca acel text sa raman cu diacritice mixte.

Din punctul meu de vedere, folosind ceea ce stiu deja si informatia oferita mai sus de tine, eu consider problema rezolvata. Necesita atentia utilizatorului totusi.

Dar ar fi bine daca am putea sa fim avertizati atunci cand textul contine deja diacritice mixte, sau AC-ul "detecteaza" faptul ca setarile sale implicite (legate de diacritice) vor duce la o asemenea situatie.

P.S.
Din moment ce AC-ul se ocupa in principal de limba romana, nu poti sa ii pui in installer ambele tipuri de fonturi? Nu ar mai fi probleme cu vizualizarea in felul asta.

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

utilitasetveritas a scris:

Daca zici ca nu vrei sa fie confuzii in tabul de Romana din fereastra de Caractere Speciale, eu recomand sa faci 2 taburi de romana, Romana cu Sedile, Romana cu Virgula.

In primul rand sa fac un tab in plus pentru doar 4 caractere e redundant. In al doilea rand asta tot nu rezolva problema mentionata anterior de mine: daca utilizatorul nu are fonturile respective instalate pe calculator nu se vor vedea bine in fereastra de caractere sortate pe limbi.

utilitasetveritas a scris:

Problema pe care o aduc in discutie suna cam asa:

- se ruleaza conversia diacriticelor pe un text (se transforma in virgula) sau se deschide un text cu diacritice cu virgula.

- se lucreaza pe acel text cu functia Diacritice (asta inseamna ca in textul cu diacritice cu virgula, vor fi inserare diacritice cu sedila), apoi se ruleaza Ortografia (banuiesc ca acele cuvinte inserate vor fi tot cu sedila), apoi se fac diverse corectari din tastatura, iarasi vor fi cu sedila. In final vom avea un text cu diacritice mixte.

Nu e neaparat o problema majora, e o chestie de finisare finala. Presupun ca la urma se poate rula din nou conversia diacriticelor, fie in virgula, fie in sedila. Iar textul o sa capete diacriticele corecte si uniforme.

Dar, dupa cum ai zis si tu, nu toata lumea face deosebirea intre cele 2 tipuri de diacritice si exista riscul ca acel text sa raman cu diacritice mixte.

Din punctul meu de vedere, folosind ceea ce stiu deja si informatia oferita mai sus de tine, eu consider problema rezolvata. Necesita atentia utilizatorului totusi.

Dar ar fi bine daca am putea sa fim avertizati atunci cand textul contine deja diacritice mixte, sau AC-ul "detecteaza" faptul ca setarile sale implicite (legate de diacritice) vor duce la o asemenea situatie.

Problema asta s-a mai discutat si a ramas in aer. Pe jumatate e obligatia utilizatorului de a se asigura ca lucreaza cu diacriticele care le vrea el pentru text. AutoCorect ii ofera mijloacele de a seta tipul ce va fi utilizat de functia Diacritice respectiv o functie de conversie, daca nu le utilizeaza e alegerea lui. Pe de alta parte aceste mesaje de tipuri de diacritice ar fi agasante pentru utilizatorii carora nu le pasa despre acest lucru. Cum sa impacam pe toti, asta-i intrebarea.

utilitasetveritas a scris:

P.S.
Din moment ce AC-ul se ocupa in principal de limba romana, nu poti sa ii pui in installer ambele tipuri de fonturi? Nu ar mai fi probleme cu vizualizarea in felul asta.

Din pacate nu se poate deoarece acestea sunt proprietate Microsoft. Mai devreme sau mai tarziu ne vom pomeni cu mesaje oficiale de la Microsoft care ne vor cere sa le scoatem. Au patit-o altii.
Acu putin imi pasa de Microsoft dar totusi as vrea ca AutoCorect sa ramana legal...

Modificat de ciuperca_cosmin (acum 14 ani)

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

Daca nu putem impaca si capra si varza... si lupul

atunci te inteleg.
Ramane in aer si cu alternativele discutate mai sus drept rezolvare.

P.S.

Notele de final numai asa sunt notate? Cu cifre romane?
Si daca da, nu se poate folosi XI, XII, XII, etc?

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

ciuperca_cosmin
VETERAN

Din: Bacau
Inregistrat: acum 14 ani

AutoCorect pune de obicei cifre obisnuite:

pus acum 14 ani

utilitasetveritas
Pe lista neagra

Inregistrat: acum 14 ani

La mine, notele de final, apar ca in imagine.
Deci, atentie, note de final, nu note de subsol.
Vezi clipul de mai jos. E HD.

Modificat de utilitasetveritas (acum 14 ani)

pus acum 14 ani

Pagini: 1 ... 5 6 7 8 9 10 11 ... 13

Mergi la