Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
runnyroxy
Femeie
24 ani
Suceava
cauta Barbat
26 - 57 ani
Forum Romania Inedit / Totul despre cărți - About e-books / Dictionare suplimentare pentru ABBYY Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini: 1
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

      DICŢIONARE SUPLIMENTARE PENTRU ABBYY 




      În urma dicuţiilor de pe topicul [INTREBARI] Întreabă orice despre carti am deschis acest topic destinat special dicuţiilor despre dicţionare.
      Pe acest topic vom discuta despre diverse dicţionare ce ar putea fi create de userii RI pentru a îmbunătăţi munca de digitalizare.
      Poate fi vorba despre dicţionare suplimentare ce pot fi ataşate la diverse softuri [Abbyy, Word, AC, OpenOffice, Libre... etc.]

      Topicul este destinat discuţiilor pe acestă temă, dar şi lucrului concret pentru realizarea unor astfel de dicţionare.
      ... plus orice alte discuţii pe care userii le vor considera utile.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Am realizat un mic dicţionar care cuprinde 486 de cuvinte cu cratimă "scurte" [unele sunt ceva mai lungi].

     Dicţionarul "CUV_SC_CRATIMA [486].DIC" este de tip "dic" şi se bazează pe cuvinte înregistrate în câteva dicţionare AC.
     Download:

     Dicţionarul este doar un punct de plecare.
     Sunt o serie de cuvinte care pot fi eliminate...
     Putem să adăugăm şi altele...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Lista de cuvinte cu forme flexionare in limba romana.

Continut:
130464 cuvinte.
Formele flexionare asociate cuvintelor au fost extinse la variantele de scriere a diacriticelor cu cedila si cu virgula, atat in grafia veche (î, sînt) cat si in cea contemporana (â, sunt). 

Format:
Compatibil cu proiectul dsl2mobi.
Inregistrarile sunt de forma:
<cuvant_cheie>: <forma_1>, <forma_2>, <forma_3>, ...

Exemplu:
ţânc: ţîncului, țânc, ţînc, ţâncului, țâncul, țâncii, ţâncilor, țânci, țâncilor, țâncului, ţîncul, ţânci, ţîncilor, ţînci, ţâncii, ţîncii, ţâncul

Link de descarcare:
http://www.mediafire.com/download/vbqum ... rms-RO.zip


La ce e buna lista asta?

1. La pedepsirea ţâncilor neascultatori: "Du-te si citeste primele 3 pagini din lista si vii sa-mi spui ce-ai retinut".

2. La generarea unui dictionar (mobi, ipad, ...) roman -> <limba_x>.
Intern, dictionarul asociaza definitiile/traducerile "cuvintelor cheie" - primele campuri ale inregistrarilor de mai sus.
La cautarea versiunii unui cuvant (forme flexionare) in dictionar, definitia/traducerea "cuvantului cheie" asociat este afisata.
Daca o forma flexionara nu e asociata cuvantului, atunci nema traducere/definitie -> utilizator frustrat -> posibila aruncare a ereaderului de pereti. Pentru a evita stricaciuni materiale si a tine nivelul nervilor (deci si a colesterolului) sub control, e recomandata folosirea unui lexicon cat mai bogat in forme flexionare atunci cand generati dictionare. Adica e recomandat sa folositi lista asta, pentru ca alta mai extinsa nu se cunoaste / nu se exista.

Modificat de atari (acum 9 ani)


pus acum 9 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani

Seven a scris:

***
     Dicţionarul este doar un punct de plecare.
     Sunt o serie de cuvinte care pot fi eliminate...
     Putem să adăugăm şi altele...


Seven, cred ca ar fi bine sa explici care-i scopul dictionarului asta. Punct de plecare pentru ce?

Apropo de cratime in cuvintele din dictionare: ar trebui de verificat daca un cuvant care contine cratima e tratat intr-adevar ca o singura definitie de Abby. Senzatia mea (trebuie verificat mai in amanunt) e ca MS Word considera doua cuvinte acolo (separate de -), si drept urmare adaugarea definitiilor astea suplimentare s-ar putea sa nu aiba vre-un efect. Cum e in Abby? Ai facut ceva teste?

Modificat de atari (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Ai dreptate, @atari, dicţionarul postat de mine nu e cel mai bun punct de plecare, din cel puţin două motive:
           - unele dintre cuvinte există deja în dicţionarele integrate din Abbyy şi Word, deci trebuie eliminate;
           - în Word, probabil şi în Abbyy, cratima este tratată ca semn care desparte cuvintele, dar există, totuşi, o posibilitate de înregistrare a cuvintelor cu cratimă în dicţionare suplimentare.


     Cred că deocamdată problema mai importantă este cu Abbyy.
     M-am documentat puţin asupra lui Abbyy 11 şi am înţeles la ce se referea @tvd.
     Am făcut câteva testări şi voi continua să vedem dacă există şi alte soluţii.

     Constatări:
     Menţionez că în Abbyy 11 are deja un dicţionar pentru limba română integrat în soft. Nu ştiu exact dacă acelaşi lucru e valabil şi în variantele inferioare, dar sigur asta e valabil şi în Abbyy 12.
     Abbyy 11 recunoaşte cuvintele scrise în limbaj contemporan [cu â în interiorul cuvintelor şi sunt...] dar nu mai recunoaşte cuvintele scrise în limbaj clasic [cu î în interiorul cuvintelor şi sînt...]. În mod sigur acelaşi lucru e valabil şi în Abbyy 12.

     Am încercat să ataşez un dicţionar suplimentar la limba "Romanian", dar softul nu mi-a permis ataşarea unui dicţionar suplimentar nou.
     Atunci am recurs la crearea unei limbi "Romanian 2". E posibil să fi greşit ceva la setări... cert este că am putut ataşa dicţionarul de cuvinte scurte cu cratimă postat mai sus... doar că Abbyy îmi recunoaştea doar aceste cuvinte, dar nu mai are acces la dicţionarul românesc deja integrat.
     Repet, e posibil să fi greşit anumite setări şi totuşi să existe posibilitatea ca la o limbă nouă pe baza limbii române, Abbyy să aibă acces atât la dicţionarul integrat, cât şi la cel suplimentar.


     Pentru ca Abbyy să recunoască şi cuvintele scrise în limbaj clasic, ar fi două posibilităţi:
     Prima variantă: Crearea unei limbi asociate "Romanian 2" la care să ataşeze un dicţionar suplimentar, dar setarea ca limbă de citire în Abbyy două limbi: "Romanian" [adică limba deja integrată în Abbyy] plus "Romanian 2" la care să se ataşeze un dicţionar ca cel de mai sus.
     
     A doua variantă:
     Rămânem doar la limba "Romanian" care este integrată în Abbyy, dar adăugăm cuvinte noi cu funcţia "Add to Dictionary".
     Cuvintele noi sunt adăugate în fişierul "Roman.txt" din calea:
     Local Disk/Users/Nume_computer/AppData/ABBYY/FineReader/11.00/UserDictionaries

     În Abbyy 9 acest dicţionar se numeşte "Roman.pmd" şi are o altă structură, dar este şi el editabil.

     În acel fişier "Roman.txt", înregistrările apar sub forma:

DICTIONARY_PROPERTIES=USE_CONFIDENCE
autocunoaştere 100
curînd 100
cînd 100
decît 100
gîndea 100
mi-ar 100
ne-am 100
nu-i 100
nu-şi 100


     Practic, faţă de un dicţionar "dic" unde cuvintele sunt scrise unele sub altele fără adăugarea vreunui cod, în acest dicţionar, după fiecare cuvânt apare acel spaţiu urmat de numărul 100. La acest moment habar n-am ce înseamnă 100 şi nici dacă există şi alt cod în afară de 100. E posibil ca "100" să însemne "cuvânt întreg" şi să existe un cod pentru "început de cuvânt". Dacă există doar codul "100" înseamnă că va trebui să înregistrăm toate formele flexionare. Dacă am găsi un cod pentru "început de cuvânt" am înregistra doar câteva variante pentru fiecare rădăcină.


     Eu aş rămâne la a doua variantă, cea cu dezvoltarea dicţionarului "Roman.txt", pe care-l putem copia în subfolderul "UserDictionaries" în calea de căutarea menţionată mai sus.
     Practic, în Abbyy, adăugarea cu funcţia "Add to Dictionary" necesită adăugare cuvânt cu cuvânt.
     Din fericire, putem realiza dicţionarul fără a apela la această opţiune.
     Putem crea dicţionarul "Roman.txt" sau "Roman.pmd" prin prelucrarea unei sau unor liste de cuvinte.
     M-am gândit cam cum am putea proceda şi dacă credeţi că este interesant, pot posta etapele de lucru la care m-am gândit.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Noutăţi...
      În subfolderul "UserDictionaries" există două fişiere: "Roman.txt" şi "Roman.ame".
      La adăugarea cuvintelor, se fac salvări atât în "Roman.txt" cât şi în "Roman.ame".
      Dacă "Roman.txt" este editabil din NotePad, fişierul "Roman.ame" nu este editabil, fapt pentru care orice adăugiri din afara Abbyy nu sunt salvate.

      Am găsit o soluţie ceva mai complicată, dar care poate fi aplicată cu un mic efort.
      Lista din dicţionarul de cuvinte scurte cu cratimă am convertit-o în PDF apoi am încărcat PDF-ul în Abbyy apoi am dat comanda de citire a documentului.
      După citire am constatat că o parte mică dintre cuvinte erau recunoscute de către Abbyy, iar partea cea mai mare erau cuvinte necunoscute.
      Cu opţiunea "Add to Dictionary" se pot adăuga cuvintele destul de uşor în dicţionar.
      La momentul ăsta am adăugat cuvintele dintr-un număr de 2 pagini dintr-un total de 14 pagini şi am făcut probele. Totul funcţionează bine.

      Nu e la fel de simplu ca o editare de text, dar nici nu e un lucru foarte complicat.
      Mă pot ocupa de adăugat cuvintele în dicţionar dacă am liste cu cuvintele necesare.
      Am să revin cu dicţionarele "Roman.txt" şi "Roman.ame" după ce fac înregistrarea tuturor cuvintelor necunoscute din această listă.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Dicţionare Abbyy V1.01

     
      1. Am lucrat dicţionarele în Abbyy 11 şi le-am verificat în Abbyy11 şi Abbyy 12.
      Sunt sigur că dicţionarele lucrează în Abbyy 11 ţi 12, dar e bine de verificat şi de alţi useri pentru ca să nu avem surprize.

      Abbyy 10. La acest moment nu am instalat Abbyy 10 aşa că nu ştiu dacă aceste dicţionare sunt valabile în varianta Abbyy 10. Este necesar ca cineva care are Abbyy 10 să facă o testare, asupra căreia voi reveni.

      Abbyy 9. În mod sigur dicţionarele nu sunt valabile în Abbyy 9, dat fiind că această variantă de Abbyy are altă structură de dicţionare.
      Voi încerca în perioada următoare să realizez o primă variantă de dicţionare şi pentru Abbyy 9.


      2. Dicţionarele suplimentare pentru Abbyy 11 şi 12, despre care vorbim, se găsesc aşa cum am menţionat, în subfolderul "UserDictionaries" din calea:
      Local Disk/Users/Nume_computer/AppData/ABBYY/FineReader/11.00/UserDictionaries - pentru Abbyy 11
şi, respectiv
      Local Disk/Users/Nume_computer/AppData/ABBYY/FineReader/12.00/UserDictionaries - pentru Abbyy 12
      Aceste dicţionare se numesc: "Roman.txt" şi "Roman.ame"

      Nume arhivă:   UserDictionaries V1.01.rar
      Download:  Dictionare ABBYY 11  - folder mediafire deschis.

      2. Dicţionarele au fost realizate în baza următoarelor liste de cuvinte:
            - cuvinte scurte cu cratimă
            - cuvinte din 3 litere - listă completă
            - cuvinte din 4 litere - listă aproximativ completă
            - cuvinte din 5, 6, 7 litere şi 8 Plus - listă parţială
      Menţionez că la cuvintele care conţin î/â interior am trecut în liste iniţial cuvintele în limbaj contemporan, iar la sfârşitul listelor am adăugat cuvintele şi în limbaj clasic.

      Am urcat pe mediafire şi aceste liste pentru o mai uşoară verificare.
      Nume arhivă:   Liste V1.01.rar
      Download:  Liste cuvinte ABBYY  - folder mediafire deschis.

      3. Verificarea funcţionării dicţionarelor se poate testa relativ uşor.
      Am realizat un PDF care cuprinde toate listele despre care am vorbit mai sus.
      După copierea dicţionarelor în subfolderul "UserDictionaries", acest PDF se încarcă în Abbyy şi după ce îi dăm comanda de cirire, verificăm dacă mai apar cuvinte subliniate ca necunoscute.
      De menţionat că toate suprafeţele de citire trebuie să fie setate ca "text"
      Am urcat pe mediafire şi acest PDF text.
      Nume arhivă:   Test liste V1.01.rar
      Download:  Test Dictionare  - folder mediafire deschis.


      Menţionez că în dicţionare nu apar toate cuvintele din listă, deoarece unele dintre cuvinte erau recunoscute de Abbyy
      Înainte de a continua cu dezvoltarea acestor dicţionare este necesară verificarea lor de cât mai mulţi useri.
      Dacă prin testări-verificări se va dovedi că aceste dicţionare sunt utile, atunci putem discuta despre dezvoltarea lor.


      FOARTE IMPORTANT!
      Userii care au deja dicţionare "Roman.txt" şi "Roman.ame" în folderul "UserDictionaries", deci cei ce au înregistrat deja o seamă de cuvinte necunoscute de Abbyy, mai întâi vor redenumi aceste dicţionare adăugând un "Z" în faţa lor sau orice altă redenumire şi numai după aceea vor copia cele două dicţionare postate de mine.
      Ar fi foarte bine dacă aţi urca pe acest topic variantele voastre ale fişierului "Roman.txt" pentru ca să pot extrage acele cuvinte deja înregistrate şi a le putea adăuga în dicţionarele postate de mine


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Am dat o recunoastere a textului din Test liste V1.01 dupa ce am pus in Abbyy 12 dictionarele V1.01. Sunt cateva cuvinte din PDF care inca nu sunt in dictionare, fiind subliniate de Abbyy dupa recunoastere:
Pagina 5    din-acela
Pagina 7    n-ui        (oare exista in romana?)
Pagina 10    ceţi
pagina 11    dăgi
Pagina 12    ivăr, link
Pagina 18    giacă
In rest functioneaza corect. Chiar cred ca sunt utile. Dupa un OCR de carte revin cu impresii.

Modificat de onlyra (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      E bine dacă doar aceste cuvinte rămân necunoscute. Aceste cuvinte nu sunt înregistrate. Unele sunt prea rare, iar "giacă" şi "n-ui" sunt greşite.
      Deocamdată sunt semne că dicţionarele funcţionează, ceea ce e bine, dar va trebui multă muncă până vom pune la punct nişte dicţionare cu adevărat utile.
      Trebuie să adăugăm multe cuvinte la dicţionare.

      Pentru început am să încerc să realizez dicţionare pentru Abbyy 9, care se vor baza pe aceleaşi liste de cuvinte.
      Între timp trebuie să ne sfătuim cum procedăm pentru a realiza alte liste de cuvinte.
      Repet rugămintea pentru cei ce au deja dicţionare "Roman.txt" să le posteze pe forum pentru a putea să extrag şi alte cuvinte pentru dezvoltarea dicţionarelor.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Dictionarul meu:


     Mulţumesc frumos! L-am preluat.
     Seven


Modificat de utilitasetveritas (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Dicţionare Abbyy V1.02

      Acum putem spune că avem pentru Abbyy 11 şi 12 nişte dicţionare ceva mai serioase, deoarece ele cuprind peste 2600 cuvinte. Cred că numărul cuvintelor este 2640...
      La lista postată de @utilitasetveritas am adăugat încă o listă de lungime comparabilă pe care am realizat-o în baza volumelor Poldark. Am cumulat listele, le-am sortat, am eliminat dublurile, am realizat un PDF pe care l-am încărcat în Abbyy şi pe baza acestui PDF am adăugat cuvintele noi în dicţionar.

      Am postat cele 3 fişiere noi [Dicţionare, Listă şi PDF pt. probă] în aceleaşi 3 foldere deschise cu adresele menţionate deja mai sus.
      Dictionare ABBYY 11           Liste cuvinte ABBYY           Test Dictionare

      Pentru a putea fi identificate, fişierele poartă numărul de versiune V1.02
     
      Munca de extragere a noilor cuvinte, dar şi cea de adăugare este destul de plictisitoare şi mai ales obositoare. Din acest motiv am "scăpat" două cuvinte neînregistrate. [În loc să apăs "Add to Dictionary" am apăsat opţiunea aflată imediat mai sus "Ignore All". Din păcate, cuvintele setate cu Ignore nu mai pot fi corectate, deoarece ele se înregistrează în fişierul "Roman.ame" unde înregistratea apare codificată]

      Din motivele de mai sus, astăzi nu mai pot lucra la dicţionare, aşa că amân realizarea dicţionarelor pentru Abbyy 9.
      Un dicţionar V1.02 pentru Abbyy 9 îl voi posta mâine sau cel mai târziu poimâine.

      Am mare nevoie în continuare de liste de care dispuneţi. Mi-e mult mai simplu să adaug cuvinte necunoscute dintr-o listă, decât să caut cuvinte necunoscute în Abbyy.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
oare fisierele din dictionarele ortografice Hunspell sunt utile?
http://rospell.wordpress.com/download/
Ar fi bine ca sunt totusi voluminoase si sunt separate: contemporan si ante 1993.

Acum un an si ceva am importat 'la vrac' in Abbyy (posibil 10) o versiune care am gasit-o, prelucrata de altcineva, din Hunspell contemporan dar, desi nu mai sublinia decat putine cuvinte dupa OCR, parca totusi nu mai recunostea text-ul asa de bine. Ca si cum avea prea multe cuvinte asemanatoare in dictionar si inlocuia dintre ele. Nu mai retin exact dar a ramas sa cercetez problema si nu am mai folosit dictionarele Roman.ame si Roman.txt rezultate atunci(Roman.txt avea peste 170.000 de linii).

Modificat de onlyra (acum 9 ani)


pus acum 9 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Sa ma lamuresc si eu totusi...
Aceste dictionare sunt folosite la extragerea ocr-ului sau la rularea corectorului ortografic din aplicatie?


pus acum 9 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Acum am avut nitel timp sa mai sap. Pe site-ul lor, capitolul ABBYY FineReader Engine 11 for Windows, subcapitolul Optical Character Recognition (OCR), ei spun:
"52 languages have dictionary/morphology support that is significantly improves OCR accuracy."
http://www.abbyy.com/ocr_sdk_windows/OCR_stages/ocr/

Pe pagina
http://www.abbyy-developers.eu/en:tech: ... ry_support
in partea finala, apare si o mini explicatie a modului intern cum se alege varianta finala a cuvintelor. Exemplul de acolo, nu se potriveste foarte mult aici dar arata ca sunt folosite in procesul de OCR-izare aceste dictionare romanesti:
-dictionarele standard: Roman.amd, Roman.amm, si Roman.amt cat si
-extensiile lor, pe care utilizatorul le poate extinde, .ame si probabil .txt (despre care nu spune nimic).

Acuma, la ce ajuta toate aceste informatii? ... Cred ca doar m-au ajutat sa ajung la concluzia ca este foarte util sa maresti 'dictionarele utilizatorului' dar, asa cum spunea initial Seven, trebuie testate bine comparand si OCR-ul lor cu OCR-ul rezultat din folosirea dictionarelor cu care vine initial Abbyy.

Modificat de onlyra (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Mulţumesc @onlyra şi @utilitasetveritas pentru interes şi ajutor.
     Ca să răspund concret şi cinstit la întrebarea lui UV: habar n-am în ce mod folosesc dicţionarele şi din păcate, necunoştinţele mele de limba engleză nu-mi permit să mă documentez mai mult.
     Sunt sigur de un singur lucru, şi anume că aceste dicţionare folosesc mai mult sau mai puţin, dar folosesc.
     Este clar că la o verificare ortografică la care ar apela userii care obişnuiesc să facă mici corecţii sau corecţii mai complexe direct în Abbyy, astfel de dicţionare sunt folositoare.
     Deci, în mod sigur sunt folositoare la rularea corectorului ortografic al Abbyy.

     Din ceea ce bănuiam eu şi din ceea ce a găsit @onlyra cred că aceste dicţionare ajută un pic şi la extragerea OCR. Eu am înţeles că Abbyy face recunoaşterea optică şi în secvenţa imediat următoare compară rezultatul cu cuvinte din dicţionare, alegând cuvântul care "îndeplineşte cele mai multe condiţii", apoi îl transferă în textul OCR.

     Aş încheia în ideea următoare:
         - nu ştiu cât de benefice sunt aceste dicţionare, dar sunt convins că ele nu fac rău;
         - am lucrat cu toată disponibilitatea şi plăcerea aceste dicţionare, şi pot să continui în timp cu adăugarea de noi cuvinte. Problema cea mai mare este că adăugarea de noi cuvinte în dicţionare se face doar prin adăugare cuvânt cu cuvânt, astfel că este imposibil să folosim o bază de cuvinte foarte mare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Seven, tot in fereastra in care adaugi cuvinte exista butonul de import care vad ca accepta si liste de cuvinte oricat de lungi. Ai observat vreo problema la importul listelor de preferi adaugarea cuvant cu cuvant?

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Mulţumesc, onlyra!
      Am adăugat manual cuvintele pentru simplu motiv că am fost convins că doar aşa se pot adăuga.
      Ştiam eu ceva despre importul de dicţionare, pentru că în urmă cu un an sau ceva mai mult am făcut o probă cu un dicţionar de cuvinte scurte cu diacritice.
      Zilele astea am căutat chestia cu importul doar că am făcut asta în zona setărilor de limbă şi în opţiuni şi negăsind nimic am crezut că-mi joacă memoria feste... m-am gândit că am confundat şi nu e vorba de Abbyy, ci de alt program.
      Acum câteva minute tocmai am terminat dicţionarul în Abbyy 9, iar la sfârşit am dat peste opţiunea "Tools --> Viev Dictionaries..." şi am văzut opţiunea de import şi toate celelalte.
      Am verificat şi în Abbyy 11 şi am găsit opţiunile şi acolo...

      Mai bine mai târziu decât niciodată!
      Cred că acum, după atâta muncă manuală am să ţin minte.     
      Probabil aşa trebuia să se întâmple... Acum când am intrat pe forum am văzut şi mesajul tău şi am primit şi un MP de la o altă persoană care-mi semnalau varianta cu importul.


      Deocamdată postez şi versiunea de dicţionare V1.02 pentru Abbyy 9.
      E vorba despre "Roman.ame" şi "Roman.pmd" din calea de căutare amintită în postările de mai sus.

      Nume arhivă:   UserDictionaries V1.02 [A09].rar
      Download:  Dictionare ABBYY 09  - folder mediafire deschis.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Pe site-ul Abbyy spune ca butonul de import e folositor pentru a importa in Abbyy, sa zicem 12, dictionare create tot de Abbyy dar versiune mai veche(9, 10, 11) sau, il alt loc spune ca poti importa dictionare create cu Microsoft Word.
http://help.abbyy.com/FineReader/FineRe ... andRun.htm
Imi retrag sugestia pentru ca astazi am urmarit sa import un dictionar Hunspell format .dic (dupa ce am deschis fisierul .dic cu EditPlus Text Editor si l-am salvat cu codarea Unicode). Dictionarul e destul de consistent dar nu cred ca a fost importat corect. In final doar fisierul Roman.ame(pe care nu-l putem edita) a crescut in dimensiuni. Roman.txt a ramas deschimbat, ba chiar ulterior nici cuvintele adaugate manual nu mai apar in el.

Modificat de onlyra (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
       Cred că există o explicaţie, dar e doar o ipoteză neverificată încă.

       Dicţionarele de tip "dic" au mai multe structuri: unele au cuvintele scrise unele sub altele şi sunt uşor de vizualizat şi editat; altele au cuvintele scrise în continuare unul după altul şi par a fi lipite sau despărţite cu diverse coduri.

       Cred că importul se poate face corect doar din dicţionare "dic" care au cuvintele scrise unele sub altele. De altfel, aşa apar cuvintele scrise în "Roman.txt" din Abbyy 11 şi 12, respectiv "Roman.pmd" în Abbyy 9.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Sunt vesti bune. Concluzia este ca se poate folosi butonul de Import din "Tools --> View Dictionaries-->View" pentru orice fel de liste, atat timp cat ele contin cuvinte separate de 'Enter' sau 'spatiu' si sunt salvate cu codare Unicode (eu folosesc pentru asta editoare mai mici gen EditPlus). Se pot incarca in felul acesta oricate cuvinte si Abbyy le foloseste la OCR-izare si corectarea ortografica.
Se pare ca dictionarul creat este stocat doar in fisierul 'Roman.ame'. Fisierul 'Roman.txt' este creat doar la iesirea din Abbyy (daca are mult de salvat dureaza un minut) si acel numar care apare dupa fiecare cuvant din fisier este legat de increderea ce i-o acorda Abbyy. Mai multe nu am gasit decat ca '100' reprezinta 'Full confidence', deci numerele... au un scop.

Test: am prelucrat, dupa regula de mai sus
-'Lista de cuvinte cu forme flexionare in limba romana' postata de @atari din care am eliminat ':' si ','
- fisierul 'Roman.txt' postat de @seven in 'UserDictionaries V1.01-pt AbbyFinereader' din care am eliminat spatiile si cifra 100
si le-am importat in Abbyy 12 intr-un dictionar gol. A rezultat o lista cu peste 1.300.000 de cuvinte si forme flexionare, din care 900 din lista de la @seven.
http://www.mediafire.com/download/no9aa ... Abby12.zip
Am OCR-izat cu acest dictionar 50 de pagini scanate si rezultatul este unul bun, dar mi-e greu sa il compar cu o OCR-izare obtinuta fara acest dictionar mastodont. Daca aveti scanari mai dificile, ca ghicire a cuvintelor, va rog sa faceti un test comparativ. La mine, cand utilizez dinctionarul mare, singura problema care am observat-o este ca litera 'c' este mai des gresit inlocuita cu 'e', sau invers, in cuvintele scurte: ca, ea, cu...

Se pot face teste si prin adaugarea unui dictionar Roman *.dic. Cel mentionat de mine mai sus (Hunspell) e singurul pe care-l stiu.

Exista si un mic dezavantaj: adaugarea ulterioara de cuvinte, specifice cartii in lucru, este destul de greoaie la un astfel de dictionar mare. La mine prima deschidere a dictionarului mare dureaza 2 minute, urmand ca apoi sa scada la jumate. Posibil sa gasim si pentru aceasta problema o rezolvare. Nu am observat o incetinire OCR-izarii daca se folosesc dictionare asa mari

Oricum foarte util este totusi o lista de cuvinte cu cratima. Acestea sunt cele care inca nu sunt recunoscute la corectia ortografica.

Modificat de onlyra (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Lucrurile încep să fie clare.
     Ar mai trebui să aflăm ce face Abbyy atunci când la importul unui nou dicţionar găseşte în acesta cuvinte pe care el le are deja instalate în "Roman.txt" şi "Roman.ame".
     Adică le ignoră şi cuvintele duble rămân instalate o singură dată? sau trebuie să fim noi atenţi să nu-i dăm dubluri ca să nu facă Abbyy vreo aiureală?


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
meridiane
Online
MEMBRU VIP

Inregistrat: acum 12 ani
Nu foloseste nimeni Abby 10??
Sau am scapat ceva?


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      "Nimeni" e mult spus, dat fiind că până acum au participat la discuţie doar 3-4 persoane.
      E foarte bine că tu ai Abbyy 10. Dacă ai testa dicţionarele ar fi foarte bine să ştim dacă funcţionează.
      Părerea mea neverificată este că în Abbyy 10 ar trebui să meargă dicţionarele de la Abbyy 11.
      Ne-ar fi de mare folos dacă ai verifica aspectul ăsta şi să ne spui apoi constatările tale.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Sa inteleg ca dictionarele de Abby 9 vor contine aceleasi cuvinte ca cele de Abby 12, dar cu scrierea clasica?

P.S.
In Abby 9 trebuie sa ai un proiect deschis pe care sa rulezi recunoasterea, apoi sa importi acel dictionar text. Altfel la repornirea programului nu il mai regasesti in Abby. Incarci dictionarul, rulezi corectorul ortografic pe o pagina, apoi inchizi Abby, il repornesti gol si verifici existenta dictionarului.
Poate gresesc, dar au fost dati cand, dupa o instalare de Abby, am incarcat dictionarul, dar la repornire sa nu il mai gasesc incarcat.

Modificat de utilitasetveritas (acum 9 ani)


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Referitor la ce am postat eu:
      Am postat mai sus dicţionarele V1.02 pentru Abbby 9.
      Ele conţin absolut aceleaşi cuvinte ca şi dicţionarele V1.02 pentru Abbyy 11. M-am gândit să pun aceeaşi versiune ca să nu mai trebuiască să fie verificată lista de cuvinte.
      Dicţionarele suplimentare pentru Abbyy 9 sunt "Roman.ami" şi "roman.pmd"
      Intuiesc că dicţionarul cu care lucrează Abbyy este acel "ami", iar "pmd" este o listă a cuvintelor.

      În cazul Abbyy 11, 12 şi probabil 10, dicţionarele sunt "Roman.ami" şi "Roman.txt".
      Practic începând cu versiunea Abbyy 11 [sau 10], dispare lista "Roman.pmd" şi apare lista "Roman.txt", care are o structură similară, doar că nu mai apare în dreptul fiecărui cuvânt menţiunea [Invariable] , ca în "pmd", ci un cod nou sub forma 100.

      Dacă se va dovedi că aceste dicţionare sunt utile, intenţionez ca pe viitor să mă ocup de două grupuri de cuvinte: cuvinte cu cratimă, deoarece acestea par să nu fie înregistrate în dicţionarele încorporate din Abbyy şi cuvinte în limbaj clasic.
      Poate că ar trebui ca dicţionarele cu cuvinte clasice să fie separate pentru a fi activate doar atunci când avem carte tipărită în limbaj clasic. Problema asta rămâne de dicutat.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
meridiane
Online
MEMBRU VIP

Inregistrat: acum 12 ani
In Abbyy 10 avem Roman.pmd si Roman.ame.

Roman.pmd este fisierul care sta la baza lui Roman.ame.
Roman.ame este creat de program.
In Roman.pmd se scriu cuvintele adaugate cu add to dictionary.

Chiar daca folderul User Dictionaries este gol, cind se adauga un cuvint
se creaza .pmd si la iesirea din program .ame.

Daca vrei sa exporti dictionarul se poate opta intre .txt si .pmd.

100 este "credibilitatea" cuvintului, cit de "corect" este. 100 este default.
Se poate schimba, poate fi mai mare sau mai mic de 100.
Cind exporti in .txt ai valoarea 100.

Aceste dictionare pot fi utile pentru cei care corecteaza direct in Abbyy.
Pentru recunoasterea cuvintelor, nu prea cred sa aiba mare importanta.

Nu trebuie sa uitam ce inseamna OCR. Prima operatie pe care o executa Abbyy este
impartirea fiecarui rind in cuvinte. Inainte de recunoasterea cuvintelor, Abbyy
face o recunoatere a caracterelor, a fiecarei litere in parte. Aceasta recunoastere se face prin 5 sau 6 metode diferite si foarte sofisticate. Dupa asta trece la cuvinte.

Testele pe care le-am incercat nu au fost elocvente.


pus acum 9 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Pai cam da... asta zic si eu. Dictionarul urcat de mine este facut prin adaugarea cuvant cu cuvant in timpul corecturii manuale in Abby. Scopul era sa nu ma mai streseze cu acele cuvinte necunoscute de Abby.
Nici eu nu cred ca are vreo legatura cu ocr-izarea.

Singura solutie pentru o recunoastere mai buna a textului (la nivel de caractere) e crearea unui tipar manual de recunoastere. Pe fiecare carte in parte.

Folosesc dictionarul de ceva timp, e facut pe seria lui Panait si tot pe seria asta lucrez si acum, dar nu am observat vreo imbunatatire la nivel de ocr. Singura deosebire e ca in timpul corecturii Abby imi indica doar chestiile dubioase, iar numarul de cuvinte pe care nu le recunoaste a scazut simtitor.
Cel putin la inceput, pe scrierea clasica, ma scotea din minti.

Modificat de utilitasetveritas (acum 9 ani)


pus acum 9 ani
   
Pagini: 1  

Mergi la