Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Roxxy22 Profile
Femeie
25 ani
Cluj
cauta Barbat
25 - 48 ani
Forum Romania Inedit / Totul despre cărți - About e-books / [INTREBARI] Întreabă orice despre carti Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini:  1 2 3
ctrlhd
Membru Puf

Inregistrat: acum 11 ani
Buna ziua,
Am un multifunctional Canon Pixma MG5350 cu care am inceput sa scanez carti si ceva documente. Problema e cu foile subtiri, la scanare, peste continutul paginii scanate aparand si ceva continut din pagina din spate. Cum se poate rezolva problema ?
Vreau sa fac la finalul prelucrarii imaginilor tiff produse de scanner, folosind Scan Tailor, un fisier pdf din imagini, deci nu voi folosi ocr.


pus acum 11 ani
   
AC.Dic
Membru Puf

Inregistrat: acum 14 ani
***
     Problema este rezolvabilă, doar că munca de scanare este mai greoaie, dar atunci când doreşti să faci un lucru bun, nimic nu este prea greu.
     Sunt necesare două coli de hârtie neagră de mărimea paginii cărţii sau mai mare.

     Practic, înainte de scanarea unei pagini sau a unei perechi de pagini, trebuie introdusă între fila de scanat şi restul cărţii o coală de hârtie neagră. înseamnă că avem o coală neagră sub pagina din stânga şi o alta sub pagina din dreapta.
     În acest fel, literele [de culoare neagră] de pe verso se vor pierde în fundalul negru al colii introduse sub pagina de scanat, şi pe imaginea scanată se vor vedea doar literele de pe faţa de scanat, fără a se mai vedea cele de pe verso.

     Deci, între paginile de scanat se introduce o coală de hârtie de culoare neagră sau foarte închisă. Ar fi de preferat hârtie neagră, eventual de la ambalajul hârtiei foto.
     Merge şi un carton bleumarin închis care se poate găsi prin papetării sau măcar o copertă de dosar bleumarin, dosare care se găsesc în mod sigur în papetării.

     La început poate părea destul de dificil să tot scoţi şi să pui hârtia neagră între filele cărţii, dar e doar o chestie de puţin antrenament… pe de altă parte, nu e nevoie ca o carte să fie scanată într-o oră sau într-o zi… Poţi scana doar câte un pachet mai mic de pagini în fiecare zi.

     Personal am scanat şi două săptămâni la acelaşi volum. E adevărat că era un dicţionar de fo 3 kile, dar dacă vrei, nu există piedici de netrecut. Satisfacţia de la final, a unui lucru bine făcut, merită orice efort.

     Ideea este ca munca de digitalizare să fie făcută atunci când avem timp şi plăcere şi ea trebuie să alunge stresul şi nu să fie o sursă de stres. În digitalizare nu trebuie să existe termene sau norme şi mai ales nu trebuie să ne grăbim să lucrăm tone de cărţi.
     O carte interesantă, bine lucrată, care este citită de cât mai mulţi oameni, este mult mai folositoare decât o sută de cărţi, făcute în grabă, dar pe care nu le citeşte nimeni.

     Multă baftă!


pus acum 11 ani
   
ctrlhd
Membru Puf

Inregistrat: acum 11 ani
Am scos la imprimanta un carton taiat dintr-un dosar cu sina, in culoarea neagra.
Adevarat, cam greu cu scanarea si prelucrarea ulterioara. Trebuie rabdare. Eu unul nu ma bag la ocr, fiindca e munca de titan. Prefer crearea pdf din imagini, dupa o prelucrare k lumea in Scan Tailor.
Va multumesc!


pus acum 11 ani
   
ctrlhd
Membru Puf

Inregistrat: acum 11 ani
sters. reason: post duplicat.

Modificat de ctrlhd (acum 11 ani)


pus acum 11 ani
   
ajaffa
Membru Puf

Inregistrat: acum 12 ani
Dupa ce fotografiezi toate paginile la o carte  le prelucrezi in ocr poza cu poza

pus acum 11 ani
   
Mihai895
Membru Puf

Inregistrat: acum 10 ani
Salut! Am si eu o problema...cum pun alineat la carti in format txt?...am luat niste carti de pe net in engleza si cand le pun pe kindle in format txt se vad fara alineat...de la o margine la cealalta incontinuu.

Modificat de Mihai895 (acum 10 ani)


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Formatul TXT nu suporta formatari de niciun fel.

pus acum 10 ani
   
Mihai895
Membru Puf

Inregistrat: acum 10 ani
Sau daca vreau sa transform in mobi nu mi le face cum trebuie programul calibri...mi le spatiaza aiurea...vreun sfat ceva?

pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Sari peste prima parte.

Modificat de utilitasetveritas (acum 10 ani)


pus acum 10 ani
   
Mihai895
Membru Puf

Inregistrat: acum 10 ani
Multumesc mi-a fost de mare ajutor

Modificat de Mihai895 (acum 10 ani)


pus acum 10 ani
   
ZVONACFIRST
MEMBRU DE BAZA

Din: Bucuresti
Inregistrat: acum 16 ani
Am citit in topicul COLABORARI - useri activi urmatoarea postare a lui utilitasetveritas:


utilitasetveritas a scris:

Ocr-ul trebuie obtinut din scanarea bruta, nu din imaginile prelucrate ulterior.
Totodata se foloseste Abby Finereader pentru ocr, ci nu Adobe sau alt program de gen.


As fi fost off topic daca as fi postat acolo,asa ca am mutat discutia aici.
Deoarece nu stapanesc foarte bine termenii (neavand scaner nu m-am lovit de aceste probleme), am rugamintea sa fie amabil si sa detalieze urmatoarele.
- ce inseamna scanare bruta si la ce format se refera
- de ce este mai bine sa obtii ocr-ul din scanarea bruta si care ar fi problema daca il obtinem din imagini prelucrate
- la ce alt soft se refera cand afirma ca nu este recomandat a fi folosit
Multumesc in avans.


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Arunca-ti un ochi aici si revino cu intrebari daca e cazul:


pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
ZVONACFIRST a întrebat:

     1. ce inseamna scanare bruta si la ce format se refera?
     2. de ce este mai bine sa obtii ocr-ul din scanarea bruta si care ar fi problema daca il obtinem din imagini prelucrate?
     3. la ce alt soft se refera cand afirma ca nu este recomandat a fi folosit?

     Deocamdată încerc să dau un răspuns, o părere personală, la întrebarea #3, deoarece răspunsul este mai simplu.
     3. la ce alt soft se refera cand afirma ca nu este recomandat a fi folosit?

     Există mai multe softuri care fac recunoaşterea optică a caracterelor dintr-o imagine: cel mai cunoscut şi mai eficient este Abbyy FineReader.
     Atenţie! a apărut ABBYY FineReader 12 Professional.

     Se mai poate face recunoaştere caractere cu alte multe softuri, printre care: PDF Transformer de la Abbyy, Adobe Acrobat, OmniPage, Readiris Pro... [câteva informaţii aici].
     În afară de faptul că aceste softuri se găsesc foarte greu şi sunt mult mai scumpe decât Abbyy, ele - de regulă - nu au încorporată în soft şi limba română, fapt pentru care recunoaşterea dă mai multe erori decât Abbyy.
     În plus Abbyy oferă posibilităţi mai largi de setare: se poate obţine o limbă [2] bazată pe limba de bază, la care se pot adăuga sau scoate caractere etc... prezintă posibilitatea acomodării [antrenamentului] softului cu recunoaşterea caracterelor etc...
    Am testat de mai multe ori unele dintre softurile alternative [eu personal m făcut mai multe testări cu OmniPage şi Readiris Pro] şi rezultatul a fost net în favoarea Abbyy.
    Colegul @calincalin a făcut în ultima perioadă mai multe testări cu Acrobat şi Abbyy: rezultatul a fost în favoarea Abbyy.

    Cu cât scanarea este de calitate mai slabă şi cartea scanată este mai veche, cu atât se vede mai bine diferenţa de calitate a recunoaşterii caracteror.

    Concluzia mea personală: Abbyy 11 este [deocamdată] cel mai bun.
    Să vedem ce ne oferă Abbyy 12!


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Întrebarea #1.
     1. ce inseamna scanare bruta si la ce format se refera?

     Scanarea se poate face direct cu softul Abbyy sau cu un alt soft.

     Dau un singur exemplu: imaginile iniţiale - în format JPG - ale cărţii "I.Ludo - Starea de Asediu" scanată de @caluseriu calin are 1,63 GB. După încărcarea lor în Abbyy şi salvarea în acelaşi format [JPG], fără a face crop sau alte prelucrări, noile imagini au în total doar 419 MB, adică sunt de circa 3,89 ori mai mici.
     Dacă facem o convertire dintr-un format în altul de imagine cu oricare soft prelucrare imagini, majoritatea softurilor pierd câte ceva din caracteristicilor imaginilor.
     Concluzia este că pe undeva la orice convertire se pierd nişte informaţii, altfel spus, imaginile obţinute sunt cumva mai slabe decât cele iniţiale.

     Ţinând cont de aceste lucruri, înseamnă că cea mai bună imagine ar fi cea obţinută direct la scanare.  Rezultă că şi cel mai bun OCR se poate obţine din imagininea originală.
     Pentru ca această concluzie să fie adevărat este nevoie de o condiţie: imaginea scanată să fie splituită.

     Avem două variante de scanare la cărţile de format mic şi mijlociu:
        - o singură imagine pentru cele două pagini, deci pagină dublă pe imagine - imagine nesplitută;
        - câte o imagine pentru fiecare pagină, o imagine pentru pagina din stânga şi o imagine pentru pagina din dreapta - imagine splituită.

     Abbyy, dar şi alte softuri se descurcă mult mai bine la recunoaşterea textului din imaginile splituite.
     În cazul imaginilor nesplituite poate apărea din când în când ceea ce numim rocada ariilor de recunoaştere a textului.
     Să dăm un exemplu: În imaginea următoare se observă 6 arii de recunoaştere [suprafeţe care conţin text], dintre care 3 principale, care conţin textul propriu-zis şi 3 secundare care conţin numărul de pagină şi alte informaţii din subsolul paginii; aceste ultime 3 arii pot să nu apară dacă se setează ca Abbyy să nu facă citirea zonelor Header şi Footer.
     În mod corect, cele 6 zone de text trebuie citite în ordinea următoare:



    Cu toate acestea, Abbyy poate stabili din când în când o altă ordine de citire decât cea normală; habar n-am care este motivul, dar situaţiile există; probabil că citeşte mai întâi zonele clare de text şi mai apoi pe cele pentru care are oarece dubii.
    Ideea este că UNEORI pot fi citite mai întâi una sau mai multe zone din pagina din dreapta şi apoi pe cele din pagina din stânga; pot fi situaţii [în special în paginile cap capitol] când se citesc mai întâi zone din partea de jos a paginii şi mai apoi zone din partea de sus a aceleiaşi pagini:


     
    Din păcate în Abbyy FineReader 11 nu se mai evidenţiază ordinea ariilor de citire... sau, nu am găsit eu setarea care permite evidenţierea şi renumerotarea lor.
    Din motivele enunţate mai sus, recunoaşterea este mai sigură în cazul paginilor splituite decât în cazul imaginilor paginilor duble.

    În altă ordine de idei, problema erorilor Abbyy este de neglijat în cazul cărţilor noi şi bine scanate, şi foarte importantă în cazul cărţilor vechi. La fel de important este senzorul scanerului: Senzorul CCD nu este influienţat foarte tare de gradul de lipire a paginii cărţii pe ecranul scanerului şi nici de gradul de lumină ambiantă, timp în care senzorul CIS este influienţat de lumina ambiantă şi dă erori dacă pagina cărţii nu este foarte bine lipită de ecranul scanerului.

    În funcţie de calitatea scanării, uneori este necesară în mod obligatoriu prelucrarea imaginilor, astfel că un OCR bun se obţine din imagini prelucrate şi nu din imagini brute.


    Întrebare suplimentară:
    Dacă cel mai bun OCR se obţine din imaginea brută, pentru ce mai facem prelucrări în Scantailor şi alte editoare de imagini?
    De regulă, aceste prelucrări se fac în vederea obţinerii unor fieşiere scan-control, fie ele PDF sau DjVu, care să aibă un raport cât mai bun mărime/calitate.

    Nu se pot obţine totdeauna fişiere alb-negru de calitate. Astfel de fişiere se pot obţine doar din scanări de înaltă calitate.
    Indiferent cum ar fi, nu se recomandă sub nicio formă scanarea directă în alb-negru, ci doar în Grayscale 300 dpi sau Color 300 dpi - la coperte şi în cazul revistelor, cărţilor vechi de colecţie etc.

    E posibil ca în unele cazuri să nu se obţină fişiere lizibile în alb-negru, iar dacă scanarea a fost făcută direct în AN, atunci toată munca de scanare a fost în zadar.
    Din contra, dacă scanarea este în Grayscale, chiar dacă fişierele AN vor fi nefolositoare, cele grayscale vor fi de folos, chiar dacă imaginea nu este de mare calitate.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
ZVONACFIRST
MEMBRU DE BAZA

Din: Bucuresti
Inregistrat: acum 16 ani
Mai clar de atat nu se poate. Multumesc. Nu mai am intrebari.

pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Un mic amanunt....
Niciodata nu se face zonarea si recunoasterea automata a zonelor de text in Abby!
Riscati sa pierdeti pagini intregi sau sa se amestece textul, dupa cum zicea si Seven mai sus.

Intodeauna faceti zonarea manuala a zonelor de text si de imagini.
Adica luati fiecare pagina la rand si trasati voi insiva zonele de text si imagine, apoi puteti lasa softul sa faca recunoasterea caracterelor.

Ai dreptate in legatura cu numerotarea zonelor din Abby 11, ea apare doar daca folosesti functia Reorder.
Nu am observat amanuntul acesta pentru ca zonarea o fac manual.

Modificat de utilitasetveritas (acum 10 ani)


pus acum 10 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani

utilitasetveritas a scris:

Un mic amanunt....
Niciodata nu se face zonarea si recunoasterea automata a zonelor de text in Abby!


   - - > EXACT! În exemplul de pagină oferit de Seven ar fi o adevărată aventură să-l laşi pe ABBY să facă ce vrea. Practic fiecare fibră de lemn de pe pagină va fi interpretată ca fiind o literă sau un grup de litere care evident se vor regăsi din belşug în text - ceea ce va îngreuna corectarea OCR-ului.


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 10 ani
   
NicoaraBnD
Membru Puf

Inregistrat: acum 10 ani
Buna ziua mi-am cumparat si eu un KINDLE debea stiu sa il deschi ..Am o intrebare cum bag carti am incercat cu cablu de date copy paste nu merge explicatimi si mie VA MULTUMESC

pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani

NicoaraBnD a scris:

Buna ziua mi-am cumparat si eu un KINDLE debea stiu sa il deschi ..Am o intrebare cum bag carti am incercat cu cablu de date copy paste nu merge explicatimi si mie VA MULTUMESC


In mod normal se face Copy/Paste in dosarul Documents de pe Kindle.


pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Aş avea şi eu o întrebare: oare care ar fi cel mai potrivit font de încorporat într-o carte pt a fi citită pe Kindle?

Modificat de tdv (acum 10 ani)


_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Eu personal prefer Droid Serif şi Droid Sans Serif.
     
   
      Droid Serif are o formă apropiată de fonturile Serif [rotunjite] clasice folosite de noi: Times New Roman şi Bookman Old Style, doar că literele sunt uşor separate faţă de Times New Roman şi mai puţin lăbărţate decât Bookman Old Style.
      Este mai uşor de citit atunci când este scris cu caractere mici decât cele două şi mai economic, în sensul că un text scris cu droid la aceeaşi mărime cu celelalte două, ocupă mai puţine pagini.
      În sfârşit, merită încercat.

      Droid Sans Serif este şi el mai comod şi mai plăcut ca aspect decât Arial şi, din nou, are avantajul că acelaşi text ocupă mai puţine pagini scris cu Droid decât cu Arial.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Mulțumesc Seven dar fontul acesta nu are ț-ul cu virgulă dedesubt

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Îmi cer scuze! Am uitat de această problemă sedila vs. virgulă.
     Eu folosesc doar diacritice cu sedila şi am uitat de aspectul ăsta.

     Încerc să mă abţin să spun ce părerea am despre iniţiativa modificăriii diacriticelor, o problemă pe care ne-am creat-o singuri, dintr-un motiv pe care nu l-am înţeles niciodată.

     Toate aceste intervenţii la Microsoft şi la Academia Română de a stabili ca diacritice româneşti pe cele cu virguliţă, au avut drept rezultat faptul că unii dintre românii care au sisteme ceva mai vechi nu pot citi texte scrise cu noile diacricice cu virgulă şi e posibil ca viitoarele sisteme de operare să nu mai permită citirea diacriticelor cu sedila. În definitiv de ce să nu se aleagă praful de munca noastră mai veche, de sutele de mii de pagini, ori poate milioane de pagini, scrise cu diacritice cu sedila?
     Mă gândesc la un proverb în care era vorba despre o seceră...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Pe de-o parte aşa este dar pe de altă parte cuvintele scrise cu sedilă nu le recunoaşte dicţionarul in limba română adică o fac de nevoie.

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     La ce dicţionar te referi?
     La dicţionarul unui editor de text? Care anume?
     Poate găsim un mod de rezolvare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
La dicţionarul pentru Kindle in limba română. Dacă textele sunt scrise cu sedilă cuvintele nu sunt recunoscute şi nu pot beneficia de definiţie decât dacă o caut manual lucru nu tocmai plăcut când citeşti.

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Încearcă te rog varianta asta de font. Este Droid regular.
Dacă este OK, pot modifica şi pentru variantele italic, bold.




Caracterele cu sedilă pot fi înlocuite cu cele standard cu Find/Replace din Word, dacă ai acces la fişierul doc.
Apoi va trebui să creezi fişierul mobi pentru kindle. Eu nu am aşa ceva, pentru c-aş fi făcut nişte teste.

Pentru Windows XP:

Pentru a verifica dacă un font conţine şi caracterele româneşti standard, trebuie să avem instalat driverul de tastatură care există aici, sau un editor de fonturi. Sau putem folosi utilitarul Character Map din Windows.
După instalarea driverului, se adaugă doar Romanian (Standard) şi Romanian (Standard cu sedile).



Apoi în taskbar, după apăsarea tastelor Alt+Shift (aflate în stînga), vom trece tastatura în modul RO.
Clic pe pictograma tastaturii aflată în dreapta lîngă RO și alegem Romanian (Standard).



Deschidem Word și tastăm caracterele românești șțăîâ     ;  '  [  ]  \

Dacă apar niște pătrate în locul literelor, atunci fontul nu conține caracterele respective și va trebui să le creăm cu Font Creator sau alt soft, sau să alegem alt font.



Modificat de uciN (acum 10 ani)


pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Mulțumesc foarte mult uciN, fontul este foarte bun. Oare ai putea sa faci si pentru celelalte variante?

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Fontul Droid Serif cu caracterele U021A (T cu virgulă) și U021B (t cu virgulă).

Modificat de uciN (acum 10 ani)


pus acum 10 ani
   
GORE73
Membru Junior

Inregistrat: acum 11 ani
Programul de mai sus,Font Creator,poate fi folosit pentru a adăuga  șțăîâ oricărui font care nu le conţine? Ex. Romance Fatal Serif Std.

pus acum 10 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
Sigur că da. Ar arăta cam aşa:
Previzualizare


pus acum 10 ani
   
ZVONACFIRST
MEMBRU DE BAZA

Din: Bucuresti
Inregistrat: acum 16 ani
@ucIN, poti te rog sa urci un kit de Font Creator? Am multe fonturi pe care nu le folosesc din cauza lipsei diacriticelor.
Multumesc.

Poate ca ar trebui deschis un topic pe tema fonturilor.


pus acum 10 ani
   
uciN
MEMBRU VIP

Inregistrat: acum 15 ani
FCP_v6 & 6.5

Scurt ghid de utilizare a programului Font Creator pentru adăugarea caracterelor specifice limbii române fonturilor care nu le conţin.

FCP_v7.5

Modificat de uciN (acum 10 ani)


pus acum 10 ani
   
ZVONACFIRST
MEMBRU DE BAZA

Din: Bucuresti
Inregistrat: acum 16 ani
EXCELENT!!!
Multumesc uciN.


pus acum 10 ani
   
Sawyer
Membru Puf

Inregistrat: acum 13 ani
Am o curiozitate.
Cum se transformă o carte în carte electronică, e posibil?
Adică eu am cartea acasă şi vreau să o transform în format electronic.
Am citit aici pe forum, se face OCR, dar cum se fac acele scan-uri? Nu cred că se pot scana cărţile în totalitate, textul care e aproape de cotorul cărţii nu cred că iese în scan.
Sau se foloseşte alt fel de scaner?


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Un scaner plat de birou este suficient.
Pe durata scanarii trebuie sa apesi cotorul cartii pentru a lipi pagina de sticla. Nu apasa prea tare totusi, risti sa spargi sticla scanerului. Pe durata scanarii exista si riscul de a rupe cotorul cartii, si in mod sigur se va deforma cotorul cartii.

Daca acea carte are textul prea apropiat de cotor (sunt si carti de astea), nu o sa o poti scana. In acest caz se taie cotorul si se scaneaza paginile pe rand.


pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Aș avea o întrebare. Mi-am convertit recent un doc în pdf pentru e reader în special datorită faptului că la un pdf notele de subsol le arată pe pagină nu ca la un mobi/ epub. Întrebările mele sunt următoarele: Cum putem face un epub/ mobi care să arate notele de subsol pe pagină și care ar trebui sa fie setările pentru o carte electronică în format pdf (eu personal am observat că dimensiunea textului de 13, pagina de 90 x 120 mm, margina paginii de 6 mm sunt destul de acceptabile)

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Marimea de pagina a pdf-ului sa fie cat marimea ecranului readerului.
Seteaza marimea de pagina in word in cm, vezi ce dimensiunea fontului ce se vede cel mai bine, apoi fa-l pdf.

Modificat de utilitasetveritas (acum 10 ani)


pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Cred că @tvd a întrebat altceva.
     El are o problemă cu mobi şi epub, nu cu pdf.

     Din păcate nu mă pricep la mobi&epub.
     Şi eu fac convertirea tot în PDF, doar că pentru tabletă 7"HD, unde raportul între lăţimea şi înălţimea paginii este total diferit decât cel al unui eReader.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
A... da.
Parca era posibil, dar nu pe orice fel de reader. Tinea mai mult de softul readerului, si abia apoi de felul in care realizezi acel epub/mobi.
Boken parca facea asa. Dar daca stau mai bine sa ma gandesc am impresia ca era vorba de o tableta, nu de un reader e-ink.

Modificat de utilitasetveritas (acum 10 ani)


pus acum 10 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Salutare, pana acum pentru conversia in epub sau mobi am folosit doar Calibre, dar in ultimul timp am gasit pe forum destule carti care sunt bine facute si au Non-Breaking hyphen(s-a, mi-a...) in loc de hyphen(cratima simpla). Daca convertesc cu Calibre, uneste cuvintele si imi ignora Non-Breaking hyphen (in textul epub sau mobi nu mai apare nici macar o cratima clasica).
E vreo modalitate de a convinge Calibre sa faca ceva pentru a pastra Non-Breaking hyphen sau cum rezolvati voi problema asta?

Modificat de onlyra (acum 10 ani)


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Nu stiam ca exista cratima neseparatoare. Practic, ea impreuna cu literele cuvantului formeaza o singura unitate. Nu vad rostul cratimei neseparatoare.
Poate te referi la liniuta de despartire in silabe.


pus acum 10 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Nici eu nu stiam prea multe dar am observat ca atunci cand apar la sfarsit de rand, "s-a", "mi-a"..., sunt impartite "mi-" pe un rand si "a" pe urmatorul. Aceasta atunci cand cratima este caracterul minus de pe tastatura. Am observat asta si pe Kindle si in Word, deci nu sunt considerate o unitate si la fel este si cu cuvintele compuse mai mari sau numele de orase("Cluj-" pe un rand si "Napoca" pe urmatorul)
Aici pe forum idbmax foloseste Non-Breaking hyphen ca si cratima, ceea ce e excelent in Word, dar la conversie se pierde cratima asta si nu stiu cu ce cratima sa o inlocuiesc.
Speram sa fie o solutie pentru a ramane considerate o unitate si in formatele epub sau mobi.


Modificat de onlyra (acum 10 ani)


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Incearca sa faci un epub/mobi cu Atlantis.

pus acum 10 ani
   
onlyra
Membru Junior

Inregistrat: acum 11 ani
Da, e un bug al lui Calibre. Kovidgoyal, cel care a creat Calibre, a confirmat asta si o sa repare bug-ul.
Momentan(nu stiu de cateva versiuni) Calibre v2.01 ignora orice non-breaking hyphen.

O alta informatie utila e ca, dupa repararea bug-ului, orice cratima nedespartitoare(non-breaking hyphen) va fi convertite intr-o cratima simpla (hyphen) pentru formatele epub si mobi. Se pare ca majoritatea eReader-elor nu stiu sa afiseze non-breaking hyphen dintr-un epub. Doar formatul AZW3 va pastra non-breaking hyphen.

Multumesc de ajutor.

Modificat de onlyra (acum 10 ani)


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
De ceva timp incoa nici spatiul neseparator nu mai functioneaza. Atat pe Atlantis, cat si pe Calibre.

pus acum 10 ani
   
bokken
Membru Gold

Inregistrat: acum 16 ani

utilitasetveritas a scris:

De ceva timp incoa nici spatiul neseparator nu mai functioneaza. Atat pe Atlantis, cat si pe Calibre.

Nu mai funcţionează, zici tu? Cum adică, mai exact? E înlocuit cu altceva, dispare?
Eu l-am găsit la locul lui atunci când am deschis epub-ul sau azw3-ul într-un editor. Problema ţine de readerul pe care îl foloseşti (software sau device dedicat). În readerele bazate pe Adobe SDK,   va fi afişat exact aşa cum este de aşteptat să o facă. Problema pe care o semnalezi tu - spaţiul nejustificat de mare între linia de dialog şi primul cuvânt din paragraf, apare doar la readerele non-ADE, din câte am observat.
O posibilă soluţie ar fi, cel puţin pentru azw3 (verificată pe Kindle Previewer, for PC, for Android şi pe orice device Kindle), înlocuirea (în editorul Calibre, de exemplu) spaţiului neseparator &nbsp cu narrow non-breaking space, &#8239 mai exact.

Modificat de bokken (acum 10 ani)


pus acum 10 ani
   
bokken
Membru Gold

Inregistrat: acum 16 ani
Ai aici şi un screenshot, în sprijinul celor afirmate mai sus:

orice despre carti aici şi sprijinul celor afirmate mai sus:

60.4KB


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Caracterul e la locul lui, dar numai e afisat corect.

Posibil sa aiba legatura cu ultimul update de la Kindle Touch. O sa revin pe cel vechi sa vad daca problema dispare.


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Pana la urma spatiul neseparator are sau nu marime fixa? Daca variaza in marime ca spatiul normal, inseamna ca nu am nicio problema de fapt. Pe textele cu aliniat justified adica.
Daca variaza ca marime, atunci nu isi mai are rostul.

P.S.
O sa incerc sa folosesc NARROW NO-BREAK SPACE.

Modificat de utilitasetveritas (acum 10 ani)


pus acum 10 ani
   
bokken
Membru Gold

Inregistrat: acum 16 ani
Din screenshot-urile pe care le-ai postat pe mobileread văd că soluţia narrow non-breaking space funcţionează pe Kindle Touch-ul tău!
Asta doreai, nu?

Modificat de bokken (acum 10 ani)


pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
A... scuze, discutia s-a terminat prin alte parti.
Da, narow non-breaking space e spatiul cu marime fixa pe care il cautam.
Non-breaking space-ul normal, aparent nu variaza ca marime (de aici si problema mea cu el), dar numai pentru ca il menajeaza unele programe si cititoare, practic el poate avea o marime aleatorie pe textele justified.

P.S.
Pe moment nu am apucat sa il testez pe Kindle Touch. Dar nu cred ca e vreo problema cu el.

Modificat de utilitasetveritas (acum 10 ani)


pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Salutare,
Are cineva poate un dictionar german-roman pentru Kindle?
Sau are cineva experienta cu crearea acestor dictionare, si e disponibil pentru o colaborare cu scopul generarii unui asemenea dictionar?
La ce ma gandesc mai exact, referitor la colaborarea asta:
- pornim de la:
  * D1 - dictionar german -> <limba_x>, care sa contina un numar cat mai mare de cuvinte si forme inflexionare
  * D2 - dictionar <limba_x> -> Romana, care sa contina un numar cat mai mare de cuvinte traduse
- facem un script/program care sa insereze in D1 traducerile din D2

Rezulta Dictionar german -> <limba_x>+Romana
Limba_x probabil ca e engleza sau franceza, depinde de ce e disponibil cu un numar cat mai mare de cuvinte.
Eventual facem scriptul configurabil si-l folosim si la <limba_y> -> Romana

Ma angajez sa pun umarul la scriptul/programul de mai sus, dar nu am nici un fel de experienta cu Mobi, despachetarea/impachetarea dictionarelor prc/mobi/azw. Nu am nici "materia prima" - cele doua dictionare de mai sus.

Suna interesant pentru colegii cu experienta in Kindle? Sau sunt pe langa gard cu propunerea de mai sus?

P.S.
Sigur, daca exista un asemenea dictionar disponibil - cu forme inflexionare, verbe separabile, der/die/das, samd, care sa se integreze in Kindle (adica sa poata fi accesat direct din carte prin selectarea cuvintului) - zic sarut-mana si-l folosesc pe ala!


pus acum 10 ani
   
bokken
Membru Gold

Inregistrat: acum 16 ani

atari a scris:

Ma angajez sa pun umarul la scriptul/programul de mai sus, dar nu am nici un fel de experienta cu Mobi, despachetarea/impachetarea dictionarelor prc/mobi/azw. Nu am nici "materia prima" - cele doua dictionare de mai sus.


Salutare şi ţie, herr Atari!

În principiu se poate ceea ce doreşti, cu un singur amendament: dicţionarul D2 nu va fi un dicţionar <limba_x> -> limba română ci unul limba germană -> limba română!
Ce zici, te descurci să faci scriptul să lucreze în condiţiile impuse? Cu alte cuvinte, scriptul trebuie să facă următoarele: pornind de la două fişiere .txt (UTF-8), reprezentând D1 şi D2 -> ia fiecare cuvânt din D1 -> verifică existenţa cuvântului şi în D2 -> copiază definiţia cuvântului din D2 -> lipeşte definiţia cuvântului din D2 în D1, imediat după definiţia aceluiaşi cuvânt din D1. Şi tot aşa până la epuizarea cuvintelor din D1.
Formele flexionare (pentru cuvintele din D1) vor fi introduse după mixarea celor două dicţionare apoi urmează generarea fişierului dicţionar .mobi!

Ca "materie primă" intenţionez să folosesc "Concise Oxford Duden German Dictionary, 3rd Edition" (DE-EN - aprox. 150.000 cuvinte) pentru D1 şi un dicţionar mai sărăcuţ (DE-RO - aprox. 13.500 cuvinte) pentru D2. Altceva nu am la dispoziţie pentru D2...

E OK aşa?

Dacă te hotărăşti, dă-mi de ştire pentru a-ţi pune la dispoziţie câte un fragment din D1 şi D2 - pentru testarea scriptului de mixare!

Modificat de bokken (acum 10 ani)


pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Domnule Bokken, ne punem pe treaba!  Trimite-mi fisierele te rog.
Merge si asa cum zici tu, dar sunt doua potentiale probleme:
1. Formele flexionare care trebuie adaugate dupa aia. Ma refer la campurile <idx:infl> din specificatiile mobi. De unde le luam pe astea? De pus "la mana" nu e o solutie. Eu ma gandeam sa pornim direct cu un D1 care are info astea. :-) Sau e si o alta modalitate mai simpla/directa?
2. Numarul mic de cuvinte din dictionarul german-roman. Cred ca pescuim mai multi pestisori cu DE->EN->RO (daca sunt disponibile dictionarele de pornire, desigur).

Dar hai sa-i dam drumul intai la treaba asa cum propui tu si ne adaptam dupa aia la conditii si posibilitati.
Propun sa continuam "pe privat" operatiunea, e mai simplu de comunicat pe email/msg. Daca ajungem la un rezultat, dam aici de stire si altor utilizatori kindle. Intre timp, daca cineva are "materie prima"(dictionare) sau idei noi, rog sa posteze aici.


pus acum 10 ani
   
bokken
Membru Gold

Inregistrat: acum 16 ani
Nu-ţi face griji în privinţa formelor flexionare sau pentru orice altceva în afară de script. Dacă acesta îşi face treaba aşa cum am stabilit, de restul mă voi ocupa eu.

Alt dicţionar DE-RO nu am la dispoziţie şi mă îndoiesc că am putea găsi unul, aici cel puţin, judecând după interesul care i s-a acordat subiectului în aproape 24 de ore de la punerea sa pe tapet. Dacă se iveşte totuşi ceva, putem adapta din mers.

Da, ai dreptate în privinţa comunicării... Cred că cel mai probabil vom continua pe privat. Adresa aia de mail pe care o ştiu mai e valabilă? Dacă da, mâine dimineaţă (sper) o să-ţi trimit ceva ca să te apuci de lucru, împreună cu ceva mai multe detalii.


pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
"Nu-ti face griji" suna bine! (cred ca de vreo 30 de ani incoace nimeni nu mi-a mai dat sansa sa nu-mi fac griji! Nostalgic...)
Adresa de email e valida, astept sa fac stop pe piept la fisiere, cand ai timp de ele.


pus acum 10 ani
   
_Cosimo_
Membru Senior

Inregistrat: acum 13 ani
Dacă purcedeţi la o treabă atât de ambiţioasă şi demnă de toată lauda, ar trebui să folosiţi dicţionarul german - român de 1516 pagini de la Univers Enciclopedic de aici:

Descărcaţi toate versiunile de acolo şi vedeţi dacă se pot folosi. Dicţionarul arată excelent în versiunea pdf şi poate fi făcut un OCR foarte bun după el.

Luaţi legătura şi cu Aleph, el a făcut acelaşi lucru după dicţionarul englez-român de la Univers Enciclopedic şi are experienţa necesară.

Vă ţin pumnii!


pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Salutare Cosimo,
Da, am pornit la treaba, in principiu merge, dar mai este ceva de lucru. Din pacate dictionarul scanat nu ajuta prea mult, pentru ca nu se poate corecta ocr-ul ca lumea daca nu cunosti foarte bine ambele limbi. Adica se poate teoretic, daca verifici cuvant cu cuvant, dar asta e oarecum diferit fata de lecturarea/corectura unei carti si nu cred ca se baga cineva la munca asta de chinez introvertit...
Multumesc oricum pentru idee.


pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Am postat  in sectiunea "Forum Romania Inedit / Învățați limbi străine / Dictionare lba. GERMANĂ" prima versiune a dictionarului German-RomanGerman discutat mai sus:
http://romania-inedit.3xforum.ro/viewto ... 87#1473187



pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      atari,
      dacă vrei şi crezi că e mai vizibil sau mai bine, poţi deschide pe secţiunea "Învăţaţi limbi străine" chiar un topic dedicat dicţionarelor pentru Kindle.

      Chiar mă gândesc că am putea urca topicul sus, pentru că e vorba de contribuţie şi nu doar de un link cu ceva luat de undeva, deşi am impresia că topicurile puse sus sunt adesea mai puţin vizibile decât celelalte.

       În altă ordine de idei, cred că e bine să-i pui o versiune la dicţionar, de genul celor de la softuri... să zicem V.1.00
      Aş merge totuşi direct la V2.00 unde acel 2 ar însemna că avem două limbi [germană şi engleză]
      Dacă îi vei aduce îmbunătăţiri va fi o versiune V2.01 şi aşa mai departe.

      Dacă mai adaugi o limbă, atunci ar putea fi V3.01...
      Chestia asta este doar o idee... dacă nu vezi nimic util, o poţi ignora fără probleme.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Seven, nu stiu ce sa zic despre topicul dedicat dictionarelor Kindle.... Nu vad un interes deosebit pentru subiect, si nici nu stiu cate alte dictionare ar fi de pus in topic. Un topic pentru un singur dictionar ar fi inutil.

De acord cu numarul de versiune, am adaugat-o la postare.
Numarul de versiune exista deja in metadatele fisierului mobi generat ( <dc : Description>Mama Omida die Alleswisserin v1.1</dc : Description> ).

Modificat de atari (acum 10 ani)


pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Probabil că ai dreptate.
     Pentru moment s-ar putea să nu fie un interes pentru un astfel de dicţionar, dar eu constat că din ce în ce mai multe persoane îşi achiţionează un ereader, aşa că interesul ar putea să crească.

     Ca moderator al acelei secţiuni voiam să te asigur de toată disponibilitatea mea pentru promovarea dicţionarului.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Are cineva dicționar român pentru ABBYY varianta cu î din i în interiorul cuvântului?

Modificat de tdv (acum 10 ani)


_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
M-ar interesa si pe mine. Dar nu cred ca este.
Eu folosesc Abby 9 si nu are asa ceva.


pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Oare are cineva lista cu toate cuvintele din limba română și formele lor flexionare pentru a construi un dicționar pentr Abbyy? (Eu am lista dar fără formele flexionare)

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Aş putea încerca să fac o asemenea listă, dar eu cred că nu merită efortul să-i ataşăm lui Abbyy un dicţionar aşa de mare.

     Să mă explic:
     Am menţionat undeva pe topicul de actualizare al AutoCorect că în folderul de instalare există dicţionarul DEX şi alte dicţionare româneşti, iar ele cuprind şi formele flexionare, dar şi forme arhaice şi regionalisme... etc... etc...
     Cosmin Cioupercă mi-a pus la dispoziţie un executabil cu ajutorul căruia se pot extrage toate cuvintele care încep cu o secvenţă, care conţin sau se termină cu o secvenţă de cuvânt.
     Executabilul îmi poate extrage lista cu toate cuvintele care încep cu litera a, apoi cu litera b, cu litera c... şi aşa mai departe, apoi eu aş putea uni aceste liste într-un dicţionar de tip "dic" în care cuvintele sunt listate unele sub altele.
     Extragerea pentru fiecare listă va dura câteva ore dat fiind numărul mare de cuvinte ce trebuiesc listate, dar lucrul acesta s-ar face o singură dată, aşa că nu contează.
     Deci, cel puţin teoretic, lista se poate realiza.
     Am reuşit să extrag acum lista cuvintelor care încep cu litera a: sunt 96.148 cuvinte.

     Inconveniente:
          - Dicţionarele din folderul de instalare au în total 181 MO, din care doar DEX are 61 MO, iar sistemul de scriere este unul fără spaţii; lista rezultată va fi mult mai mare deoarece sistemul de scriere este altul mult mai lejer.
          - Punerea la lucru de către Abbyy a unui astfel de dicţionar imens va încetini foarte-foarte mult viteza de citire- recunoaştere, iar OCR-ul va fi extras într-un timp mul-mult mai mare. Probabil vor fi inclusiv momente de blocare a computerului pe timpul citirii.
          - Din câte am constatat eu, nu lipsa unui dicţionar  complet este cauza principală a erorilor făcute de Abbyy, ci fontul folosit la tipărire şi calitatea scanării; acestea îl fac pe Abbyy să nu poată determina corect aria de citire a unei litere: din acest motiv el poate citi "n" în loc de "ri", ori "m" în loc de "rn" şi invers... şi multe-multe alte erori.

     Abbyy are oricum un dicţionar cu principalele cuvinte româneşti, deci nu are nevoie de un dicţionar complet.
     Cred că un dicţionar util ar fi un dicţionar al cuvintelor scurte care conţin diacritice; de regulă acestea sunt cuvintele care conţin multe erori.
     Pe de altă parte, scanarea trebuie să fie de calitate şi la o rezoluţie bună pentru ca Abbyy să "vadă" cât mai bine unde începe şi unde se termină fiecare literă. Dacă în imagine literele sunt lipite unele de altele, Abbyy nici măcar nu va putea apela la dicţionare pentru că eroarea este determinată de faptul că nu va "descoperi" despre ce literă e vorba.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Nu cred că am fost suficient de explicit, aşa că încerc să mai dau câteva exemple.
      Când suntem copii şi învăţăm să citim, noi "citim" litere pe care le asamblăm în cuvinte. Cu timpul începem să citim cuvinte sau grupuri mai mari sau mai mici de cuvinte şi nu mai pierdem timpul cu fiecare literă în parte. Din acest motiv uneori nu vedem greşeli de scriere pentru că de fapt citim ce ar trebui să fie scris şi nu neapărat ceea ce este scris în realitate. Este motivul pentrucare la corectură sărim peste anumite erori.

      Abbyy citeşte întotdeauna literă cu literă şi apoi asamblează cuvântul, apoi îl compară cu cuvintele aflate în dicţionarul său.
      Dacă unele dintre litere au puncte în care sunt lipite unele de altele, asta este cea mai mare problemă pentru Abbyy.

      În situaţia în care litera f are acel arc din partea superioară mai lat şi se întinde deasupra literei următoare, avem şansa să-l antrenăm pe Abbyy să citească grupuri de două litere,precum, fi, fa, fe, fo... etc. Până la urmă vom obţine un text corectabil.
      În situaţia în care fontul are litere cu "talpă", adică literele formate linii verticale au acea talpă în partea de jos [ori sus] iar tălpile literelor m, n, i, l, se unesc între ele, Abbyy nu va mai reuşi să stabilească locul precis unde începe şi se termină o literă. Cu cât sucesiunea unor astfel de litere este mai lungă, cu atât Abbyy va face mai multe erori şi va "găsi" litere care nu există în cuvânt.

      Să luăm ca exemplu un m urmat de ceva; dacă va selecta mai puţin din litera m va face cel puţin două erori: prima este că nu va recunoaşte litera m, ci doar un n sau ri, apoi bucata rămasă o va lipi de litera următoare şi ar putea găsi un "v" acolo unde el nu există...
     Pentru că la citire a pornit deja cu o "coadă" a literei m este foarte posibil ca la această coadă să adauge doar o parte din litera următoare, iar partea a doua a acestei litere o va lipi de litera care urmează... până va descopei un punct clar în care literele sunt despărţite unele de altele.
     Cuvântul rezultat nu mai contează dacă va fi căutat sau nu în dicţionar deoarece acest cuvânt este oricum foarte "departe" de ceea ce ar trebui să fie.

      Ideea este că în primă etapă Abbyy face citirea şi în etapa imediat următoare face comparaţia cu cuvintele din dicţionar.
      Dacă citirea este foarte proastă, comparaţia cu dicţionarul nu mai foloseşte la nimic.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
utilitasetveritas
Pe lista neagra

Inregistrat: acum 12 ani
Corect. Totul depinde de calitatea scanarii si a paginii de carte. Singurul loc in care un astfel de dictionar ar fi util ar la verificarea ortografica manuala, pagina cu pagina, a erorilor din Abby, pe partea de cuvinte necunoscute de Abby adica.

Modificat de utilitasetveritas (acum 10 ani)


pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
Am ajuns la concluzia ca aveti dreptate. Multumesc pentru sfaturi!

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
KEYKO
Membru Junior

Inregistrat: acum 13 ani
Se pot importa dictionarele (dexb.dic si cele imd)  din autocorect in MS Word? Si cum?

pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Despre lista de cuvinte si forme flexionare in limba romana:
Am extras o lista cu toate cuvintele si formele flexionare din baza de date de la dexonline.ro, probabil cel mai complet dictionar roman existent la liber - de fapt o colectie de dictionare : DEX-uri, Litera, neologisme, arhaice, regionalisme, samd.
Sunt 2 probleme cu listele astea de cuvinte si formele lor flexionare:
1. Diacriticele sunt scrise sau cu cedila sau cu virgula (una din doua)
2. Cuvintele sunt scrise doar in grafia noua (â din a, sunt) sau doar in grafia veche.
In cazul celor de la dexonline: virgule, grafie noua.

Pentru a genera un dictionar care sa recunoasca si cedile si virgule, si â din a si î din i, e nevoie ca lista de forme flexionare sa fie extinsa cu formele de mai sus (cedile, virgule, â, î ). Asfel, cuvantul va fi gasit in dictionar oricare ar fi forma lui concreta de scriere in textul cautat.

Lista extinsa - cu variatiile explicate mai sus:
http://www.mediafire.com/download/vbqum ... rms-RO.zip


Lista cu forme flexionare e in formatul folosit de proiectul dsl2mobi, am generat-o asa pentru ca intentionam sa fac si un dictionar roman-german ptr Kindle (sora lu' "Mama Omida die Alleswisserin", aia ramasa in tara - "Mama Omida Atoatecunoscatoarea" ).
Dar m-am oprit deocamdata din lipsa de material de intrare...

Daca aveti nevoie de formele flexionare in alt format, acesta se poate genera relativ usor din fisierul asta.

Seven, despre lista de cuvinte scurte cu diacritice despre care ziceai mai sus ca ar fi utila: cum definim un cuvant scurt? 3 litere? 4 litere?
Intreb pentru ca pot sa extrag eu lista asta.

Modificat de atari (acum 10 ani)


pus acum 10 ani
   
tdv
Membru Gold

Inregistrat: acum 10 ani
La ABBYY 9 îi o problemă că nu lasă prea multe cuvinte care au aceeiași secvență, zice Dictionary overflow. Adică dacă urmează de foarte multe ori cuvinte care încep spre exemplu cu redev (redevelopare, redevenire, redeveniseți ș.a.).

_______________________________________
Tutorial docx în epub și mobi

pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Dicţionare... cuvinte scurte... limbaj clasic şi contemporan... diacritice cu sedila sau cu virgulă...
      Discuţia despre aceste aspecte este necesară şi cred că ar trebui să deschidem un topic special pentru astfel de discuţii.

      În urmă cu câţiva ani, atunci când s-a discutat pe forum despre o anume uniformizare a tipului de text aveam o singură dilemă: limbaj clasic sau contemporan.
      Erau doar diacritice cu sedila şi Word recunoştea doar cuvintele scrise cu astfel de diacritice.
      Între timp lucrurile s-au complicat din cauza celor două variante de diacritice, iar Word nu ne ajută deloc în sensul ăsta.


      Cuvinte scurte...
      @atari, am folosit expresia de "cuvinte scurte" în lipsă de ceva mai bun.
      În realitate încercam să mă refer la cuvinte cu mare frecvenţă în limba română care sunt de regulă cuvinte scurte.

      De fapt, "cuvinte scurte cu CRATIMĂ"...
      În postarea de mai sus am scris greşit "cuvinte scurte cu DIACRITICE. Voiam să mă refer la "cuvinte scurte cu CRATIMĂ.
      Lucrând în AutoCorect OCR Plus am constatat că cele mai multe erori apar la cuvinte scurte cu cratimă. Am tras concluzia că o cauză posibilă ar fi că Abbyy nu cunoaşte aceste cuvinte.
      Aici lucrurile sunt ceva mai clare: avem cuvinte formate din 2-5 litere plus cratimă, precum: m-a, mi-a, mi-au, mi-aţi. La acestea s-ar mai adăuga cuvintele compuse cu într-, dintr-, printr-. Probabil că mai sunt alte câteva situaţii pentru cuvinte mai lungi.
      O listă cu astfel de cuvinte o pot extrage eu din dicţionarele AutoCorect.
           
      Referitor la sensul de cuvinte scurte şi cu frecvenţă mare...
      Eu am pornit iniţial de la cuvinte din 3-4 litere, dar există şi serie de cuvinte cu frecvenţă mare ceva mai lungi: acolo, adică, nişte, decât, foarte, pentru, câteva, cândva, totuşi... aceasta, aceeaşi, fiindcă, câteodată, niciodată.......

      Putem crea un astfel de dicţionar, dar nu cu nişte criterii pur matematice, de genul cuvânt format din 5 litere, ori 6, 7 sau 8 litere.

      Cred că ar exista o posibilitate de realizare a unui executabil care să facă o căutare în funcţie de cea mai mare frecvenţă, dar eu nu mă pricep la programare.
      Dacă într-un text s-ar putea găsi cuvântul [succesiunea de caractere] care apare de cele mai multe ori în acel text, înseamnă că vom găsi cuvântul cu cea mai mare frecvenţă.
      Notăm acest cuvânt şi apoi îl eliminăm din text.
      Facem următoarea căutare şi vom găsi cuvântul care s-ar clasa pe locul 2 la numărul de apariţii.
      Îl notăm şi apoi îl eliminăm şi căutăm în acelaşi mod cuvintele următoare.

      Ştiu că e o chestie foarte complicată, dar eu m-aş băga la o astfel de muncă.
      Pe principiul căutării şi eliminării fac eu căutări în texte pentru dezvoltarea dicţionarelor AC.
      La un moment dat vom aveaun dicţionar de cuvinte cu frecvenţă mare, dicţionar pe care-l va putea folosi orice user în ce scop şi domeniu doreşte el.

      La momentul ăsta există pe net o listă cu 300 de cuvinte care au cea mai mare frecvenţă, doar că acea listă mai trebuie periată şi îmbunătăţită prin adăugarea de alte cuvinte.
      Cred că dacă am ajunge la o listă 1000 de cuvinte [fără cratimă], bine alese, scopul ar fi atins.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Asta cu Dictionary overflow e cam nasoala...
Seven zicea ca nu merită efortul să-i ataşăm lui Abbyy un dicţionar aşa de mare, dar cu eroare de mai sus asta devine  "nu e posibil să-i ataşăm lui Abbyy 9 un dicţionar aşa de mare".
Singura chestie care s-ar putea incerca e să-i ataşăm lui Abbyy un dictionar selectiv, daca este cazul, de exemplu cuvintele scurte cu diacritice.

@Seven
"Cred că ar exista o posibilitate de realizare a unui executabil care să facă o căutare în funcţie de cea mai mare frecvenţă."
Sigur, e posibil. Nu e nevoie neaparat de un executabil de sine statator, sunt diferite metode posibile pentru a obtine asta: VBA direct din MS word, scripturi (perl sau altceva)...
Problema e "cautare in ce?" In textul unei carti anume? Acumulare de rezultate dintr-un numar de carti?
Eu inteleg in principiu ce zici tu, dar programarea e in mare masura matematica (si intr-o oarecare masura - mult mai mica - inspiratie si poezie :-) )
Deci trebuie definite chestii clare pentru a obtine rezultate...

Discutia e interesanta, dar poate nu isi are locul aici. Un topic nou?

Modificat de atari (acum 10 ani)


pus acum 10 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Încerc eu să realizez un dicţionar de cuvinte scurte cu CRATIMĂ, în format "dic" [cuvintele sunt înregistrate unele sub altele].
     Un astfel de dicţionar "dic" se poate ataşa atât la Abbyy, cât şi la Word.

     Voi pleca de la cuvintele care sunt deja înregistrate în AC.
     Voi exporta dicţionarele care conţin cuvinte cu cratimă din AC în Excel, apoi voi elimina dublurile şi finalul îl voi exporta într-un dicţionar "dic".
     După ce postez dicţionarul, vom avea un dicţionar de plecare la lucru.
     Cred că e mai uşor să îmbunătăţim un astfel de dicţionar, decât să pornim de la zero.

     ***
     Da. Deschidem un topic nou pentru dicţionare.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 10 ani
   
atari
Membru Junior

Inregistrat: acum 11 ani
Bun asa. Pun si eu osu' la munca. Trece-ma pe lista! (explicatie pentru cei mai tineri, care n-au avut sansa sa stea la coada la butelii pe vremea lui Ceausescu: "Cine nu-i trecut pe lista, nu exista!" )
Nu te chinui cu excel, daca poti sa exporti cuvintele din AC intr-un fisier text preiau eu de aici, elimin dublurile si export in dic.
Apoi vedem ce si cum facem mai departe.  Daca e ceva de facut...


Modificat de atari (acum 10 ani)


pus acum 10 ani
   
KEYKO
Membru Junior

Inregistrat: acum 13 ani
Am o carte și la sfârșit are un indice de nume de vreo 50 de pagini. În ocr-ul pe care-l am  indicele de nume e făcut varză. Nu am scan de control, doar cartea tipărită. Trebuie să scriu eu indicele nume cu nume și numerele de pagini originale ori se poate și fără acel indice? Restul textului l-am corectat, dar m-am proptit în indice.

pus acum 9 ani
   
_Cosimo_
Membru Senior

Inregistrat: acum 13 ani
Într-o carte tipărită, indicele de nume are menirea să găseşti mai uşor acele nume în text, să nu bănănăi cu degetul după ele, ci să ştii exact la ce pagină să le cauţi.
Într-un e-book, acest indice de nume nu-şi are rostul, decât dacă e un e-book din imagini, pdf, djvu, cum facem noi scanurile de control. Dar într-un DOC, ePub, mobi etc. poţi căuta uşor numele respective.

Pe scurt, elimină-l liniştită!


pus acum 9 ani
   
KEYKO
Membru Junior

Inregistrat: acum 13 ani
Mulțumesc tare mult pentru ajutor!

pus acum 9 ani
   
Constantin G C
Membru Junior

Inregistrat: acum 11 ani
Am incercat sa convertesc vol 2 si 3 din Plodark cu Calibre in format azw3.
La ambele am primit un mesaj de eroare si conversia din docx in azw3 s-a blocat.
Am convertit fisierele in tft; am reluat conversia care de data asta a ajuns la capat dar azw3-ul rezultat nu a fost ceea ce m-am asteptat sa fie.
Am incercat cu alte fisiere docx si conversia a fost O.K.
Am convertit si Poldark 1 = O.K.   ????

Asta-i toata istoria!
Pana acum nu am avut probleme cu Calibre !


pus acum 9 ani
   
tuf
Vizitator



Nu ar trebui sa faci conversia direct DOC>EPUB
Salveaza documentul ca HTML filtrat, iar acest html converteste-l.
Uite aici:

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Neaţa oricui!

Scurt:
Înainte de septembrie 2012, 'juma de an am tot citit mai mult ce era pe About, decât secţiunea Cărţi propriu-zisă. Am fost atât de entuziasmat de ce se petrecea pe aici, încât am pornit la drum şcolăreşte!
Am luat de unde am putut Abbyy, Calibre, DJVU small, Autocorect, Scan Tailor etc şi am început să clicăi de capul meu! Evident că am mari lacune în privinţa utilizării lor şi astăzi!
O singură dată l-am întrebat pe Seven cum să scriu orice vreau într-un loc şi să apară cu galbenul ăla clasic al Forumului, care este întotdeauna un link.

Acum am două variante:
1. Să trec întâi jpg-urile din scanare prin Scan Tailor (munceşte coputeru'!) şi să mă lase cam des fără numerotaţia paginii! Apoi să intru cu ele în Abbyy. Altmintrelea, obţin un OCR mulţumitor!
2. Să balotez toată şandramaua scanată direct în Abbyy, apoi să curăţ şi să cropuiesc fiecare pagină pentru ca OCR-ul să aibă cât mai puţini „purici“, aşadar cei ce vor corecta textul să aibă cât mai puţin de lucru! Dar aici muncesc eu, asta durează cât nu merită şi este o operaţie teribil de nevrozantă!  Merge la o carte de 200 de pagini, la încă una de 350, dar tot te laşi de meserie la una de 850! În timpul pierdut astfel, pot scana altă carte!

Întrebarea este următoarea:
După ce am terminat de scanat cartea, ce am de făcut – şi cu ce program sau în ce ordine a programelor să pornesc – pentru a obţine un OCR cât mai „curat“?

Mulţumesc, de asemenea, oricui îmi va sugera ce să fac pentru a mai câştiga puţin timp pe care să-l dedic scanului!


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
tuf
Vizitator




Gângurel a scris:

Neaţa oricui!

Scurt:
Înainte de septembrie 2012, 'juma de an am tot citit mai mult ce era pe About, decât secţiunea Cărţi propriu-zisă. Am fost atât de entuziasmat de ce se petrecea pe aici, încât am pornit la drum şcolăreşte!
Am luat de unde am putut Abbyy, Calibre, DJVU small, Autocorect, Scan Tailor etc şi am început să clicăi de capul meu! Evident că am mari lacune în privinţa utilizării lor şi astăzi!
O singură dată l-am întrebat pe Seven cum să scriu orice vreau într-un loc şi să apară cu galbenul ăla clasic al Forumului, care este întotdeauna un link.

Acum am două variante:
1. Să trec întâi jpg-urile din scanare prin Scan Tailor (munceşte coputeru'!) şi să mă lase cam des fără numerotaţia paginii! Apoi să intru cu ele în Abbyy. Altmintrelea, obţin un OCR mulţumitor!
2. Să balotez toată şandramaua scanată direct în Abbyy, apoi să curăţ şi să cropuiesc fiecare pagină pentru ca OCR-ul să aibă cât mai puţini „purici“, aşadar cei ce vor corecta textul să aibă cât mai puţin de lucru! Dar aici muncesc eu, asta durează cât nu merită şi este o operaţie teribil de nevrozantă!  Merge la o carte de 200 de pagini, la încă una de 350, dar tot te laşi de meserie la una de 850! În timpul pierdut astfel, pot scana altă carte!

Întrebarea este următoarea:
După ce am terminat de scanat cartea, ce am de făcut – şi cu ce program sau în ce ordine a programelor să pornesc – pentru a obţine un OCR cât mai „curat“?

Mulţumesc, de asemenea, oricui îmi va sugera ce să fac pentru a mai câştiga puţin timp pe care să-l dedic scanului!


Degeaba ai citit daca nu ai intrebat

1. Preferabil e sa scanezi direct in Abby. Abby 12 chiar are niste setari faine pentru scanare.
Daca doresti poti folosi alt program, dar tot in Abby o sa revii dupa asta. De ce sa mai adaugi un program in plus?
In Abby scanezi prima oara copertile cartii, apoi salvezi proiectul de Abby. Odata salvat, urmatoarele imagini scanate se vor duce direct in el, la locatia indicata de tine la momentul salvarii.
Azi scanezi 100 de pagini, maine deschizi proiectul de ieri si mai adaugi inca o suta de pagini etc. Sau scanezi totul dintr-odata.

2. Scanarile brute, adica imaginile neprelucrate, se folosesc pentru extragerea ocr-ului. Este ideal ca scanarea sa fie facuta cu o rezolutie de minim 300 DPI, color sau in tonuri de gri (grayscale).
Ocr-ul nu se scoate din imagini alb-negru (decat daca esti disperat dupa acea carte ). Nu se scaneaza niciodata alb-negru.

2.1. Din scanarile brute se obtine pdf-ul sau djvul de control. Fie din imaginile brute, fie din imaginile prelucrate in ScanTailor. Daca vrei sa iasa cat mai bine, adica inclusiv numarul de pagina, trebuie sa verifici ochiometric cam 50% din carte, sa vezi daca zona de text cuprinde elementele corecte ale paginii de carte, asta in ScanTailor bineinteles.

3. Nu folosi zonarea automata din Abby pentru capturarea textului. Ia fiecare pagina in parte si pozitioneaza caseta de citire exact atat cat e necesar pentru textul acelei pagini. Chiar daca o sa aiba erori pe ici pe colo, o sa fie un text superior celui extras automat (adica converteste orice pata sau semn de pagina in caractere, iti amesteca header/footer si numarul de pagina cu textul propriu-zis etc)

4. Daca chiar vrei garantia calitatii si a textului COMPLET (uneori, la cartile vechi, ABBY sare peste siruri intregi de caractere, iar uneori randurile se imbina perfect peste golul ramas, iar la citire nu se baga de seama lipsa), dupa ce faci zonarea manuala a casetei de citire, dupa ce extragi ocr-ul, apoi poti sa corectezi in diagonala fiecare pagina in parte, pentru a remedia problemele mai grosolane.

5. Vezi clipurile.

6. Intreaba, intreaba, intreaba.

Clipuri:



7. PASI:

Scanare in ABBY 12 » Apoi salvat imaginile (din proiectul ABBY vor fi exportate ca TIFF) intr-un dosar separat, de unde vor fi preluate de ScanTailor » Apoi revenit la ABBY 12 (unde avem deja proiectul salvat) si extras ocr-ul.

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Neaţa, tuf!

Voi încerca ce mi-ai dezvăluit pe vreo câteva pagini, să vedem ce iese! Sunt curios cât timp voi câştiga utilizând sfaturile tale, dacă scanez o carte întreagă!
Îţi mulţumesc foarte mult!
Te ţin la curent! Ar fi jenant ca după doi ani jumate să pun pe Forum tot scanuri de cacao! Că de corectat nu mă trage aţa! Dar măcar scanurile să fie bune! Mai vedem!
PS: Extrem de interesant exemplul cu Scan Tailor! Mă voi distra până-l voi învăţa pe de rost!


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
      Gângurel, mulţumesc pentru întrebări.
      M-am gândit de mai multe ori că ar fi bine să mai reluăm dicuţia despre ScanTailor şi scanarea de sub Abbyy, dar...

      A trecut suficient timp de când câţiva colegi ne-au adus Scantailor pe forum.
      Este adevărat, s-au postat multe informaţii despre ST la vremea respectivă, dar atunci majoritatea eram la început de drum. În acest moment mulţi useri au multă experienţă şi au prelucrat deja multe mii de pagini în ST. Cred că ar trebui să redeschidem discuţia şi să abordăm în special problemele întâlnite şi rezolvate în ST.

      Aceeaşi problemă cu scanarea de sub Abbyy.
      Mie mi se pare cea mai simplă variantă de scanare. Pot stabili o zonă de scanare, astfel încât toate imaginile să fie deja cropate şi în plus pot stabili scanarea automată la interval de X secunde, astfel încât să nu mă mai ocup de computer, ci doar de manevrarea cărţii... Eu folosec intervalul 5÷15 secunde; mai puţin de 5 secunde e prea puţin şi sunt şanse să nu avem timp să aşezăm prea bine cartea pe ecranul scanerului; mai mult de 15 secunde nu e nevoie, pentru acesta este maximul de timp pe care l-am folosit la cărţi mari cu multe pagini la care se scana câte o singură pagină.

      În concluzie, cred că trebuie să reluăm aceste discuţii la un alt nivel şi cu o participare mai largă.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Intervalul de scanare (adica pauza de scanare pentru a aseza pe pozitie urmatoarea pagina) depinde de viteza cu care senzorul scanerului revine la punctul de pornire.
Eu il folosesc pe zero secunde la toate cartile.
Dus intors e cam 10 secunde de pagina la mine.

Daca calculatorul e mai slabut ca configuratie (chiar daca scanerul este rapid), este preferabil sa folositi pauza de scanare pentru a lasa timpul necesar prelucrarii si afisarii in Abby a imaginii scanate. Astfel aveti timpul necesar observarii oricaror probleme legate de scanare pe pagina curenta.


pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Seven,

Chiar n-ai pentru ce! Eu îţi rămân dator pentru şmecherica aia privitoare la [url]
Chestia cu „toate imaginile să fie deja cropate“ mi se pare absolut genială! La această operaţie pierdeam cel mai mult timp şi inventam uneori niscai multe noi sudălmi!
Abia aştept să verific! Dacă nu mă descurc din prima, vă necajesc iar!
Voi trece în revistă şi topicul referitor la Scan Tailor, înainte de a-l readuce tu în discuţie!

tuf,

N-am testat cu secundele! Ştiu că actualmente scanez 80 de pagini pe oră, folosind metoda face-to-face – o scanare, două pagini!

Foarte mulţumesc amândurora!


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
tuf
Vizitator



Normal ca poti si trebuie sa faci crop la zona de scanare ce rost are sa iti scanezi degetele sau spatiul gol

pus acum 9 ani
   
tuf
Vizitator



Apropo, 80 de pagini pe ora e foarte putin.
Asta inseamna ca faci 1 pagina pe minut.


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Gângurel, întrebarea ta nu este cauza, ci doar ocazia să reluăm discuţiile despre ScanTailor şi scanarea de sub Abbyy.
     Eu însumi nu mai sunt de acord în totalitate cu minitutorialul ScanTailor la care am colaborat.
     De la data acelui tutorial şi până în prezent am prelucrat multe cărţi prin ScanTailor şi mi-am schimbat pe ici pe colo punctele de vedere.

     Referitor la scanarea de sub Abbyy - ea este pur şi simplu foarte comodă.
     Poţi scana o carte în câte etape vrei şi se păstrează caracteristicile de scanare [atât timp cât ele nu sunt modificate intenţionat]; se poate face o previzualizare şi stabilirea zonei de scanare [practic un crop] şi toate paginile din etapa de scanare vor păstra acest crop. Pe de altă parte, de un crop bun depind toate etapele de prelucrare ulterioare.

     Referitor la viteza de scanare... nu sunt chiar de acord cu tuf... depinde de cartea pe care o scanezi... de mărimea ei... de vechimea ei... de cât de bine se deschide...
     De-a lungul timpului am folosit pauze chiar mai mari de 15". Atunci când scanezi un dicţionăroi de 3 kile, manevrarea cărţii trebuie făcută cu mare atenţie şi prefer să fac scanarea pe îndelete şi de calitate decât să fac munca de două ori... Dacă tot faci o muncă pe care nu mai trebuie s-o facă şi altcineva şi dacă tot sacrifici o carte de valoare, atunci cred că scanarea trebuie să fie la calitate maximă. În principiu, toate scanurile_control pe care le realizez, fie ele PDF sau DjVu, sunt Searchable, fapt pentru care am nevoie de o scanare de calitate.

     Dacă greşim la o corectură, nu-i mare bai, pentru că vine corectura următoare şi rezolvă problema. Dacă greşim o scanare e mare bai pentru că s-ar putea ca să nu mai aibă nimeni cartea ca să poată reface scanarea paginilor ilizibile... pe de altă parte o scanare, fie bună sau proastă, înseamnă muncă şi distrugerea în mai mare sau mai mică măsură a cărţii, carte care poate fi rară şi de valoare. dacă tot muncim şi sacrificăm cartea, atunci măcar să avem satisfaţia obţinerii unui scan aproape perfect... deci FĂRĂ GRABĂ!


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
tuf
Vizitator



Atunci punem si asta pe lista.
Viteza de scanare e direct proportionala cu dimensiunile fizice ale cartii si cu atentia cu care o folosim pe durata scanarii

Eu pretensionez cartile groase brosate inainte de scanare, evit sa le fortez la momentul scanarii. In felul asta singurul lucru de care mai depind e viteza de scanare si pozitia in care scanez.

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Acum am priceput de ce ar fi bine să fie reluată discuţia despre ST.

Eh, voi avea grija să nu vă trimit şi amprentele mele, după cum sunt foarte atent să nu apară semnătura mea nicăieri!
Mulţumesc pentru încurajare! Am debutat cu 35-40 de pagini pe ora! Sunt la dublu şi eram tare mulţumit! Dar dacă se poate şi mai bine, de ce să nu profit?! Cu setarea la 10 secunde înseamnă 6 pagini pe minut, 60 în 10 minute şi 360 pe oră! Asta da eficienţă! Dar după aia mă odihnesc vreo 2 ani, ca să-mi treacă amorţeala din mâini! Am înţeles că pot schimba oricând intervalul dintre două scanări, dar dacă încep o tradiţie, măcar să rămân constant!

Vă mulţumesc!
Voi urmări de acum înainte şi discuţiile de aici, iar dacă mă poticnesc, vă întreb! 

Modificat de Gângurel (acum 9 ani)


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Am citit cap-coadă DISCUŢII Scan Tailor.
Postez deocamdată până diseară Calvino în sistemul obişnuit, apoi încep să mă joc mai întâi c-un număr mic de pagini, cum făcură şi înaintaşii, că-i mai înţelept!
Am luat de pe mediafire şi cele 4 tutoriale puse de Seven.
Multe mulţumiri!


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
***
     Nu, nu! Nu se scanează chiar aşa de repede. 
     Timpul de pauză poate fi 0, ori 5" sau mai mai mult, dar...
     Timpul total de scanarea al unei pagini este suma a 3 timpi şi anume:
             - Ts = timp de defilare-scanare senzor,timp în care se face scanarea propriu-zisă; timpul ăsta depinde exclusiv de caracteristicile de fabricaţie ale scanerului.
             - Tr = timp de revenire senzor la poziţia iniţială; din nou, acest timp este dat de caracteristicile scanerului;
             - Tp = timp de pauză; este acest timp care poate fi setat pe 0 secunde până la cca 15"

      În momentul scanării prpriu-zise [Ts] utilizatorul nu poate face nicio altă activitate; pur şi simplu păstrează cartea apăsată pe scaner.
      Pentru manevrarea cărţii, utilizatorul are la dispoziţie doar Tr + Tp.
      Dacă pe timpul de revenire al senzorului,utilizatorul n-are timp să facă manevrarea cărţii, atunci măreşte timpul de pauză până ajunge la timpul necesar plus 2-3 secunde pentru situaţii neprevăzute [când ai dat două pagini şi trebuie revenit, o eventuală îndreptare a unei pagini, forţarea deschiderii în cazul unei pagini lipite mai mult decât celelalte... etc...]

      Avantajul scanării automate cu setarea unui timp de pauză, este acela că utilizatorul nu mai trebuie să dea comenzi de începere a scanării în cazul fiecărei pagini, iar timpul îl poate folosi la maxim doar pentru manevrarea cărţii pe timpul scanării...  şi nu-şi mai oboseşte ochii urmărind permanent monitorul.

       Indiferent cum am proceda timpul total de scanare al unei imagini este undeva în jurul unui minut, deoarece timpul de rulare-scanare al senzorului de-a lungul întregului ecran este de circa 25"÷45" la scanerele obişnuite, deci acest timp are cel mai mare rol şi nu-l putem influienţa decât foarte puţin. Bineînţeles, vorbim aici de scanarele "pentru acasă", cu preţuri sub 1.000 Ron.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Altă rugăminte, domnilor!

Vreau să citesc un roman sau orice fel de carte. Am luat o versiune de pe Forum şi e pe Kindle.
Dar caracterul e atât de mic, încât nici landscape nu pot citi, că tot ajung să mijesc ochişorii!
Prin ce program trec acel mobi sau pdf şi la ce manevre apelez pentru a-i mări fontul?! Ar fi păcat dacă tot reiau cartea să n-o şi duc la o altă versiune! O am şi tipărită şi-o pot citi foşnind pagina, dar poate aveţi amabilitatea şi timpul să-mi răspundeţi şi mai îmbogăţim Forumul cu o cărţulie sau o versiune nouă, colea-şa!
Vă mulţumesc!

Seven,
Am citit Scan control si alte alea...

Modificat de Gângurel (acum 9 ani)


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
idbmax
VETERAN

Inregistrat: acum 14 ani
Daca este format mobi sau epub folosesti Calibre si transformi fisierul in rtf, dupa care word-ul sa traiasca faci fontul si formatarea cum vor muschii apropitarului.

Stima!


_______________________________________
"de GUSTIBUS et COLORIBUS non disputandum"
(Seneca)
Contributia mea pe forum:
Colectia O Altfel de E-Carte
Colectia Aleksandr Romanovici Beleaev
FOILETON-TRACIA MAGAZIN - O revista virtuala
Colectia Romane  de Aventuri si Istorice - romanesti
Wild, Wild, West - Colectie western
Colectia CALATORI PRIN TIMP

O altfel de E-Carte - BLOG

pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Foarte mulțumesc! Rețin! Iar dacă uit, revin la postarea ta și o citesc iar!
Singura problemă e că acel coleg a pus doar un DOCX. În acest caz cum procedez cu nenea Calibrele?! După cum știm, Kindlele nu degustă decât PDF sau MOBI!
Aceeași stimă!

Modificat de Gângurel (acum 9 ani)


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
tuf
Vizitator




Gângurel a scris:

Foarte mulțumesc! Rețin! Iar dacă uit, revin la postarea ta și o citesc iar!
Singura problemă e că acel coleg a pus doar un DOCX. În acest caz cum procedez cu nenea Calibrele?! După cum știm, Kindlele nu degustă decât PDF sau MOBI!
Aceeași stimă!

Salvezi RTF/DOC/DOCX ca HTM/HTML FILTRAT

SAU

Ai deja un EPUB

Le copii in dosarul de la Kindlegen si executi scriptul necesar (ales in functie de tipul de fisier folosit).
Scriptul cauta toate fisierele (indiferent de nume sau de numar) cu terminatia respectiva si le converteste in MOBI.
Totodata elimina si fisierul-sursa care, de regula, era inglobat in MOBI.


P.S.
Daca vrei si MOBI si EPUB, foloseste Atlantis.

Modificat de tuf (acum 9 ani)


pus acum 9 ani
   
Gângurel
VETERAN

Inregistrat: acum 12 ani
Îţi mulţumesc!

Omologhez şi propunerea de la tine!
Mai am încă două variante, una de la stelus şi alta de la menadel. M-oi descurca până la urmă cu una dintre ele!

PS: Am reuşit, cred, privind din unghiul meu, să trec peste un hop. Apropo de Balzac scris de Maurois, am scanat într-o zi 550 de pagini – şi n-am păzit scannerul toată ziulica – ajungând la 100 de pagini pe oră! Asta pe fondul verificării fiecărui scan pe măsură ce era făcut! Nu sunt erou şi ştiu că mai am până să mă primeşti la tine-n Clubul Marilor Exemplari Scanatori Vitezişti Fără Măsură, dar am pe viitor acest reper când îmi va fi lene să muncesc dacă dau iar peste o carte mai groscioară! Şi d-astea sunt destule!


_______________________________________
Câteva OZN-uri... * Ion HOBANA * Mici contribuţii la Charles Dickens * Ion IANOȘI * Sergiu FĂRCĂȘAN * Italo CALVINO * Knut HAMSUN * Voicu BUGARIU
Apariții meteorice:
DOSTOIEVSKI l T. MANN l MARIN PREDA I J. VERNE l PETER F. HAMILTON l SF_46-89 l SF_&_F l BIOGRAFII l CRITICĂ l GRAMATICĂ l DIETA l MISTERE

pus acum 9 ani
   
Pagini:  1 2 3  

Mergi la