Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Lista de useri | Cauta | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Diana96 Profile
Femeie
25 ani
Bucuresti
cauta Barbat
25 - 50 ani
Forum Romania Inedit / Totul despre cărți - About e-books / Initiativa de reglementare a Cartilor electronice - mai 2010 Moderat de Seven, Stelevadris, cuculean, naid, uncris  
Autor
Mesaj Pagini:  1 2 3
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
[DEZBATERE]

                  ═════════ INIŢIATIVĂ DE REGLEMENTARE A CĂRŢILOR ELECTRONICE ═════════
                                        Sistemul de standardizare RIF1 [Romania Inedit Forum 1]


     ACEASTĂ POSTARE URMEAZĂ A FI MODIFICATĂ ŞI REACTUALIZATĂ
     EXPUNERE DE MOTIVE:
     Cartea electronică este concurenta serioasă a cărţii pe hârtie în prezent şi, probabil, singura variantă de carte în viitor.
     E-Readerul, deşi scump în acest moment, va fi la îndemâna tuturor în viitorul apropiat.
     Mulţi oameni sunt doritori să participe la realizarea cărţilor electronice, dar le-ar trebui un ghid, un manual sau un tutorial complet după care să se ghideze.
     Nu am găsit în limba română, un manual sau un tutorial complet despre realizarea carţilor electronice.

     PROPUNERE: Propun realizarea unui astfel de ghid în variantă site ori document, care să poată fi la îndemâna celor interesaţi. Acest studiu, experiment sau cum doriţi a-i spune, va purta numele RIF1
     El ar trebui să fie gândit ca o STRATEGIE PENTRU VIITOR, să ofere soluţii pentru cărţile viitoare şi nu neapărat pentru cele prezente azi pe forum. Între timp, cei ce vor dori vor încerca mai mult sau mai puţin să se alinieze la acest ghid.
     Consider că acest ghid trebuie să ofere informaţii cât mai complete şi complexe, astfel încât dacă cineva doreşte, să poată realiza cărţi de înaltă calitate, cât mai aproape de CARTEA PERFECTĂ. Ghidul nu va fi, sub nici o formă, obligatoriu pentru nimeni, aşa cum [iertată să-mi fie comparaţia] nimeni dintre cei ce lucrează în Word nu e obligat să respecte cele scrise într-un manual de Word. Ghidul va putea să fie sau să nu fie folosit, după dorinţă şi în funcţie de experienţă.

     DE CE ACEST LOC PENTRU DEZBATERE?
     Deoarece pe acest forum se găsesc mulţi useri cu multă experienţă, am considerat că aici este locul unde, printr-un efort comun, se poate încropi un asemenea ghid.
     Pentru a nu pleca de la zero, am considerat că ar fi indicat să plecăm de la o schiţă de format, din care pun câte o parte la dispoziţie pentru discuţii.
     Această schiţă am încercat s-o realizez cu elemente din experienţa personală, cu elemente rezultate din studierea unor tutoriale de pe acest forum şi de pe alte surse în limba română. Am avut la îndemână şi un site-ghid în limba engleză, a cărui adresă nu am dreptul s-o pun la vedere.
     
     Deocamdată m-am oprit la 3 aspecte:
          - 1. Clasificarea cărţilor electronice
          - 2. Nomenclatura
          - 3. Codificarea versiunilor

     Pun la dispoziţie un Site-Google de lucru, pe care intenţionez să actualizez permanent variantele rezultate din discuţii.
     Dacă se va trece la discutarea altor aspecte decât cele 3 de mai sus, site-ul va prezenta doar acele aspecte şi nu vor mai fi găsite pe el cele discutate deja.                  ═══════════════════════════════════════════
                  CODIFICAREA VERSIUNILOR CĂRŢILOR ELECTRONICE:
                  ═══════════════════════════════════════════


    Codificarea versiunilor cărţilor electronice, în funcţie de etapa de realizare în care se află sunt arătate mai jos.
    Aceste coduri se trec la sfârşitul numelui cărţii, exact ca în cazul versiunilor unui program de calculator. De subliniat că ele se înscriu în paranteză pătrată sau rotundă.
      Notă: Schimbarea formatului unui text prin convetirea de la un format la alt format (rtf -> doc -> pdf etc) nu înseamnă că s-a făcut o versiune superioară - versiunea se referă la corectură şi nu la format, versiunea se păstrează indiferent de format.


                  ═════════ CORECTURI AUTOMATE ŞI SEMIAUTOMATE ═════════

    V0.1  = înseamnă "necorectat", adică OCR brut, aşa cum este el extras de programul Abbyy sau alt program de tip recognito. Se poate folosi şi expresia  [OCR]  sau  [OCR_brut]

    V0.2÷ V0.8  = este un OCR asupra căruia s-au făcut o serie de îmbunătăţiri: corecturi automate sau semiautomate, scoaterea  artefactelor (imagini eroare, pete, linii, caractere nonalfabetice şi noncifrice etc.) Aceste versiuni arată un OCR perfectibil.
    Stabilirea versiunilor V0.2 ÷ V0.8 este la dispoziţia persoanei care face aceste corecturi sau a echipei din care face parte şi are rolul de a evidenţia îmbunătăţirile făcute asupra textului, atunci când ele nu sunt făcute în totalitate.

    V0.9  = este OCR-ul "perfect", asupra căruia s-au făcut un număr maxim de corecturi şi înlocuiri automate şi semiautomate, dar nu s-a făcut corectură prin citire; această versiune păstrează numerele pagină;
      Notă: numerele de pagină au rol de coordonate, pentru o mai uşoară orientare concomitentă în text şi pdf-ul din imagini.
      Atenţie: Această versiune arată un OCR PERFECT; ea nu trebuie acordată cu uşurinţă oricăror texte asupra cărora s-au făcut câteva intervenţii.                  ══════ CORECTURI MANUALE PRIN CITIREA TEXTULUI CAP-COADĂ ══════

    V1.0  = corectura de fond sau corectura de conţinut este o corectură amănunţită, prin citirea+corectarea cuvânt cu cuvânt, pagină cu pagină a textului, prin compararea cu originalul (cartea pe hârtie sau pdf_img). Versiunea [V1.0] implică formatarea textului, evidenţierea capitolelor etc.
      Notă: nu se recomandă despărţirea pe silabe în această fază, ci după versiunea finală, eventual după sau pentru convertirea în diferitele formate pentru e-readere.

    V2.0; V3.0; V4.0. Atunci când altcineva mai ia o dată cartea la citit+corectat, mai adaugă o unitate la versiune. Se referă la corecturi privind semnele de punctuaţie, litere lipsă sau în plus etc. Acestea sunt corecturi de formă a textului, fără a mai face confruntarea cu originalul.
      Din practică rezultă că şi aceşti corectori trebuie să aibă acces la original, pentru că uneori pot să apară situaţii critice, care necesită confruntarea obligatorie cu originalul şi, eventual, cu alte ediţii.
      Notă: Este obligatoriu ca fiecare versiune de la [V1.0] la [V5.0] să fie făcută de câte o altă persoană. Prima cifră a versiunii arată şi numărul de persoane care au făcut corectura prin citire de la cap la coadă a cărţii.
      Recitirea+corectarea de mai multe ori a textului de către aceeaşi persoană nu va majora versiunea textului decât cu o zecime de unitate, astfel că o versiune V1.0 poate deveni V1.1; V1.2... V1.9, dar, sub nici o formă, nu va deveni versiunea V2.0.
       
    V5.0  = cartea corectată şi formatată la o calitate care i-ar permite să plece la tipografie.

      La cărţile electronice ultima etapă este convertirea într-un format de tip pdf sau formate speciale, care nu se mai pot sau nu ar mai trebui să poată fi modificate (editate).


                  ══════ FORMATĂRI ESTETICE, PROFESIONALE ŞI ÎN FORMATE SPECIALE ══════

      Formatări estetice: În funcţie de preferinţe, după executarea corecturilor se pot face formatări speciale cu scop estetic, prin:
      - adăugarea de ornamente topografice alb-negru sau color:
      - adăugarea de imagini alb-negru sau color;
      - adăugare de fundaluri (background de tip gradient, texture, pattern sau picture) ori borduri (borders).
      - Formatarea cu fonturi artistice a capitolelor ori a altor părţi din text etc. etc...


                  ═════════════════════════════════════════════════════════════════          ACŢIUNI, ETAPE ŞI FAZE PENTRU OBŢINEREA "OCR-ului perfect"
          [Propunere Aleph - listă îmbunătăţită şi reactualizată, conform discuţiilor]

          1. Pagina
    1) Se stabilesc dimensiunile paginii la A5, cu oglinda suficient de mare.
    2) Se elimină marcajele de secțiune; documentul va avea o singură secțiune.
    3) Se elimină coloanele.
    4) Caracterul de sfârșit manual de pagină se elimină sau, dupa caz, se înlocuiește.
    5) Informația din antetul și/sau subsolul original se elimină; dacă aplicația OCR include în text numerele originale de pagină, acestea se vor păstra.
    6) Se verifică pagină cu pagină prezența integrală a textului.
    7) Documentul rezultat se salveaza în format DOC.


          2. Paragraf
    1) Se elimină toate stilurile introduse de aplicația OCR.
    2) Paragrafele de text se spațiază la un rând (single), cu alineat, și se justifică stînga-dreapta.
    3) Titlurile se centrează și se scriu cu bold, cu spațiu înainte și după.
    4) Dacă sunt prezente în original, se introduc spații înainte și după unele paragrafe.
    5) Se plasează notele în subsol, cu numerotare de la 1 la n.
    6) Se refac paragrafele scindate prin Enter de către aplicatia OCR.
    7) Dacă există în original, pasajele speciale se scriu cu corp mai mic, se indentează și se spațiază.
    8) Bullets and Numbering se transformă în text.t


          3. Litere, cifre si alte caractere
    1) Se folosește scrierea cu caractere românesti (codepage 1250); pentru compatibilitate se utilizează literele cu cedilla în loc de virguliță.
    2) Se folosește peste tot același font cu serife, de aceeasi mărime măsurată în puncte; dacă este nevoie, se mai folosește cel mult un alt font (preferabil sans-serif).
    3) Titlurile se scriu cu corp puțin mai mare.
    4) Se formatează toate caracterele la scara de 100%, cu spațiere normală (nu condensate, nici extinse) și, cu excepția indicilor și exponenților, poziție normală (nu ridicate, nici coborâte).
    5) Se elimină evidențierea cu culoare a caracterelor, rămasă de la aplicația OCR.
    6) Cuvintele se formatează cu bold, italic și bold-italic, conform originalului.
    7) Se elimină paragrafele goale (Enter-urile consecutive).
    8) Caracterul de sfârșit de linie se elimină sau, dupa caz, se înlocuiește.
    9) Caracterului Tab se elimină sau, după caz, se înlocuiește.
    10) Se elimină spațiile duble.
    11) Se elimina spațiile din fața semnelor de punctuație (virgulă, punct, punct și virgulă, două puncte, semnul exclamării, semnul întrebării, puncte-puncte, ghilimele închise, paranteze închise) și de după ghilimelele deschise și parantezele deschise.
    12) Se elimină caracterul „spațiu” de la sfârșitul și începutul paragrafelor.
    13) Se elimină cratima opțională de despărțire în silabe; documentul nu se desparte în silabe.
    14) Se corectează paragrafele care se termină cu literă mică, virgulă, punct și virgulă, cratimă, liniuță despărțitoare.
    15) Se corectează paragrafele care încep cu literă mică sau cu semne de punctuație.
    16) Liniile de dialog sunt Em dash (Alt+0151) sau Horizontal line.
    17) După liniile de dialog se pune Nonbreaking space.
    18) Referirile în text la notele de subsol se scriu cu font normal-drept și se plasează înaintea semnelor de punctuație, cu excepția situațiilor când nota se referă la întreaga frază.
    19) În subsol, după numărul de referință al notelor se pune Nonbreaking space.
    20) Puncte-puncte scrise cu trei puncte (...) se înlocuiesc cu caracterul Elipsis (Alt+0133).
    21) Se înlocuiește apostroful drept Alt+0039 cu apostroful tipografic Alt+0146 (dacă nu este vorba de notația pentru minute).
    22) Se înlocuiesc ghilimelele cu cele românești 99-99: „ – Alt+0132 și ” – Alt+0148 (dacă nu este vorba de notația pentru secunde).
    23) Se elimină spațiul din fața și de după cratima de legătură.
    24) Se înlocuiește cratima explicativă cu liniuța separatoare En dash, precedată și urmată de un spațiu.
    25) Se înlocuiește cratima din intervalele numerice, cu En dash (ex. 24-36 sau XV-XVI).
    26) Ordinul miilor din cadrul numerelor se separă prin Nonbreaking space, cu excepția anilor, care se scriu legat.
    27) Se elimină artefactele introduse în procesul OCR ( | / @ , . ^ # etc.).
    28) Se asigură prezența unui spațiu după semnele de punctuație din cadrul frazelor.
    29) Se elimină situațiile în care o cifră apare în locul unei litere (0 – „zero” în loc de litera O majusculă sau invers (litera l mic apare unde trebuie să fie cifra 1).
    30) Se formatează (italic, bold, bold-italic) caracterele semn de exclamare și semn de întrebare, la fel ca și cuvântul care le precede.
    31) Numele proprii se scriu ca în original, și unitar.
    32) Se elimină greșeli de OCR prin folosirea corecturii semiautomate (cu confirmare) făcută cel puțin cu dicționarul dintr-o versiune de Word.
    33) În cuvintele compuse, cratima se înlocuiește cu Nonbreaking hyphen.


          4. Grafica
    1) Imaginile grafice (fotografii, diagrame, schițe, etc.) se scanează la 200 sau 300dpi, color sau nu, ca în cartea tipărită.
    2) Imaginile se plasează „inline” in text, între două paragrafe, cât mai aproape de locul original. 


          5. Optional
    1) Se păstrează grafia cu î din i, și cu „sînt” în loc de „sunt”.
    2) Se verifică prezența paragrafelor, conform originalului.
    3) Tabelele se transformă in text.
    4) Se formatează (italic, bold, bold-italic) semnele de punctuație, parantezele închise și ghilimelele de sfârșit, la fel ca și cuvântul care le precede.
    5) Se formatează (italic, bold, bold-italic) parantezele deschise și ghilimelele de început, la fel ca și cuvântul care le urmează. 


Modificat de K7 (acum 11 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
Sunt cateva subiecte importante care nu au fost niciodata abordate deschis si riguros pe forum. Acesta este unul dintre ele. E semn ca forumul se maturizeaza.
K7, multimim!

Reglementarile propuse sunt excelente. Ar fi de zis urmatoarele:

1. Topicul e de pus sticky. Daca va exista o dezbatere, si in cursul ei vor aparea modificari sau completari pertinente (care, adica, nu vor fi respinse de membrii forumului), K7 trebuie sa aibe posibilitatea sa actualizeze reglementarile. E bine sa existe un termen limita la care dezbaterea sa se incheie si regulile sa devina operante. Vreo doua saptamani ar trebui sa fie suficiente, fiindca setul de reguli pare complet.

2. De acord cu codificarea versiunilor. Trebuie tinut seama ca pana in acest moment versiunea 1.0 nu presupunea citirea cartii. Cel putin cele 5 titluri preluate de mine la ver. 1.0 si aduse la ver. 2.0 erau in stadiul marcat cu 0.9 conform noii reglementari. E oare util sa precizam, pe langa versiune, si standardul la care se aliniaza numerotarea?

3. La realizarea versiunilor superioare v2.0-v.5.0 este nevoie in continuare de confruntarea cu cartea tiparita. De exemplu, pentru ca la ultimele doua carti preluate de pe forum si citite, am intalnit locuri in care textul electronic coincidea cu cel tiparit, dar fraza respectiva nu avea sens (randuri lipsa la tipar sau traducere cu totul eronata). A trebuit sa ma uit in cartea tiparita sa vad ca nu e nimic gresit, dupa care am corectat fraza dupa originalul in limbile poloneza sau engleza. Si mai sunt si alte cazuri in care e utila confruntarea cu versiunea tiparita, pentru ca, asa cum spunea cineva, oricat de buna ar fi corectura, greseli tot mai raman.

Deocamdata atat... 

Modificat de Aleph (acum 10 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
Mulţumesc Aleph.
   Reformulez: Neavând un standard anume, pe topicul ăsta lucrăm fiecare după standardul lui. Când apar noi şi noi useri cu intenţia de a lucra, e păcat să nu aibă nimic după care să se ghideze.
   Da, există nişte reglementări, dar la ele nu au acces decât un număr restrâns de persoane, iar acestea de aici nu sunt foarte diferite de acelea.. Părerea mea e că este corect ca TOŢI să avem acces la informaţii. Pentru asta am deschis discuţia.
   
   1. Da ar trebui să ne limităm cu discuţia până în Crăciun, să zicem până la 23 decembrie. Oricum după data asta, pentru o perioadă nu vor mai intra prea mulţi pe forum.
   2. Discuţia principală e pe zona: Codificarea versiunilor cărţilor electronice. Celelalte probleme au rol informativ şi nu cred că ridică probleme.
   3. Ai dreptate. Şi la V2.0 - V5.0 e nevoie de carte pentru confruntare, dar nu ca metodă de lucru, ci ca excepţie pentru situaţii dosebite. Am întâlnit şi eu situaţia cu text lipsă în cartea tipărit. De aceea eu militez pentru cartea electronică lucrată într-o echipă de la zero, adică începând cu scanarea.
   Standardul să poarte un nume? Da, ar fi o idee. De fapt cam aşa se procedează... toate standardele au un nume şi un număr ceva... "Standard RI-2011"? Tre să mai cugetăm...

   4. În realitate site-ul adevărat se vrea mult mai complex.
    De fapt, intenţia mea e să punem la dispoziţia celor interesaţi o metodă de lucru a cărţilor electronice de la a la z, adică de la scanare la formatarea specială.
    Problemele supuse discuţiei aici sunt, doar introducerea la acea metodă de lucru.
    Să vedem însă dacă va prezenta interes...

Modificat de K7 (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
4. Propunere pentru denumirea standardului: RIF1, de la Romania Inedit Forum. "Forum" - pentru a se deosebi de alte standarde obscure (a se citi "invizibile" ). Daca in decursul vremii vor aparea modificari ale standardului, se poate trece la RIF2, sau RIF1.1, cu un changelog punctand diferentele fata de versiunea anterioara.

5. Sa observam ca standardul propus NU ESTE UN STANDARD DE CALITATE. Nu garanteaza ca toate lucrarile cu versiune 3.0, de exemplu, vor avea aceeasi proportie de greseli necorectate, aceeasi formatare etc. Calitatea unui release depinde de multe lucruri - de calitatea tipariturii si a scanului initial, de priceperea, seriozitatea, cunoasterea limbii romane si a conventiilor tipografice de catre autorul versiunii respective.
Aceste lucruri pot fi reglemantate de un alt "open standard", sau pot foarte bine sa fie lasate in grija constiintei fiecaruia dintre noi, in ideea ca nu dam rasol - depunem un efort (rezonabil, macar) pentru realizarea unei versiuni.
In fond nici calitatea e-book-urilor care se pot cumpara de pe site-uri serioase de limba engleza nu este consistenta, dar mai e si un alt aspect: nu e nevoie ca cineva sa verifice "la sange" daca ceea ce se posteaza pe site este sau nu ver. x.0 (nici nu stiu cine s-ar angaja sa faca chestia asta).

Modificat de Aleph (acum 12 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
4. RIF1 - eu sunt de acord cu numele;

5. Standardul stabileşte practic metoda şi nu calitatea.
    Depinde de gradul de răspundere/superficialitate al celor ce lucrează. Ideea este că, dacă la versiunea [V1.0] se face corectura după original [carte pe hârtie sau pdf_img], atunci toate versiunile, începând cu [V1.0] ar trebui să fie "CITIBILE", chiar dacă au şi greşeli; ele TREBUIE să conţină TOATĂ informaţia, să nu lipsească pagini, fraze ori cuvinte. Ar fi normal ca greşelile rămase să fie DOAR greşeli de ortografie, punctuaţie...
   
6. Mai e o problemă foarte importantă, pe care n-am abordat-o nici măcar tangenţial.
    Cred că SCOPUL FINAL al cărţilor electronice este citirea lor pe e-READER.
    Ne dorim ca la un moment dat, preţul să ne permită ca fiecare dintre noi să aibă un e-reader. Din cauza aceasta, fiecare carte finalizată ar trebui să fie realizată în orice format "vrea muşchii" celui ce o lucrează şi PLUS FORMAT RTF.
    Pentru asta trebuiesc stabilite condiţii foarte clare pentru RTF-ul final. Pentru a putea fi convertit în diferitele formate, acest rtf trebuie să poată fi rulat prin orice convertor. Deocamdată, împreună cu alţi prieteni, este în studiu un rtf, care iniţial a fost trecut prin format TXT.UNICODE. Dacă în sistem Unicode se văd toate elementele textului, e de sperat că toate convertoarele ar trebui să ruleze perfect. Neplăcerea e că un text Unicode pierde toate formatările, inclusiv font italic şi bold.

Modificat de K7 (acum 11 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
02agigi02
Membru Junior

Inregistrat: acum 14 ani
Cu toata stima si consideratia pentru colegii care au postat mai sus (salutari, domnule K7!    )... dar, despre ce vorbim aici?
Un standard atat de riguros nu va reusi niciodata sa fie adoptat, dupa parerea mea.

Suntem o mana de entuziasti care scaneaza/ocr/corecteaza carti pentru placerea de a le citi. Dupa cum se vede destul de usor din cartile postate (si aici, si prin alta parte), marea majoritate a lor "mor" undeva intre v0.1 si v1.0, dupa standardul de mai sus.
Si spun v1.0, nerespectand toate cerintele standardului propus aici (v1.0 <=> citirea si corectarea integrala cu carte in mana, mentinerea numerelor de pagina, etc.)
Cuvantul cheie aici este "entuziasm", deci ne trebuie reguli "elastice", usor de adoptat, fara un mare efort suplimentar.
Daca "stacheta" e ridicata prea mult, va fi pur si simplu ignorata; e loc destul de trecut si pe langa ea.
Probabil ca multimea de colegi care se inghesuie sa posteze pe acest subiect e o dovada destul de buna... 

Ca sa nu par carcotas, fac si o propunere concreta: v1.0 <=> carte citibila pe ebook reader (dupa corectare automata sau manuala, fara artefacte OCR, fara paragrafe false si alte balarii, notele de subsol puse la locul lor, cu o formatare minimala, fara formatari elaborate - fundaluri, chenaruri, etc) dar nu neaparat citita cu cartea in fata.
Adica exact ceea ce e v1.0 si acum.pus acum 11 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
POSTARE REFORMULATĂ

   Agigi, ai perfectă dreptate!
   Nu vreau să supăr pe nimeni cu un sistem de codificare, care, oricum nu-mi aparţine. Dar...
   Cele mai multe cărţi lucrate şi nu postate, au fost lucrate în ultimul an sau, să zic, un an şi jumătate. Corect?
   Dacă atunci se stabilea o metodă, o chestie, o ceva...  pusă pe forum, toată lumea care a lucrat de atunci până acum se alinia cumva mai mult sau mai puţin, dar ştia să trebuiesc respectate cât de cât nişte reguli.

   Până acum câtva timp am mers mers şi eu pe ideea că o "corectură prin citire" este cea de la [V2.0], după care am avut o revelaţie sau o falsă revelaţie. M-am gândit că, probabil, cei ce au gândit sistemul de codare UC -> V5.0, au gândit aşa:
       -- corecturi automate şi semiautomate Vn < 1, deci valori subunitare...  (V0.1; v0.2; ... V0.9 ) - dacă vrei şi V0.99, dar oricum un V cu "n" mai mic decât 1.
       -- corecturi prin citire, codate cu valori supraunitare, V > 1, deci "n" mai mare ca decât 1.
   După câte ai constatat, singura mea insistenţă e cea cu numerele de pagină. N-o dezvolt acum, ea a rezultat din experienţă.

   În definitiv, putem codifica oricum, nu trebuie să ne luăm după site în limba engleză... Putem stabili un sistem "pur românesc"
   Am putea numi versiunile iniţiale A1.0 .... A9.0 - [cu A de la automată] - corectură "Automată"...
   şi cu M1.0 ... M5.0 - cu M de la corectură Manuală....

   ori cu litera N în loc de V cărţile neconfruntate cu originalul [N0.1; N0.2.. N0.9] şi cu C în loc de V pe cele confruntate cu originalul [C1.0; C2.0... C5.0 ] ...
   Dacă am schimba litera la sistemul de notare, atunci am şti şi perioada în care ele au fost lucrate...

   sau oricum credeţi că e mai bine....
   În definitiv, ăsta e scopul topicului: să stabilim un CEVA cu care sunt de acord cât mai mulţi şi nu aceea de "a încerca să bag pe gât" un ceva la care m-am gândit eu...
   ... dar ar trebui făcută treaba asta... cu cât mai târziu cu atât mai puţin bine...
   Da, la o adică putem să lăsăm lucrurile să meargă în continuare la fel... şi eventual, cei ce se ştiu între ei să-şi trimită adresele cărţilor pe mailuri personale.

   Singura mea dorinţă ar fi SĂ NU MAI CITESC cărţi notate V2.0 sau V3.0 şi după 100 de pagini să abandonez pentru că lipseşte text şi cartea nu mai are sens.
   SUNT DE ACORD cu orice sistem de notare... dar hai să încercăm să stabilim unul.
   [Am muncit la greu câteva volume de Franz Kafka luat de pe net, fără să ştiu cât text lipseşte... şi la sfârşit le-am "aruncat" gata "corectate", pentru că nu se puteau numi cărţi, ci doar "fragmente"]. Asta aş vrea să evităm toţi.
   A fi bine să ştim după numele versiunii cam la ce să ne aşteptăm...
   Cu stimă,
   K 7

Modificat de K7 (acum 11 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 11 ani
   
pier_ro
Membru Gold

Inregistrat: acum 13 ani
Acum eu chiar ca fac pe carcotasul.
Cum o sa le impui tuturor sa urmeze standardul propus de tine?
In mare parte sunt de acord cu tine. O mica obiectie la v1.0 care este asemanatoare cu ce zicea 02agigi02.
Parerea mea este ca aici pe forum nu poti sa impui nimanui nimic. Tot ceea ce facem noi aici pe forum este din pura placere si multi o sa fac cum vor.
A ca poti stabili niste, sa le zicem, linii directoare e alt lucru.
Oricum ideea ta este buna si sper sa ajute dar nu cred ca o sa vezi multe carti care sa treaca de v2.0.


_______________________________________
contributia mea la acest forum:
http://www.mediafire.com/?x7eb5t9jjygg5

pus acum 11 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
POSTARE REFORMULATĂ

    Două aspecte:
    - primul aspect: cred că nu m-am exprimat suficient de clar - nu intenţionez să impun nimic nimănui; nu vreau asta... de altfel, nici nu s-ar putea...
  Nu voiam să sune ca o schimbare a Codului rutier şi că de mâine se va circula pe stânga. Voiam să sune ca o informare, ca un ghid... fie el şi facultativ.
  Să ne imaginăm că nu s-a lucrat nimic pe forum, că el începe să funcţioneze de mâine: în situaţia asta - codificarea versiunilor are o logică? pare să respecte un principiu sau se vede ca o simplă aiureală?

    - al doilea aspect: am priceput, a citi sau a lucra la o carte e o plăcere şi nu trebuie să ţi se impună cum să faci ceva din plăcere.
   Dar, a putea fi informat nu e nimic greşit.

   Am reformulat
   Retrag ideea de REGLEMENTARE şi rămân la aceea de GHID FACULTATIV.

Modificat de K7 (acum 11 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 11 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
02aigig02 si oltean, e excelent ca aduceti puncte de vedere noi. Uite ce as zice:

6. Experienta (doar a mea, subliniez) arata ca un e-book corectat automat prin toate metodele posibile, dar necorectat prin citire si comparare cu cartea tiparita, nu este o CARTE, in sensul ca practic nu este "citibila", din mai multe motive, dintre care doua importante: unu - ca nu se poate garanta prezenta integrala a textului, si doi - corectarea automata lasa, in medie, mai mult de o greseala pe pagina. Un e-book aflat in stadiul asta nu-l poti recomanda unui cititor neavizat...
Prin analogie, in elaborarea de software versiunile subunitare (desi unele dintre ele perfect functionale - vezi Calibre, ca e in domeniu) sunt una, pe cand versiunea 1.x imi suna a produs pe care autorul lui il considera finit.
Din motivele astea e bine daca prima versiune lecturabila a unui e-book va purta numarul 1.0.

7. Nu am deloc senzatia ca gradul de rigoare reglementat de standard e prea ridicat. Practic numerele unitare bifeaza de cate ori e citita o carte cap-coada, zecimalele fiind lasate in mare masura la aprecierea fiecaruia. Rigoarea apare intr-adevar la botezarea fisierelor care contin lucrarea.

8. Despre ce vorbim aici: forumul RI ne ofera o ocazie excelenta de a dezbate un standard PUBLIC de versionare a e-book-urilor care au ca sursa materiale tiparite. Peste doua saptamani, la deadline, SINGURA satisfactie pe care o vom avea va fi ca dispunem de prima lui varianta, in forma finala. Iar SINGURA „pretentie”, ar fi ca un moderator sa-l puna sticky la sectiunea de Carti in limba romana.
Nu ma astept deloc ca acest standard (sau altul) sa fie adoptat, sau impus, sau obligatoriu. E suficient ca el sa existe LA VEDERE.
Mai departe, se vor gasi cu siguranta membri ai forumului care vor adera la el, iar contributiile acestora vor fi singurele care ma vor interesa. Restul de lucrari ... ca si pana acum, am prea multe alte carti de citit ca sa stau sa le ... analizez si pe ele (observati ca ma exprim politicos )

Modificat de Aleph (acum 11 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 11 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
Revin, încercând să justific o menţiune care nu e prevăzută în materialele studiate.
    La versiunea [V0.9] am spus că numerele de pagină trebuie să rămână şi că vor fi eliminate de primul corector care face corectura prin citire cap-coadă şi confruntare cu originalul.
     Presupunem următoarea situaţie: cartea de scanat e lipită cu paginile foarte apropiate, nu permite o deschidere suficientă, pagini îngălbenite şi text decolorat, iar scannerul are senzor CIS şi nu CCD [la senzorul CIS este obligatoriu contactul documentului cu ecranul scannerului pe toată suprafaţa; el nu scanează şi obiecte, ci doar documente plane].
     În această situaţie e de aşteptat ca unele pagini OCR să aibă probleme pe fiecare rând cu un număr de 2-3 caractere sau chiar mai multe. În loc de literele respective ABBYY va scrie nişte „răgălii”. Este vorba de o „fâşie verticală, lată de 2-3 litere” în zona dinspre cotor. Corecturile automate vor elimina respectivele „răgălii”, dar nu vor putea pune literele corecte; deci, textul va arăta „curat”, dar incomplet.
     Persoana care face corectura [prin citire cap-coadă] va face confruntarea cu originalul. În funcţie de experienţă, „aruncarea privirii pe original” [carte pe hârtie sau pdf_img] se face mai des sau mai rar. Uneori, după o experienţă îndelungată şi dacă textul de corectat nu prezintă probleme, „confruntarea” se face la câteva pagini. La un moment dat apare problema cu lipsa literelor pe fiecare rând, menţionată mai sus. Având numărul de pagină pe text este foarte uşor să mergem la pagina respectivă de pe original. În momentul în care numărul de pagină lipseşte va trebui să derulăm mult mai încet textul din pdf, până găsim pagina cu probleme. Mai mult de atât: dacă cel ce execută corectura posedă şi imaginile originale sau un pdf la rezoluţie „cumsecade” poate reface OCR pentru paginile respective.
     Deci numerele de pagină vor avea rolul de coordonate. Scopul lor este de a oferi mai bună „orientare” în paginile cărţii.
     Din experienţa proprie rezultă că „pierderea timpului” cu ştergerea numerelor de pagină pe timpul corecturii este mult mai mic decât „pierderea timpului” pentru găsirea locului cu probleme în textul original.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 11 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
9. In principiu nu sunt pentru Codificarea 2, "romaneasca", pentru ca nu suntem noi mai cu motz decat altii. Totusi, aceasta codificare mi se pare mai precisa si, paradoxal, mai permisiva. Iata de ce: oltean puncta faptul ca ce facem pe forum (inclusiv citirea cartilor) este din pura placere. Din cauza asta ma intereseaza, citesc si aduc la urmatoarea versiune numai releasuri care sunt suficient de bine lucrate incat le pot citi cu relativa usurinta. 2-3 greseli pe pagina sunt ok pentru mine. In aceste cazuri nevoia de confruntare cu originalul scanat sau pe hartie este minima, desi este obligatoriu sa il am pe acesta la indemana. Personal nu sunt dispus sa confrunt versiunea electronica cu originalul "cuvant cu cuvant si pagina cu pagina", asa cum precizeaza standardul. Daca va aparea pe forum o carte lucrata neglijent, dar care ma intereseaza in mod deosebit, atunci fac rost de cartea tiparita si o mai OCR-esc odata asa cum stiu eu.
Ei bine, Codificarea 2 permite notarea versiunii rezultata din acest fel de corectura prin MN1.0. Este mai precisa, pentru ca arata exact cum am facut corectura, si mai relaxata, pentru ca face loc si acestui gen de corectura, fara a crea ambiguitati.

10. Recomandarea de codificare a versiunii UC in format PDF, drept [pdf_img], mi se pare sau superflua, sau incompleta. Prin definitie, UC = scanul brut, ceea ce inseamna "colectie de imagini in format bitmap" (bimap-urile sunt prelucrabile in aplicatii de tip Photoshop, spre deosebire de grafica vectoriala obtinuta de exemplu in ACAD sau CorelDraw). Faptul ca scanul este inglobat intr-un PDF este o intamplare, si depinde de posibilitatea scanerului de a crea PDF-uri (pana cu cativa ani in urma scanerele nu puteau genera automat PDF-uri) sau de bunavointa celui care scaneaza de a aduna intr-un singur fisier PDF paginile scanate intr-un alt format grafic. Asa ca exprimarea des intalnita "am pus PDF-ul", cu referire la scanul brut, este imprecisa si derutanta.
Propunere: (a) se pastreaza numai codificarea UC si se renunta la orice notare intre paranteze drepte; sau (b) codificarea dintre paranteze se completeaza in functie de formatul fisierelor bitmap care contin scanul: [pdf_img] (desi PDF nu este format bitmap), sau [png_img], [jpg_img], [tif_img] etc.

Modificat de Aleph (acum 11 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 11 ani
   
clandher
Membru Senior

Inregistrat: acum 16 ani
Te enervezi degeaba. Am vrut doar sa precizez o "eroare" de formulare. In mare am pornit si noi de la codificarea versiunilor postata de tine. Codificarea asta exista de mult timp, si probabil cei care au definit-o au fost cei de la Gutenberg Project.
http://www.gutenberg.org/wiki/Main_Page

Eu am facut o precizare, pentru ca modul in care ai facut tu completarile lasa sa se inteleaga ca scanul din imagini e definit ca UC, ceea ce nu e adevarat. UC = scanul brut, dar de fapt se refera la ocr-ul brut care rezulta din Abby, ocr fara nici o prelucrare.

Cit despre Gurpul Yahoo.
Nu avem cum sa avem reguli care sa le folosim de ani de zile pentru ca grupul s-a constituit la sfirsitul lui ianuarie.
Nu suntem in nici un Palat de clestar, ci mai degraba o cooperativa, e doar un cerc alcatuit pe baza de munca, asta a fost criteriul dupa care s-au facut primirile in grup, si criteriul asta a ramas in continuare.
Cit despre iobagii care isi pun la dispozitie munca pe forum...pai o parte din ei sunt in grup, iar pe de alta parte cei mai multi iobagi de pe forum asteapta doar pleasca ...
Julien a fost banat pentru exprimarile lui care nu aveau nimic de a face cu discutiile despre carti. Nu faceti un martir din el daca nu ati apucat sa vedeti ce scria pe forum.


_______________________________________
povestinemuritoare.blog.com

pus acum 11 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
11. Da, dom'le!... chandler, ai dreptate, efectiv n-am realizat faptul ca, semantic vorbind, UC NU este scanul, ci versiune text SUBcorectata. Cred ca mai corect ar fi sa inlocuim in standard UC prin "Scan", iar versiunile 0.1 si UC sa devina sinonime.

Off topic: K7, ai dreptate in doua privinte:
(a) chandler, intentiile constructive ale unor membri ai forumului sunt ambalate in exprimari ... sa le zicem redundante. Trebuie, adica, sa ai nervii destul de tari sa treci ca o floricica pe linga "deveniti mai catolici decat Papa", apreciere generata de raportarea la un sistem de referinta necunoscut pe forum. De unde sa stim noi, bre, cine e Papa, si cat de catolic este el, exactamente? 
(b) Este a treia oara in ultimele zile cand se afirma ca exista un standard asemanator. Intelegeti, oameni buni, ca NU NE INTERESEAZA, nu din rea-vointa, ci pur si simplu pentru ca nu ne este accesibil pe forum. Sorry, eu mai clar de atat nu pot sa fiu...
E acel alt standard mai complet, mai exact, a trecut el cu brio de proba timpului? Intr-un cuvant, este mai bun? Hai sa ne uitam peste el, sa vedem unde si de ce e mai bun, ca poate il adoptam si noi. Pana atunci, standardul lui K7, rafinat nitel aci pe forum, este, deasupra oricarei indoieli, CEL MAI BUN.


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 11 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
POSTARE REFORMULATĂ

clandher a scris:

Eu am facut o precizare, pentru ca modul in care ai facut tu completarile lasa sa se inteleaga ca scanul din imagini e definit ca UC, ceea ce nu e adevarat. UC = scanul brut, dar de fapt se refera la ocr-ul brut care rezulta din Abby, ocr fara nici o prelucrare.

    Corect!... Nu numai că aşa rezulta din formulare, dar recunosc că aşa înţelesesem şi eu.
    Am făcut cuvenita corectare, în legătură cu "UC", reformulând astfel:
    UC sau V0.1  = înseamnă "necorectat", adică OCR brut, aşa cum este el extras de programul Abbyy sau alt program de tip recognito. Se poate folosi şi expresia  [OCR]  sau  [OCR_brut]

    Mă rog, eu aş exclude complet formularea "UC". Vrusesem doar să fiu fidel surselor originale.
    Spe că nu fac o greşeală din nou, dacă UC = V0.1. Bănuiesc că nu ar fi corect ca "UC" să fie notată V0.0. Nu cred că există în nici un domeniu o astfel de versiune.
    Să zicem că în legătură cu [V1.0] acum suntem de acord. Sau nu?

    Dacă răspunsul e DA, atunci să mergem mai departe: în legătură cu V0.2 ÷ V0.8 dacă ar trebui reformulat ceva şi ce anume?

    Nu merg mai departe, deoarece bănuiesc că ceea ce am notat eu la V0.9, ar fi ceea ce înseamnă în prezent V1.0.... şi, deci e nevoie de multe discuţii şi argumente în detaliu.

    O menţiune: Cei de la Proiectul Gutenberg au un grup, un consiliu de tip "CTC" care verifică în amănunt calitatea fiecărei cărţi şi apoi dau "verde" pentru publicare.
    Deoarece nu intră în discuţie o asemenea variantă pe forum, e unul dintre motivele pentru care militez pentru explicarea în detaliu a criteriilor de clasificare a fiecărei versiuni, pentru ca fiecare user interesat să poată avea informaţiile necesare.
    Dacă aceste criterii vor fi respectate sau nu, asta e o altă problemă şi nu intră acum în discuţie.

Modificat de K7 (acum 11 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 11 ani
   
pier_ro
Membru Gold

Inregistrat: acum 13 ani
K7 nu te supara ca am fost mai carcotasi. asa suntem noi cateodata dar uite ce am scris mai sus:
In mare parte sunt de acord cu tine. O mica obiectie la v1.0 care este asemanatoare cu ce zicea 02agigi02.
A sa nu uit. Si eu fac parte din grup si folosim cam aceeasi codificare ca tine cu 2 mici modificari:
1. Nu prea am vazut sa se foloseasca codificarea UC si nici macar v0.1 pana la v0.8. Personal nu prea le vad rostul. Adica inteleg ca cineva face un OCR si poate il si corecteaza automat dar dupa aceea nu cred ca mai vine si-l corecteaza nimeni automat. De obicei il ia cineva la mana si face o corectare sa-i zicem in mare. Dar comparata cu scanarea. Adica nu citeste dar trece prin fiecare pagina si corecteaza cat de mult poate. La cartile astea mai noi un v1.0 facut in acest fel este destul de bun calitativ deoarece OCR-ul pe o carte noua nu prea da multe gherle.
2. Formatarile speciale ar trebui sa se faca (asta e parerea mea) dupa v2.0 cel putin. Chiar nu are rost pe un v1.0 sa se faca o carte cu formatari speciale.
In rest toate bune si frumoase 

Modificat de oltean (acum 11 ani)


_______________________________________
contributia mea la acest forum:
http://www.mediafire.com/?x7eb5t9jjygg5

pus acum 11 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani

oltean a scris:

1. Nu prea am vazut sa se foloseasca codificarea UC si nici macar v0.1 pana la v0.8.

Corect!... despre UC nici nu mai discut. O eliminăm şi gata. Despre v0.1 pana la v0.8...
    Sunt două situaţii: carte nouă, cu hârtie curată şi de calitate, cerneală uniformă, font clar - la care OCR e foarte aproape de original... şi o singură persoană o poate aduce la versiune foarte bună (indiferent cum s-ar chema versiunea);
    ... şi cartea veche şi foarte veche, hârtie de ziar îngălbenită, cerneală decolorată în valuri (ştii la ce mă refer) - la care OCR de-abia dacă are o calitate puţin peste 50-60%.
    Uite un exemplu: http://www.okazii.ro/catalog/51131108/l ... CustomZone
    De ce aş alege o astfel de carte? Simplu: nu s-a mai retipărit din 1924 şi poate ar merita adusă la lumină. Măcar pentru documentaţie.
    La acest tip de carte, dacă nu se face corectura manuală şi dacă nu se face într-o echipă... va fi foarte greu.
   
    În primul caz nu e nevoie de reguli prea complicate.
    În cel de-al doilea avem obligatoriu de original, vor fi nevoie de multe corecţii şi de mai multe persoane în echipă. Cred că aici ar putea intra în discuţie V0.1 - V0.9, pentru că toate corecturile automate, macrouri şi înlocuiri multiple nu vor fi suficiente.
    Şi apropos, cărţi din acestea vechi sunt destul de multe; unele dintre ele, sigur, nu au fost reeditate.

Modificat de K7 (acum 11 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 11 ani
   
eco_na
Membru Puf

Inregistrat: acum 13 ani
Buna ziua,

Urmaresc cu atentie ce se scrie aici, si sper ca in curand sa ma alatur si eu grupului celor care contribuie la imbogatirea colectiilor existente. Am insa o intrebare: nu se incalca nici o lege, nu se incalca drepturi de autor, de copyright? Banuiesc ca pentru o carte cum e cea exemplificata de K7 (Lev Tolstoi), editata in 1924, nu se pune problema, dar pentru cele mai recente, mai exact, cele cu o vechime sub 70 ani ma gandesc ca poate...


pus acum 11 ani
   
clandher
Membru Senior

Inregistrat: acum 16 ani
Pentru majoritatea cartilor se incalca legea, foarte posibil si pentru cea din 1924.
De ce ? Simplu. Chiar daca opera autorului a intrat in domeniul public, dat fiind ca e mort de mai mult de 75 de ani, TRADUCEREA operei suporta aceleasi rigori ca si opera originala. Deci, daca de la moartea celui care a tradus acel fascicul in 1924 nu au trecut inca 75 de ani, este sub incidenta legii drepturilor de autor.


_______________________________________
povestinemuritoare.blog.com

pus acum 11 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
Urmarind cu atentie ceea ce se scrie aici, constat ca dezbaterea noastra nu incalca nici o lege. Asadar ...

12. Nu am propuneri constructive pentru reglementarea v0.2-v0.8, din trei motive: nu am analizat lucrari aflate in acest stadiu, nu prevad ca voi aduce vreuna doar pana la acest nivel, si nici ca ma voi apuca vreodata sa fac OCR cu rata de succes 50-60% (dar ... cine stie ...).

Pentru aducerea in lumea virtuala a unei carti precum cea din cazul prezentat de K7, o solutie poate fi scanarea, marirea contrastului pana la obtinerea unei litere suficient de negre, split, crop "la sange" pe oglinda paginii si inglobarea rezultatului intr-un PDF. Pentru a face PDF-ul cat de cat "searchable", se poate face un OCR din Acrobat Professional, care ramane inglobat in PDF (doar pentru citire pe PC, pentru ca readerele nu tin seama de aceasta caracteristica si, mai mult, s-ar putea sa nici nu deschida un PDF care are inglobat OCR-ul).

In functie de oglinda paginii ( = dimensiunile dreptunghiului tiparit efectiv pe foaia de hartie, adica foaia fara benzile albe de sus, jos, si lateral), acest PDF se poate citi cu readerul tinut landscape (daca oglinda e suficient de ingusta pe latime) sau se poate folosi zoom-ul implementat, mai bine sau mai rau, in toate readerele.

Propunerea mea este sa lasam versionarea 0.2-0.8 la latitudinea fiecaruia, desi ar fi de folos sa existe macar niste puncte de reper ...

Versiunea 0.9 - OCR-ul perfect - trebuie reglementata nitel mai riguros, dar n-am ajuns inca la ea.

Modificat de Aleph (acum 11 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 11 ani
   
clandher
Membru Senior

Inregistrat: acum 16 ani
Cartile precum cea de mai sus se rezolva relativ simplu cu ceva munca.
1. se mareste rezolutia de scanare
2. se face corectura in Abby, dupa ce s-a facut ocr-ul.
Abia apoi se salveaza textul


_______________________________________
povestinemuritoare.blog.com

pus acum 11 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
13. Sa mai facem un pas inainte, si sa incercam sa cadem de acord asupra a cum trebuie sa arate v0.9 – "OCR-ul perfect".

OCR-ul final cuprinde corecturile care se pot opera automat, semiautomat (cu confirmare) sau manual, fara a citi propriu-zis cartea. Corectura are ca scop obtinerea unui text usor de citit, prin corectarea a cat mai multe dintre erorile introduse de procesul de recunoastere a caracterelor, cu evidentierea titlurilor, a paragrafelor speciale si a cuvintelor subliniate de autor prin diverse formatari.

Intentia listei de mai jos este de a stabili ce trebuie eliminat si adaugat din v0.1 (OCR-ul brut), si nu limiteaza metodele prin care se poate face acest lucru. Este, in mare masura, o colectie de reguli tipografice.

Formularile folosesc jargonul din Word pentru Windows, si au la baza rezultatele obtinute la OCR cu Abbyy Finereader 9.

Aceasta lista este depasita. Faceti va rog referire la lista actualizata de mine in dimineata zilei de 23 dec.

1. Pagina
1) stabilirea dimensiunilor paginii la A4, cu oglinda suficient de mare
2) eliminarea marcajelor de sectiune; documentul va avea o singura sectiune
3) eliminarea coloanelor
4) eliminarea sfarsiturilor manuale de pagina
5) eliminarea antetului si/sau subsolului
6) verificarea pagina cu pagina e prezentei integrale a textului
7) scrierea corecta si unitara a numelor proprii

2. Paragraf
1) eliminarea tuturor stilurilor introduse de aplicatia pentru OCR
2) spatierea tuturor paragrafelor la un rand (single)
3) verificarea prezentei paragrafelor, conform originalului
4) formatarea cu alineat a tuturor paragrafelor, urmata de centrarea titlurilor si scrierea lor cu bold si cu un spatiu de cateva puncte inainte si dupa
5) introducerea de spatii inainte si dupa paragrafe, conform originalului
6) plasarea notelor in subsol, cu numerotare de la 1 la n
7) daca exista in original, scrierea pasajelor speciale cu corp mai mic, indentarea si spatierea acestora
8) transformarea Bullets and Numbering in text

3. Litere, cifre si alte caractere
1) se foloseste scrierea cu caractere romanesti (codepage 1250); pentru compatibilitate se utilizeaza literele cu cedilla in loc de virgulita
2) se foloseste peste tot acelasi font cu serife, de aceeasi marime masurata in puncte; daca este nevoie, se mai foloseste cel mult un alt font (preferabil sans-serif)
3) formatarea tuturor caracterelor la scara de 100%, cu spatiere normala (nu condensate, nici extinse) si pozitie normala (nu ridicate, nici coborate)
4) eliminarea evidentierii cu culoare a caracterelor, ramase de la aplicatia OCR
5) formatarea cu bold, italic si bold-italic conform originalului
6) eliminarea paragrafelor goale (a Enter-urilor consecutive)
7) caracterul de sfarsit de linie se inlocuieste cu un spatiu
8) inlocuierea caracterului Tab printr-un spatiu
9) eliminare spatii duble
10) eliminarea spatiilor din fata semnelor de punctuatie (virgula, punct, punct si virgula, doua puncte, semnul exclamarii, semnul intrebarii, puncte-puncte, ghilimele inchise, paranteza rotunda inchisa, paranteza dreapta inchisa) si de dupa ghilimelele deschise, paranteza rotunda deschisa si paranteza dreapta deschisa
11) eliminarea caracterului  „spatiu” de la sfarsitul si inceputul paragrafelor
12) corectarea paragrafelor care se termina cu litera mica, virgula, punct si virgula, cratima, liniuta despartitoare
13) corectarea paragrafelor care incep cu litera mica sau cu semne de punctuatie
14) liniile de dialog sunt Em dash (Alt+0151) sau Horizontal line
15) dupa liniile de dialog se pune Nonbreaking space
16) referirile in text la notele de subsol se scriu cu font normal-drept si se plaseaza inaintea semnelor de punctuatie, cu exceptia situatiilor cand nota se refera la intreaga fraza
17) în subsol, dupa numarul de referinta al notelor se pune Nonbreaking space
18) inlocuire trei puncte (...) cu caracterul Elipsis (Alt+0133)
19) inlocuire apostrof Alt+0039 cu apostroful tipografic Alt+0146 (daca nu este vorba de notatia pentru minute)
20) inlocuirea ghilimelelor cu cele romanesti „ – Alt+0132 si ” – Alt+0148
21) eliminarea spatiului din fata si de dupa cratima de legatura
22) in cuvintele compuse, inlocuirea cratimei cu Nonbreaking hyphen
23) inlocuirea cratimei explicative cu liniuta separatoare – (En dash), precedata si urmata de un spatiu
24) inlocuirea cratimei din intervalele numerice, cu En dash (ex. 24-36 cu 24–36, sau XV-XVI cu XV–XVI)
25) eliminarea artefactelor introduse in procesul de OCR ( |  /  @ , . ^ # etc.)
26) asigurarea prezentei unui spatiu dupa semnele de punctuatie din cadrul frazelor
27) eliminarea situatiilor in care o cifra apare in locul unei litere (0 in loc de O majuscul) sau invers (este litera l mic in loc de cifra 1)
28) formatarea (italic, bold, bold-italic) semnelor de punctuatie, parantezelor inchise si ghilimelelor de sfarsit, la fel ca si cuvantul care le precede
29) formatarea (italic, bold, bold-italic) parantezelor deschise si a ghilimelelor de inceput, la fel ca si cuvantul care le urmeaza
30) eliminarea unor greseli de OCR prin folosirea corecturii semiautomate (cu confirmare) facuta cel putin cu dictionarul dintr-o versiune de Word

4. Optional
1) optional, tabelele se transforma in text
2) optional, se pastreaza grafia cu î din i si cu „sînt” in loc de „sunt”

Lista nu este completa, nici 100% corecta ... e doar o baza de dezbatere.


Aceasta lista este depasita. Faceti va rog referire la lista actualizata de mine in dimineata zilei de 23 dec.

Modificat de Aleph (acum 11 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 11 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 12 ani
Aceasta postare e facuta dupa propunerea lui chandler si raspunsul lui K7.

14. (inserat undeva dupa 3.11) 3.31) se elimina cratima optionala de despartire in silabe; documentul nu se desparte in silabe.

Alta (ar veni dupa 4.1): 4.3) alinierea paragrafelor este stanga, sau stanga-dreapta, la alegere.

Modificat de Aleph (acum 8 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 11 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 12 ani
Iată ceva cu adevărat "concret" şi muncit!
    Sunt de acord că aşa ar trebui să arate "OCR-ul perfect".
    Acum... că asta s-ar chema V0.9 sau V1.0... asta e mai puţin important, deşi n-aş renunţa la teoria versiunilor subunitare şi supraunitare, dar nici nu insist pe o chestie, care e prea măruntă. Deci, poate foarte bine să fie şi V1.0

    Pentru mine un lucru e cert. La un OCR în limba română apar mult mai multe erori decât la un OCR în limba engleză. Motive sunt multe: diacritice, complexitatea gramaticii române, lipsa unor programe puternice de corectare în limba română etc. etc....
    ... din aceste motive şi multe altele, pentru textele în limba română "OCR-ul perfect" nu înseamnă şi "textul perfect" - este necesară una-două corecturi manuale cap-coadă.
    Cu acest lucru ar trebui să cădem de acord.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 11 ani
   
clandher
Membru Senior

Inregistrat: acum 16 ani
Am o singura propunere/sugestie de facut, si sper sa nu fiu iarasi inteles gresit.

Stiu ca formatul A4 a devenit oarecum standard, si din motive de comoditate (formatul Letter, apropiat de A4 este implicit in Word, deci orice document, inclusiv ocr-ul din Abby salvat in word, este formatat in acest mod (Letter/A4)
Formatul este uzual pentru documente, lucrari de licenta/doctorat etc ...este usor de citit pe calculator dat fiind ca actualele monitoare sunt destul de mari ... dar

Sa nu uitam ca au aparut si se extinde folosirea de ereadere si ipad sau similare. Cam toate aceste dispozitive merg pe marimi de pe la 6 la 10 inch, uneori putin mai mult. Daca se scad si marginile, de fapt nu ramine foarte mult pentru ecran.

In consecinta, cred ca formatul potrivit pentru lucrul la cartile in format electronic este A5 , asta cu atit mai mult cu cit majoritatea cartilor, mai ales cele de beletristica au de fapt acest format.
Parerea mea este ca ar fi mai simplu de lucrat pe acest format inca de la inceput, decit sa se reformateze documentul final de catre fiecare utilizator de ereader. Asta cu atit mai mult cu cit cei care citesc pe calculator nu au nici un inconvenient din asta.


_______________________________________
povestinemuritoare.blog.com

pus acum 11 ani
   
Pagini:  1 2 3    
Mergi la