Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
Calypso92 din Galati
Femeie
25 ani
Galati
cauta Barbat
30 - 80 ani
Forum Romania Inedit / Totul despre cărți - About e-books / Initiativa de reglementare a Cartilor electronice - mai 2010 Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini: 1
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
[DEZBATERE]

                  ═════════ INIŢIATIVĂ DE REGLEMENTARE A CĂRŢILOR ELECTRONICE ═════════
                                        Sistemul de standardizare RIF1 [Romania Inedit Forum 1]


     ACEASTĂ POSTARE URMEAZĂ A FI MODIFICATĂ ŞI REACTUALIZATĂ




     EXPUNERE DE MOTIVE:
     Cartea electronică este concurenta serioasă a cărţii pe hârtie în prezent şi, probabil, singura variantă de carte în viitor.
     E-Readerul, deşi scump în acest moment, va fi la îndemâna tuturor în viitorul apropiat.
     Mulţi oameni sunt doritori să participe la realizarea cărţilor electronice, dar le-ar trebui un ghid, un manual sau un tutorial complet după care să se ghideze.
     Nu am găsit în limba română, un manual sau un tutorial complet despre realizarea carţilor electronice.

     PROPUNERE: Propun realizarea unui astfel de ghid în variantă site ori document, care să poată fi la îndemâna celor interesaţi. Acest studiu, experiment sau cum doriţi a-i spune, va purta numele RIF1
     El ar trebui să fie gândit ca o STRATEGIE PENTRU VIITOR, să ofere soluţii pentru cărţile viitoare şi nu neapărat pentru cele prezente azi pe forum. Între timp, cei ce vor dori vor încerca mai mult sau mai puţin să se alinieze la acest ghid.
     Consider că acest ghid trebuie să ofere informaţii cât mai complete şi complexe, astfel încât dacă cineva doreşte, să poată realiza cărţi de înaltă calitate, cât mai aproape de CARTEA PERFECTĂ. Ghidul nu va fi, sub nici o formă, obligatoriu pentru nimeni, aşa cum [iertată să-mi fie comparaţia] nimeni dintre cei ce lucrează în Word nu e obligat să respecte cele scrise într-un manual de Word. Ghidul va putea să fie sau să nu fie folosit, după dorinţă şi în funcţie de experienţă.

     DE CE ACEST LOC PENTRU DEZBATERE?
     Deoarece pe acest forum se găsesc mulţi useri cu multă experienţă, am considerat că aici este locul unde, printr-un efort comun, se poate încropi un asemenea ghid.
     Pentru a nu pleca de la zero, am considerat că ar fi indicat să plecăm de la o schiţă de format, din care pun câte o parte la dispoziţie pentru discuţii.
     Această schiţă am încercat s-o realizez cu elemente din experienţa personală, cu elemente rezultate din studierea unor tutoriale de pe acest forum şi de pe alte surse în limba română. Am avut la îndemână şi un site-ghid în limba engleză, a cărui adresă nu am dreptul s-o pun la vedere.
     
     Deocamdată m-am oprit la 3 aspecte:
          - 1. Clasificarea cărţilor electronice
          - 2. Nomenclatura
          - 3. Codificarea versiunilor

     Pun la dispoziţie un Site-Google de lucru, pe care intenţionez să actualizez permanent variantele rezultate din discuţii.
     Dacă se va trece la discutarea altor aspecte decât cele 3 de mai sus, site-ul va prezenta doar acele aspecte şi nu vor mai fi găsite pe el cele discutate deja.



                  ═══════════════════════════════════════════
                  CODIFICAREA VERSIUNILOR CĂRŢILOR ELECTRONICE:
                  ═══════════════════════════════════════════


    Codificarea versiunilor cărţilor electronice, în funcţie de etapa de realizare în care se află sunt arătate mai jos.
    Aceste coduri se trec la sfârşitul numelui cărţii, exact ca în cazul versiunilor unui program de calculator. De subliniat că ele se înscriu în paranteză pătrată sau rotundă.
      Notă: Schimbarea formatului unui text prin convetirea de la un format la alt format (rtf -> doc -> pdf etc) nu înseamnă că s-a făcut o versiune superioară - versiunea se referă la corectură şi nu la format, versiunea se păstrează indiferent de format.


                  ═════════ CORECTURI AUTOMATE ŞI SEMIAUTOMATE ═════════

    V0.1  = înseamnă "necorectat", adică OCR brut, aşa cum este el extras de programul Abbyy sau alt program de tip recognito. Se poate folosi şi expresia  [OCR]  sau  [OCR_brut]

    V0.2÷ V0.8  = este un OCR asupra căruia s-au făcut o serie de îmbunătăţiri: corecturi automate sau semiautomate, scoaterea  artefactelor (imagini eroare, pete, linii, caractere nonalfabetice şi noncifrice etc.) Aceste versiuni arată un OCR perfectibil.
    Stabilirea versiunilor V0.2 ÷ V0.8 este la dispoziţia persoanei care face aceste corecturi sau a echipei din care face parte şi are rolul de a evidenţia îmbunătăţirile făcute asupra textului, atunci când ele nu sunt făcute în totalitate.

    V0.9  = este OCR-ul "perfect", asupra căruia s-au făcut un număr maxim de corecturi şi înlocuiri automate şi semiautomate, dar nu s-a făcut corectură prin citire; această versiune păstrează numerele pagină;
      Notă: numerele de pagină au rol de coordonate, pentru o mai uşoară orientare concomitentă în text şi pdf-ul din imagini.
      Atenţie: Această versiune arată un OCR PERFECT; ea nu trebuie acordată cu uşurinţă oricăror texte asupra cărora s-au făcut câteva intervenţii.



                  ══════ CORECTURI MANUALE PRIN CITIREA TEXTULUI CAP-COADĂ ══════

    V1.0  = corectura de fond sau corectura de conţinut este o corectură amănunţită, prin citirea+corectarea cuvânt cu cuvânt, pagină cu pagină a textului, prin compararea cu originalul (cartea pe hârtie sau pdf_img). Versiunea [V1.0] implică formatarea textului, evidenţierea capitolelor etc.
      Notă: nu se recomandă despărţirea pe silabe în această fază, ci după versiunea finală, eventual după sau pentru convertirea în diferitele formate pentru e-readere.

    V2.0; V3.0; V4.0. Atunci când altcineva mai ia o dată cartea la citit+corectat, mai adaugă o unitate la versiune. Se referă la corecturi privind semnele de punctuaţie, litere lipsă sau în plus etc. Acestea sunt corecturi de formă a textului, fără a mai face confruntarea cu originalul.
      Din practică rezultă că şi aceşti corectori trebuie să aibă acces la original, pentru că uneori pot să apară situaţii critice, care necesită confruntarea obligatorie cu originalul şi, eventual, cu alte ediţii.
      Notă: Este obligatoriu ca fiecare versiune de la [V1.0] la [V5.0] să fie făcută de câte o altă persoană. Prima cifră a versiunii arată şi numărul de persoane care au făcut corectura prin citire de la cap la coadă a cărţii.
      Recitirea+corectarea de mai multe ori a textului de către aceeaşi persoană nu va majora versiunea textului decât cu o zecime de unitate, astfel că o versiune V1.0 poate deveni V1.1; V1.2... V1.9, dar, sub nici o formă, nu va deveni versiunea V2.0.
       
    V5.0  = cartea corectată şi formatată la o calitate care i-ar permite să plece la tipografie.

      La cărţile electronice ultima etapă este convertirea într-un format de tip pdf sau formate speciale, care nu se mai pot sau nu ar mai trebui să poată fi modificate (editate).


                  ══════ FORMATĂRI ESTETICE, PROFESIONALE ŞI ÎN FORMATE SPECIALE ══════

      Formatări estetice: În funcţie de preferinţe, după executarea corecturilor se pot face formatări speciale cu scop estetic, prin:
      - adăugarea de ornamente topografice alb-negru sau color:
      - adăugarea de imagini alb-negru sau color;
      - adăugare de fundaluri (background de tip gradient, texture, pattern sau picture) ori borduri (borders).
      - Formatarea cu fonturi artistice a capitolelor ori a altor părţi din text etc. etc...


                  ═════════════════════════════════════════════════════════════════



          ACŢIUNI, ETAPE ŞI FAZE PENTRU OBŢINEREA "OCR-ului perfect"
          [Propunere Aleph - listă îmbunătăţită şi reactualizată, conform discuţiilor]

          1. Pagina
    1) Se stabilesc dimensiunile paginii la A5, cu oglinda suficient de mare.
    2) Se elimină marcajele de secțiune; documentul va avea o singură secțiune.
    3) Se elimină coloanele.
    4) Caracterul de sfârșit manual de pagină se elimină sau, dupa caz, se înlocuiește.
    5) Informația din antetul și/sau subsolul original se elimină; dacă aplicația OCR include în text numerele originale de pagină, acestea se vor păstra.
    6) Se verifică pagină cu pagină prezența integrală a textului.
    7) Documentul rezultat se salveaza în format DOC.


          2. Paragraf
    1) Se elimină toate stilurile introduse de aplicația OCR.
    2) Paragrafele de text se spațiază la un rând (single), cu alineat, și se justifică stînga-dreapta.
    3) Titlurile se centrează și se scriu cu bold, cu spațiu înainte și după.
    4) Dacă sunt prezente în original, se introduc spații înainte și după unele paragrafe.
    5) Se plasează notele în subsol, cu numerotare de la 1 la n.
    6) Se refac paragrafele scindate prin Enter de către aplicatia OCR.
    7) Dacă există în original, pasajele speciale se scriu cu corp mai mic, se indentează și se spațiază.
    8) Bullets and Numbering se transformă în text.t


          3. Litere, cifre si alte caractere
    1) Se folosește scrierea cu caractere românesti (codepage 1250); pentru compatibilitate se utilizează literele cu cedilla în loc de virguliță.
    2) Se folosește peste tot același font cu serife, de aceeasi mărime măsurată în puncte; dacă este nevoie, se mai folosește cel mult un alt font (preferabil sans-serif).
    3) Titlurile se scriu cu corp puțin mai mare.
    4) Se formatează toate caracterele la scara de 100%, cu spațiere normală (nu condensate, nici extinse) și, cu excepția indicilor și exponenților, poziție normală (nu ridicate, nici coborâte).
    5) Se elimină evidențierea cu culoare a caracterelor, rămasă de la aplicația OCR.
    6) Cuvintele se formatează cu bold, italic și bold-italic, conform originalului.
    7) Se elimină paragrafele goale (Enter-urile consecutive).
    8) Caracterul de sfârșit de linie se elimină sau, dupa caz, se înlocuiește.
    9) Caracterului Tab se elimină sau, după caz, se înlocuiește.
    10) Se elimină spațiile duble.
    11) Se elimina spațiile din fața semnelor de punctuație (virgulă, punct, punct și virgulă, două puncte, semnul exclamării, semnul întrebării, puncte-puncte, ghilimele închise, paranteze închise) și de după ghilimelele deschise și parantezele deschise.
    12) Se elimină caracterul „spațiu” de la sfârșitul și începutul paragrafelor.
    13) Se elimină cratima opțională de despărțire în silabe; documentul nu se desparte în silabe.
    14) Se corectează paragrafele care se termină cu literă mică, virgulă, punct și virgulă, cratimă, liniuță despărțitoare.
    15) Se corectează paragrafele care încep cu literă mică sau cu semne de punctuație.
    16) Liniile de dialog sunt Em dash (Alt+0151) sau Horizontal line.
    17) După liniile de dialog se pune Nonbreaking space.
    18) Referirile în text la notele de subsol se scriu cu font normal-drept și se plasează înaintea semnelor de punctuație, cu excepția situațiilor când nota se referă la întreaga frază.
    19) În subsol, după numărul de referință al notelor se pune Nonbreaking space.
    20) Puncte-puncte scrise cu trei puncte (...) se înlocuiesc cu caracterul Elipsis (Alt+0133).
    21) Se înlocuiește apostroful drept Alt+0039 cu apostroful tipografic Alt+0146 (dacă nu este vorba de notația pentru minute).
    22) Se înlocuiesc ghilimelele cu cele românești 99-99: „ – Alt+0132 și ” – Alt+0148 (dacă nu este vorba de notația pentru secunde).
    23) Se elimină spațiul din fața și de după cratima de legătură.
    24) Se înlocuiește cratima explicativă cu liniuța separatoare En dash, precedată și urmată de un spațiu.
    25) Se înlocuiește cratima din intervalele numerice, cu En dash (ex. 24-36 sau XV-XVI).
    26) Ordinul miilor din cadrul numerelor se separă prin Nonbreaking space, cu excepția anilor, care se scriu legat.
    27) Se elimină artefactele introduse în procesul OCR ( | / @ , . ^ # etc.).
    28) Se asigură prezența unui spațiu după semnele de punctuație din cadrul frazelor.
    29) Se elimină situațiile în care o cifră apare în locul unei litere (0 – „zero” în loc de litera O majusculă sau invers (litera l mic apare unde trebuie să fie cifra 1).
    30) Se formatează (italic, bold, bold-italic) caracterele semn de exclamare și semn de întrebare, la fel ca și cuvântul care le precede.
    31) Numele proprii se scriu ca în original, și unitar.
    32) Se elimină greșeli de OCR prin folosirea corecturii semiautomate (cu confirmare) făcută cel puțin cu dicționarul dintr-o versiune de Word.
    33) În cuvintele compuse, cratima se înlocuiește cu Nonbreaking hyphen.


          4. Grafica
    1) Imaginile grafice (fotografii, diagrame, schițe, etc.) se scanează la 200 sau 300dpi, color sau nu, ca în cartea tipărită.
    2) Imaginile se plasează „inline” in text, între două paragrafe, cât mai aproape de locul original. 


          5. Optional
    1) Se păstrează grafia cu î din i, și cu „sînt” în loc de „sunt”.
    2) Se verifică prezența paragrafelor, conform originalului.
    3) Tabelele se transformă in text.
    4) Se formatează (italic, bold, bold-italic) semnele de punctuație, parantezele închise și ghilimelele de sfârșit, la fel ca și cuvântul care le precede.
    5) Se formatează (italic, bold, bold-italic) parantezele deschise și ghilimelele de început, la fel ca și cuvântul care le urmează. 


Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Sunt cateva subiecte importante care nu au fost niciodata abordate deschis si riguros pe forum. Acesta este unul dintre ele. E semn ca forumul se maturizeaza.
K7, multimim!

Reglementarile propuse sunt excelente. Ar fi de zis urmatoarele:

1. Topicul e de pus sticky. Daca va exista o dezbatere, si in cursul ei vor aparea modificari sau completari pertinente (care, adica, nu vor fi respinse de membrii forumului), K7 trebuie sa aibe posibilitatea sa actualizeze reglementarile. E bine sa existe un termen limita la care dezbaterea sa se incheie si regulile sa devina operante. Vreo doua saptamani ar trebui sa fie suficiente, fiindca setul de reguli pare complet.

2. De acord cu codificarea versiunilor. Trebuie tinut seama ca pana in acest moment versiunea 1.0 nu presupunea citirea cartii. Cel putin cele 5 titluri preluate de mine la ver. 1.0 si aduse la ver. 2.0 erau in stadiul marcat cu 0.9 conform noii reglementari. E oare util sa precizam, pe langa versiune, si standardul la care se aliniaza numerotarea?

3. La realizarea versiunilor superioare v2.0-v.5.0 este nevoie in continuare de confruntarea cu cartea tiparita. De exemplu, pentru ca la ultimele doua carti preluate de pe forum si citite, am intalnit locuri in care textul electronic coincidea cu cel tiparit, dar fraza respectiva nu avea sens (randuri lipsa la tipar sau traducere cu totul eronata). A trebuit sa ma uit in cartea tiparita sa vad ca nu e nimic gresit, dupa care am corectat fraza dupa originalul in limbile poloneza sau engleza. Si mai sunt si alte cazuri in care e utila confruntarea cu versiunea tiparita, pentru ca, asa cum spunea cineva, oricat de buna ar fi corectura, greseli tot mai raman.

Deocamdata atat... 

Modificat de Aleph (acum 12 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Mulţumesc Aleph.
   Reformulez: Neavând un standard anume, pe topicul ăsta lucrăm fiecare după standardul lui. Când apar noi şi noi useri cu intenţia de a lucra, e păcat să nu aibă nimic după care să se ghideze.
   Da, există nişte reglementări, dar la ele nu au acces decât un număr restrâns de persoane, iar acestea de aici nu sunt foarte diferite de acelea.. Părerea mea e că este corect ca TOŢI să avem acces la informaţii. Pentru asta am deschis discuţia.
   
   1. Da ar trebui să ne limităm cu discuţia până în Crăciun, să zicem până la 23 decembrie. Oricum după data asta, pentru o perioadă nu vor mai intra prea mulţi pe forum.
   2. Discuţia principală e pe zona: Codificarea versiunilor cărţilor electronice. Celelalte probleme au rol informativ şi nu cred că ridică probleme.
   3. Ai dreptate. Şi la V2.0 - V5.0 e nevoie de carte pentru confruntare, dar nu ca metodă de lucru, ci ca excepţie pentru situaţii dosebite. Am întâlnit şi eu situaţia cu text lipsă în cartea tipărit. De aceea eu militez pentru cartea electronică lucrată într-o echipă de la zero, adică începând cu scanarea.
   Standardul să poarte un nume? Da, ar fi o idee. De fapt cam aşa se procedează... toate standardele au un nume şi un număr ceva... "Standard RI-2011"? Tre să mai cugetăm...

   4. În realitate site-ul adevărat se vrea mult mai complex.
    De fapt, intenţia mea e să punem la dispoziţia celor interesaţi o metodă de lucru a cărţilor electronice de la a la z, adică de la scanare la formatarea specială.
    Problemele supuse discuţiei aici sunt, doar introducerea la acea metodă de lucru.
    Să vedem însă dacă va prezenta interes...

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
4. Propunere pentru denumirea standardului: RIF1, de la Romania Inedit Forum. "Forum" - pentru a se deosebi de alte standarde obscure (a se citi "invizibile" ). Daca in decursul vremii vor aparea modificari ale standardului, se poate trece la RIF2, sau RIF1.1, cu un changelog punctand diferentele fata de versiunea anterioara.

5. Sa observam ca standardul propus NU ESTE UN STANDARD DE CALITATE. Nu garanteaza ca toate lucrarile cu versiune 3.0, de exemplu, vor avea aceeasi proportie de greseli necorectate, aceeasi formatare etc. Calitatea unui release depinde de multe lucruri - de calitatea tipariturii si a scanului initial, de priceperea, seriozitatea, cunoasterea limbii romane si a conventiilor tipografice de catre autorul versiunii respective.
Aceste lucruri pot fi reglemantate de un alt "open standard", sau pot foarte bine sa fie lasate in grija constiintei fiecaruia dintre noi, in ideea ca nu dam rasol - depunem un efort (rezonabil, macar) pentru realizarea unei versiuni.
In fond nici calitatea e-book-urilor care se pot cumpara de pe site-uri serioase de limba engleza nu este consistenta, dar mai e si un alt aspect: nu e nevoie ca cineva sa verifice "la sange" daca ceea ce se posteaza pe site este sau nu ver. x.0 (nici nu stiu cine s-ar angaja sa faca chestia asta).

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
4. RIF1 - eu sunt de acord cu numele;

5. Standardul stabileşte practic metoda şi nu calitatea.
    Depinde de gradul de răspundere/superficialitate al celor ce lucrează. Ideea este că, dacă la versiunea [V1.0] se face corectura după original [carte pe hârtie sau pdf_img], atunci toate versiunile, începând cu [V1.0] ar trebui să fie "CITIBILE", chiar dacă au şi greşeli; ele TREBUIE să conţină TOATĂ informaţia, să nu lipsească pagini, fraze ori cuvinte. Ar fi normal ca greşelile rămase să fie DOAR greşeli de ortografie, punctuaţie...
   
6. Mai e o problemă foarte importantă, pe care n-am abordat-o nici măcar tangenţial.
    Cred că SCOPUL FINAL al cărţilor electronice este citirea lor pe e-READER.
    Ne dorim ca la un moment dat, preţul să ne permită ca fiecare dintre noi să aibă un e-reader. Din cauza aceasta, fiecare carte finalizată ar trebui să fie realizată în orice format "vrea muşchii" celui ce o lucrează şi PLUS FORMAT RTF.
    Pentru asta trebuiesc stabilite condiţii foarte clare pentru RTF-ul final. Pentru a putea fi convertit în diferitele formate, acest rtf trebuie să poată fi rulat prin orice convertor. Deocamdată, împreună cu alţi prieteni, este în studiu un rtf, care iniţial a fost trecut prin format TXT.UNICODE. Dacă în sistem Unicode se văd toate elementele textului, e de sperat că toate convertoarele ar trebui să ruleze perfect. Neplăcerea e că un text Unicode pierde toate formatările, inclusiv font italic şi bold.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
02agigi02
Membru Junior

Inregistrat: acum 16 ani
Cu toata stima si consideratia pentru colegii care au postat mai sus (salutari, domnule K7!    )... dar, despre ce vorbim aici?
Un standard atat de riguros nu va reusi niciodata sa fie adoptat, dupa parerea mea.

Suntem o mana de entuziasti care scaneaza/ocr/corecteaza carti pentru placerea de a le citi. Dupa cum se vede destul de usor din cartile postate (si aici, si prin alta parte), marea majoritate a lor "mor" undeva intre v0.1 si v1.0, dupa standardul de mai sus.
Si spun v1.0, nerespectand toate cerintele standardului propus aici (v1.0 <=> citirea si corectarea integrala cu carte in mana, mentinerea numerelor de pagina, etc.)
Cuvantul cheie aici este "entuziasm", deci ne trebuie reguli "elastice", usor de adoptat, fara un mare efort suplimentar.
Daca "stacheta" e ridicata prea mult, va fi pur si simplu ignorata; e loc destul de trecut si pe langa ea.
Probabil ca multimea de colegi care se inghesuie sa posteze pe acest subiect e o dovada destul de buna... 

Ca sa nu par carcotas, fac si o propunere concreta: v1.0 <=> carte citibila pe ebook reader (dupa corectare automata sau manuala, fara artefacte OCR, fara paragrafe false si alte balarii, notele de subsol puse la locul lor, cu o formatare minimala, fara formatari elaborate - fundaluri, chenaruri, etc) dar nu neaparat citita cu cartea in fata.
Adica exact ceea ce e v1.0 si acum.



pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
POSTARE REFORMULATĂ

   Agigi, ai perfectă dreptate!
   Nu vreau să supăr pe nimeni cu un sistem de codificare, care, oricum nu-mi aparţine. Dar...
   Cele mai multe cărţi lucrate şi nu postate, au fost lucrate în ultimul an sau, să zic, un an şi jumătate. Corect?
   Dacă atunci se stabilea o metodă, o chestie, o ceva...  pusă pe forum, toată lumea care a lucrat de atunci până acum se alinia cumva mai mult sau mai puţin, dar ştia să trebuiesc respectate cât de cât nişte reguli.

   Până acum câtva timp am mers mers şi eu pe ideea că o "corectură prin citire" este cea de la [V2.0], după care am avut o revelaţie sau o falsă revelaţie. M-am gândit că, probabil, cei ce au gândit sistemul de codare UC -> V5.0, au gândit aşa:
       -- corecturi automate şi semiautomate Vn < 1, deci valori subunitare...  (V0.1; v0.2; ... V0.9 ) - dacă vrei şi V0.99, dar oricum un V cu "n" mai mic decât 1.
       -- corecturi prin citire, codate cu valori supraunitare, V > 1, deci "n" mai mare ca decât 1.
   După câte ai constatat, singura mea insistenţă e cea cu numerele de pagină. N-o dezvolt acum, ea a rezultat din experienţă.

   În definitiv, putem codifica oricum, nu trebuie să ne luăm după site în limba engleză... Putem stabili un sistem "pur românesc"
   Am putea numi versiunile iniţiale A1.0 .... A9.0 - [cu A de la automată] - corectură "Automată"...
   şi cu M1.0 ... M5.0 - cu M de la corectură Manuală....

   ori cu litera N în loc de V cărţile neconfruntate cu originalul [N0.1; N0.2.. N0.9] şi cu C în loc de V pe cele confruntate cu originalul [C1.0; C2.0... C5.0 ] ...
   Dacă am schimba litera la sistemul de notare, atunci am şti şi perioada în care ele au fost lucrate...

   sau oricum credeţi că e mai bine....
   În definitiv, ăsta e scopul topicului: să stabilim un CEVA cu care sunt de acord cât mai mulţi şi nu aceea de "a încerca să bag pe gât" un ceva la care m-am gândit eu...
   ... dar ar trebui făcută treaba asta... cu cât mai târziu cu atât mai puţin bine...
   Da, la o adică putem să lăsăm lucrurile să meargă în continuare la fel... şi eventual, cei ce se ştiu între ei să-şi trimită adresele cărţilor pe mailuri personale.

   Singura mea dorinţă ar fi SĂ NU MAI CITESC cărţi notate V2.0 sau V3.0 şi după 100 de pagini să abandonez pentru că lipseşte text şi cartea nu mai are sens.
   SUNT DE ACORD cu orice sistem de notare... dar hai să încercăm să stabilim unul.
   [Am muncit la greu câteva volume de Franz Kafka luat de pe net, fără să ştiu cât text lipseşte... şi la sfârşit le-am "aruncat" gata "corectate", pentru că nu se puteau numi cărţi, ci doar "fragmente"]. Asta aş vrea să evităm toţi.
   A fi bine să ştim după numele versiunii cam la ce să ne aşteptăm...
   Cu stimă,
   K 7

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
pier_ro
Membru Gold

Inregistrat: acum 15 ani
Acum eu chiar ca fac pe carcotasul.
Cum o sa le impui tuturor sa urmeze standardul propus de tine?
In mare parte sunt de acord cu tine. O mica obiectie la v1.0 care este asemanatoare cu ce zicea 02agigi02.
Parerea mea este ca aici pe forum nu poti sa impui nimanui nimic. Tot ceea ce facem noi aici pe forum este din pura placere si multi o sa fac cum vor.
A ca poti stabili niste, sa le zicem, linii directoare e alt lucru.
Oricum ideea ta este buna si sper sa ajute dar nu cred ca o sa vezi multe carti care sa treaca de v2.0.


_______________________________________
contributia mea la acest forum:

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
POSTARE REFORMULATĂ

    Două aspecte:
    - primul aspect: cred că nu m-am exprimat suficient de clar - nu intenţionez să impun nimic nimănui; nu vreau asta... de altfel, nici nu s-ar putea...
  Nu voiam să sune ca o schimbare a Codului rutier şi că de mâine se va circula pe stânga. Voiam să sune ca o informare, ca un ghid... fie el şi facultativ.
  Să ne imaginăm că nu s-a lucrat nimic pe forum, că el începe să funcţioneze de mâine: în situaţia asta - codificarea versiunilor are o logică? pare să respecte un principiu sau se vede ca o simplă aiureală?

    - al doilea aspect: am priceput, a citi sau a lucra la o carte e o plăcere şi nu trebuie să ţi se impună cum să faci ceva din plăcere.
   Dar, a putea fi informat nu e nimic greşit.

   Am reformulat
   Retrag ideea de REGLEMENTARE şi rămân la aceea de GHID FACULTATIV.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
02aigig02 si oltean, e excelent ca aduceti puncte de vedere noi. Uite ce as zice:

6. Experienta (doar a mea, subliniez) arata ca un e-book corectat automat prin toate metodele posibile, dar necorectat prin citire si comparare cu cartea tiparita, nu este o CARTE, in sensul ca practic nu este "citibila", din mai multe motive, dintre care doua importante: unu - ca nu se poate garanta prezenta integrala a textului, si doi - corectarea automata lasa, in medie, mai mult de o greseala pe pagina. Un e-book aflat in stadiul asta nu-l poti recomanda unui cititor neavizat...
Prin analogie, in elaborarea de software versiunile subunitare (desi unele dintre ele perfect functionale - vezi Calibre, ca e in domeniu) sunt una, pe cand versiunea 1.x imi suna a produs pe care autorul lui il considera finit.
Din motivele astea e bine daca prima versiune lecturabila a unui e-book va purta numarul 1.0.

7. Nu am deloc senzatia ca gradul de rigoare reglementat de standard e prea ridicat. Practic numerele unitare bifeaza de cate ori e citita o carte cap-coada, zecimalele fiind lasate in mare masura la aprecierea fiecaruia. Rigoarea apare intr-adevar la botezarea fisierelor care contin lucrarea.

8. Despre ce vorbim aici: forumul RI ne ofera o ocazie excelenta de a dezbate un standard PUBLIC de versionare a e-book-urilor care au ca sursa materiale tiparite. Peste doua saptamani, la deadline, SINGURA satisfactie pe care o vom avea va fi ca dispunem de prima lui varianta, in forma finala. Iar SINGURA „pretentie”, ar fi ca un moderator sa-l puna sticky la sectiunea de Carti in limba romana.
Nu ma astept deloc ca acest standard (sau altul) sa fie adoptat, sau impus, sau obligatoriu. E suficient ca el sa existe LA VEDERE.
Mai departe, se vor gasi cu siguranta membri ai forumului care vor adera la el, iar contributiile acestora vor fi singurele care ma vor interesa. Restul de lucrari ... ca si pana acum, am prea multe alte carti de citit ca sa stau sa le ... analizez si pe ele (observati ca ma exprim politicos )

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Revin, încercând să justific o menţiune care nu e prevăzută în materialele studiate.
    La versiunea [V0.9] am spus că numerele de pagină trebuie să rămână şi că vor fi eliminate de primul corector care face corectura prin citire cap-coadă şi confruntare cu originalul.
     Presupunem următoarea situaţie: cartea de scanat e lipită cu paginile foarte apropiate, nu permite o deschidere suficientă, pagini îngălbenite şi text decolorat, iar scannerul are senzor CIS şi nu CCD [la senzorul CIS este obligatoriu contactul documentului cu ecranul scannerului pe toată suprafaţa; el nu scanează şi obiecte, ci doar documente plane].
     În această situaţie e de aşteptat ca unele pagini OCR să aibă probleme pe fiecare rând cu un număr de 2-3 caractere sau chiar mai multe. În loc de literele respective ABBYY va scrie nişte „răgălii”. Este vorba de o „fâşie verticală, lată de 2-3 litere” în zona dinspre cotor. Corecturile automate vor elimina respectivele „răgălii”, dar nu vor putea pune literele corecte; deci, textul va arăta „curat”, dar incomplet.
     Persoana care face corectura [prin citire cap-coadă] va face confruntarea cu originalul. În funcţie de experienţă, „aruncarea privirii pe original” [carte pe hârtie sau pdf_img] se face mai des sau mai rar. Uneori, după o experienţă îndelungată şi dacă textul de corectat nu prezintă probleme, „confruntarea” se face la câteva pagini. La un moment dat apare problema cu lipsa literelor pe fiecare rând, menţionată mai sus. Având numărul de pagină pe text este foarte uşor să mergem la pagina respectivă de pe original. În momentul în care numărul de pagină lipseşte va trebui să derulăm mult mai încet textul din pdf, până găsim pagina cu probleme. Mai mult de atât: dacă cel ce execută corectura posedă şi imaginile originale sau un pdf la rezoluţie „cumsecade” poate reface OCR pentru paginile respective.
     Deci numerele de pagină vor avea rolul de coordonate. Scopul lor este de a oferi mai bună „orientare” în paginile cărţii.
     Din experienţa proprie rezultă că „pierderea timpului” cu ştergerea numerelor de pagină pe timpul corecturii este mult mai mic decât „pierderea timpului” pentru găsirea locului cu probleme în textul original.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
9. In principiu nu sunt pentru Codificarea 2, "romaneasca", pentru ca nu suntem noi mai cu motz decat altii. Totusi, aceasta codificare mi se pare mai precisa si, paradoxal, mai permisiva. Iata de ce: oltean puncta faptul ca ce facem pe forum (inclusiv citirea cartilor) este din pura placere. Din cauza asta ma intereseaza, citesc si aduc la urmatoarea versiune numai releasuri care sunt suficient de bine lucrate incat le pot citi cu relativa usurinta. 2-3 greseli pe pagina sunt ok pentru mine. In aceste cazuri nevoia de confruntare cu originalul scanat sau pe hartie este minima, desi este obligatoriu sa il am pe acesta la indemana. Personal nu sunt dispus sa confrunt versiunea electronica cu originalul "cuvant cu cuvant si pagina cu pagina", asa cum precizeaza standardul. Daca va aparea pe forum o carte lucrata neglijent, dar care ma intereseaza in mod deosebit, atunci fac rost de cartea tiparita si o mai OCR-esc odata asa cum stiu eu.
Ei bine, Codificarea 2 permite notarea versiunii rezultata din acest fel de corectura prin MN1.0. Este mai precisa, pentru ca arata exact cum am facut corectura, si mai relaxata, pentru ca face loc si acestui gen de corectura, fara a crea ambiguitati.

10. Recomandarea de codificare a versiunii UC in format PDF, drept [pdf_img], mi se pare sau superflua, sau incompleta. Prin definitie, UC = scanul brut, ceea ce inseamna "colectie de imagini in format bitmap" (bimap-urile sunt prelucrabile in aplicatii de tip Photoshop, spre deosebire de grafica vectoriala obtinuta de exemplu in ACAD sau CorelDraw). Faptul ca scanul este inglobat intr-un PDF este o intamplare, si depinde de posibilitatea scanerului de a crea PDF-uri (pana cu cativa ani in urma scanerele nu puteau genera automat PDF-uri) sau de bunavointa celui care scaneaza de a aduna intr-un singur fisier PDF paginile scanate intr-un alt format grafic. Asa ca exprimarea des intalnita "am pus PDF-ul", cu referire la scanul brut, este imprecisa si derutanta.
Propunere: (a) se pastreaza numai codificarea UC si se renunta la orice notare intre paranteze drepte; sau (b) codificarea dintre paranteze se completeaza in functie de formatul fisierelor bitmap care contin scanul: [pdf_img] (desi PDF nu este format bitmap), sau [png_img], [jpg_img], [tif_img] etc.

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
clandher
VETERAN

Inregistrat: acum 18 ani
Te enervezi degeaba. Am vrut doar sa precizez o "eroare" de formulare. In mare am pornit si noi de la codificarea versiunilor postata de tine. Codificarea asta exista de mult timp, si probabil cei care au definit-o au fost cei de la Gutenberg Project.

Eu am facut o precizare, pentru ca modul in care ai facut tu completarile lasa sa se inteleaga ca scanul din imagini e definit ca UC, ceea ce nu e adevarat. UC = scanul brut, dar de fapt se refera la ocr-ul brut care rezulta din Abby, ocr fara nici o prelucrare.

Cit despre Gurpul Yahoo.
Nu avem cum sa avem reguli care sa le folosim de ani de zile pentru ca grupul s-a constituit la sfirsitul lui ianuarie.
Nu suntem in nici un Palat de clestar, ci mai degraba o cooperativa, e doar un cerc alcatuit pe baza de munca, asta a fost criteriul dupa care s-au facut primirile in grup, si criteriul asta a ramas in continuare.
Cit despre iobagii care isi pun la dispozitie munca pe forum...pai o parte din ei sunt in grup, iar pe de alta parte cei mai multi iobagi de pe forum asteapta doar pleasca ...
Julien a fost banat pentru exprimarile lui care nu aveau nimic de a face cu discutiile despre carti. Nu faceti un martir din el daca nu ati apucat sa vedeti ce scria pe forum.


pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
11. Da, dom'le!... chandler, ai dreptate, efectiv n-am realizat faptul ca, semantic vorbind, UC NU este scanul, ci versiune text SUBcorectata. Cred ca mai corect ar fi sa inlocuim in standard UC prin "Scan", iar versiunile 0.1 si UC sa devina sinonime.

Off topic: K7, ai dreptate in doua privinte:
(a) chandler, intentiile constructive ale unor membri ai forumului sunt ambalate in exprimari ... sa le zicem redundante. Trebuie, adica, sa ai nervii destul de tari sa treci ca o floricica pe linga "deveniti mai catolici decat Papa", apreciere generata de raportarea la un sistem de referinta necunoscut pe forum. De unde sa stim noi, bre, cine e Papa, si cat de catolic este el, exactamente? 
(b) Este a treia oara in ultimele zile cand se afirma ca exista un standard asemanator. Intelegeti, oameni buni, ca NU NE INTERESEAZA, nu din rea-vointa, ci pur si simplu pentru ca nu ne este accesibil pe forum. Sorry, eu mai clar de atat nu pot sa fiu...
E acel alt standard mai complet, mai exact, a trecut el cu brio de proba timpului? Intr-un cuvant, este mai bun? Hai sa ne uitam peste el, sa vedem unde si de ce e mai bun, ca poate il adoptam si noi. Pana atunci, standardul lui K7, rafinat nitel aci pe forum, este, deasupra oricarei indoieli, CEL MAI BUN.


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
POSTARE REFORMULATĂ

clandher a scris:

Eu am facut o precizare, pentru ca modul in care ai facut tu completarile lasa sa se inteleaga ca scanul din imagini e definit ca UC, ceea ce nu e adevarat. UC = scanul brut, dar de fapt se refera la ocr-ul brut care rezulta din Abby, ocr fara nici o prelucrare.

    Corect!... Nu numai că aşa rezulta din formulare, dar recunosc că aşa înţelesesem şi eu.
    Am făcut cuvenita corectare, în legătură cu "UC", reformulând astfel:
    UC sau V0.1  = înseamnă "necorectat", adică OCR brut, aşa cum este el extras de programul Abbyy sau alt program de tip recognito. Se poate folosi şi expresia  [OCR]  sau  [OCR_brut]

    Mă rog, eu aş exclude complet formularea "UC". Vrusesem doar să fiu fidel surselor originale.
    Spe că nu fac o greşeală din nou, dacă UC = V0.1. Bănuiesc că nu ar fi corect ca "UC" să fie notată V0.0. Nu cred că există în nici un domeniu o astfel de versiune.
    Să zicem că în legătură cu [V1.0] acum suntem de acord. Sau nu?

    Dacă răspunsul e DA, atunci să mergem mai departe: în legătură cu V0.2 ÷ V0.8 dacă ar trebui reformulat ceva şi ce anume?

    Nu merg mai departe, deoarece bănuiesc că ceea ce am notat eu la V0.9, ar fi ceea ce înseamnă în prezent V1.0.... şi, deci e nevoie de multe discuţii şi argumente în detaliu.

    O menţiune: Cei de la Proiectul Gutenberg au un grup, un consiliu de tip "CTC" care verifică în amănunt calitatea fiecărei cărţi şi apoi dau "verde" pentru publicare.
    Deoarece nu intră în discuţie o asemenea variantă pe forum, e unul dintre motivele pentru care militez pentru explicarea în detaliu a criteriilor de clasificare a fiecărei versiuni, pentru ca fiecare user interesat să poată avea informaţiile necesare.
    Dacă aceste criterii vor fi respectate sau nu, asta e o altă problemă şi nu intră acum în discuţie.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
pier_ro
Membru Gold

Inregistrat: acum 15 ani
K7 nu te supara ca am fost mai carcotasi. asa suntem noi cateodata dar uite ce am scris mai sus:
In mare parte sunt de acord cu tine. O mica obiectie la v1.0 care este asemanatoare cu ce zicea 02agigi02.
A sa nu uit. Si eu fac parte din grup si folosim cam aceeasi codificare ca tine cu 2 mici modificari:
1. Nu prea am vazut sa se foloseasca codificarea UC si nici macar v0.1 pana la v0.8. Personal nu prea le vad rostul. Adica inteleg ca cineva face un OCR si poate il si corecteaza automat dar dupa aceea nu cred ca mai vine si-l corecteaza nimeni automat. De obicei il ia cineva la mana si face o corectare sa-i zicem in mare. Dar comparata cu scanarea. Adica nu citeste dar trece prin fiecare pagina si corecteaza cat de mult poate. La cartile astea mai noi un v1.0 facut in acest fel este destul de bun calitativ deoarece OCR-ul pe o carte noua nu prea da multe gherle.
2. Formatarile speciale ar trebui sa se faca (asta e parerea mea) dupa v2.0 cel putin. Chiar nu are rost pe un v1.0 sa se faca o carte cu formatari speciale.
In rest toate bune si frumoase 

Modificat de oltean (acum 13 ani)


_______________________________________
contributia mea la acest forum:

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani

oltean a scris:

1. Nu prea am vazut sa se foloseasca codificarea UC si nici macar v0.1 pana la v0.8.

Corect!... despre UC nici nu mai discut. O eliminăm şi gata. Despre v0.1 pana la v0.8...
    Sunt două situaţii: carte nouă, cu hârtie curată şi de calitate, cerneală uniformă, font clar - la care OCR e foarte aproape de original... şi o singură persoană o poate aduce la versiune foarte bună (indiferent cum s-ar chema versiunea);
    ... şi cartea veche şi foarte veche, hârtie de ziar îngălbenită, cerneală decolorată în valuri (ştii la ce mă refer) - la care OCR de-abia dacă are o calitate puţin peste 50-60%.
    Uite un exemplu:
    De ce aş alege o astfel de carte? Simplu: nu s-a mai retipărit din 1924 şi poate ar merita adusă la lumină. Măcar pentru documentaţie.
    La acest tip de carte, dacă nu se face corectura manuală şi dacă nu se face într-o echipă... va fi foarte greu.
   
    În primul caz nu e nevoie de reguli prea complicate.
    În cel de-al doilea avem obligatoriu de original, vor fi nevoie de multe corecţii şi de mai multe persoane în echipă. Cred că aici ar putea intra în discuţie V0.1 - V0.9, pentru că toate corecturile automate, macrouri şi înlocuiri multiple nu vor fi suficiente.
    Şi apropos, cărţi din acestea vechi sunt destul de multe; unele dintre ele, sigur, nu au fost reeditate.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
eco_na
Membru Puf

Inregistrat: acum 14 ani
Buna ziua,

Urmaresc cu atentie ce se scrie aici, si sper ca in curand sa ma alatur si eu grupului celor care contribuie la imbogatirea colectiilor existente. Am insa o intrebare: nu se incalca nici o lege, nu se incalca drepturi de autor, de copyright? Banuiesc ca pentru o carte cum e cea exemplificata de K7 (Lev Tolstoi), editata in 1924, nu se pune problema, dar pentru cele mai recente, mai exact, cele cu o vechime sub 70 ani ma gandesc ca poate...


pus acum 13 ani
   
clandher
VETERAN

Inregistrat: acum 18 ani
Pentru majoritatea cartilor se incalca legea, foarte posibil si pentru cea din 1924.
De ce ? Simplu. Chiar daca opera autorului a intrat in domeniul public, dat fiind ca e mort de mai mult de 75 de ani, TRADUCEREA operei suporta aceleasi rigori ca si opera originala. Deci, daca de la moartea celui care a tradus acel fascicul in 1924 nu au trecut inca 75 de ani, este sub incidenta legii drepturilor de autor.


pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Urmarind cu atentie ceea ce se scrie aici, constat ca dezbaterea noastra nu incalca nici o lege. Asadar ...

12. Nu am propuneri constructive pentru reglementarea v0.2-v0.8, din trei motive: nu am analizat lucrari aflate in acest stadiu, nu prevad ca voi aduce vreuna doar pana la acest nivel, si nici ca ma voi apuca vreodata sa fac OCR cu rata de succes 50-60% (dar ... cine stie ...).

Pentru aducerea in lumea virtuala a unei carti precum cea din cazul prezentat de K7, o solutie poate fi scanarea, marirea contrastului pana la obtinerea unei litere suficient de negre, split, crop "la sange" pe oglinda paginii si inglobarea rezultatului intr-un PDF. Pentru a face PDF-ul cat de cat "searchable", se poate face un OCR din Acrobat Professional, care ramane inglobat in PDF (doar pentru citire pe PC, pentru ca readerele nu tin seama de aceasta caracteristica si, mai mult, s-ar putea sa nici nu deschida un PDF care are inglobat OCR-ul).

In functie de oglinda paginii ( = dimensiunile dreptunghiului tiparit efectiv pe foaia de hartie, adica foaia fara benzile albe de sus, jos, si lateral), acest PDF se poate citi cu readerul tinut landscape (daca oglinda e suficient de ingusta pe latime) sau se poate folosi zoom-ul implementat, mai bine sau mai rau, in toate readerele.

Propunerea mea este sa lasam versionarea 0.2-0.8 la latitudinea fiecaruia, desi ar fi de folos sa existe macar niste puncte de reper ...

Versiunea 0.9 - OCR-ul perfect - trebuie reglementata nitel mai riguros, dar n-am ajuns inca la ea.

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
clandher
VETERAN

Inregistrat: acum 18 ani
Cartile precum cea de mai sus se rezolva relativ simplu cu ceva munca.
1. se mareste rezolutia de scanare
2. se face corectura in Abby, dupa ce s-a facut ocr-ul.
Abia apoi se salveaza textul


pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
13. Sa mai facem un pas inainte, si sa incercam sa cadem de acord asupra a cum trebuie sa arate v0.9 – "OCR-ul perfect".

OCR-ul final cuprinde corecturile care se pot opera automat, semiautomat (cu confirmare) sau manual, fara a citi propriu-zis cartea. Corectura are ca scop obtinerea unui text usor de citit, prin corectarea a cat mai multe dintre erorile introduse de procesul de recunoastere a caracterelor, cu evidentierea titlurilor, a paragrafelor speciale si a cuvintelor subliniate de autor prin diverse formatari.

Intentia listei de mai jos este de a stabili ce trebuie eliminat si adaugat din v0.1 (OCR-ul brut), si nu limiteaza metodele prin care se poate face acest lucru. Este, in mare masura, o colectie de reguli tipografice.

Formularile folosesc jargonul din Word pentru Windows, si au la baza rezultatele obtinute la OCR cu Abbyy Finereader 9.

Aceasta lista este depasita. Faceti va rog referire la lista actualizata de mine in dimineata zilei de 23 dec.

1. Pagina
1) stabilirea dimensiunilor paginii la A4, cu oglinda suficient de mare
2) eliminarea marcajelor de sectiune; documentul va avea o singura sectiune
3) eliminarea coloanelor
4) eliminarea sfarsiturilor manuale de pagina
5) eliminarea antetului si/sau subsolului
6) verificarea pagina cu pagina e prezentei integrale a textului
7) scrierea corecta si unitara a numelor proprii

2. Paragraf
1) eliminarea tuturor stilurilor introduse de aplicatia pentru OCR
2) spatierea tuturor paragrafelor la un rand (single)
3) verificarea prezentei paragrafelor, conform originalului
4) formatarea cu alineat a tuturor paragrafelor, urmata de centrarea titlurilor si scrierea lor cu bold si cu un spatiu de cateva puncte inainte si dupa
5) introducerea de spatii inainte si dupa paragrafe, conform originalului
6) plasarea notelor in subsol, cu numerotare de la 1 la n
7) daca exista in original, scrierea pasajelor speciale cu corp mai mic, indentarea si spatierea acestora
8) transformarea Bullets and Numbering in text

3. Litere, cifre si alte caractere
1) se foloseste scrierea cu caractere romanesti (codepage 1250); pentru compatibilitate se utilizeaza literele cu cedilla in loc de virgulita
2) se foloseste peste tot acelasi font cu serife, de aceeasi marime masurata in puncte; daca este nevoie, se mai foloseste cel mult un alt font (preferabil sans-serif)
3) formatarea tuturor caracterelor la scara de 100%, cu spatiere normala (nu condensate, nici extinse) si pozitie normala (nu ridicate, nici coborate)
4) eliminarea evidentierii cu culoare a caracterelor, ramase de la aplicatia OCR
5) formatarea cu bold, italic si bold-italic conform originalului
6) eliminarea paragrafelor goale (a Enter-urilor consecutive)
7) caracterul de sfarsit de linie se inlocuieste cu un spatiu
8) inlocuierea caracterului Tab printr-un spatiu
9) eliminare spatii duble
10) eliminarea spatiilor din fata semnelor de punctuatie (virgula, punct, punct si virgula, doua puncte, semnul exclamarii, semnul intrebarii, puncte-puncte, ghilimele inchise, paranteza rotunda inchisa, paranteza dreapta inchisa) si de dupa ghilimelele deschise, paranteza rotunda deschisa si paranteza dreapta deschisa
11) eliminarea caracterului  „spatiu” de la sfarsitul si inceputul paragrafelor
12) corectarea paragrafelor care se termina cu litera mica, virgula, punct si virgula, cratima, liniuta despartitoare
13) corectarea paragrafelor care incep cu litera mica sau cu semne de punctuatie
14) liniile de dialog sunt Em dash (Alt+0151) sau Horizontal line
15) dupa liniile de dialog se pune Nonbreaking space
16) referirile in text la notele de subsol se scriu cu font normal-drept si se plaseaza inaintea semnelor de punctuatie, cu exceptia situatiilor cand nota se refera la intreaga fraza
17) în subsol, dupa numarul de referinta al notelor se pune Nonbreaking space
18) inlocuire trei puncte (...) cu caracterul Elipsis (Alt+0133)
19) inlocuire apostrof Alt+0039 cu apostroful tipografic Alt+0146 (daca nu este vorba de notatia pentru minute)
20) inlocuirea ghilimelelor cu cele romanesti „ – Alt+0132 si ” – Alt+0148
21) eliminarea spatiului din fata si de dupa cratima de legatura
22) in cuvintele compuse, inlocuirea cratimei cu Nonbreaking hyphen
23) inlocuirea cratimei explicative cu liniuta separatoare – (En dash), precedata si urmata de un spatiu
24) inlocuirea cratimei din intervalele numerice, cu En dash (ex. 24-36 cu 24–36, sau XV-XVI cu XV–XVI)
25) eliminarea artefactelor introduse in procesul de OCR ( |  /  @ , . ^ # etc.)
26) asigurarea prezentei unui spatiu dupa semnele de punctuatie din cadrul frazelor
27) eliminarea situatiilor in care o cifra apare in locul unei litere (0 in loc de O majuscul) sau invers (este litera l mic in loc de cifra 1)
28) formatarea (italic, bold, bold-italic) semnelor de punctuatie, parantezelor inchise si ghilimelelor de sfarsit, la fel ca si cuvantul care le precede
29) formatarea (italic, bold, bold-italic) parantezelor deschise si a ghilimelelor de inceput, la fel ca si cuvantul care le urmeaza
30) eliminarea unor greseli de OCR prin folosirea corecturii semiautomate (cu confirmare) facuta cel putin cu dictionarul dintr-o versiune de Word

4. Optional
1) optional, tabelele se transforma in text
2) optional, se pastreaza grafia cu î din i si cu „sînt” in loc de „sunt”

Lista nu este completa, nici 100% corecta ... e doar o baza de dezbatere.


Aceasta lista este depasita. Faceti va rog referire la lista actualizata de mine in dimineata zilei de 23 dec.

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Aceasta postare e facuta dupa propunerea lui chandler si raspunsul lui K7.

14. (inserat undeva dupa 3.11) 3.31) se elimina cratima optionala de despartire in silabe; documentul nu se desparte in silabe.

Alta (ar veni dupa 4.1): 4.3) alinierea paragrafelor este stanga, sau stanga-dreapta, la alegere.

Modificat de Aleph (acum 9 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Iată ceva cu adevărat "concret" şi muncit!
    Sunt de acord că aşa ar trebui să arate "OCR-ul perfect".
    Acum... că asta s-ar chema V0.9 sau V1.0... asta e mai puţin important, deşi n-aş renunţa la teoria versiunilor subunitare şi supraunitare, dar nici nu insist pe o chestie, care e prea măruntă. Deci, poate foarte bine să fie şi V1.0

    Pentru mine un lucru e cert. La un OCR în limba română apar mult mai multe erori decât la un OCR în limba engleză. Motive sunt multe: diacritice, complexitatea gramaticii române, lipsa unor programe puternice de corectare în limba română etc. etc....
    ... din aceste motive şi multe altele, pentru textele în limba română "OCR-ul perfect" nu înseamnă şi "textul perfect" - este necesară una-două corecturi manuale cap-coadă.
    Cu acest lucru ar trebui să cădem de acord.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
clandher
VETERAN

Inregistrat: acum 18 ani
Am o singura propunere/sugestie de facut, si sper sa nu fiu iarasi inteles gresit.

Stiu ca formatul A4 a devenit oarecum standard, si din motive de comoditate (formatul Letter, apropiat de A4 este implicit in Word, deci orice document, inclusiv ocr-ul din Abby salvat in word, este formatat in acest mod (Letter/A4)
Formatul este uzual pentru documente, lucrari de licenta/doctorat etc ...este usor de citit pe calculator dat fiind ca actualele monitoare sunt destul de mari ... dar

Sa nu uitam ca au aparut si se extinde folosirea de ereadere si ipad sau similare. Cam toate aceste dispozitive merg pe marimi de pe la 6 la 10 inch, uneori putin mai mult. Daca se scad si marginile, de fapt nu ramine foarte mult pentru ecran.

In consecinta, cred ca formatul potrivit pentru lucrul la cartile in format electronic este A5 , asta cu atit mai mult cu cit majoritatea cartilor, mai ales cele de beletristica au de fapt acest format.
Parerea mea este ca ar fi mai simplu de lucrat pe acest format inca de la inceput, decit sa se reformateze documentul final de catre fiecare utilizator de ereader. Asta cu atit mai mult cu cit cei care citesc pe calculator nu au nici un inconvenient din asta.


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Ai dreptate Clandher.
    Eu am urcat documente finale în format A4, mergând pe ideea că fiecare posesor de e-Reader îşi va formata textul cum va dori de cuviinţă.
    Realitatea e că pe timpul lucrului folosesc A5. Pentru corectura manuală cu confruntarea originalului, A5 este formatul cel mai practic.
    Dacă fac o versiune superioară (în care nu mai fac confruntarea cu originalul) atunci pe computer mi-e mult mai comod A4.
    Dar, da A5 este formatul potrivit pentru lucru.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Am mai pus doua subpuncte in locul bâlbei din prima postare de pe pagina.

15. De acord cu adoptarea formatului A5. Tocmai pentru ca se citeste pe dispozitive diferite, fiecare isi poate adapta pagina printr-un simplu "Page setup".

Mai vad o problema, careia nu-i gasesc pe moment o rezolvare buna. Cum sa facem sa ramana numerele de pagina in v0.9? In document nu avem nici section break, nici manual page break...

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Discuţia în zona asta a ajuns foarte tehnică. Poate ar trebui reluată în cadru restrând, doar cu cei avizaţi şi interesaţi.

    Să facem modificarea:
    în loc de 1.1) stabilirea dimensiunilor paginii la A4, cu oglinda suficient de mare
    va fi: 1.1) stabilirea dimensiunilor paginii la A5, cu oglinda suficient de mare

    Iar pentru problema cu numerele de pagină...
    dacă la 1.4 şi/sau 1.5 în loc de eliminarea folosim înlocuirea
    în loc de
           1.4) eliminarea sfarsiturilor manuale de pagina
           1.5) eliminarea antetului si/sau subsolului
    vom avea
           1.4) înlocuirea sfarsiturilor manuale de pagina cu rând gol sau......
           1.5) înlocuirea antetului si/sau subsolului....
     
    Concret: eu salvez documentul OCR ca RTF - Plain Text, şi am activate opţiunile "Keep headers and footers" şi "Keep page breaks".
    Textul RTF - Plain Text nu păstrează nici un stil şi am scăpat de sumedenia de stiluri... (treaba asta merge la texte de beletristică, unde apare text normal şi uneori italic sau bold)
    Una dintre primele faze de prelucrare pe care o fac OCR-ului este aceea de modificare a header-ului; problema dificilă este dacă numărul de pagină e cuprins în header împreună cu titlul operei, respectiv numele autorului. Pare o muncă în plus, dar din punctul meu de vedere se merită...

     Privind alinierea... aş înclina spre stânga-dreapta, deoarece ajută să vedem mai uşor dacă există linie-break în cadrul paragrafului....


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Despre tehnicitatea discutiei ... e ca in orice profesie – pentru ca cei avizati sa se inteleaga intre ei, fara ambiguitati, si-au inventat un limbaj propriu. Cel care realizeaza o versiune 0.9 trebuie sa fie familiarizat cu jargonul, pentru ca altfel nu are cum sa ajunga la rezultatul asteptat. Partea buna este ca bagajul de cunostinte obligatorii este foarte mic si relativ usor de asimilat avand Word-ul in fata si un text gata prelucrat. Adica, sper ca nu e greu ... m-am deformat, stau cu notiunile astea in fata ochilor de mult timp, nu mai pot sa-mi dau seama ...

Cei aflati la inceput se pot opri la v0.8, de exemplu, sau pot intreba pe forum. Daca intrebarea e bine formulata si raspunsul asteptat scurt, sunt mari sanse sa li se raspunda.

Sunt absolut de acord cu completarea caracteristicilor v0.9, astfel incat sa acopere cat mai multe situatii particulare.

Nevoile mele au fost pana acum relativ mici. Corectez pe reader si apoi operez corectura pe PC, astfel incat v0.9 in format A4 sau A5 e acelasi lucru – oricum inainte sa citesc pentru v1.0, aduc pagina la 9 cm latime.
Nu am nevoie de pastrarea numerelor de pagina, pagina pe reader fiind de cel putin doua ori mai mica decat un A5, dar nici nu ma incurca, pentru ca scap de ele in 2 secunde. Daca o sa ma opresc doar la v0.9 a unei carti, o sa stau un sfert de ora sa pun sfarsituri de pagina manuale, urmate de numerotare automata.
La fel, nu ma impiedic de alinierea stanga-dreapta a paragrafelor (citesc cu aliniere stanga, pentru ca ecranul readerului e ingust, incap putine cuvinte pe rand, si alinierea stanga-dreapta lasa spatii suparator de mari intre cuvinte).

Parca as opta pentru dezbaterea acestor aspecte aici, pe forum, oricat de tehnice ar fi.

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
iamneni
Membru Junior

Inregistrat: acum 13 ani
Urmaresc cu interes dezbaterile domniilor voastre si sunt de parere ca ele sa ramana aici pentru ca, daca nu intervine altcineva in discutie, altii citesc, deosebesc, aplica si finalizeaza dupa sfaturile si dupa dezbaterile astea tehnice. 

Multumesc inca o data pentru ceea ce doriti sa exemplificati aici.


_______________________________________
_________________________________________________________
Civilizat ca un sălbatic indian apaş,
Te rog frumos cu pozele în pace,să mă laşi.
Că scopul e-un mesaj, eu-s o non-vedetă,
Contra implantului de cip, clonare si anti-rachetă.

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Dacă dezbaterea prezintă interes, bineînţeles că ea va continua pe forum.
    Faptul că nu sunt multe persoane care participă la dialog m-a făcut să am sentimentul că "vorbim singuri" lucruri care nu interesează pe nimeni. Dacă mă uit la numărul de vizitatori ai topicului de până acum [788], atunci da, discuţia se merită. Dacă ea ar interesa pe 5% dintre vizitatori, atunci discuţia merită lărgită ca subiecte şi continuată.
    Topicul seamănă cu un meci de Wrestling între echipe de doi, unde din când în când membrii aceleiaşi echipe mai fac câte un schimb de lovituri. Apăi... dacă în sală sunt spectatori, atunci să continuăm.

     Deci...
     Deocamdată nu am un e-reader, iar ceea ce ştiu despre ele e doar rezultatul discuţiilor de pe forum şi a informaţiilor de pe net;
     Lucrez doar pe computer şi toate părerile şi propunerile mele au rezultat doar din experienţa lucrului pe computer. Folosesc un monitor de 19", ceea ce-mi permite să fac foarte uşor corectura în două ferestre [pdf din imagini şi document word].
     De aceea, e posibil ca uneori, ceea ce mie mi se pare avantaj, pentru cei ce fac corectura cu ajutorul e-readelor să fie dezavantaj.


     *** V0.9 versus V1.0
     Data de 23 decembrie este foarte aproape... Am putea continua discuţia despre acest lucru şi după această dată, dar am deveni neserioşi, fiind noi înşine cei ce nu-şi respectă cuvântul dat.
     Practic discuţia are un singur punct divergent: V0.9 versus V1.0. E foarte important de clarificat faptul dacă prima corectură manuală este V1.0 sau V2.0.
     Aş fi dorit să-şi spună cuvântul în legătură cu acest lucru şi o anumită persoană, pe care unii dintre noi o ştiu ca fiind cu cea mai mare experienţă. Dacă puteţi obţine părerea lui, atunci eu o accept fără nici o rezervă, indiferent care va fi ea.
     Şi încă o problemă: Să zicem că prima corectură manuală se va numi [W2.0] – am scris intenţionat W pentru a nu se înţelege că, deja, am ales. În această situaţie, nu mai trebuie să apară întrebarea „Cine a făcut versiunea [W1.0]?”, pentru că nu mai contează. De ce? Pentru că eu cred că indiferent cât de slab ar fi un OCR, dacă-l iau la corectat prin citire cap-coadă şi confruntând cu originalul, textul rezultat este tot un [W2.0]. Singura diferenţă constă în cantitatea de muncă, mult mai puţină dacă avem un text cu corecturi automate+semiautomate şi mult mai multă dacă e vorba de un OCR brut.
     Deci, aştept un semn Sir!

     *** Despre criteriile pentru V0.9 / V1.0
     deschid o pagină nouă pe Site-Google arătat în primul post, unde să urcăm toate aceste criterii şi etape, cu posibilitatea de modificare, conform discuţiilor.

     *** Despre dificultatea termenilor...
     Da, pentru mulţi, o parte dintre aceşti termeni sunt confuzi, dificili sau necunoscuţi. Unii dintre aceşti termeni, poate, ar trebui explicaţi undeva, într-un fel de dicţionar.
     E o muncă destul de dificilă şi nu se poate face doar de către una sau două persoane...

     *** În legătură cu păstrarea numerelor de pagină:
     - dacă AVEM DEJA numere de pagină pe OCR, ele să nu fie eliminate o dată cu executarea "curăţirii OCR", în care se face eliminarea artefactelor, eliminarea paragrafelor false, caractere tipografice şi celelalte "răgălii". De ce? Pentru simplu motiv că numărul de pagină nu este neapărat o "răgălie" şi poate fi transformat în ceva folositor - despre asta am discutat într-un post anterior şi e valabil doar pentru lucru pe computer.
     - dacă NU AVEM numere de pagină pe OCR, atunci nu are rost să încercăm să le punem, deoarece este un lucru mult prea dificil şi munca e nerentabilă.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
02agigi02
Membru Junior

Inregistrat: acum 16 ani
In legatura cu regulile v0.9 (na, ca era sa scriu v1.0...), am cateva comentarii:

2. Paragraf
4) e neclar ce reprezinta "un spatiu de cateva puncte inainte si dupa".
Daca te referi la formatarea paragrafului (spatiere inainte si dupa), probabil e preferabil utilizarea unui paragraf gol (dublu enter) inainte si dupa titlu (in locul spatierii). Asta pentru ca spatierea din formatarea paragrafului se pierde la conversia in unele formate (ex: lit)

4) Centrarea titlurilor si scrierea lor cu Bold: o alta metoda e folosirea stilurilor. In general parerea mea e ca trebuie evitata formatarea pe font (bold, italic, etc) la titluri, subtitluri, etc, pentru ca e mult mai usor sa schimbi un stil decat toate aparitiile unui format pe font. De altfel si cuprinsul e extras tot din lista de stiluri folosite.   

5) "Introducerea de spatii...". Te referi la dublu enter (paragrafe goale)?

(Nou?) Eliminarea paragrafelor false.


3. Litere, cifre si alte caractere
2) Titlurile e preferabil sa aiba o marime mai mare decat restul textului

3) Exceptie: marcajele notelor de subsol precum si caracterele care sunt subscript/superscript in textul original

6) Nu toate paragrafele goale trebuie eliminate. Dublu Enter e folosit adesea pentru a separa portiuni de text.

7) Nu toate <sfarsit de linie> trebuie inlocuite cu spatiu. Depinde de ultimul caracter din linie (de ex: cratima neseparatoare => fara spatiu)

8) Exceptie: Tab la inceputul paragrafului, inainte de linia de dialog, se sterge nu se inlocuieste cu spatiu.

20) E vre-un motiv anume pentru regula asta? Personal prefer ghilimele inteligente din word... Cred ca e important sa se foloseasca acelasi tip de ghilimele (din cele 4 - parca - existante in word)

4. Optional
2) Cred ca ar trebui pastrata grafia originala a textului (ne-optional).


Despre numere de pagina:
O solutie ar putea fi folosirea atributului "text ascuns" din word. In principiu ar trebui detectate toate numere de pagina si "ascunse". Ele sunt prezente in text, si pot fi facute vizibile sau nu, dupa dorinta.

@Aleph: ai putea te rog sa detaliezi metoda ta de a scapa de numerele de pagina, din OCR, in doua (sau mai multe, dar nu foarte multe :-) secunde?

initiativa cartilor mai 2010 legatura regulile v0.9 (na, era scriu v1.0...), cateva paragraf neclar

24.1KB


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Maestre agigi, Aleph a „alunecat” în terenul tău şi mă bucur că a făcut-o.
     Apropos, m-ai întrebat ceva l-a care nu cred că ţi-am răspuns. ...Dacă poţi folosi "dic..." Răspunsul e DA, bineînţeles.

   Referitor la cerinţele pentru un „OCR perfect” am oarece comentarii.

   Cred că o parte dintre ele se pot face doar pe timpul primei corecturi manuale. Acestea sunt:
   2.3) verificarea prezentei paragrafelor, conform originalului
   2.6) plasarea notelor in subsol, cu numerotare de la 1 la n
   2.7) daca exista in original, scrierea pasajelor speciale cu corp mai mic, indentarea si spatierea acestora
   3.5) formatarea cu bold, italic si bold-italic conform originalului
   3.23) inlocuirea cratimei explicative cu liniuta separatoare – (En dash), precedata si urmata de un spatiu
   3.24) inlocuirea cratimei din intervalele numerice, cu En dash (ex. 24-36 cu 24–36, sau XV-XVI cu XV–XVI)
   3.28) formatarea (italic, bold, bold-italic) semnelor de punctuatie, parantezelor inchise si ghilimelelor de sfarsit, la fel ca si cuvantul care le precede
   3.29) formatarea (italic, bold, bold-italic) parantezelor deschise si a ghilimelelor de inceput, la fel ca si cuvantul care le urmeaza


   Sunt de acord cu:
   3.1) se foloseste scrierea cu caractere romanesti (codepage 1250); pentru compatibilitate se utilizeaza literele cu cedilla in loc de virgulita.
   Din câte am înţeles diacriticele cu sedilă se văd în toate variantele de Word şi în toate variantele de Win şi Linux, pe când cele cu virgulă nu se văd la Win Xp cu Word 2003.

   Pur şi simplu îmi plac şi le folosesc:
   3.19) inlocuire apostrof Alt+0039 cu apostroful tipografic Alt+0146 (daca nu este vorba de notatia pentru minute)
   3.20) inlocuirea ghilimelelor cu cele romanesti „ – Alt+0132 si ” – Alt+0148

   Pur şi simplu nu îmi place şi-l şterg totdeauna din AutoCorrect Options:
   3.18) inlocuire trei puncte (...) cu caracterul Elipsis (Alt+0133)
   
   Dacă mai constat ceva, biensur că voi reveni.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Post modificat prin adaugarea la sfarsit a raspunsului catre K7.

02aigig02, bine ai venit in groapa cu lei!

Inainte de a da raspunsuri, punct cu punct, observatiilor tale, trebuie sa stii ca regulile propuse tin de domeniul tehnoredactarii. Insa respectarea unui tipic de tehnoredactare nu garanteaza obtinerea unui document usor convertibil intr-un format e-book pentru readere, ca in exemplul tau cu formatul .lit (de care nu stiam). Ar fi excelent daca am putea impusca doi iepuri dintr-o data, cazand de acord asupra unui OCR perfect care sa creeze simultan premisele convertirii usoare in alte formate e-book.

Asadar:

2.4) In tehnoredactare nu se foloseste spatierea pe verticala prin adaugarea de Enter-uri (decat in cazuri, sa zicem, „disperate”). De ce? Fiindca, de exemplu, daca spatiem doua paragrafe printr-un Enter, apoi modificam oglinda paginii (fie si numai putin), exista sansa ca al doilea paragraf sa se nimereasca primul pe pagina, impreuna cu Enter-ul care il separa de cel dinainte. Vom avea deci o pagina care incepe cu un rand gol. Evitarea aparitiei unor astfel de cazuri se face prin spatierea cu un numar de puncte puse inaintea celul de-al doilea paragraf.
In cazul nostru, cand ne concentram pe text, nu pe formatare, imi este bineinteles indiferent daca spatierea titlurilor se face prin puncte sus si jos, sau prin Enter-uri. Nu am nimic impotriva modificarii in acest sens a „regulii”. Doar ca pentru ochiul meu, ceea ce se obtine „nu da bine”.

Mai departe, sigurul scop al scrierii titlului cu bold si al spatierii acestuia este minima lui evidentiere in cadrul textului, pentru comoditatea citirii lui ulterioare. Nu discutam despre stiluri in acest stadiu.

2.5) Da, putem pune si Enter-uri, in virtutea a ceea ce am zis mai sus.

3.2) Daca hotaram sa scriem titlurile cu font putin mai mare, cu atat mai bine, fiindca ne va fi mai usor sa le aplicam apoi un stil folosind Find and Replace.

3.3) M-am referit la parametrii de la Font -> Character Spacing din Word. Indicii si exponentii nu-si pierd proprietatile la normalizarea pe text a parametrilor respectivi. Deh ... deformarea de care pomeneam intr-un post anterior. Da, punctul trebuie completat cu „cu exceptia indicilor si exponentilor”.

3.6) Aici e vorba de a prefera o metoda sau alta. Eu as elimina initial toate Enter-urile duble sau multiple si apoi le-as pune la loc doar acolo unde e nevoie, la confruntarea cu originalul tiparit.

3.7) Observatia este absolut corecta. Punctul ar trebui reformulat sau ca „sfarsiturile manuale de linie se elimina” (cum se face asta, tine de metoda, despre care propuneam sa nu intre in dezbatere – rezultatul trebuind sa fie strict disparitia acestui caracter din text), sau „caracterul de sfarsit de linie se inlocuieste cu un spatiu, sau cu nimic in cazul in care este precedat de cratima”.

3.8) Daca observi, caracteristicile din lista respecta pe alocuri o anumita ordine a operatiilor. Acel Tab de la inceputul paragrafelor, inlocuit prin spatiu la pct. 8, este eliminat la pct. 11.

3.20) Aici cred ca de fapt vorbim despre acelasi lucru. Prefer ghilimelele 99-99, pe care de altfel le si obtinem folosind smart quotes din Word. Te referi la alt fel de ghilimele?

4.2) 100% de acord! Intentia a fost doar ca regula sa fie nitel mai relaxata. Eu as lasa-o totusi optionala, nu-mi dau seama ce castig am avea daca am reglementa-o strict. Facem cum credeti si voi ...

Legat de numerele de pagina – daca am inteles bine, nu ar trebui ascunse antetul si subsolul? Ar fi interesant daca s-ar putea face asa ceva?

Cum scap in doua secunde de numerele de pagina ... pai Abbyy le pune in antet sau subsol, nu? N-am folosit niciodata OCR cu pastrarea numerelor de pagina, m-am ghidat dupa ceea ce a scris K7. Altfel, bineinteles ca sunt criminal de inlaturat din corpul textului.

Astept parerile tale. Daca e ceva ce nu am inteles bine, trage-ma de maneca. Multumiri pentru participarea la dezbatere, observatiile tale sunt extrem de bune si utile. Incepusem sa cred ca eu si K7 vorbim limbi straine pe-aici ...  ;-)


K7:

(1) - „pentru textele in limba romana «OCR-ul perfect» nu inseamna si «textul perfect»”. Foarte bine zis.

Sunt pentru respectarea termenului de 23 decembrie. Acesta este lucrul cel mai important pe care il avem de realizat acum. Intr-o zi-doua cred ca putem ajunge la niste concluzii, pe care apoi sa le putem aplica o vreme. Nu as fi pentru trecerea la RIF1.1 sau RIF2 mai devreme de cateva luni de aici inainte, cu exceptia unor cazuri de scapari majore in RIF1.

(2) - Despre corecturile pe care le recomanzi sa fie facute la prima citire:
Stiu ca nu-i frumos sa ma citez singur ... „OCR-ul final cuprinde corecturile care se fac fara a citi cartea, in scopul obtinerii unui text usor de citit”. Eu nu as renunta cu usurinta la acest principu ... am senzatia ca este fundamental. Toate cele 8 corecturi enumerate de tine se pot face fara a citi cartea, ci cel mult cuvinte disparate din ea. Toate au ca scop „aerisirea” textului pentru maximizarea placerii lecturii in vederea obtinerii v1.0. De altfel 5 dintre ele se pot in mare masura automatiza.

Putem, daca vrei, sa plasam aceste caracteristici la „Optionale”. Daca nu vor incapea nici la optionale, eu totusi le voi respecta. Sunt de acord, deci, fara discutie, cu parerea voastra, oricare ar fi ea.

(3) - Despre scrierea cu cedilla a caracterelor romanesti:
Imi vine sa mor cand vad sh-ul si tz-ul scrise cu viermisorul ala sub ele, dar Bill Gates (ca nume generic) a impus demult niste standarde care au devenit, daca nu acceptate, atunci mult folosite. Odata cu Vista, se revine la normal, dar in perioada istorica curenta nu este momentul pentru normalitate ...

(4) - Apostroafele si ghilimelele curbe sunt corecte. Cele drepte sunt o inventie pacatoasa ...

(5) - Puncte-puncte: sa stii ca exista si cazuri (putine) de fonturi in care Elipsis arata mai bine decat trei puncte. As vrea sa pastram totusi Elipsis, din doua motive: pe de o parte, a fost inventat tocmai in acest scop, iar pe de alta trei puncte maresc probabilitatea de eroare la trecere de pe un rand pe altul, cand pe un rand pot ramane doar unul sau doua din cele trei puncte. Sunt de acord insa ca pana la o anumita faza a corecturii automate poate fi mai util sa pastram trei puncte.

(6) - Buna ideea cu sinteza de pe site-ul Google.

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Shit!
02agigi02, ai dreptate, metoda de salvare a OCR-ului preferata de K7 (RTF - Plain Text cu "Keep headers and footers" şi "Keep page breaks" ) pune antetul si subsolul in text.
Abia incepand de la metoda "Editable Copy", acestea sunt tinute in header si footer.
Scuze ... am descoperit si eu America ...

Imi dau seama ca nu ti-am raspuns la „(Nou?) Eliminarea paragrafelor false”.
Intentia mea a fost rezolvarea lor la 3.12 si 3.13. Mai sunt si alte cazuri? Sau, mai bine zis, care este definitia paragrafului fals?

Am gasit ceva, legat de transformarea RTF in LIT (desi nu mai are importanta). Add-in-ul "Read-in" de la Microsoft pentru Word 2003 ( ) pastreaza in LIT o oarecare separare a titlurilor care in RTF sunt spatiate vertical prin distanta inainte si dupa paragraf.

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
02agigi02 - cunosc şi respect poziţia ta/voastră despre păstrarea regulilor cu î din i, a cărţilor scrise astfel.
     Asta însă nu înseamnă că pot accepta ca această poziţie să devină OBLIGATORIE.
     Dacă intrepretăm cartea electronică drept o copie fidelă, un fel de reconstituire într-o altă formă, folosită pentru studiu şi cercetare... da sunt de acord.
     Dacă acceptăm că ea, cartea electronică este o muncă de creaţie, practic o altă ediţie... atunci nu înţeleg de ce este obligatorie în 2010 folosirea unor reguli de dinainte de 1993. Reamintesc că atât Word, cât şi OpenOffice au corectoare în limba română "contemporană", deci cu regulile de după 1993.
     Care ar fi argumentul ca pentru o "lucrare" nouă să folosesc nişte reguli vechi?
     Şi dacă originalul e scris cu d cu virgulă [ca la ş şi ţ] în loc de z, cu ę şi ĕ în loc de ă... etc...  ce facem?... păstrăm grafia orginală?... De ce să păstrăm regulile lui î din i şi nu şi pe asta?
      Deci, hai să lăsăm această regulă cu caracter OPŢIONAL


  Aleph a zis:
  3.18) inlocuire trei puncte (...) cu caracterul Elipsis (Alt+0133)
  şi mai apoi:
  As vrea sa pastram totusi Elipsis, din doua motive: pe de o parte, a fost inventat tocmai in acest scop, iar pe de alta trei puncte maresc probabilitatea de eroare la trecere de pe un rand pe altul, cand pe un rand pot ramane doar unul sau doua din cele trei puncte.

    Bineînţeles că ai perfectă dreptate. Şi dacă am ajuns aici, atunci să intrăm în detaliu cu câteva reguli.
    Unii dintre noi ştiu câteva dintre ele, alţii nu le prea ştiu...
    - Ar fi de discutat despre grămada de linii, liniuţe, cratime şi alte alea... adică de ce să ne complicăm cu atâtea linioare?...
    - Cine e "nea Breakin" ăla şi ce vrea el [Nonbreaking space; Nonbreaking hyphen]?... şi mai sunt şi alte probleme

    Acum şi aici mă refer doar la eliminarea spaţiului de dinaintea semnelor de punctuaţie.
    Când scriem de mână sau citim o carte tipărită, între cuvânt şi semnul de punctuaţie ce urmează există un pic de spaţiu; măcar aşa să nu fie lip de ultima literă a cuvântului.
    La redactarea pe computer semnul trebuie lipit de cuvânt. Între ultima literă a cuvântului şi semnul de punctuaţie nu trebuie să existe spaţiu. Deci semnele ! ? , ; . : ... ) ] » " trebuiesc lipite de cuvântul din faţa lor. Constatăm că e vorba şi de semnele de închidere a ghilimelelor şi a parantezelor.
    Dacă ele nu sunt lipite, există posibilitatea ca textul unui paragraf să se termine pe un rând, iar semnul de punctuaţie să apară singur pe rându-l următor. Uau!... urâtă situaţie...
    Dar mai avem o situaţie: când deschidem paranteze de orice fel, rotunde, patrate ori de altă formă şi când dăm un citat încadrat între ghilimele obişnuite sau  « »  primul cuvând trebuie să fie lipit de semnul care arată începutul parantezei sau al ghilimelelor.
    Motivul e acelaşi ca mai sus şi anume evitarea ca semnul să fie pe un rând iar textul să treacă pe rândul următor.

    Dacă aceste explicaţii folosesc cuiva sau ba, ar fi bine ca cei interesaţi să intervină din când în când.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Alte propuneri:

2.3) sa o trecem totusi la optionale...

2.9) Refacerea paragrafelor scindate prin Enter de catre aplicatia OCR. (plasat undeva dupa 2.6)

Sa cream 5. Grafica (ar trebui sa fie de fapt 4. iar optionalele 5.) la care sa punem
5.1) Imaginile grafice (fotografii, diagrame, schite, etc.) se scaneaza la 200 sau 300dpi, color sau alb-negru, ca in cartea tiparita
5.2) Imaginile se plaseaza in text „inline”, intre doua paragrafe, cat mai aproape de locul original

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
clandher
VETERAN

Inregistrat: acum 18 ani

K7 a scris:


     Dacă intrepretăm cartea electronică drept o copie fidelă, un fel de reconstituire într-o altă formă, folosită pentru studiu şi cercetare... da sunt de acord.
     Dacă acceptăm că ea, cartea electronică este o muncă de creaţie, practic o altă ediţie... atunci nu înţeleg de ce este obligatorie în 2010 folosirea unor reguli de dinainte de 1993. Reamintesc că atât Word, cât şi OpenOffice au corectoare în limba română "contemporană", deci cu regulile de după 1993.
   



Pai hai sa luam situatia urmatoare. Scrierea conform normelor actuale este o hotarire a Academiei Romane din 1993, care hotarire este controversata, o serie de Institute Lingvistice din tara contestind aceasta decizie. Nu cred ca e locul aici sa spunem de ce a fost luata aceasta decizie, daca ea are suport sau nu etc etc.
Ce vreau sa spun este ca actualmente, sunt cel putin 2 edituri mari: Polirom, Humanitas - care folosesc regulile de inainte de 1993. Si cred ca am constatat asta si la carti de la Tritonic, dar nu am cum sa verific pe moment. E posibil sa fie si alte edituri acre au aceasta politica. Ce facem in aceste cazuri ? Consideram ca ei nu stiu limba romana si recorectam noi cartea ?

E totusi o dilema pina unde merge corectura si cit de fideli raminem cartii. Personal m-am confruntat cu aceasta situatie recent, si desi sunt pentru a respecta modul in care a fost scrisa carte - in general - totusi am trecut putin peste asta, si pentru o carte aparuta la noi in 1950, am actualizat o serie de cuvinte, patsrind totusi scrirea cu â din a, si ' in loc de - .
A fost un mix, pina la urma.

Modificat de clandher (acum 13 ani)


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Nu sunt un mare simpatizant al lingviştilor. Deci nu pot spune că mă încântă Hotărârea Academiei Române din 1993... şi sunt de acord că ea e controversată şi la această dată: de unii e acceptată, de alţii nu. Dar, în acelaşi timp atâtea generaţii de copii au scris şi citit la şcoală cu â din a.
    De aceea nu cer altceva decât posibilitatea de a opta...
    Deci ca regula asta să fie opţională.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Alta...

Pentru ca arata mai bine, si se evita problemele la trecerea de pe un rand pe altul:
3.32) Separarea miilor in cadrul numerelor se face prin non-breaking space, cu exceptia anilor, care se scriu legat

Reformulari la:
3.7) Eliminarea caracterului de sfarsit de linie sau inlocuirea lui, dupa caz
3.8) Eliminarea Tab-urilor sau inlocuirea lor, dupa caz

Ar mai fi o chestie ... la mine corectorul lexical din Word se poticneste de cuvintele compuse cu Non-breaking hyphen. Daca acele cuvinte sunt scrise cu cratima, le recunoaste corect. La voi face la fel? Ar fi util sa punem 3.20) dupa 3.30)?

K7, compilez mai greu ... imi dau seama de ce propui ca opt dintre operatiile de la 2. si 3. sa fie trecute la optionale: tu salvezi rezultatul OCR-ului ca text chior, in care nu se regasesc formatarile de bold, italic, etc.
Sunt motive pentru care nu folosesti macar optiunea de salvare "Formatted text", care pastreaza aceste caracteristici? (Ma rog ... macar incearca sa le pastreze – uneori mai produce italice false, dar asta rar.)

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Non-breaking hyphen
    Din păcate, corectorul lexical din Word se poticneşte şi la mine... Ca să-l păcălesc pe domn' Word şi să adaug un astfel de cuvânt am fost nevoit să-l adaug doar prin editarea în NotePad a dicţionarului "dic" şi salvat cu codificare Unicode.
    Din acest motiv am lăsat înlocuirea cratimei cu Non-breaking hyphen undeva la formatarea finală. Şi să fiu sincer... de cele mai multe ori am uitat să mai fac înlocuirea...
    Deci, răspunsul e DA, corectorul lexical are probleme în Word 2003...
    Despre Word 2007 [2010] nu ştiu ce să zic.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Urmăresc de ceva timp discuţiile voastre, mi-am format deja o părere personală, pe care deocamdată nu o s-o spun. Trebuie avut în vedere că această reglementare a cărţilor în format electronic, care se doreşte a fi un ghid, trebuie să fie cât mai simplă. De ce spun acest lucru? Pentru ca ghidarea după aceste reguli să fie cât mai simplă şi uşor de implementat. Altfel, ca orice reglementare, fie că e opţională sau nu, se poate ajunge ca aplicarea acesteia să eşueze tocmai din cauza acestor reglementări stufoase şi tehnice. În general orice lege sau reglementare, are mai mult sau mai puţin succes. Cele care au mai puţin succes sunt reglementate strict (penalizări, amenzi etc.) DAR există un organism care controlează acest lucru. În cazul nostru nu are cine să controleze, deci există şanse mari ca această reglementare să rămână la stadiu incipient.
      Să aveţi în vedere că PERMANENT apar noi dispozitive de citit. Fiecare nou dispozitv îşi ia dreptul de a folosi (numai) anumite fişiere, de tip text, mai vechi sau mai noi. Deci aproape mereu va fi o nepotrivire între ce este vechi şi ce este nou. Logic este că mereu trebuiesc făcute modificări/adaptări în funcţie de situaţie.

      Eu doresc să ridic o altă problemă: cea referitoare la titulatura fişierului care conţine cartea. Ştiu că se vrea o standardizare de tipul (exemplu aleatoriu): Zevaco, Michel - Buridan. Mie mi se pare puţin forţat, seamănă mai mult ca o bază de date de la o bibliotecă sau cu baza de date a poliţiei. Această denumire depersonalizează cartea si seamănă din ce în ce mai mult cu limbajul academic-elitist in care sunt formulate legi si alte norme cu caracter obligatoriu. Sunt de acord ca folderul cu numele autorului să fie de forma: Zevaco, Michel. În schimb în denumirea cărţii ar trebui păstrată aşa cum este scris în carte, deoarece aşa este corect. În definitiv şi la urma urmei cartea se numeşte Michel Zevaco - Buridan sau Buridan de Michel Zevaco!!! Şi atât! Virgula care desparte numele de prenume nu are ce să caute în denumirea cărţii!

      Eu rămân la modul cum s-a încetăţenit, aşa cum scrie şi pe copertă, aşa cum se învaţă la şcoală şi aşa cum este ea de sute de ani: Michel Zevaco - Buridan.
     
      Să nu uităm ca mulţi scriitori scriu sub pseudonime (unii au chiar mai multe) unde nu prea ştii care-i numele sau prenumele... Exemplu: de unde ştie cineva care-i numele sau prenumele unui scriitor care scrie sub pseudonim mai ales că nu are buletinul să dovedească care-i unul si care-i altul?
         Cine decide care, dintre cele 2 nume, este numele si care este prenumele? Exemplu cartea "Cartea fara nume" scrisă de Anonymous. Cum îl încadrezi pe scriitor? La nume sau prenume? Dupa metoda pe care o prefer eu este simplu: Anonymous - Cartea fără nume pusă in directorul cu litera A. Pentru mine ca cititor este prea puţin important care este numele sau prenumele unui autor. Pentru mine este suficient aşa cum este el scris pe coperta cărţii si atât. Şi aşa este şi cunoscut.
       
          Simpla menţionare a numelui autorului nu este intotdeauna egal cu celelalte pseudonime sau cu numele real!!


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
BlankCd, imi amintesc despre o intamplare povestita de profa' de româna din liceu, care, de ziua de nastere, venind de la servici, a fost intampinata de fetita dânsei cu mare bucurie si emotie si condusa in sufragerie sa vada cadoul-surpriza pe care aceasta i-l pregatise. Ummm ... copila ii rearanjase cartile din biblioteca dupa marime si culoare ... 

Analogia cu baza de date de la biblioteca este mai mult decat adevarata - este o similitudine perfecta cu cartea electronica. Cautand o carte in fisierul cu sertare al bibliotecii, gasim cardul cu numele autorului la litera cu care incepe numele de familie al acestuia. De ce a fost indexata asa? Pentru regasirea ei rapida pe raft.

Nimeni nu confunda numele cartii cu denumirea fisierului electronic (file, in engleza). La deschiderea acestuia vom avea in fata tot „Michel Zevaco – Buridan”.


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
POSTARE COMPLETATĂ

      BlankCd
     *** Despre simplitatea regulilor.
     Ai perfectă dreptate, regulile trebuie să fie cât mai simple. Din acest motiv codificarea versiunilor (şi cred că despre asta e vorba) avea două părţi şi anume: cărţi necorectate manual cu valori mai mici decât 1 şi cărţi corectate manual,  cu valori mai mari decât 1. Numărul versiunii era egal cu numărul de corecturi manuale, respectiv cu numărul de persoane care au făcut corecturi.
     Cum deja există un sistem de notare care diferă cumva, este greu de acceptat ceva care pare să schimbe regulile şi atunci...

     Paragraf adăugat. Nu ştiu dacă am mai spus asta aici sau nu... dar o mai spun o dată.
     Eu cred că o persoană "Popescu" dacă face o corectură prin citire cap-coadă a textului şi confruntarea cu originalul, indiferent dacă a plecat de la un "OCR brut" sau de la "OCR perfect" ajunge la aceeaşi versiune [ZZ]. Singura diferenţă e că dacă porneşte de la un "OCR brut" efortul va fi mai mare şi va necesita mai mult timp, iar dacă face corectura unui "OCR perfect" efortul şi timpul necesar vor fi mai mici. De aceea mi se pare foarte important ca să fie o diferenţă clară între notarea versiunilor corecturilor fără citire şi versiunilor rezultate la corectura prin citire.

     Dacă te referi la etapele pentru obţinerea "OCR-ului perfect"...
     Eu consider că acolo, doi oameni care se pare că se pricep foarte bine la asta [Aleph şi 02agigi02] îşi expun o parte din experienţa lor. La faza asta eu sunt doar nebunul regelui.  Fiecare dintre noi va mai învăţa ceva sau nu, va aplica ceea ce va voi sau nu va aplica... Aici nişte tehnicieni arată toate îmbunătăţirile ce se pot face unui text: în mod automat, semiautomat ori prin corecturi la o vizualizare superficială. Ce aplicăm de aici?... e treaba fiecăruia, dar pentru a nu căuta fiecare dintre noi separat şi a bâjbâi şi a încerca tot felul de variante, e bine să avem după ce să ne inspirăm.

     Paragraf adăugat.  Problemele despre care discută Aleph şi 02agigi02, sunt în mare parte implementate în macrouri şi template deja realizate. Problemele în detaliu îi interesează pe cei ce ştiu să facă acest lucru [nu e cazul meu]. Deja unii dintre noi folosesc câte o versiune mai nouă sau mai veche a acestor "chestii" [nici aici nu e cazul meu]... Cred că-l interesează în mod special pe creatorul de astfel de "şmecherii" şi nu neapărat pe utilizator... dar dacă se poate învăţa ceva din ce spun ei aici nu este rău de loc. Ceea ce mi se pare de reţinut este faptul că ar trebui să ne ferim de a nota cu [V0.9] textele corectate, ci mai bine [V0.8] sau [V0.7], astfel încât cineva mai priceput decât noi să poate nota cu o versiune superioară şi să nu fie nevoit a nota cu [V0.9.1] pentru a deosebi-o de textul sursă.

     *** Titulatura fişierului - seamănă cu o bază de date.
     Asta am intenţionat, ca titulatura să fie, de fapt, o înregistrare dintr-o bază de date, unde primul câmp este numele de familie, al doilea câmp prenumele... ş.a.m.d.  De ce? Pentru că m-am gândit că mai curând sau mai târziu, vor exista biblioteci cu cărţi electronice în care cineva caută fără să ştie dacă există o anumită carte.
     Şi iau un exemplu: Lev Tolstoi se pune la litera L sau la litera T? În România, în funcţie de perioada în care a apărut cartea, există 3 feluri de scriere a prenumelui marelui clasic rus: LEV, LEW, LEON.
     LEV - exemplu:
     LEW - exemplu:
     LEON - exemplu:
     Dacă indexarea se face după numele de familie TOLSTOI, vor apărea toate aceste variante plus Aleksei / Alexei Tolstoi şi cartea va fi mai uşor de găsit. Dacă indexarea se va face după prenume, va fi mult mai complicat.
     De fapt, varianta nu-mi aparţine; este extrasă din regulile de întocmire a cataloagelor şi bazelor de date din biblioteci şi a regulilor de editare a bibliografiilor şi surselor lucrărilor personale şi de cercetare.

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Am reorganizat lista cerintelor pentru OCR-ul final, de data asta cu exprimari orientate catre operatii, nu catre caracteristici. Am incercat sa includ toate concluziile dezbaterii. K7, 02agigi, oltean, chandler, iamneni, BlankCd si toti ceilalti interesati dar timizi, va rog sa reverificati lista, pentru ca SIGUR mi-au scapat niste chestii.
Nu am intentionat sa fiu incapatanat. Daca vi se pare ca una am discutat, si alta apare in lista, corectati-ma, si va rog sa ma iertati.

Referiti-va, va rog, in interventiile voastre, la numerotarea de mai jos, nu la cea veche.

Sunt cateva alte puncte pe care le percep ca ramase in suspans. Printre ele:
(a) Versiunea 0.9 vs. 1.0  (sunt pentru 0.9, a fost mai bine argumentata)
(b) Codificarea 1 vs. 2 (imi este indiferent)
(c) Notarea fisierului care contine scan-ul, conform formatului de bitmap al scanului (sunt pentru)
(d) Lasarea v0.2–v0.8 la latitudinea fiecaruia (sunt pentru)
(e) Plasarea noilor 2.5, 2.7, 3.6, 3.24, 3.30, 3.31 la Optionale (nu sunt pentru)

Eu as mai adauga 1.7) documentul rezultat se salveaza in format RTF


Iata deci noua lista:

1. Pagina
1) se stabilesc dimensiunile paginii la A5, cu oglinda suficient de mare
2) se elimina marcajele de sectiune; documentul va avea o singura sectiune
3) se elimina coloanele
4) caracterul de sfarsit manual de pagina se elimina sau, dupa caz, se inlocuieste
5) informatia din antetul si/sau subsolul original se elimina; daca aplicatia OCR include in text numerele originale de pagina, acestea se vor pastra
6) se verifica pagina cu pagina prezenta integrala a textului
7) documentul rezultat se salveaza in format RTF

2. Paragraf
1) se elimina toate stilurile introduse de aplicatia pentru OCR
2) paragrafele de text se spatiaza la un rand (single), cu alineat, si se justifica stanga-dreapta
3) titlurile se centreaza si se scriu cu bold, cu spatiu inainte si dupa
4) daca sunt prezente in original, se introduc spatii inainte si dupa unele paragrafe
5) se plaseaza notele in subsol, cu numerotare de la 1 la n
6) se refac paragrafele scindate prin Enter de catre aplicatia OCR
7) daca exista in original, pasajele speciale se scriu cu corp mai mic, se indenteaza si se spatiaza
8) Bullets and Numbering se transforma in text

3. Litere, cifre si alte caractere
1) se foloseste scrierea cu caractere romanesti (codepage 1250); pentru compatibilitate se utilizeaza literele cu cedilla in loc de virgulita
2) se foloseste peste tot acelasi font cu serife, de aceeasi marime masurata in puncte; daca este nevoie, se mai foloseste cel mult un alt font (preferabil sans-serif)
3) titlurile se scriu cu corp putin mai mare
4) se formateaza toate caracterele la scara de 100%, cu spatiere normala (nu condensate, nici extinse) si, cu exceptia indicilor si exponentilor, pozitie normala (nu ridicate, nici coborate)
5) se elimina evidentierea cu culoare a caracterelor, ramase de la aplicatia OCR
6) cuvintele se formateaza cu bold, italic si bold-italic conform originalului
7) se elimina paragrafele goale (Enter-urile consecutive)
8) caracterul de sfarsit de linie se elimina sau, dupa caz, se inlocuieste
9) caracterului Tab se elimina sau, dupa caz, se inlocuieste
10) se elimina spatiile duble
11) se elimina spatiile din fata semnelor de punctuatie (virgula, punct, punct si virgula, doua puncte, semnul exclamarii, semnul intrebarii, puncte-puncte, ghilimele inchise, paranteze inchise) si de dupa ghilimelele deschise si parantezele deschise
12) se elimina caracterul „spatiu” de la sfarsitul si inceputul paragrafelor
13) se elimina cratima optionala de despartire in silabe; documentul nu se desparte in silabe
14) se corecteaza paragrafele care se termina cu litera mica, virgula, punct si virgula, cratima, liniuta despartitoare
15) se corecteaza paragrafele care incep cu litera mica sau cu semne de punctuatie
16) liniile de dialog sunt Em dash (Alt+0151) sau Horizontal line
17) dupa liniile de dialog se pune Nonbreaking space
18) referirile in text la notele de subsol se scriu cu font normal-drept si se plaseaza inaintea semnelor de punctuatie, cu exceptia situatiilor cand nota se refera la intreaga fraza
19) în subsol, dupa numarul de referinta al notelor se pune Nonbreaking space
20) puncte-puncte scrise cu trei puncte (...) se inlocuiesc cu caracterul Elipsis (Alt+0133)
21) se inlocuieste apostroful Alt+0039 cu apostroful tipografic Alt+0146 (daca nu este vorba de notatia pentru minute)
22) se inlocuiesc ghilimelele cu cele romanesti 99-99: „ – Alt+0132 si ” – Alt+0148
23) se elimina spatiul din fata si de dupa cratima de legatura
24) se inlocuieste cratima explicativa cu liniuta separatoare En dash, precedata si urmata de un spatiu
25) se inlocuieste cratima din intervalele numerice, cu En dash (ex. 24-36 cu 24–36, sau XV-XVI cu XV–XVI)
26) ordinul miilor din cadrul numerelor se separa prin Nonbreaking space, cu exceptia anilor, care se scriu legat
27) se elimina artefactele introduse in procesul de OCR ( | / @ , . ^ # etc.)
28) se asigura prezenta unui spatiu dupa semnele de punctuatie din cadrul frazelor
29) se elimina situatiile in care o cifra apare in locul unei litere (0 in loc de O majuscul) sau invers (litera l mic apare in loc de cifra 1)
30) se formateaza (italic, bold, bold-italic) semnele de punctuatie, parantezele inchise si ghilimelele de sfarsit, la fel ca si cuvantul care le precede
31) se formateaza (italic, bold, bold-italic) parantezele deschise si a ghilimelele de inceput, la fel ca si cuvantul care le urmeaza
32) numele proprii se scriu corect si unitar
33) se elimina greseli de OCR prin folosirea corecturii semiautomate (cu confirmare) facuta cel putin cu dictionarul dintr-o versiune de Word
34) in cuvintele compuse, cratima se inlocuieste cu Nonbreaking hyphen

4. Grafica
1) imaginile grafice (fotografii, diagrame, schite, etc.) se scaneaza la 200 sau 300dpi, color sau nu, ca in cartea tiparita
2) imaginile se plaseaza „inline” in text, intre doua paragrafe, cat mai aproape de locul original

5. Optional
1) se verifica prezenta paragrafelor, conform originalului
2) tabelele se transforma in text
3) se pastreaza grafia cu î din i, si cu „sînt” in loc de „sunt”


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

     Însăşi descrierea CIP A Bibliotecii Naţionale este de fapt o simplă bază de date cu autor, opera, traducator, editura etc., care nu prea are legătură cu vreo carte în adevăratul sens al cuvântului. În descrierea CIP nu vei găsi decât informaţia şi atât, cartea o vei găsi în altă parte fie că este pe hârtie fie că e electronică.
     

     Împrumutarea standardizării de la bazele de date şi puse în denumirea fişierului cu tot cu virgulă este o greşeală, pentru că în definitiv cartea este o carte şi trebuie să arate ca o carte iar o bază de date este cu totul altceva decât o carte.

      Dacă tot mergem pe principiul "hai să copiem vesticii" de ce să nu copiem şi altele (doar ce e de acolo ni se potriveşte perfect, nu-i aşa?). Exemplu: ce-ar fi să trecem cu circulaţia rutieră pe partea stângă, sau să adoptăm sistemul de măsurare a distanţelor al americanilor, sau să dublăm vocal toate filmele (aşa cum fac germanii, italienii şi alţii), unde săracii actori nici nu li se mai aude vocea, este doar un neamţ care traduce vocal unde calitatea interpretării... este low. La fel de bine poţi pune un actor prost să joace în film şi să-i pui dublura vocală a unui mare actor. Sunt convins că cel puţin 60% din germani nici nu ştiu cum sună vocea lui Al Pacino... Culmea este că la ei, dublarea vocală a filmelor este considerată act de cultură... mda...
    Mi-am adus aminte că acum vreo 10 ani un distins membru al Academiei Române promova pentru dublura vocală a filmelor. S-a făcut şi un test pe această temă, cred că ProTV a difuzat un serial dublat vocal şi evident a fost un fiasco, ca rating, în ciuda faptului că dublajul era realizat de actori mari. Oare cum ar fi un film cu Clint Eastwood dublat de Alexandru Arşinel? Cred că dezastruos.
     Văd că încă se persistă în ideea că tot ce este bun pentru vesticii este obligatoriu bun şi pentru noi. Ideea asta o aveam şi eu, în domeniul muzical, în anii 90 când nici nu vroiam să ascult muzică românească. Astăzi este complet invers, nu aş da Akcent, Inna şi alţii pe Eminem, 50 Cent, Rihanna, Puff Daddy...


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
02agigi02
Membru Junior

Inregistrat: acum 16 ani
Scuze pentru intarzierea cu care raspund.

Sigur, o foarte mare parte din regulile de mai sus pot fi realizate in programe VBA care fac automat modificarile necesare in text.
Un template cu programe vba aferente este dezvoltat deja pe grupul yahoo (adica in "Palatul de Clestar" dupa terminologia K7 :-).
El poate fi adaptat/extins pentru regulile listate mai sus.

De altfel asta e singurul mod in care vad posibila adoptarea standardului in discutie: prin folosirea unor programe VBA care sa fie atat de simplu si de comod de folosit (ideal doar cu citeva click-uri) incat sa fie preferate oricarei alte metode de lucru.
Nu cred ca va fi nimeni dispus sa ia lista de reguli si sa faca operatiile manual, una cate una...

In cazul in care sunt printre noi programatori VBA, dispusi sa contribuie - poate punem de-un proiect ;-). Asa cum am spus, "baza de pornire" exista deja.


La actuala lista de reguli -> am o observatie:

1.7) documentul se salveaza in formatul RTF.
RTF genereaza fisiere foarte mari in cazul in care:
- sunt incluse imagini in text (RTF expandeaza imaginea in continutul sau)
- sunt efectuate multe modificari in text (RTF "tine minte" modificarile efectuate, adaugand campuri in structura interna a fisierului)
Probabil ca e mai bine de folosit DOC.



Modificat de 02agigi02 (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

    Încă câteva probleme pe care le supun atenţiei voastre.


          Dialogurile din cărţi... mai exact litera mică de după un semn de: exclamare, întrebare, întrebare/exclamare urmat de puncte de suspensie


   1. - Pe toţii dracii! cum să nu vreau? (eu le schimb pe toate în forma asta: - Pe toţii dracii! Cum să nu vreau?)

sau

   2. - Pe toţii dracii!... cum să nu vreau? (eu le schimb pe toate în forma asta: - Pe toţii dracii!... Cum să nu vreau?)

       
Apoi problema virgulei din dialoguri de după semnul de exclamare sau întrebare. Sunt 2 variante:

      - Pe toţii dracii! spuse el ducându-se la masă.

sau

       - Pe toţii dracii!, spuse el, ducându-se la masă.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Raspunsuri in ordinea „interpelarilor”:

BlankCd, cred ca inteleg bine ce vrei sa spui ... am inteles de la prima ta interventie. La mine in calculator imi pastrez cele cateva carti care ma intereseaza la un moment dat, in fisiere botezate cu PrenumeAutor NumeAutor - TitluCarte, exact cum ai propus, pentru ca asa este in viata normala, reala.
Insa atunci cand le salvez pe CD, alaturi de o mie de alte astfel de fisiere, nesortate si neplasate in foldere dupa autor, nu ma pot descurca decat botezand fisierele asa cum a propus K7.

Problema provine (aici iti solicit putin atentia) din natura duala a calculatorului: el este atat fisierul bibliotecii, continand fisele cartilor (le-am zis mai sus carduri), cat si mediul-suport pe care este "tiparita" cartea. De-asta ziceam ca de fapt nu confundam continutul fisierului (egal cartea propriu-zisa) cu denumirea fisierului (care este doar numele fisei de biblioteca).

02agigi02
„Nu cred ca va fi nimeni dispus sa ia lista de reguli si sa faca operatiile manual, una cate una...”
Ummm... stiu pe cineva care le face E adevarat, semiautomat, folosind macro-urile (cu mici modificari in sursa lor, in rarele cazuri cand nu functioneaza cum trebuie) si Find and Replace. Macro-urile sunt la indemana tuturor – nu cer nici un fel de experienta de programare. La F&R trebuie intr-adevar sa stim ce-i cu metacaracterele.

De acord cu salvarea in DOC. Ma gandisem doar la compatibilitate.

BlankCd, absolut corect ce spui. Si eu fac aceste doua tipuri de corectura. Le las insa la citirea cartii, din doua motive: pe de o parte, sunt greseli prezente in cartea tiparita, nu introduse de OCR (adica, asa s-a intamplat la cartile, putine, la care am lucrat pana acum), iar pe de alta nu am fost in stare sa gasesc o metoda rapida de rezolvare a primei situatii, cand in text intervin in mod egal, atat scrierea cu litera mica, cat si cea cu majuscula („Pe toti dracii! spuse el” e corect). Metoda cu Find & Replace mi se pare inaplicabila la o carte cu mult dialog.

Nu am nimic impotriva introducerii acestor cazuri in lista, fiindca indreapta niste greseli. Oscilez, insa, pentru ca nu stiu cum se poate automatiza primul dintre ele, iar pe al doilea nu l-am intalnit. Tu ai avut ocazia sa vezi des acest al doilea caz? Intr-adevar, cred se poate corecta automat.

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
Expresia (cu virgula după semnul de punctuaţie):  "- Pe toţii dracii!, spuse el, ducându-se la masă." este întâlnită de mine prin cărţi, cea mai recentă este seria Jules Verne scoasă de Adevărul anul ăsta. În ediţia de la Ion Creangă nu cred că este aşa. Probabil că depinde cine şi cum a făcut tehnoredactarea deşi la câte greşeli întâlnesc prin cărţile astea mi-e şi scârbă să le mai şi spun.


Acum altceva: chestia cu înclinarea literelor mai exact a semnelor de punctuaţie, de acord cu tine dar eu le fac diferit din motive obiective (mai exact vizuale). Eu înclin numai semnul întrebării şi exclamării deoarece pe fontul Old Bookman înclinarea (mai ales a punctelor de suspensie) duce la o vizualizare greoaie şi obositoare.

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Da, argumentul vizual e bun. E ciudat cand, de exemplu, o expresie cuprinsa intre paranteze incepe cu paranteza normala, dreapta, si, pentru ca ultimul cuvant este italic sau bold, se termina cu paranteza inclinata sau bold. Pe de alta parte, un text integral italic este normal sa fie cuprins intre paranteze italice, dar nici intre paranteze drepte nu arata rau (doar ultima litera e posibil sa "intre" in paranteza de inchidere). Aici am ajuns intr-o zona in care redactorii prefera una sau alta dintre scrieri.

M-am blocat ... nu stiu cum sa reformulez 3.30) si 31) in sensul celor spuse de tine. Cand ma gandesc la diversele cazuri care mai pot aparea (ghilimelele italice, punctul bold, etc.) imi dau seama ca mi-au intrat in sange si nu ma pot lipsi de ele. Dar e ok, incearca te rog sa reformulezi tu sau sa comasezi aceste puncte.

Am senzatia ca situatiile !, sau ?, sunt totusi cazuri particulare, si nu le-as include. De altfel daca apar in mod repetat intr-o lucrare, se elimina usor cu Find & Replace. Parca aici s-ar mai cere inca o parere, a altcuiva.


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
--->

    Nu trebuie să fim cramponaţi de reglementările "academice" privitor la înclinarea sau nu a semnelor de punctuaţie. Scopul este de a uşura vizibilitatea textului.

    Deci, eu personal, formatez aşa la proiectele mele (uneori mai uit):

   1. Fără înclinare la: ghilimele ["], virgulă [,], punct şi virgulă [;], două-puncte [:], punct [.], puncte de suspensie [...].

   2. Înclinare doar la semnul întrebării (?) şi la semnul exclamării (!). Şi parantezele pot fi înclinate, deşi efectul vizual este minor, mai mult ca să nu se suprapună ultima literă din cuvântul înclinat peste paranteză.


   Eu aşa fac, rămâne ca voi să decideţi.


O altă problemă des întâlnită este punctul de închidere a frazei în interiorul ghilimelelor sau exteriorul lor. Exemplu:

   "Mă urcai pe cal."

sau

   "Mă urcai pe cal".

  Ambele variante sunt la fel de utilizate de edituri.


Şi fiindcă veni vorba de asta, aruncaţi o privire p'aici, măcar de curiozitate:

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Propunere de modificare, in sensul celor discutate cu BlankCd si ceva mai sus cu K7: 3.30) si 3.31) se inlocuiesc prin „se formateaza (italic, bold, bold-italic) caracterele semn de exclamare si semn de intrebare, la fel ca si cuvantul care le precede”.

Actualele 3.30) si 3.31) se trec la Optionale. (Imi dau seama ca sunt greu de respectat, fiindca presupun cautarea fiecarui cuvant italic, bold, bold-italic din text, si uneori acestea sunt foarte multe.)

La punctul de inchidere al frazelor cuprinse complet intre ghilimele sau paranteze, regula e clara si tine mai mult de cunoasterea ortografiei decat de tehnoredactare: punctul (sau orice alt semn de punctuatie de inchidere) se pune in interior. Prezenta lor in exterior o consider ca pe o greseala de redactare a originalului tiparit, aparand doar accidental. N-as introduce-o in lista ....

BlankCd, multumesc pentru link, m-am uitat la publications.europe. Sunt multe lucruri bune acolo. Unele pot fi foarte importante – trebuie citit cu atentie. Nu-i un capat de tara daca nu mai incap in lista curenta (azi suntem, na, in ultima zi de dezbateri). Experienta urmatoarei perioade, in care vom folosi standardul, o sa ne ajute sa mai eliminam din el cazurile neesentiale sau rar intalnite, sau sa adaugam lucruri importante.


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
***** LA MULŢI ANI! *****

    Aceasta este postarea cea mai dificilă... De trei zile o formulez şi o reformulez, adăugând, modificând, apoi ştergând tot şi luând-o de la capăt.
    Termenul, poate prea scurt, pe care ni l-am impus a expirat şi într-un fel sau altul, discuţiile ar trebui încheiate.

    Mai întâi, am constatat că discuţia a prezentat interes...
    Din întâmplare sau nu, intenţionat sau din greşeală, topicul a fost vizitat de peste 1250 de ori [sau de 1250 de useri - nu ştiu ce anume înregistrează forumul], ceea ce nu-i puţin; acest lucru într-o zonă a forumului mai puţin cunoscută, e un semn bun.

    Mai apoi, am constatat că se poate discuta... Oricât de diferite ne-ar fi părerile, există posibilitatea să găsim unele elemente cu care putem cădea câţi mai mulţi de acord.
    În definitiv, cred că toţi suntem de acord cu faptul că am dori ca pe forum sau aiurea să fie cât mai multe cărţi electronice foarte bine făcute. Fondul forumului e foarte mare, cuprinde cărţi din toate zonele de interes, dar la o analiză mai atentă, sunt totuşi cam puţine cărţile a căror calitate să fie cea pe care ne-am dori-o.

    Despre standardizarea versiunilor, în general...
    O fi de vreun folos?... este necesară ea cuiva?... sau e un alt mod de a ne scărpina olteneşte?... În definitiv nu ar fi suficient să notăm scriitorul şi titlul operei şi cu asta-basta? Nu aşa am găsit noi cărţile pe net, nu aşa s-a procedat şi aici până în urmă cu aproape un an? "Ba da" se poate răspunde. Şi atunci... la ce să mai complicăm lucrurile simple?
    Şi totuşi... dacă am putea şti de la prima vedere că o variantă [ca să nu zic versiune] de carte e mai bună decât altele, am coborî doar acea carte. De multe ori am căutat o carte anume şi la un moment dat am găsit-o... Am coborât cartea şi ceea ce am găsit nu ne convenea. Am mai căutat şi am găsit cartea în alte surse... şi din nou aceeaşi poveste. Dacă ea ar fi fost însoţită de un ceva similar versiunilor, din care să rezulte că e mai bună sau mai puţin bună decât alte variante, am fi coborât de la început ceea ce ne interesa. De aceea, cred că trebuie să existe un standard. Poate sună pompos "standard", dar mi se pare că acest cuvânt exprimă cel mai bine ceea ce vreau să spun.
   
    Despre Standardul propriu-zis de clasificare a versiunilor...
    Sunt de acord să intre în discuţie orice altă variantă de versionare, care să se bazeze pe orice fel de argument.
    Bineînţeles că nu convine nimănui să vină oarecine şi să dea lucrurile complet peste cap. Am tot căutat prin postările mai vechi şi am văzut că la un moment dat V0.9 era considerat OCR brut... Faţă de ceea ce am propus asta înseamnă curată răsturnare a valorilor.
    Da, s-a încetăţenit un sistem deja, dar... [şi aici să mă ierte prietenii din grup], acest sistem nu este pe forum. Şi atunci cum să aplic ceva despre care nu am informaţii cum arată? Corect, mulţi dintre cei de pe forum fac parte din grup... sau să mă exprim fotbalistic, o parte dintre amatorii diviziilor judeţene au fost selecţionaţi pentru Echipa Naţională... dar ceilalţi amatori?
    Practic ceea ce am propus nu e un fel de lege. Nu e obligatorie pentru nimeni. E o simplă propunere, o părere, o variantă...
    Ţinând cont de toate acestea, m-am gândit să procedez astfel:
        - voi reformula prima postare, şi voi pune acolo Standardul RIF1 aşa cum a rezultat el din discuţii, dar păstrând criteriile mele de împărţire, cu menţiunea că ea este criticată şi neacceptată, dar e o propunere de standard pentru testare;
        - în aceeaşi prima postare voi pune şi propunerile de criterii pentru un "OCR perfect" schiţate de Aleph cu modificările rezultate din discuţii.
        - cei de pe forum vor continua să lucreze şi să-şi noteze versiunile ca şi când această discuţie nu ar fi avut loc;
          ... dar, dacă cineva de pe forum va accepta criteriile din această propunere de standard şi va voi să arate că lucrarea [cartea] sa îndeplineşte condiţiile prevăzute acolo, va putea menţiona în postul său ceva de genul: "Versiune [Vx.y] conform standard RIF1".
        - în această fază, nu cred că moderatorii ar trebui implicaţi, în sensul de a urca pe forum varianta ca regulă; accept că e doar un punct de vedere şi el poate rămâne doar pe acest topic.
        - din punctul meu de vedere, această variantă de versionare "RIF1" rămâne spre a fi testată până la 1 Mai 2011 şi în funcţie de gradul său de acceptare sau neaceptare, de cine va mai fi fiind activ pe forum la acea oră, discuţiile se pot relua pentru a realiza o variantă mai bună "RIF2" după data de 3 mai. Asta înseamnă că nu voi aduce modificări asupra acestei variante până la această dată, dar că eventualele aprecieri pro sau contra şi discuţii de orice fel pot continua, inclusiv pe acest topic.

    Intenţia mea, şi subliniez este o intenţie şi nu o promisiune, era ca în perioada următoare să creionez nişte tutoriale despre modul concret de realizare a fiecărei etape în "tehnologia" cărţii electronice. Cele ce au fost discutate aici făceau parte din informaţiile de început, pentru ca cei ce ar fi voit să se documenteze să înţeleagă mai bine la ce anume mă refeream. Informaţiile sunt culese de pe multe topicuri de pe acest forum, completate cu ceea cea am aflat din experienţa personală. Ele vor fi realizate pe etape pas cu pas, astfel încât orice începător cu experienţă minimă să le poată înţelege.
    Aş fi foarte bucuros dacă s-ar alătura acestei idei şi alţi useri, punând la dispoziţia tuturor metodele lor de lucru, astfel încât să existe podibilitatea de a alege varianta optimă şi de a avea un schimb de experienţă.

    Mulţumesc lui 02agigi02, Aleph, BlankCd, Clandher, Iamneni şi Oltean [am ales ordinea alfabetică] pentru participarea la discuţii, fără de care topicul ar fi fost unul mort.
    Vă doresc tuturor sărbători frumoase şi liniştite!


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
02agigi02
Membru Junior

Inregistrat: acum 16 ani
K7, tutorialele sunt bune si utile, nimic de zis, dar asa cum am spus mai sus, pentru a pune in practica standardul asta e util de pus la dispozitia tuturor celor interesati "unelte" (macrouri/programe VBA) care sa faca modificarile in text, dupa regulile din lista.
Ideal prin apasarea catorva butoane, sa se faca toate modificarile in text.

Aleph, din pacate treaba nu e chiar asa de simpla... (e drept, nici foarte complicata nu este). Sunt necesare cunostinte VBA, pentru a programa operatiile care nu se pot face cu search and replace (exemplu regula 3.30, 3.31, alea cu semnele de punctuatie italice, cele semnalate de BlankCD mai sus, si altele). Deasemenea e nevoie de o interfata ptr selectarea regulilor de aplicat la eliminarea paragrafelor false (un ocr nu seamana cu altul...). Chiar si gruparea operatiilor de inlocuire consecutive necesita minime cunostinte vba (nu cred ca e comod de folosit 40 de macrouri diferite, fiecare facand un tip de inlocuire). Asa cum am mai spus, o "cutie cu scule" de genul asta este disponibila pe grup, si poate fi adaptata pentru utilizare publica, conform standardului asta. "Cutia cu scule" nu e postata public pe forum deocamdata, din motive diverse, dar nici "secret de stat" nu este.
Nu mi-e clar la care macrouri te referi in postul de mai sus - <<folosind macro-urile (cu mici modificari in sursa lor, in rarele cazuri cand nu functioneaza cum trebuie)>> - la cele din ebook_ro_ri? Pai atunci nu sunt la indemana tuturor, nefiind postate public.

In concluzie, eu zic ca e nevoie de un template word, cu interfata si cu macrourile aferente, de pus la dispozitie public (pe modelul celui existent deja pe grup - sau pe alt "sablon", nu tin neaparat la asta).
Sunt dispus sa contribui, in cazul in care mai sunt si alti colegi dispusi la asta.


Toate cele bune si Sarbatori fericite!


pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
02agigi02

    Criteriile, lista sau cum vrei să spui la condiţiile scrise de către Aleph pentru "OCR-ul perfect" nu e ceva ce trebuie îndeplinit punct cu punct.
    Ideea lui [a noastră] a fost să trecem acolo TOATE îmbunătăţirile [sau CÂT MAI MULTE îmbunătăţiri] ce s-ar putea aduce unui text fără a fi citit cap-coadă. Ele au, în primul rând, SCOP INFORMATIV. Fiecare dintre noi va putea rezolva doar o parte din aceste propuneri, în funcţie de pregătirea şi priceperea sa.
    Ca să îndeplinim toate condiţiile astea cred că ne trebuie nu o "Cutie de scule", ci un "Atelier întreg".
    Nici eu, nici tu şi nici el nu a făcut aşa ceva în totalitate şi cu toate astea [fără falsă modestie] fiecare dintre noi a făcut câteva carti de calitate.
    Spus altfel, "OCR-ul perfect" trebuie privit ca ceva de neatins, dar de care trebuie să încercăm să ne apropiem cât mai mult.

    Sărbători frumoase şi liniştite!

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Am avut un schimb de mailuri cu Arbait.

    Deşi nu e corect, redau un fragment din mail.

    Iată întrebarea mea:
    "Ne-am împotmolit eu şi cei de pe Grup la o singură problemă: care e numele primei versiuni corectată prin citire-cap coadă, cu confruntarea cu originalul pe hârtie sau din imagini? V1.0 sau v2.0?"

    Şi... iată răspunsul:
    "Este v1.0, urmatoarea citire corectura, v2.0 samd

    Ideal ar fi:
    scan --> ocr --> UC sau NC (ocr trecut prin template/macro/automat) --> v1.0 --> ...

    Corectari minore, la o lectura obisnuita, versiuni divizionare v2.1, etc
    Formatari, reformatari, briz-brizuri nu sint variante superioare."


    Deocamdată, mă abţin de la comentarii. Să lăsăm totul pentru la anul.
    LA MULŢI ANI!

Modificat de K7 (acum 13 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Arbait
MEMBRU DE BAZA

Inregistrat: acum 17 ani
v0.9 a aparut pentru ocr trecut prin template/macro/automat, deoarece in Ro nu prea a prins numele UC, NC...

Pentru (re)numirea fisierelor va recomand BookSorter, va va ajuta mult, e facut mai demult de un prieten al meu si are in spate multi ani de experienta pe scena ebooks.

Intradevar un fisier .rtf devine cit clipesti de multi mega DAR este, imho, formatul de baza  care permite convertirea usoara, pe mai departe, in alte formate.

Note de subsol. Deoarece in cazul convertirii in alte formate notele respective, asa cum apar ele in Word, fie dispar, fie sint duse la sfirsitul documentului, etc, solutia pe care am gasit-o si o aplic este punerea lor, intre paranteze patrate, imediat in text, formatate italic sau normal, dupa caz, contrastant fata de corpul de text.

@BlankCD: " ...2. - Pe toţii dracii!... cum să nu vreau? (eu le schimb pe toate în forma asta: - Pe toţii dracii!... Cum să nu vreau?...)"

Auleu!? Pe toate? Pa-i nu-i bine, in functie de "intentia" autorului, uneori este cu majuscula, este o propozitie noua, alteori nu."

Acuma nu trebuie sa fim extrem de rigizi cu aceste norme, chestia este ca este extrem de folositor sa iti dai seama direct din numele fisierului cit de corectata este o carte, in ce format este, daca are copertile, etc.
De aceea nu este de acceptat "sarituri" de la OCR la v2.0, "ca doar eu am corectat cu cartea" (sic), "eu am pus poze...", "eu am schimbat fontu'"... 
Adicatelea, "gheorghe alupului Pitigoiul Turbat" nu imi spune mare lucru, pe cind Gheorghe Alupului - [Pasari rele 04] - Pitigoiul turbat v2.0 [html, jpg], deja este altceva...

Asta bineinteles daca tinem la calitate, caci altfel am intilnit destule v1.0 si 2.0 care nici prin AutoCorect nu sint trecute.

... Ar mai fi de discutat formarea partilor, capitolelor, asterixurilor, spatiilor, etc...
Later edit: Imho, daca pe hirtie cartea este cu î din i sau din â se pastreaza ca in original - foarte interesant si edificator acest articol...

La multi ani si Sarbauturi cu bine!

Modificat de Arbait (acum 13 ani)


pus acum 13 ani
   
BlankCd
MEMBRU DE BAZA

Inregistrat: acum 14 ani
@ Arbait

     Exemplul ala la care ai facut referire este discutabil pentru ca la acelasi autor, dar in carti diferite gasim ambele variante, adica asa:

- Pe toţii dracii!... cum să nu vreau?

sau si asa:

- Pe toţii dracii!... Cum să nu vreau?...

      Problema e cum a "interpretat" traducatorul, daca a pastrat sau nu formatarea scriitorului desi aici exista diferente notabile de grafie, de semne de punctuatie intre limbi diferite. Daca mai intram si la nume proprii si accentele aferente deja este o discutie interminabila.

      Daca vrei asa o discutie conexa vizavi de punctuatie, aceeasi carte tradusa de 2 traducatori diferiti, pun semne de punctuatie diferite: unul foloseste in exces semnele de punctuatie: punctele de suspensie; celalalt foloseste punctul. Tot asa un traducator foloseste in exces linia de pauza in loc sa foloseasca virgula.

      Intrebarea ar fi de ce exista 2 sisteme diferite de punctuatie?

       Realitatea este ca: Regulile de punctuaţie ale limbii române nu sunt aceleaşi cu cele ale altor limbi.

      Te rog sa te uiti si la formatarea de la seria Jules Verne de la Adevarul, sa vezi ca editorul a pus, in cazul dialogurilor, virgula dupa semnul de exclamare sau intrebare. Intrebarea mea ar fi de ce ei au facut asa si cei care au scos seria de la Ion Creanga au facut altfel?

        Alte intrebari: in versiunea franceza exista virgula dupa semnul exclamarii/intrebarii? Care versiune este mai bine redactata cea de la Ion Creanga sau cea de la Adevarul? Care dintre cele 2 formatari este buna si care este proasta?

         Ca sa te citez pe tine: care a fost "intentia" lui Jules Verne??? Care dintre cele 2 variante este conforma cu Jules Verne? 

Sau: Nu cred ca "intentia" lui Michel Zevaco a fost ca numele regelui Henri (si nu numai) sa fie "botezat" Henric sau Henrik, regele Louis sa fie botezat Ludovic s.a.m,d.

      Poti arunca si o privire asupra anumitor "apelative" folosite de traducatorii nostri... in mai multe variante chiar in aceeasi carte:

Modificat de BlankCd (acum 13 ani)


_______________________________________
--->  "Eu nu am regrete,
         Iar dac-ai să-ntrebi ce-a rămas la mine,
         În inimă am urme de tine
         Regrete, eu nu am regrete..."

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
02agigi02, te citez:
Ideal prin apasarea catorva butoane, sa se faca toate modificarile in text.
YES! Spre asta trebuie sa tindem.

Sunt necesare cunostinte VBA, pentru a programa operatiile care nu se pot face cu search and replace
O alternativa ar putea fi inregistrarea de macrocomenzi si salvarea lor pentru folosire ulterioara. Spui ca o multime de astfel de macro-uri nu se foloseste comod si ai dreptate, dar rezultatul final, aplicand o colectie de macro-uri predefinite, este acelasi - eliminarea riguroasa a majoritatii greselilor de OCR (nu ma refer la operatii de formatare, de exemplu, care se pot face pe versiuni superioare lui 1.0).

Aceste doua lucruri mi se par cele mai importante: 1. corectarea e riguroasa, si 2. rezultatul final este acelasi.

Metoda cu macrocomenzi are avantajul ca poate fi aplicata de cineva mai putin pregatit dpdv informatic. Diferenta este de performanta: cutia cu scule de care amintesti poate aduce o lucrare la v0.9 in, sa zicem, doua ore; eu, daca stau sa inregistrez macrocomenzi si apoi sa le aplic, dureaza doua zile pana ajung la v0.9. Ceea ce si fac ... (... zâmbetele din tribune sunt accepate fara suparare )

Cele doua abordari au un trunchi comun: ambele se bazeaza pe ipoteza ca utilizatorul lor este avizat - stiind, adica, foarte bine ceea ce vrea sa obtina.

Nu mi-e clar la care macrouri te referi in postul de mai sus. E vorba de macrocomenzile pe care mi le inregistrez eu. Incearca, de exemplu, sa inregistrezi un macro care face o singura operatie: gasirea urmatorului sir de caractere scrise italic (doar Find -> Font italic). Mie acest macro nu-mi functioneaza, pentru ca lipsesc din sursa lui randurile .Font.Italic = True si .Font.Bold = False, pe care trebuie sa le scriu de mâna. Legat de asta, ti-am trimis un MP.


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Sunt pentru SÎNT
     Arbait, îţi mulţumesc pentru citatul din Alexandru Graur, pe care mi-l însuşesc în totalitate.
     Am avut şansa să cresc, ascultând la radio, două voci cu totul şi cu totul minunate: acad. Alexandru Graur şi acad. Grigore Moisil. Am fost şi sunt marcat pentru totdeauna de valoarea acestor doi monştri sacri; vocile lor încă-mi sunt prezente, deşi stele lor au apus de mult timp.

     Sunt pentru SÎNT şi pentru î din i.
     Personal, din momentul acesta aş începe să scriu numai cu î din i. La ceea ce a spus Alexandru Graur, adaug cel puţin 4 motive: mai întâi din comoditate – mi-e mai simplu să scriu î decât â; mai apoi din motive economice – î consumă mai puţină cerneală şi mai puţină suprafaţă pe pagină;
     ... şi în ultimul rând, mă gândesc la străinii ce ar fi nevoiţi să înveţe româna: vai de capu’ nordicilor, nemţilor, japonezilor şi altor extratereştrii ce vor să vină la muncă în România şi e obligatoriu să înveţe româna...
     Lăsând gluma la o parte, există o problemă reală şi destul de gravă: copiii români ce trăiesc în străinătate au reale probleme cu limba română. Complicarea limbii române cu reguli de dragul regulilor, nu-i ajută cu nimic; ba, dimpotrivă.

     Pe de altă parte, edituri şi ziare nu recunosc Hotărârea Academiei Române din 17 februarie 1993 şi continuă să publice, folosind româna clasică.
     Dar, deşi aveau oameni de litere în jurul lor şi, probabil suficiente argumente, n-au făcut nimic pentru a se reveni, în mod legal la limba română clasică. Deşi aveau dreptate nu s-au luptat să se obţină anularea legală a acestei hotărâri.
     Tipic românesc, nu? Au dreptate! Cu toate acestea, în acest moment – la aproape 18 ani de la emiterea acestei hotărâri, ei sunt doar nişte unii care încalcă regulile.

     Şi... acum la concret şi în mod serios...
     Notă: „limba română clasică” este considerată limba română scrisă cu „sînt” şi î din i;
              „limba română contemporană” este considerată limba română scrisă cu „sunt” şi â din a, conform  Hotărârii Academiei Române din 1993; Hotărârea este o reglementare şi nu o propunere şi, de asemenea, nu este facultativă.

     Mulţi, sau poate, cei mai mulţi dintre noi folosesc Word sub Windows.
     Dacă pentru OpenOffice s-au realizat corectoare atât pentru limba română contemporană, cât şi pentru limba română clasică, ei bine, pentru Word cunosc doar un corector, iar acela este pentru româna contemporană. Dacă există şi unul pentru limba română clasică şi el se poate ataşa la un Word 2003 sau Word 2007, atunci cele ce sunt scrise mai jos nu mai au nici un rost.
     Dacă nu există aşa ceva, atunci vă supun atenţiei următoarea situaţie:
     Corectura manuală prin citire cap-coadă cu confruntarea originalului, eu o fac în Word 2003, având la dispoziţie corector de limba română contemporană şi fonturi pentru diacritice cu sedilla.
     Pentru ca munca de corectură să-mi fie mai uşoară activez corectorul. Pentru a-mi fi şi mai uşor, cuvintele rare, numele de persoane şi numele de locuri le adaug într-un dicţionar Word suplimentar, astfel încât pe pagina word să rămână cât mai puţine cuvinte subliniate ca fiind necunoscute. 
     Dacă aş corecta un text în variantă clasică, doar cu î din i, atunci toate cuvintele care conţin litera î ar fi subliniate. Da, aş putea să dezactivez corectorul, dacă mă deranjează sublinierile... dar atunci viteza de corectare ar trebui să fie mult mai mică.
     Ce încerc să spun e următorul lucru: revenirea la î din i să se facă doar la versiunea finală şi nu mai devreme. Adică, dacă o echipă şi-a propus să realizeze un [V3.0], atunci după realizarea acestei versiuni să se refacă trecerea la î din i.
     Dacă nu s-a făcut niciodată trecerea de la î din i la â din a, atunci e o altă problemă... dar, dacă ea s-a făcut, atunci revenirea să nu se facă prea devreme.
     Deci, regula păstrării grafiei originale să fie aplicată la terminarea cărţii şi nu la „OCR-ul perfect”.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
A aparut un Ghid de parcurgere a etapelor amintite la pagina 1 pentru obtinerea v0.9 - "OCR-ul perfect". Foloseste numai facilitatile MS Word-ului si se adreseaza celor care vor sa obtina texte "curate", usor de citit si corectat mai apoi pe ereader sau pe un print.

La realizarea lui au participat mai multi membri ai forumului. Il gasiti in topicul TUTORIAL - De la OCR la v0.9 cu Word for Windows.

initiativa cartilor mai 2010 aparut ghid parcurgere etapelor amintite pagina pentru obtinerea v0.9

20.9KB

Modificat de Aleph (acum 13 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
Aleph
    Felicitări pentru realizarea ghidului!
    E foarte-foarte multă muncă depusă pentru realizarea acestui ghid, pe care am avut onoare să-l studiez deja şi sper ca aprecierile să fie pe măsură şi, mai ales, el să fie de folos câtor mai mulţi dintre useri.
    Simplu gest de a împărtăşi tuturor din experienţa acumulată e un gest care merită toată stima şi respectul.
    În perioada în care trăim, marcată de un egoism exacerbat, în care fiecare se chinuie să acumuleze orice şi oricât numai pentru el, gestul de "a oferi" este ceva din ce în ce mai rar.
    Şi dacă ne gândim că nici măcar nu ştie nimeni cine suntem (sper că "Big Brother" încă nu ne-a făcut dosare virtuale la fiecare) şi cum arărăm, gestul de "a oferi" din anonimat este cu atât mai mult demn de respect.
    De altfel, cei mai mulţi dintre userii de pe secţiunile e-book facem acest lucru: muncim la o carte, acolo undeva în faţa calculatorului nostru şi apoi oferim celorlalţi rezultatele muncii noastre.
    Revenind la ghid... ştiu că nu e de loc uşor să realizezi un ghid, un tutorial cât de mic; eu însumi încerc acest lucru şi merge destul de greu. Trebuie să pui în ghid ceea ce ştii, imaginându-ţi în acelaşi timp cam ceea ce ştie sau nu ştie cel ce ar fi interesat... şi asta e destul de dificil...
    Sper ca în timp scurt să-ţi pot urma gestul cu un ghid sau mai multe privind realizarea cărţilor electronice.
    Mult succes la "prezentarea oficială"!
    Toată stima!
    K 7


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani

BlankCd a scris:

   Deci, eu personal, formatez aşa la proiectele mele (uneori mai uit):
   1. Fără înclinare la: ghilimele ["], virgulă [,], punct şi virgulă [;], două-puncte [:], punct [.], puncte de suspensie [...].
   2. Înclinare doar la semnul întrebării (?) şi la semnul exclamării (!). Şi parantezele pot fi înclinate, deşi efectul vizual este minor, mai mult ca să nu se suprapună ultima literă din cuvântul înclinat peste paranteză.

   Susţin cele spuse de către BlankCd, aducând un alt argument decât cel al efectului vizual, şi anume:
   În timpul execurării corecturii manuale, concomitent cu formatarea textului, am constatat că e mai uşor să selectez [şi să formatez italic sau bold] doar textul cuprins între ghilimele, paranteze etc. Selectarea textului, fără semnele de punctuaţie între care este cuprins, este mai uşoară, realizându-se doar prin clicuri şi deplasare de maus. Selectarea împreună cu semnele ghilimele sau paranteze face ca lângă acestea să se selecteze şi spaţiile albe alăturate.
   În ce priveşte semnele obişnuite de punctuaţie, cum ar fi: virgulă [,], punct şi virgulă [;], două-puncte [:], punct [.], puncte de suspensie [...] - nu prezintă diferenţe de efect la font drept şi italic, deci aici nu ar fi o problemă. Singura lor problemă apare la formatarea bold, eventual subliniat.
   În principiu, formatarea bold sau subliniat nu apare frecvent între ghilimele sau paranteze; cred, totuşi că în aceste cazuri, semnele de punctuaţie vor trebui să aibă caracteristicile textului.

Modificat de K7 (acum 12 ani)


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 13 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
***
    Probabil ar trebui reluate discuţiile...
    Constat că sunt useri care scot din prima versiunea 4.0

    Nimeni nu obligă pe nimeni să respecte unul sau altul dintre cele două standarde.
    Dar, în momentul în care cineva apreciază că e cazul să pună numărul de versiune la fişierul său, atunci înseamnă că IMPLICIT acceptă unul dintre standarde

    ... sau are unul nou...
    În cazul ăsta, e bine să-l ştim şi noi


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
serge_brussolo
Membru Puf

Inregistrat: acum 12 ani
Si ce spuneti de versiunile 2.0, dar care la rularea unei verificari semi-automate din Word sau Autocorect, inca prezinta greseli?
Eu nu pot sa botez acest fisier decat ca 2.9.

Autocrect 4.0...posibil si versiunile mai vechi...are optiunea de convertire a unui text clasic la text contemporan.

Este posibil sa renunt la "eroarea" de punctuatie cu virgula inainte de si?
Sa o dezactivez?


pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
* Ce să spun? Spun că e normal ca o versiune 2.0 să prezinte greşeli. De aceea există şi versiunile 3.0, 4.0 şi 5.0.

     Dacă nu-ţi convine standardul nostru, poţi s-o notezi cum vrei, doar că trebuie să faci un standard pe care să-l pricepem şi noi, îl botezi Standard SB şi în loc de [V3.0] vei nota SB 2.9 şi gata.
    Cine va dori să-ţi adopte standardul, va fi liber să o facă şi va avea de unde să aleagă.

     * Autocorectul?  Îl folosim de foarte mult timp, dar numai înainte de corectura prin citire şi doar pentru înlocuiri multiple, nu şi pentru celelalte opţiuni.
     În postarea următoare din 20.12.2009 se face referire la el. Vezi postarea 18 de pe pagină, făcută de Arbait.
                   
     Pe vremea aia aveam câteva dicţionare de tip <.dic> pentru înlocuire multiplă pentru versiunile AutoCorect 2.x.
     Între timp, după apariţia versiunilor AutoCorect 3.x., folosim câteva zeci bune de dictionare de tip <.imd>. Unele dintre ele se găsesc pe secţiune, dar şi la secţiunea New Softwarez

     * Nu totdeauna virgula înainte de şi este o eroare, dar asta o ştiai foarte bine.

     Aştept standardul tău!


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
dmcleod
Membru Puf

Inregistrat: acum 12 ani
Hello,
Daca imi permiteti, am si eu o intrebare...
De ce ati renuntat la ideea ca o carte electronica este o copie fidela a cartii tiparite? In principiu, daca este scanata editia din 19xx, Editura yyy, textul, inclusiv ortografia, punctuatia si imaginile, coperta, ar trebui sa fie identice cu cele din versiunea tiparita.
Greselile de 'typing' din versiunea tiparita ar putea fi corectate totusi in ideea ca o cautare dupa un anume cuvant in PDF nu va returna printre rezultate un cuvant cu o litera lipsa sau schimbata.
Cu respect,
DC


pus acum 12 ani
   
Aleph
MEMBRU DE BAZA

Inregistrat: acum 13 ani
Intrebarea e interesanta... Daca astazi cumpar o carte noua din librarie ma astept ca ea sa foloseasca grafia actuala sau cel mult pe cea de imediat inainte de '93 si sa nu aibe greseli de nici un fel (culegere, redactare, ortografie, punctuatie sau, uneori, de traducere) cum s-a discutat in cateva topicuri.
Pornind de la ideea ca ce apare pe forum suplineste lipsa desavarsita a cartii electronice in limba romana (cu mici exceptii, care de-aia sunt exceptii), atunci nu vorbim despre reproducerea unor carti tiparite, ci despre "editii" noi; de aici si aducerea lor la standardele actuale.

Modificat de Aleph (acum 6 ani)


_______________________________________
Dacă vreunul dintre linkurile mele nu este valid, vă rog să mă anunţaţi prin MP.
Versiunile cartilor electronice - Standardul RIF1
Caractere romanesti in EPUB  De la versiunea 0.1 la versiunea 0.9 cu Word 2003 for Windows
PDF-uri foarte mici din fisierele grafice Scan Tailor  *  Clasificarea scanurilor in format DjVu

pus acum 12 ani
   
ZVONACFIRST
MEMBRU DE BAZA

Din: Bucuresti
Inregistrat: acum 15 ani
Incerc o resuscitare a acestui topic cu doua intrebari:
- Putem folosi un ebook (in format epub, mobi, etc) in loc de scan ctrl pentru corectura unui ebook in format doc/docx?
- Daca un  doc/docx este obtinut prin conversia unui epub/mobi (etc.) provenit de la o editura, ce versiune va primi?


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
***
     Tocmai mă gândeam şi eu să resuscităm ideea de standard RIF; cred că este nevoie de o variantă superioară.
     În timpul trecut de la stabilirea RIF1 am avut ocazia să constatăm ce merge şi ce nu, ce ar mai putea fi modificat, ce ar trebui să apară în plus...
     Intenţionez să deschid un topic nou de discuţii pentru un Standard RIF2 / 2015.

     Răspunsul la cele de mai sus nu poate fi unul scurt:
     Pentru o corectură clasică ne trebuie sursa originală; Sursa clasică este cea bazată pe imaginile paginilor cărţii tipărite.
     Dacă pe forum este postat un PDF sau DjVu din imagini gray sau color, fiecare dintre noi are deplina siguranţă că acel fişier este copia fidelă a cărţii tipărite. Este foarte greu de confundat un PDF din imagini fie el gray sau color cu un PDF din text, deşi există pe net unele PDF care par a fi din imagini, dar care în realitate sunt OCR pe fundal original.
     Cu scan_control alb-negru este ceva mai greu de stabilit dacă sunt originale sau nu.
     Totuşi,mărind imaginea unei pagini PDF foarte mult, să zicem 1600%, un PDF din text păstrează forma rotunjită a literelor, timp în care un PDF_IMG are literele cu margini zdrenţuite.

     Standardul RIF1 se referea la digitalizarea folosind procedeul clasic: scanare-OCR-Corectură.
     La momentul ăla nu existau cărţi digitale oficiele/profesionale, aşa că nu se putea referi la astfel de situaţii.

     Este greu de stabilit nişte standarde pentru situaţii atipice.
     Dacă tu postezi un scan, mă pot convinge şi singur că e un scan; dacă postezi o variantă digitalizată [mobi, epub etc], poţi spune că e un fişier profesional, dar este doar cuvântul tău, fără să avem şi probe că afirmaţia ta este adevărată sau falsă. Adevărul poate fi aflat doar citind cartea respectivă.

     Chiar nu ştiu dacă astfel de cărţi ar trebui să fie versionate. Cred că o menţiune de genul "cf. cu originalul" ar putea fi suficientă şi chiar mai corectă.
     O versiune ne duce cu gândul că în spatele acelui fişier se află nişte oameni; de foarte multe ori ne uităm cine sunt acei oameni ca să ştim cam la ce calitate să ne aşteptăm.

     Ai întrebat undeva pe forum ce înseamnă "versiune finală". Era expresia folosită de un user pe un topic care a văzut multe discuţii încinse. Voia să spună că  acele cărţi au fost preluate de la o anumită editură şi că ele sunt perfecte. "Perfect" mi se pare mult spus. Sunt cărţi corectate de oameni... poate că sunt mai pregătiţi în treaba asta decât noi, dar tot oameni sunt şi omul nu e perfect.

     Una peste alta, rămâne să deschid zilele astea un nou topic pentru RIF2.
     Ca şi RIF1, el nu va fi obligatoriu pentru nimeni; nu va fi un pachet de reguli stricte, ci doar un ghid pentru cei interesaţi.


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
ZVONACFIRST
MEMBRU DE BAZA

Din: Bucuresti
Inregistrat: acum 15 ani
In calea evolutiei nu se poate pune nimeni si chiar si scepticii vor fi luati de val in cele din urma. Este clar ca ne indreptam spre era cartii digitale. Nu stiu daca se va intampla maine sau peste zece ani, dar, omul fiind o fiinta comoda, sigur avantajele formatelor digitale vor fi din ce in ce mai apreciate. Asa ca adio scanuri. Inevitabil vor fi carti digitale pe care niste baieti destepti le vor "doftorici" in asa fel incat sa devina transmisibile. Singura piedica va fi probabil multitudinea de formate de carte digitala. Aici intervin procesoarele de text - Word, Open Office, LibreOffice, etc - care probabil vor fi puntea de legatura sau punct de plecare intre formate, sau convertoarele gen Calibre, care vor deveni din ce in ce mai performante.
Ideea ar fi ca o carte in format digital, care a trecut prin mai multe etape editoriale primind - similar cartilor tiparite - "bun de tipar" ar trebui sa fie la un nivel la care sa nu mai fie nevoie de corectura. Daca mai contine cateva greseli, acestea ori vor trece neobservate de catre marea majoritate a cititorilor, ori nu vor deranja.

@Seven, versiunea finala la care te referi - desi nu tin minte exact despre ce carte era vorba si nici nu este relevant - parca imi amintesc ca avea o multime de greseli pe care le-am corectat si, aflandu-ma in fata uni versiuni finale, nu stiam ce versiune sa-i dau dupa corectare. Probabil acea carte nu isi avea sursa intr-o carte digitala de editura ci exprima o superincredere a celui care a postat in rezultatul muncii sale.

Consider buna ideea cu topicul despre un nou ghid de versionare.


pus acum 9 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 13 ani
***
     ...era pe topicul Dostoievski.
     De acord cu tine. cartea digitală este viitorul... sau tăbliţele de lut, dacă nu vom fi atenţi... şi înclin mai mult spre tăbliţe...

     La cărţile "oficiale" mă gândeam să folosim o abreviere diferită de chestia cu versiunile, ceva care să nu aibă litera V pentru ca să nu se facă nicio confuzie. Important este să priceapă colegii de forum că este o carte care se poate citi. Că vor găsi pe ici pe colo ceva greşeli... important este să nu fie afectată lectura.
     Totuşi, cred că trebuie folosită o expresie sau cuvânt de jargon OCRistic, să nu scriem chiar în clar despre ce e vorba, pentru ca să se prindă un pic mai greu băieţii ăia de la animalul cu trompă.

     Dacă ar fi după mine aş folosi şi la cărţile corectate fără scan,o versionare specifică... ceva de genul [FS1.0], [FS2.0]...


_______________________________________

     Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 9 ani
   
ZVONACFIRST
MEMBRU DE BAZA

Din: Bucuresti
Inregistrat: acum 15 ani

Seven a scris:

***
     ...era pe topicul Dostoievski.
   


...corect!

Digitalizarea cartilor a devenit pentru multi dintre noi o pasiune, o pasiune care incet-incet se va stinge din lipsa de provocari.
Ha, ha, ha... asta cu tablitele de lut este buna. Probabil ca niste tablite de lut... digitale.


pus acum 9 ani
   
Pagini: 1  

Mergi la