Seven
Moderator
Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani
|
|
[DEZBATERE]
═════════ INIŢIATIVĂ DE REGLEMENTARE A CĂRŢILOR ELECTRONICE ═════════ Sistemul de standardizare RIF1 [Romania Inedit Forum 1]
ACEASTĂ POSTARE URMEAZĂ A FI MODIFICATĂ ŞI REACTUALIZATĂ
EXPUNERE DE MOTIVE: Cartea electronică este concurenta serioasă a cărţii pe hârtie în prezent şi, probabil, singura variantă de carte în viitor. E-Readerul, deşi scump în acest moment, va fi la îndemâna tuturor în viitorul apropiat. Mulţi oameni sunt doritori să participe la realizarea cărţilor electronice, dar le-ar trebui un ghid, un manual sau un tutorial complet după care să se ghideze. Nu am găsit în limba română, un manual sau un tutorial complet despre realizarea carţilor electronice.
PROPUNERE: Propun realizarea unui astfel de ghid în variantă site ori document, care să poată fi la îndemâna celor interesaţi. Acest studiu, experiment sau cum doriţi a-i spune, va purta numele RIF1 El ar trebui să fie gândit ca o STRATEGIE PENTRU VIITOR, să ofere soluţii pentru cărţile viitoare şi nu neapărat pentru cele prezente azi pe forum. Între timp, cei ce vor dori vor încerca mai mult sau mai puţin să se alinieze la acest ghid. Consider că acest ghid trebuie să ofere informaţii cât mai complete şi complexe, astfel încât dacă cineva doreşte, să poată realiza cărţi de înaltă calitate, cât mai aproape de CARTEA PERFECTĂ. Ghidul nu va fi, sub nici o formă, obligatoriu pentru nimeni, aşa cum [iertată să-mi fie comparaţia] nimeni dintre cei ce lucrează în Word nu e obligat să respecte cele scrise într-un manual de Word. Ghidul va putea să fie sau să nu fie folosit, după dorinţă şi în funcţie de experienţă.
DE CE ACEST LOC PENTRU DEZBATERE? Deoarece pe acest forum se găsesc mulţi useri cu multă experienţă, am considerat că aici este locul unde, printr-un efort comun, se poate încropi un asemenea ghid. Pentru a nu pleca de la zero, am considerat că ar fi indicat să plecăm de la o schiţă de format, din care pun câte o parte la dispoziţie pentru discuţii. Această schiţă am încercat s-o realizez cu elemente din experienţa personală, cu elemente rezultate din studierea unor tutoriale de pe acest forum şi de pe alte surse în limba română. Am avut la îndemână şi un site-ghid în limba engleză, a cărui adresă nu am dreptul s-o pun la vedere. Deocamdată m-am oprit la 3 aspecte: - 1. Clasificarea cărţilor electronice - 2. Nomenclatura - 3. Codificarea versiunilor
Pun la dispoziţie un Site-Google de lucru, pe care intenţionez să actualizez permanent variantele rezultate din discuţii. Dacă se va trece la discutarea altor aspecte decât cele 3 de mai sus, site-ul va prezenta doar acele aspecte şi nu vor mai fi găsite pe el cele discutate deja.
═══════════════════════════════════════════ CODIFICAREA VERSIUNILOR CĂRŢILOR ELECTRONICE: ═══════════════════════════════════════════
Codificarea versiunilor cărţilor electronice, în funcţie de etapa de realizare în care se află sunt arătate mai jos. Aceste coduri se trec la sfârşitul numelui cărţii, exact ca în cazul versiunilor unui program de calculator. De subliniat că ele se înscriu în paranteză pătrată sau rotundă. Notă: Schimbarea formatului unui text prin convetirea de la un format la alt format (rtf -> doc -> pdf etc) nu înseamnă că s-a făcut o versiune superioară - versiunea se referă la corectură şi nu la format, versiunea se păstrează indiferent de format.
═════════ CORECTURI AUTOMATE ŞI SEMIAUTOMATE ═════════
V0.1 = înseamnă "necorectat", adică OCR brut, aşa cum este el extras de programul Abbyy sau alt program de tip recognito. Se poate folosi şi expresia [OCR] sau [OCR_brut]
V0.2÷ V0.8 = este un OCR asupra căruia s-au făcut o serie de îmbunătăţiri: corecturi automate sau semiautomate, scoaterea artefactelor (imagini eroare, pete, linii, caractere nonalfabetice şi noncifrice etc.) Aceste versiuni arată un OCR perfectibil. Stabilirea versiunilor V0.2 ÷ V0.8 este la dispoziţia persoanei care face aceste corecturi sau a echipei din care face parte şi are rolul de a evidenţia îmbunătăţirile făcute asupra textului, atunci când ele nu sunt făcute în totalitate.
V0.9 = este OCR-ul "perfect", asupra căruia s-au făcut un număr maxim de corecturi şi înlocuiri automate şi semiautomate, dar nu s-a făcut corectură prin citire; această versiune păstrează numerele pagină; Notă: numerele de pagină au rol de coordonate, pentru o mai uşoară orientare concomitentă în text şi pdf-ul din imagini. Atenţie: Această versiune arată un OCR PERFECT; ea nu trebuie acordată cu uşurinţă oricăror texte asupra cărora s-au făcut câteva intervenţii.
══════ CORECTURI MANUALE PRIN CITIREA TEXTULUI CAP-COADĂ ══════
V1.0 = corectura de fond sau corectura de conţinut este o corectură amănunţită, prin citirea+corectarea cuvânt cu cuvânt, pagină cu pagină a textului, prin compararea cu originalul (cartea pe hârtie sau pdf_img). Versiunea [V1.0] implică formatarea textului, evidenţierea capitolelor etc. Notă: nu se recomandă despărţirea pe silabe în această fază, ci după versiunea finală, eventual după sau pentru convertirea în diferitele formate pentru e-readere.
V2.0; V3.0; V4.0. Atunci când altcineva mai ia o dată cartea la citit+corectat, mai adaugă o unitate la versiune. Se referă la corecturi privind semnele de punctuaţie, litere lipsă sau în plus etc. Acestea sunt corecturi de formă a textului, fără a mai face confruntarea cu originalul. Din practică rezultă că şi aceşti corectori trebuie să aibă acces la original, pentru că uneori pot să apară situaţii critice, care necesită confruntarea obligatorie cu originalul şi, eventual, cu alte ediţii. Notă: Este obligatoriu ca fiecare versiune de la [V1.0] la [V5.0] să fie făcută de câte o altă persoană. Prima cifră a versiunii arată şi numărul de persoane care au făcut corectura prin citire de la cap la coadă a cărţii. Recitirea+corectarea de mai multe ori a textului de către aceeaşi persoană nu va majora versiunea textului decât cu o zecime de unitate, astfel că o versiune V1.0 poate deveni V1.1; V1.2... V1.9, dar, sub nici o formă, nu va deveni versiunea V2.0. V5.0 = cartea corectată şi formatată la o calitate care i-ar permite să plece la tipografie.
La cărţile electronice ultima etapă este convertirea într-un format de tip pdf sau formate speciale, care nu se mai pot sau nu ar mai trebui să poată fi modificate (editate).
══════ FORMATĂRI ESTETICE, PROFESIONALE ŞI ÎN FORMATE SPECIALE ══════
Formatări estetice: În funcţie de preferinţe, după executarea corecturilor se pot face formatări speciale cu scop estetic, prin: - adăugarea de ornamente topografice alb-negru sau color: - adăugarea de imagini alb-negru sau color; - adăugare de fundaluri (background de tip gradient, texture, pattern sau picture) ori borduri (borders). - Formatarea cu fonturi artistice a capitolelor ori a altor părţi din text etc. etc...
═════════════════════════════════════════════════════════════════
ACŢIUNI, ETAPE ŞI FAZE PENTRU OBŢINEREA "OCR-ului perfect" [Propunere Aleph - listă îmbunătăţită şi reactualizată, conform discuţiilor]
1. Pagina 1) Se stabilesc dimensiunile paginii la A5, cu oglinda suficient de mare. 2) Se elimină marcajele de secțiune; documentul va avea o singură secțiune. 3) Se elimină coloanele. 4) Caracterul de sfârșit manual de pagină se elimină sau, dupa caz, se înlocuiește. 5) Informația din antetul și/sau subsolul original se elimină; dacă aplicația OCR include în text numerele originale de pagină, acestea se vor păstra. 6) Se verifică pagină cu pagină prezența integrală a textului. 7) Documentul rezultat se salveaza în format DOC.
2. Paragraf 1) Se elimină toate stilurile introduse de aplicația OCR. 2) Paragrafele de text se spațiază la un rând (single), cu alineat, și se justifică stînga-dreapta. 3) Titlurile se centrează și se scriu cu bold, cu spațiu înainte și după. 4) Dacă sunt prezente în original, se introduc spații înainte și după unele paragrafe. 5) Se plasează notele în subsol, cu numerotare de la 1 la n. 6) Se refac paragrafele scindate prin Enter de către aplicatia OCR. 7) Dacă există în original, pasajele speciale se scriu cu corp mai mic, se indentează și se spațiază. 8) Bullets and Numbering se transformă în text.t
3. Litere, cifre si alte caractere 1) Se folosește scrierea cu caractere românesti (codepage 1250); pentru compatibilitate se utilizează literele cu cedilla în loc de virguliță. 2) Se folosește peste tot același font cu serife, de aceeasi mărime măsurată în puncte; dacă este nevoie, se mai folosește cel mult un alt font (preferabil sans-serif). 3) Titlurile se scriu cu corp puțin mai mare. 4) Se formatează toate caracterele la scara de 100%, cu spațiere normală (nu condensate, nici extinse) și, cu excepția indicilor și exponenților, poziție normală (nu ridicate, nici coborâte). 5) Se elimină evidențierea cu culoare a caracterelor, rămasă de la aplicația OCR. 6) Cuvintele se formatează cu bold, italic și bold-italic, conform originalului. 7) Se elimină paragrafele goale (Enter-urile consecutive). 8) Caracterul de sfârșit de linie se elimină sau, dupa caz, se înlocuiește. 9) Caracterului Tab se elimină sau, după caz, se înlocuiește. 10) Se elimină spațiile duble. 11) Se elimina spațiile din fața semnelor de punctuație (virgulă, punct, punct și virgulă, două puncte, semnul exclamării, semnul întrebării, puncte-puncte, ghilimele închise, paranteze închise) și de după ghilimelele deschise și parantezele deschise. 12) Se elimină caracterul „spațiu” de la sfârșitul și începutul paragrafelor. 13) Se elimină cratima opțională de despărțire în silabe; documentul nu se desparte în silabe. 14) Se corectează paragrafele care se termină cu literă mică, virgulă, punct și virgulă, cratimă, liniuță despărțitoare. 15) Se corectează paragrafele care încep cu literă mică sau cu semne de punctuație. 16) Liniile de dialog sunt Em dash (Alt+0151) sau Horizontal line. 17) După liniile de dialog se pune Nonbreaking space. 18) Referirile în text la notele de subsol se scriu cu font normal-drept și se plasează înaintea semnelor de punctuație, cu excepția situațiilor când nota se referă la întreaga frază. 19) În subsol, după numărul de referință al notelor se pune Nonbreaking space. 20) Puncte-puncte scrise cu trei puncte (...) se înlocuiesc cu caracterul Elipsis (Alt+0133). 21) Se înlocuiește apostroful drept Alt+0039 cu apostroful tipografic Alt+0146 (dacă nu este vorba de notația pentru minute). 22) Se înlocuiesc ghilimelele cu cele românești 99-99: „ – Alt+0132 și ” – Alt+0148 (dacă nu este vorba de notația pentru secunde). 23) Se elimină spațiul din fața și de după cratima de legătură. 24) Se înlocuiește cratima explicativă cu liniuța separatoare En dash, precedată și urmată de un spațiu. 25) Se înlocuiește cratima din intervalele numerice, cu En dash (ex. 24-36 sau XV-XVI). 26) Ordinul miilor din cadrul numerelor se separă prin Nonbreaking space, cu excepția anilor, care se scriu legat. 27) Se elimină artefactele introduse în procesul OCR ( | / @ , . ^ # etc.). 28) Se asigură prezența unui spațiu după semnele de punctuație din cadrul frazelor. 29) Se elimină situațiile în care o cifră apare în locul unei litere (0 – „zero” în loc de litera O majusculă sau invers (litera l mic apare unde trebuie să fie cifra 1). 30) Se formatează (italic, bold, bold-italic) caracterele semn de exclamare și semn de întrebare, la fel ca și cuvântul care le precede. 31) Numele proprii se scriu ca în original, și unitar. 32) Se elimină greșeli de OCR prin folosirea corecturii semiautomate (cu confirmare) făcută cel puțin cu dicționarul dintr-o versiune de Word. 33) În cuvintele compuse, cratima se înlocuiește cu Nonbreaking hyphen.
4. Grafica 1) Imaginile grafice (fotografii, diagrame, schițe, etc.) se scanează la 200 sau 300dpi, color sau nu, ca în cartea tipărită. 2) Imaginile se plasează „inline” in text, între două paragrafe, cât mai aproape de locul original.
5. Optional 1) Se păstrează grafia cu î din i, și cu „sînt” în loc de „sunt”. 2) Se verifică prezența paragrafelor, conform originalului. 3) Tabelele se transformă in text. 4) Se formatează (italic, bold, bold-italic) semnele de punctuație, parantezele închise și ghilimelele de sfârșit, la fel ca și cuvântul care le precede. 5) Se formatează (italic, bold, bold-italic) parantezele deschise și ghilimelele de început, la fel ca și cuvântul care le urmează.
Modificat de K7 (acum 13 ani)
_______________________________________
Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.
| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK | | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA | | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY | | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |
|
|