Forum Romania Inedit
Romania Inedit - Resursa ta de Fun
Lista Forumurilor Pe Tematici
Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.
Nou pe simpatie:
elenn pe Simpatie
Femeie
24 ani
Bucuresti
cauta Barbat
24 - 55 ani
Forum Romania Inedit / Totul despre cărți - About e-books / [Ax] Anexa1 metoda corectura Moderat de Seven, Stelevadris, cuculean, naid, uncris
Autor
Mesaj Pagini: 1
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani


[PARANTEZĂ]

      Salvarea OCR īn Abbyy FineReader


     Recomandare personală:
     Din Abbyy 9  OCR-ul se salvează īn format RTF - Formatted text sau RTF - Plain text
     Din Abbyy 10 OCR-ul se salvează numai īn format RTF - Plain text
     Din Abbyy 11 OCR-ul se salvează numai īn format RTF - Plain text

     Se impune o mică paranteză şi să spunem cāteva cuvinte despre salvarea OCR.
     Deşi am arătat că OCR se poate extrage cu mai multe tipuri de programe, personal recomand ABBYY FineReader 9, 10 sau 11, īnclinānd mai mult spre versiunile Abbyy 9 şi 11 şi mai puţin spre Abbyy 10.
     ABBYY PDF Transformer 3.0 este o soluţie rapidă pentru pdf, funcţionează bine pentru scanări de īnaltă calitate, dar nu permite setări şi nu este indicat pentru extragerea OCR din scanuri ale cărţilor mai vechi. Nu-l recomand.
     Nuance OmniPage Pro 18 şi Readiris Pro 12 au probleme serioase cu recunoaşterea diacriticelor, costă cāt un apartament, dar sunt clar inferioare lui ABBYY FineReader.

      Revenind la salvările textului īn Abbyy FineReader.
      Recomand salvarea OCR īn format RTF şi nu format DOC, deoarece prin prelucrări preliminare se va ajunge tot la RTF, după cum vom vedea īn continuare.
      Salvarea īn format RTF are următoarele opţiuni:
            RTF - Plain text
            RTF - Formatted text
            RTF - Editable copy
            RTF - Exact copy

      RTF - Plain text salvează textul fără caracteristici de stil. Nu vor salva stilurile Abbyy. Tot textul va fi scris īntr-o singură coloană, cu un singur tip de font, la o singură mărime şi numai font regular [drept]; se vor pierde toate formatările: font italic şi bold, mărimile diverse ale fontului, notele de subsol vor fi scrise ca şi cānd ar fi text obişnuit de text.

      RTF - Formatted text salvează textul cu caracteristici de stil. Tot textul va fi scris īntr-o singură coloană, dar păstrează caracteristicile de formatare ale fonturilor textului. Abbyy va crea o serie de stiluri caracteristice. Acesta e formatul care trebuie rulat prin WordPad.

      RTF - Editable copy salvează textul cu caracteristici de stil şi de coloane. Textul va fi formatat īn stiluri create de Abbyy;
      Īn īncercarea de a imita imaginea cărţii, textul unei pagini va avea mai multe formătări de coloane.
      Īn imaginea următoare, antetul paginii este formatat pe 2 coloane, iar textul paginii este formatat īntr-i singură coloană; avānd īn imagine pagină dublă, rezultă antetul īn 4 coloane, iar paginile pe două coloane.
      Din cauza acestor coloane, formatarea textului este deosebit de dificilă, necesitānd intervenţia asupra fiecărui format de coloană.
      RTF - Editable copy este recomandată doar īn situaţia īn care OCR se printează. Nu este recomandat pentru text asupra căruia se vor face corecturi.



      RTF - Exact copy salvează textul cu caracteristici de stil. Formatul īncearcă să reproducă īn mod cāt mai fidel imaginea cărţii: textul unei pagini va avea mai multe formătări de coloane, iar fiecare suprafaţă de text va fi īncadrată īn chenar [Text box]; mai mult decāt atāt apar elemente grafice [linii de diferite grosimi] care īncearcă să delimiteze formatul paginii - vezi imaginea următoare. Formatul se pretează numai pentru printare - corectura este foarte dificil de realizat.



      CONCLUZIE
     Pentru realizarea cărţilor electronice, salvaţi īn format RTF - Plain text sau RTF - Formatted text. Acestea sunt singurele tipuri de text ce pot fi prelucrate şi corectate fără mari bătăi de cap.
     Salvarea ca RTF - Editable copy ori ca RTF - Exact copy oferă puţine avantaje şi foarte-foarte multe dezavantaje, fapt pentru care nu le recomand.


_______________________________________

     Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani


[DIACRITICE]

      Ş, ş, Ţ, ţ cu sedilă - Ş, ş, Ţ, ţ cu virgulă



     Informaţii amănunţite despre problemele lui <Ş> şi <Ţ> pot fi găsite pe paginile web ale domnului Cristian Secară.
     Probleme concrete se pot studia la:


     Pe scurt:
     Pānă la apariţia DOOM2 - 2010, Academia Romānă nu a specificat modul de scriere a celor două litere.
     Din acest motiv, Microsoft Windows, pānă la Windows XP, caracterelor Ş/ş şi Ţ/ţ le-a atribuite codurile Unicode U015E (S cu sedilă ), U015F (s cu sedilă ), U0162 (T cu sedilă ) şi U0163 (t cu sedilă ). Ele sunt descrise īn cadrul subsetului Unicode Latin Extended-A.

     Īn DOOM2 - 2010, Academia Romānă specifică faptul că scrierea corectă a celor două litere este scrierea cu virgulă.
     Problema scrierii acestor caractere se complică exact īn acest moment.
     Microsoft Windows, īn versiunile superioare ale Windows atribuie caracterelor Ş/ş şi Ţ/ţ noi coduri Unicode şi anume: U0218 (S cu virgulă ), U0219 (s cu virgulă ), U021A (T cu virgulă ) şi U021B (t cu virgulă ). Ele sunt descrise īn cadrul subsetului Unicode Latin Extended-B.

     Problema este următoarea: Sistemele de operare Windows pānă la Windows XP SP, pot edita şi afişa numai caracterele cu sedilă. Ele nu pot afişa caracterele noi, cu virgulă, deşi acestea sunt corecte.

     Īn situaţia īn care un document a fost editat cu caractere cu virgulă, īn Windows XP, pe ecran şi īn fişierul text, īn locul caracterelor cu virgulă vor fi afişate pătrăţele. Unele fonturi, precum Calibri au aceste caractere şi sub Win XP, fapt pentru care, uneori, īntr-un text scris cu font Bookman Old Style, Arial, Times New Roman etc., vor apărea aceste caractere editate cu fontul Calibri - şi asta este situaţia fericită.

     Sistemele de operare Vista şi Windows 7, precum şi versiunile Linux pot crea şi afişa ambele seturi de caractere.
     Īn concluzie:
     Un text editat īn Word 2003 sub Windows XP va fi "văzut" bine de către toate variantele Word sau OpenOffice, sub oricare dintre sistemele de operare, dar un text editat cu caractere cu virgulă nu v-a fi "văzut" de un editor sub sistemul de operare Windows XP.
     Poate mai trebuie amintit faptul că īncepānd Word 2007, documentele sunt salvate sub extensia <.docx>, iar aceste documente nu se pot deschide īn Word 2003, decāt după instalarea unor utilitare suplimentare.

     Concluzie: Toate documentele editate īn Word 2003 sub Windows XP sunt "citibile" pe toate calculatoarele, dar nu toate textele sunt "citibile" īn Word 2003 sub Windows XP.
     La momentul actual există un procent foarte mare de utilizatori care folosesc Word 2003 sub Windows XP - acesta e motivul pentru care personal consider că editarea ar trebui făcută īn Word 2003 sub Windows XP, cu caracterele cu sedilă, deşi ele nu sunt cele corecte.

     Poate ar fi bine să ne răspundem la o īntrebare. Pentru ce/cine scanăm, corectăm şi postăm cărţi pe forum?
     Dacă răspunsul este: ca să fie citite de către oricine īşi doreşte, atunci e normal să le urcăm īntr-un format care să fie la īndemāna tuturor. Dacă ne stabilim un anumit target şi le oferim numai unora dintre noi, care au la dispoziţie editoare, convertoare sau vizualizatoare speciale, atunci putem să urcăm munca noastră şi īn formate speciale, dar vom beneficia numai de interesul unora dintre useri. Sincer, cred că abordānd o asemenea poziţie, e păcat de munca depusă pentru scanare şi corectură, deoarece după urma acestui efort vor beneficia foarte puţini.


_______________________________________

     Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani


[PARANTEZĂ]

      ī din i sau ā din a?

     Cine crede că este īndreptăţit să folosească după atāta timp limbajul Clasic, cred că poate fi la fel de īndreptăţit să scrie cu ḑ īn loc de z şi să folosească ĕ ŏ pentru ă, respectiv ā, ō, ū pentru ī, deoarece şi aceste reguli au fost valabile īn limba romānă undeva pe vremea regelui Carol I... ori poate scrie chiar cu chirilice.


     Īnainte de a trece la etapa următoare, "Īnlocuiri multiple īn AutoCorect", trebuie să stabilim care variantă a limbii romāne o vom folosi īn corectare:
         ■ limba romānă contemporană [care foloseşte regulile ortografice aprobate de Academia Romānă īn 1993, cānd s-a revenit la grafia cu litera Ā īn loc de Ī īn anumite poziţii ale cuvintelor şi la scrierea formelor sunt, suntem, sunteţi īn loc de sīnt, sīntem, sīnteţi]
         ■ limba romānă clasică [varianta clasică, foloseşte regulile ortografice dinainte de 1993, grafia cu litera Ī şi scrierea formelor sīnt, sīntem, sīnteţi].

     Pe forum, părerile sunt īmpărţite: există susţinători ai ambelor variante.
     Deşi sunt adeptul folosirii limbii romāne contemporane, īncerc aici să fiu cāt de cāt obiectiv.
     Nu cred că trebuie impusă una dintre variante, deoarece alegerea trebuie făcută de persoana/persoanele care urmează să realizeze corectura. Cel ce realizează corectura se simte mai comod cu una dintre variante, o "simte" mai bine doar pe una dintre ele. Nu contest că ar putea fi persoane care "simt" la fel bine ambele variante, dar vorbim aici de oamenii obişnuiţi.
     
     Userii mai tineri, care au făcut şcoala sau o parte din scoală după anul 1993 sau cei ce prin natura profesiei sunt nevoiţi să editeze sau să studieze destul de des documente oficiale, se vor simţi īn largul lor folosind varianta contemporană.
     Userii care au făcut şcoala mai demultişor se pot simţi īn largul lor corectānd īn varianta clasică. Dacă aceştia mai sunt şi plecaţi din ţară de o anume perioadă de timp, īnclin să cred că vor prefera varianta clasică.

     Dar, mai trebuie subliniate cāteva lucruri, ce pot fi considerate argumente pentru scrierea cu ā din a:
          – pentru word avem la īndemānă corector de limbă romānă contemporană, dar nu şi unul de limbă romānă clasică [sper că nu mai vine cineva să spună că greşesc şi că se poate folosi corectorul de la Word 97, ceea ce poate fi adevărat]; e mare păcat să nu beneficiem de un corector de limbă, pentru că el uşurează munca de corectură [am zis "uşurează" şi nu "īnlocuieşte"];
          – trecerea de la scrierea cu ā din a, la scrierea cu ī din i, se poate face oricānd din Word executānd 4 īnlocuiri: ā/ī, sunt/sīnt, suntem/sīntem, sunteţi/sīnteţi.
          – trecerea de la scrierea cu ī din i, la scrierea cu ā din a, se poate face doar īn format rtf [īn formatul rtf se pierd setările stilurilor de paragraf şi de font] şi trebuie urmată obligatoriu de o corectură prin citire cap-coadă a textului şi de realizarea reformatării textului.
          – Īn AutoCorect am editat 18 dicţionare de īnlocuiri multiple cu peste 1200 de īnlocuiri; toate 18 pot fi rulate īn cazul folosirii limbii romāne contemporane, dar numai 4 pot fi folosite īn cazul limbii romāne clasice.

     Indiferent care va fi varianta aleasă, acum e momentul ca ea să fie stabilită, pentru a şti īn mod clar, care dintre dicţionarele din AutoCorect trebuiesc rulate.

      ═══════════════════════════════════════════════════════════

     Să-mi fie cu iertare divagaţia, dar simt nevoia să notez o constatare.
     Bine ar fi ca fiecare dintre cărţile scanate pe forum să fie corectate de o echipă 2-3 persoane. O carte īn versiunea [V3.0] cu o formatare redusă a stilurilor, poate fi convertită īn timp scurt de către oricine īn orice format doreşte.

     Echipa poate fi formată din cel ce scanează şi, de regulă, face şi prima corectură, plus două persoane.

     Sunt un număr de persoane pe forum care scanează foarte bine, şi-au făcut o religie din respectul pentru calitate, scanează multe cărţi, conştiincioşi şi modeşti, urcă pe forum scan de control şi versiune corectată; din păcate, nu se mai găseşte nimeni care să continue corectura pentru versiunea următoare, cărţile rămānānd īn versiunea [V1.0].

     Īn acelaşi timp, există alte persoane, care fac muncă de corectură de calitate deosebită pe forum, dar aleg adeseori să corecteze cărţi incerte, fără scan de control şi fără a şti dacă sunt complete, ori le lipseşte text ce nu poate fi reconstituit.
     N-am īnţeles de ce serii complete de cărţi sau volume independente, foarte bine scanate īşi aşteaptă corectorii, timp īn care pe topicurile cu pack-uri continuă să apară corecturi. Din punctul meu de vedere un topic-pack ar trebui să fie īnchis imediat ce este postat pe forum, pentru ca nimeni să nu mai modifice conţinutul acestui topic.


_______________________________________

     Oameni şi popoare īşi cată libertatea; după ce-o obţin, īşi caută stăpān.


     | TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
     | Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
     | Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
     | Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 12 ani
   
Pagini: 1  

Mergi la