De la Cartea din bibliotec 259 la OCR-brut 351 i Scan-control

Forum Romania Inedit
Romania Inedit - Resursa ta de Fun

Lista Forumurilor Pe Tematici

Forum Romania Inedit | Reguli | Inregistrare | Login

POZE FORUM ROMANIA INEDIT

Nu sunteti logat.

Nou pe simpatie:
adee 24 ani

Femeie
24 ani
Mures
cauta Barbat
24 - 59 ani

Forum Romania Inedit / Totul despre cărți - About e-books / De la Cartea din bibliotecă la OCR-brut şi Scan-control

Moderat de Seven, Stelevadris, cuculean, naid, uncris

Autor

Mesaj

Pagini: 1

ndodo
MEMBRU VIP

Inregistrat: acum 15 ani

Stimaţi colegi, am deschis acest topic în ideea că fiecare din noi are câteva „secrete” bine păstrate şi bineînţeles o metodologie proprie de lucru pe care ar dori să le împărtăşească şi celorlalţi.
Nu vreau să trasez linii de lucru sau să impun o anumită metodă. Vă invit să vă prezentaţi(dacă bineîţeles doriţi) modul de lucru de la carte fizică la OCR-brut şi scan control pentru ca ceilalţi colegi să poată „fura” o metodă sau alta sau, eventual, să se „inspire” din aceste prezentări. Este foarte posibil ca astfel să uşurăm munca altor colegi şi – de ce nu – să ne „inspirăm” unii pe alţii.

Nu uitaţi că aceste prezentări vor fi citite mai ales de începători – nu fiţi prea docţi.

Dacă topicul are succes putem extinde subiectul până la V1.0.

Toate cele bune
ndodo

pus acum 8 ani

ndodo
MEMBRU VIP

Inregistrat: acum 15 ani

Voi prezenta în următoarele rânduri metoda mea de scanare şi prelucrare uzuală a cărţilor.

Deoarece până acum am scanat doar cărţi din anii 1960-1980 am întâmpinat numeroase probleme din cauza cărţilor cu file îngălbenite (chiar excesiv) cu cerneală lăţită şi cu numeroase puncte înglobate în hârtie. Pentru acestea am dezvoltat metoda de mai jos, prin experimentare, teste şi chiar noroc chior.
Deci să începem:

SCANAREA:

Deţin un scanner HP Scanjet 4370 care a venit cu un soft propritar foarte bun şi pe care actualmente îl folosesc(cât o mai ţine scannerul) .
Eu scanez color la 300dpi deoarece am observat că acest lucru mă avantajează faţă de grayscale la 300dpi.
- viteza de scanare este aceeaşi.
- marimea fişierului color este mai mare decât cel grayscale cu 30-40%
- sub ABBYY am avut cu 20% mai puţine erori de interpretare la cel color faţă de grayscale
- din fişierul color se obţine un scan ctrl mai inteligibil faţă de cel grayscale.

Înainte să încep scanarea aleg una sau două pagini cu contrast mediu şi fac câteva probe:
Cu „contrastul” şi „umbrele”(shadow control) la -60,70 mă joc la luminozitate până când încep să se zărească literele de pe verso. Să zicem +30.
Fac cîte o scanare la +30, +35, etc. până cînd literele de pe faţă încep să se vadă şters.
Salvez setările plus o valoare mijlocie a luminozităţii pentru a o folosi mai târziu la scanarea efectivă.
Opresc procesul şi verific fişiere obţinute pentru a vedea ce valori finale voi folosi la scanare. Modific apoi salvarea (dacă este cazul) şterg fisierele de test şi purced la lucru. Coperţile le scanez separat, cu alte valori ale parametrilor, pentru a obţine un aspect mai artistic.
Acum am un dosar(eu îl denumesc „scan”) cu multe jpeg-uri sau tif-uri în funcţie de cum am setat scannerul(prefer tif).

PRELUCRAREA:

După ce am verificat să nu am pagini lipsă, încarc dosarul „scan” în Scantailor iar la definiţie setez 600dpi(nu încarc coperţile şi nici ilustraţiile care acoperă o pagină şi sunt mai mari decît aria de acoperire a textului).
Nu voi descrie modul de lucru a lui Scantailor(sunt mai multe tutoriale şi descrieri)
Deci urmez paşii 1, 2(sar peste 3) şi 4( verific ca fiecare pagină să fie corect încadrată ) apoi urmează 5. Modific marginile la 2 cu 2, le aliniez faţă de numerele de pagină(dacă sunt jos - dau săgeată jos apoi aplly to all, invers dacă sunt sus), verific ca toate sfârşituri de capitol să le orientez manual cu săgeată sus în aşa fel încât paginaţia să fie respectată pe cît posibil. Trec apoi la 6 şi selectez Color/ Grayscale , White Margins şi bineînţeles îl las la 600dpi. Îi dau start şi în timp ce programul prelucrează filele, merg în dosarul “out” din “scan” şi verific cu ce dimensiuni(pixeli) exportă Scantailor imaginile. Notez dimensiunile şi prelucrez coperţile şi eventualele ilustraţii cu Photoscape pentru a le aduce la dimensiunile imaginilor text. Le copiez apoi în dosarul “out”. După ce Scantailor termină prelucrarea, cu “Djvu small” obţin primul scan control djvu. După ce verific(redundant) să fie toate paginile şi aranjarea lor(sus sau jos) prelucrez dosarul cu “Pdf-Tools” pentru a obtine un pdf control( mult mai mare – de 10 ori – dar cu o definiţie mult mai bună ) care va fi păstrat doar până la realizarea unui V1.0.
În vederea OCR-izării copiez conţinutul dosarului „out” din „scan” într-un alt dosar (eu îi spun ST).
Încerc apoi să obţin şi un scan control alb/negru. Modific în Scantailor, la o pagină medie din document , din Color/Grayscale în Black & White şi fac mai multe teste din grosime litere. Dacă rezultatul este pozitiv dau “Aplly to all” şi rulez din nou 6. După ce Scantailor termină prelucrarea, cu “Djvu small” obţin şi un djvu ctrl B&W(are cam jumătate din mărimea celui color). Coperţile şi ilustraţiile nu vor fi afectate deoarece ele nu sunt prelucrate de Scantailor iar dimensiunile imaginilor nu se schimbă. Nu scot un pdf B/W deoarece nu are nici o valoare practică(în final se tinde să rămână doar doc-ul V1.0 + djvu ctrl B/W sau dacă este ilizibil, djvu color)

OCR:

Pentru OCR-izare folosesc ABBYY 10.
Avem scanul original şi dosarul ST care conţine imaginile scoase de Scantailor(color la 600dpi textul cropuit iar marginile albe).
Din întâmplare, pe când mă chinuiam cu un scan înfiorător, mi-am zis „Hai să încerc să OCR-izez şi rezultatul muncii lui Scantailor. Am luat două pagini din scanul original şi aceleaşi pagini prelucrate de Scantailor şi le-am încărcat în ABBYY. Rezultatul a fost surprinzător. Pe lîngă faptul că paginile prelucrate se încărcau mai repede aveau şi mai puţine artefacte şi greşeli decât cele din scanul original. Repet: acest lucru este sesizabil doar la cărţi vechi şi deteriorate. Cărţi mai noi nu am scanat deoarece nu am. Rutina fiind formată, cărţile de după 1989 şi până prin 1996 le-am scanat şi prelucrat tot ca mai sus cu deosebirea că acestea sunt tipărite cu economie de cerneală, pe hârtie cât mai subţire şi cât mai transparentă.

Pentru a nu avea probleme cu ambalarea termică a procesoarelor am setat ABBYY să prelucreze imaginile în două etape:

- Deschidere imagini(Open).

După ce incarcă imaginile pot şterge ilustraţiile(dacă ocupă toată pagina), paginile albe şi paginile informative – reclame etc.
Înainte de pasul următor verificaţi şi în ce limbă va fi făcută citirea(selectaţi pe lângă limba română şi limbile în care mai aveţi expresii sau denumiri în text - la Svejk dacă nu aş fi selectat limbile română, cehă, maghiară şi germană aş fi făcut o navetă serioasă la "Symbols" pentru a insera pleiada de litere cu virgule, sedile şi ce-or mai fi), nu lăsaţi All deoarece ar putea apare caractere total neobişnuite.

- Citire imagini(Read)

După ce termină de citit, verific fiecare pagină să fie încadrată corect fără omisiuni. Deşi există opţiunea de eliminare poze şi eliminare Header/ Footer eu nu le activez deoarece uneori ABBYY confundă unele aliniate urmate, sau precedate, de spaţiu cu un Header sau Footer şi îl elimină(ceea ce nu vă dorim şi dumneavoastră

), iar imaginile pot reflecta faptul că o parte din text a fost confundat cu o ilustraţie şi astfel puteţi reface( de la tastatură ) textul.
După toate acestea salvez OCR-ul în trei fişiere doc(Plain text, Formatted Text, Editable copy) şi pot să mă declar multumit.
Înainte de a şterge scanul original + dosarele “out” şi “ST”, prelucrez cât mai artistic posibil coperţile şi eventualele ilustraţii pentru a le folosi în documentul V1.0.

Asta este metoda mea de lucru de la carte fizică la OCR brut & scan ctrl.
Dacă mai aveţi nelămuriri puneţi întrebările tot aici şi o să fac tot posibilul să răspund. Vă rog nu cereţi tutoriale cu imagini sau video fiindcă n-am habar de ele.

Mă duc să beau o bere că mi s-a uscat gâtul de atâta scris .

Toate cele bune
ndodo

pus acum 8 ani

tuf
Vizitator

In linii mari cam asa lucrez si eu.
Dar vreau cateva lamuriri suplimentare...

@all
- eu, desi scanez de multa vreme, nu am acces la controlul luminozitatii in Abby. Voi, cei care scanati in Abby 12, aveti acces?
- pana la urma au vreo importanta limbile setate in Abby? Daca sunt setate corect, Abby insereaza caracterele specifice? Ndodo zice ca da.
- in ST, de multe ori, vreau sa mut cuprinsul cartii la inceput, in afara de redenumirea acelor pagini, inainte de a le adauga in ST, mai exista si alta metoda? Ceva drag n'drop in ST?

@ndodo
- de ce eviti indreptarea imaginilor (pasul 3 in ST)?
Pasul 1 poate fi sarit cu totul de regula, e valabil doar in cazul in care programul de scanare nu iti orienteaza corect pagina. In Abby nu exista problema asta.
La pasul 2 e suficient sa alegi pagina dubla si sa aplici setarea la toate, fara sa mai rulezi pasul pe fiecare pagina in parte.

La pasul 5 (Setare Margini), poti prelucra si coperta odata cu restul paginilor. Marimea diferita nu este o problema. Paginile ce sunt mult mai mari decat restul poti fi separate de restul prin debifarea optiunii "Match with othe pages", in felul asta scapi de acea margine alba ce apare din cauza paginilor mult mai mari decat restul.
Nu sunt sigur ca am inteles cum faci asezarea in pagina a sfarsiturilor de capitol si a inceputurilor de capitol. Eu fixez marginile la 1.0, apoi centrez toate paginile, apoi ridic sfarsiturile si cobor inceputurile. Ca sa nu ne pierdem timpul, si sa evitam neintelegerile, uite cum arata:

Daca asta obtii si tu la final, ignora partea asta.

- cand scanez, ca sa nu trag prea mult de timp si de procesor, Abby e setat doar sa roteasca paginile si atat. Apoi salvez ca TIFF pentru ST. In felul asta am o copie dupa imaginile originale. Daca Abby strica vreo pagina pe durata separararii paginilor duble, am de unde sa o recuperez (in Abby nu ai posibilitatea asta, orice modificare automata a imaginii e ireversibila).

pus acum 8 ani

ndodo
MEMBRU VIP

Inregistrat: acum 15 ani

Salut.

În legătură cu ST:

Deoarece folosesc softul proprietar al scannerului, când scanez câte două pagini, orientarea este la 90 de grade faţă de verticală şi am nevoie de pasul 1. Oricum nu ia mult timp: Selectez primele două pagini dau rotire apoi All şi gata.

La pasul 2 selectez primele două pagini dau All şi rulez programul, apoi verific rapid dacă splitul s-a făcut corect ( la cărţi vechi splitul automat se poate face şi în alte locuri decât cele normale şi atunci trebuie corectat manual ).
Sar peste pasul 3 deoarece ST va îndrepta oricum pagina atunci cînd trec la pasul 4. Foarte rar ( la imagini sau texte artistice ) trebuie să mă întorc la pasul 3 şi să fac îndreptarea manual.
La pasul 5 obţin ce ai oţinut şi tu dar pe altă cale. Depinde de obişnuinţă.

În ceea ce priveşte coperţile:

Pentru pdf control folosesc PDF Tools căruia trebuie să-i dau dimensiunea finală a imaginii ( în pixeli) pentru un cadraj corect. Dacă coperţile au alte dimensiuni vor apare margini albe inestetice la coperţi sau la text ( depinde care e mai mare ).
Pentru obţinerea djvu B&W nu trebuie să-mi bat capul cu trecerea coperţilor ( şi mai ales a ilustraţiilor ) la color pentru un scan ctrl cât mai realistic.

În ce priveşte scanatul direct din ABBYY:

Am încercat; nu am fost mulţumit; nu mi-a plăcut; am renunţat.

Toate cele bune
ndodo

pus acum 8 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

***
Pentru mine, cea mai importantă informaţie dată de @ndodo este faptul că o imagine color este mai bine citită de Abbyy decât una grayscale. At mai fi şi chestia cu rezoluţia 600 dpi vs. 300 dpi.
Am fost convins tot timpul că imaginea optimă pe care o citeşte Abbyy este în tonuri grayscale 300 dpi.
Informaţia am găsit-o chiar în documentaţie Abbyy, dar asta se întâmpla la Abbyy 9 sau chiar inferioare. La momentul respectiv am făcut şi teste şi rezultatele mele au fost în concordanţă cu informaţiile găsite.

Nu am mai citit nimic legat de imaginea optimă în cazul lui Abbyy 10 şi următoarele, şi nu mi s-a părut important să scanez color, dar am încredere deplină în constatările lui @ndodo, fapt pentru care am să folosesc scanarea color în cazul cărţilor vechi.
De fapt, este logic ca o imagine color să fie mai bună decât una grayscale, ţinând cont de numărul redus de nuanţe grascale faţă de multitudinea nuanţelor color.
Mă gândesc în mod special la petele şi corpurile străine din textura hârtiei care sunt redate la citire sub formă de artefacte. imaginea color permite ca aceste pete să aibă milioane de nuanţe şi unele să poată fi ignorate de Abbyy, timp în care în tonuri de gri, acele pete şi puncte să fie văzute mai aproape de culoarea neagră a texului şi Abbyy să le redea ca artefacte.

Legat de rezoluţia 600 dpi.
Că o imagine din Out ST este mai bună la 600 dpi decât una la 300 dpi, lucrurile sunt clare.
Faptul că pentru o perioadă vom avea nişte imagini foarte mari, nu este este o mare problemă, pentru că treaba asta este temporară.
Ceea ce aş vrea eu să ştiu exact este dacă după încărcarea în Abbyy a imaginilor 600 dpi, se face citirea tot la 600 dpi, ori mai înainte prin prelucrare imagini în Abbyy se setează rezoluţie all 300 dpi.
Practic, la rezoluţie 600 vom avea o mărime de literă, iar ea este mult mai bine redată, dat fiind că "punctele de culoare" sunt mult mai mici. Dacă facem convertirea la 300 dpi, vom avea o literă cu "puncte de culoare" mai mari, dar avem o literă de 4 ori mai mare. Reamintesc că Abbyy atenţionează frecvent la citirea unor imagini cu rezoluţie diferită de 300 dpi, că este necesară prelucrarea imaginilor şi convertirea la 300 dpi.

M-ar interesa, dacă ai făcut teste cu citire directă la 600 dpi şi cu citire după convertire la 300 dpi.
Menţionez pentru userii cu mai mică experienţă, că o convertire în Abbyy de la 600 dpi la 300 dpi nu înseamnă micşorarea imaginilor, ci păstrarea dimensiunilor imaginii, dar schimbarea rezoluţiei.

Ar mai fi şi alte aspecte în care procedăm relativ diferit, dar în primul rând mă interesează acest lucru: dacă citirea în Abbyy este tot la 600 dpi, ori se face după convertire la 300 dpi şi dacă ai făcut teste cu cele două variante de lucru.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani

uciN
MEMBRU VIP

Inregistrat: acum 15 ani

tuf a scris:

- eu, desi scanez de multa vreme, nu am acces la controlul luminozitatii in Abby. Voi, cei care scanati in Abby 12, aveti acces?

Dacă schimbi driver-ul din meniul Options, o să ai acces la strălucire.
Cel puțin, așa se întîmplă în ABBYY9. Nu am lucrat cu noile versiuni.

Modificat de uciN (acum 8 ani)

pus acum 8 ani

tuf
Vizitator

Stiam ca WIA era folosit doar la sistemele de operare vechi, gen XP.
O sa incerc.

pus acum 8 ani

tuf
Vizitator

@Ucin
Ai dreptate. Pe TWAIN nu poti modifica luminozitatea. Pe WIA se poate.

@all
Metoda mea de lucru e un pic mai simpla. De regula, produc doar djvu BW si un doc/docx.

Scanez in Abby 12. Pentru scanare tin active doar setarile: Deskew Image si Detect Page Orientation (fara Split Page, pe durata scanarii urmaresc zona de imbinare dintre pagini. Daca separ paginile duble, e foarte posibil sa imi scape zonele incetosate ce apar in zona cotorului, mai ales la cartile groase).
Nu fac prea multe prelucrari deoarece vreau sa am in ST un TIFF cat mai brut.

Scanez copertile si primele 2 pagini, apoi salvez proiectul. Apoi de regula continui cu scanarea pana la final. Uneori scanez timp de mai multe zile (asta e avantajul proiectului Abby).

La sfarsitul scanarii, export din Abby tiff-urile (aveti grija la codarea fisierelor: TIFF, LZW, COLOR sau TIFF, LZW, GRAYSCALE) intr-un dosar separat pentru ST. Apoi aplic pe toate imaginile din proiect procesarea automata a imaginilor, si scot ocr-ul prin zonarea manuala a textului.
Motivul pentru care export imaginile inainte de a le procesa in Abby se datoreaza faptului ca orice modificare facuta imaginilor in Abby este permanenta. Daca pagina a fost despicata gresit, trebuie rescanata. Prin exportare imi asigur o copie de rezerva.

Urmeaza procesarea clasica in ST. Aici, de regula, mut si cuprinsul la inceputul cartii. Prelucrez si copertile odata cu textul.
La finalul procesarii ST, fac 2 djvu-uri, color pentru coperti si alb-negru pentru text, apoi unesc aceste 2 djvu-uri intr-un singur fisier djvu.

Ultimul pas e legat de copertile pentru documentul-text. Le preiau pe cele generate de ST, le aranjez nitel in Paint, apoi le salvez ca JPG si le inserez in doc/docx-ul ce contine textul. Apoi le comprim si salvez documentul.
Pasul asta este foarte important, multa lumea doar le lasa langa document. Ideal ar fi sa fie inserate in document.

Apoi incarc prima coperta pe tinnypic, fac o arhiva cu fisierele cartii pe care le incarc pe zippyshare, introduc link-urile si datele cartii intr-o postare-sablon, si le copiez pe RI.

pus acum 8 ani

stelus
VETERAN

Inregistrat: acum 12 ani

Din scurta mea experienta de scanare.
Scanez si rezulta un fisier pdf de max 200Kb/ 2 pagini.
Cu un Adobe profesional le adun pe toate, le rasucesc daca e cazul si le fac un crop...
Cu Abby 9 fac un OCR, care pina la ora asta au iesit destul de bine. Si apoi il trec prin AC.
Acelasi Abby folosesc si pentru scanuri (pdf si djvu) luate de aici sau aiurea pentru a obtine OCR. Apoi il trec prin AC.
La AC dau toate setarile din prima si-i dau sa lucreze. Uneori, la fisiere mari si lucrari ce sar de 600 pagini mai am mici probleme cu calculatorul, dar am trecut la metoda impartirii in 2-3 parti.
E drept ca scanare n-am facut decit la carti relativ noi si in stare foarte buna, nu editii bibliofile.

pus acum 8 ani

tuf
Vizitator

@all

The development of windows imaging applications requires choosing an API to communicate with scanner s or cameras. The most used APIs are WIA and TWAIN.
The WIA (Windows Image Acquisition) platform enables imaging/graphics applications to interact with imaging hardware and standardizes the interaction between different applications and scanners. This allows those different applications to talk to and interact with those different scanners without requiring the application writers and scanner manufactures to customize their application or drivers for each application-device combination. (VS.85).aspx)

TWAIN is a standard software protocol and applications programming interface (API) that regulates communication between software applications and imaging devices such as scanners and digital cameras. )

Differences:
1. WIA uses a common dialog for all devices while TWAIN uses a dialog created by the device manufacturer. Practically speaking, this almost always means that the TWAIN dialog will provide more options and advanced control over the device.
2. TWAIN allows you to use custom capabilities that the device manufacturer has created even though they don't exist in the TWAIN specifications.
3. In general, when a device supports both Twain and WIA, TWAIN is better for scanners and WIA is better for acquiring images from cameras and video devices.
4. TWAIN has three transfer modes (Native, Memory, File) and WIA only has two (Memory, File).
5. Most TWAIN sources save the settings of the previous scan while WIA does not.
6. TWAIN supports options for each page when scanning in duplex mode but WIA uses the same settings for both sides.

Problem
Usually, older scanners (drivers) are build for TWAIN and does not supported by WIA platform, moreover newer devices which created under Microsoft standard does not supported by TWAIN API.

Nu am fost multumit de WAIN.

@stelus
Pentru a obtine maximul de calitate se scaneaza numai in formatul TIFF.
In TIFF color pentru 2 pagini de text alb-negru, la 300 DPI, are cam 11-15 MB.
Uite un exemplu din cartea japonezului:

pus acum 8 ani

stelus
VETERAN

Inregistrat: acum 12 ani

Aici o mostra din ce face masina cu care lucrez.
"Numai" nu trebuie sa devina norma. Daca nu obtineam OCR-uri bune renuntam...
Am incercat la un moment dat varianta foto. Munca de ocnas cu rezulatate slabe. Asa am apelat la altceva.
Am OCR din 2 pasi jumatate.

pus acum 8 ani

tuf
Vizitator

A... "numai" cu sensul de "preferabil".
Dar nu e rea deloc "masina" ta. Se vede de la un kilometru ca e "office"

Totodata ai o marime asa de mica din cauza ca scanezi alb-negru.

pus acum 8 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

***
@tuf, la momentul ăsta nu pot să fac o probă pe scaner, dar te rog să încerci să faci tu un test.
Setează în Abbyy scanerul pe WIA, apoi faci reglajul lumină-contrast şi după ce termini setările imaginii, refaci setarea Scanerului în Abbyy şi să foloseşti TWAIN.
Nu sunt foarte sigur, dar eu am impresia că setările din WIA sunt preluate în TWAIN.

2. Referitor la calitatea imaginilor TIFF vs. JPG
Mi se pare că eşti prea ferm în exprimare când spui că TIFF şi numai TIFF.
Eu scanez, de regulă, cărţi de dinainte de "89 sau tipărite la începutul anilor "90. Am scanat o cârcă de cărţi din perioada iterbelică [la unele, din cauza vechimii, hârtia ajunsese la o culoare cărămizie]... am scanat şi câteva din perioada antebelică... La toate aceste cărţi m-am descurcat cu imagini JPG Color sau JPG Gray.

Este clar că un JPG gray/color are oarece pierderi de calitate faţă de un TIFF gray/color, dar în cazul rezoluţiei 300 dpi, ele sunt infime şi personal nu cred că e cazul să-mi fac probleme din cauza asta.
Am făcut deja teste cu timp în urmă între OCR extras direct din scanare şi OCR extras din JPG gray/color prelucrate la aceeaşi rezoluţie şi nu am văzut diferenţe de calitatea a OCR. dacă la OCR n-am constatat diferenţe, pentr un scan-control nici nu se pune problema, pentru că oricum toată lumea se chinuie să le facă cât mai mici posibil.

3. Referitor la culoarea de scanare, aici chiar am o problemă: scanul în alb-negru merge la cărţi noi şi având scanere de calitate. De la chestia asta aproape punctuală, la generalizarea scanării în alb-negru... mi se pare cam mult.
Am o grămadă de cărţi primite de la un user sau de la altul, scanate în alb-negru şi din păcate sunt imposibil de folosit. Păcat de munca lor şi de faptul că au mai şi stricat cărţile, presându-le pe scaner. E cazul unui mare număr de volume ale lui Vintilă Corbul din care rezultă un OCR cu 25% text, restul artefacte şi spaţii goale, dar şi multe cărţi de istorie la care după 10 pagini perfecte, urmează două jenante pline de beţişoare pe post de liter... apoi iar unele bune şi iar altele juma-juma..
Eu nu spun să nu scaneze în alb-negru, dar acest lucru să-l facă doar cei care au scanat deja măcar fo 15 volume, adicătelea ştiu cu ce se mănâncă scanarea, prelucrarea şi corectura.
La primele zeci de volume să folosească scanearea color ca @ndodo sau gray ca mine. dacă vor obţine scanuri perfecte în alb-negru, atunci e bine; dacă unele pagini au fost scanate la repezeală sau cartea e veche, atunci vor avea varianta de rezervă în gray sau color.

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani

tuf
Vizitator

Nu, nu, nu.
Ai inteles gresit. Nu incurajam scanarea alb-negru. Doar explicam marimea mica a fisierului.

Sa scanezi alb-negru, oricat de profesionist ai fi, e un chin. Cea mai mica umbra sau zona incetosata devine pata opaca.
Daca ai ceva scanner tip office unde poti sa te asezi cu fundul pe carte... e mai usor, dar de regula la acestea nu poti sa controlezi vizual scanarea. In fine, aici fiecare face cum poate, important e ca acel scan-control sa fie lizibil.

La partea cu TIFF vs JPG vs PNG... nu am mai avut discutii dintre acestea de multa vreme pe forum

Oarecum discutia asta isi are radacinile in fotografia color si in scanarea color a imaginilor (nu vorbim de text). Acolo se cere intr-adevar acuratete maxima.
La textele noastre prapadite, fie ele noi sau vechi, deja e irelevant. Asa ca da, se poate scana si PNG si JPG. Numai sa se respecte acel minim 300 DPI.

Iar la partea cu TWAIN si WIA... la mine nu au nicio legatura una cu alta, indiferent de cum setez WIA.
Tineti cont de faptul ca folosesc interfata Abby, ci nu cea a scanerului.

pus acum 8 ani

tuf
Vizitator

Si o setare Abby 12:

pus acum 8 ani

tuf
Vizitator

Am rezolvat si cu setarea luminozitatii in Twain.
Foloseam driverul generic din Windows pentru scaner.
Am instalat driverul corect, luminozitatea e activa.

pus acum 8 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

pus acum 8 ani

tuf
Vizitator

Revin cu o completare legat de driverul de scaner.
Este foarte important sa instalati driverele PROPRII ale scanerului. Nu le folositi pe cele generice instalate automat de Windows.
In pachetul de aplicatii ale scanerului (nu e nevoie sa instalati tot) ar trebui sa gasiti SEPARAT driverul pentru sistemul de operare folosit.

In cazul meu, dupa ce am refacut sistemul de operare, scanarea 600 DPI Grayscale de abia se misca, cu driverele din Windows.
Dupa ce am instalat driverul scanerului, senzorul zboara pe sub sticla. Am aceeasi viteza ca la 300 DPI color/gray.

Deci cautati driverele si vedeti daca aveti schimbari de performanta sau de setari. (la mine a aparut si scanarea la 1200 DPI)

pus acum 8 ani

sydneyaus2005
Membru Junior

Inregistrat: acum 16 ani

Am si eu o intrebare.
Dintre cele 4 versiuni doc (editable, exact, formatted, plain) care e cea mai recomandata pentru a fi corectata prin citire?

pus acum 8 ani

ndodo
MEMBRU VIP

Inregistrat: acum 15 ani

sydneyaus2005 a scris:

Am si eu o intrebare.
Dintre cele 4 versiuni doc (editable, exact, formatted, plain) care e cea mai recomandata pentru a fi corectata prin citire?

Salut,
Depinde foarte mult de calitatea scanului şi mai ales de ABBYY care poate face nişte "chestii" de toată frumuseţea.
Eu folosesc Plain text deoarece nu are nici o formatare prestabilită(la ABBYY 10 se pierd şi italicele şi boldul - la versiunile superioare se pare că pot fi păstrate) şi pot seta eu toate carecteristicile.
La Formatted text se păstrează fontul original cu italicele şi boldul respectiv(din păcate şi alte formatări parazite, paginaţii aiurea etc.) şi aranjarea în pagină cât de cât.
De Editable şi Exact copy nu pot spune nimic deoarece nu le-am folosit.

Toate cele bune.

pus acum 8 ani

sydneyaus2005
Membru Junior

Inregistrat: acum 16 ani

poate ajuta

Document layout
Depending on how you are planning to use your electronic document, select one of the following options:

Exact copy
Produces a document that maintains the formatting of the original. This option is recommended for documents with complex layouts, such as promotion booklets. Note, however, that this option limits the ability to change the text and formatting of the output document.
Editable copy
Produces a document that nearly preserves the original format and text flow but allows easy editing.
Formatted text
Retains fonts, font sizes, and paragraphs, but does not retain the exact locations of the objects on the page or line spacing. The resulting text will be left-aligned (right-to-left texts will be right-aligned).
Note: Vertical texts will be changed to horizontal in this mode.
Plain text
This mode does not retain formatting. Font styles will be preserved if the Keep bold, italic, and underlined text styles in plain text option is enabled.

Modificat de sydneyaus2005 (acum 8 ani)

pus acum 8 ani

tibibasston
Membru Senior

Inregistrat: acum 12 ani

Buna.Am o nelamurire.
Incerc sa fac un OCR dintr-un pdf-imagine in care apar foarte multe nume in limba Hindi ( ex. litera a cu liniuta orizontala deasupra ) si le transforma in litera ă.Nu gasesc in Abby 12 limba hindi si sunt nevoit sa iau fiecare cuvant ( carte de 810 pagini ) si sa-l corectez manual.Nu pot nici sa inlocuiesc prin "find and replace" caci imi va inlocui toate literele ă.
Daca ati putea sa ma indrumati,va rog frumos.Multumesc.

pus acum 8 ani

tuf
Vizitator

Caracterele sunt mult prea complicate. Finereader nu suporta asa ceva.
Activeaza germana, franceza, spaniola si romana.
Ar trebui sa fie cat de cat ok.

Nu te gandi ca Abby o sa scoata mereu caracterele corecte daca setezi limba corecta. Nici macar la limba romana.

pus acum 8 ani

Seven
Moderator

Din: Ţara Perfectului Simplu
Inregistrat: acum 14 ani

***
tibi, dacă e vorba doar de nume, e mai bine că n-ai găsit limba hindi în Abbyy.
Dacă ai fi folosit Romanian+Hindi, ai fi avut surpriza să apară acel ā şi în locul literelor româneşti ă şi â, astfel că ai fi avut probleme şi cu cuvintele româneşti.

Pare complicat, dar cea mai sigură rezolvare este tot cu Find & Replace, doar că trebuie înlocuit fiecare nume în parte.
Deci nu înlocuieşti ă cu ā, ci numele complet.
Va dura ceva mai mult decât simpla înlocuire ā > ă, dar este o înlocuire sigură; În acelaşi timp este mult mai simplu decât să corectezi manual fiecare situaţie în parte.

De peste 4 ani, atunci când corectez o carte cu nume străine [dar de cele mai multe ori este valabil şi la o carte românească], procedez astfel:
- mai întâi deschid un fişier DOC numit Index, practic o listă, unde pun fiecare nume străin şi cuvânt nerecunoscut de Word - după ce-i verific foarte bine forma corectă.
- pe baza acestui Index creez în Word un dicţionar "dic" suplimentar în care adaug toate numele şi cuvintele din Index; în acest fel Word nu mai subliniază aceste nume; dacă totuşi subliniază vreunul dintre ele, înseamnă că el nu este editat corect şi trebuie corectat.

Dacă te interesează mai multe detalii despre această metodă, le găseşti în postarea
" Etapa 3 – MAREA PERIERE ÎN WORD - partea a doua"
din topicul Precorectura şi corectura cărţilor electronice

Modificat de Seven (acum 8 ani)

_______________________________________

Oameni şi popoare îşi cată libertatea; după ce-o obţin, îşi caută stăpân.

| TORENTE | Tăunul | ROCAMBOLE+ | FLORIS | VRACIU | Victor HUGO | J.F. COOPER | PAPILLON | POLDARK |
| Dictionare Lba RO | | Gramatica RO | D. Stănoiu | Zaharia STANCU | H.Y. STAHL | V.CORBUL & E.BURADA |
| Ultimul regat | Millennium | Shantaram | Pearl BUCK | Anchee MIN | Amy TAN | C. LÄCKBERG | Ph.GREGORY |
| Extraterestrii şi Intraterestrii | RUFOR | Demonul Roşu | Vraja milioanelor | Cărţi audio |

pus acum 8 ani

tibibasston
Membru Senior

Inregistrat: acum 12 ani

Multumesc pentru sfaturi.
Topicul Precorectura şi corectura cărţilor electronice imi va fi de mare folos.

pus acum 8 ani

Pagini: 1

Mergi la