Il formato PDF e la conversione da immagini PDF a PDF ricercabili
Durata: 12'58''
Files dimostrativi:
Tag: formato_pdf, standard_iso, livelli_sovrapposti, immagini_pdf, pdf_ricercabili, conversione_file
Il formato PDF deriva dal mondo grafico ed è diventato lo standard per l'interscambio di documenti. È composto da contenuti testuali e grafici sovrapponibili. Il testo di una locandina e l'immagine di sfondo sono due oggetti distinti, individualmente posizionabili, ridimensionabili e sovrapponibili l'uno all'altro.
Apriamo una scansione di un documento contenente timbro e firma; la dimensione del file su disco è 158 Kb. Il testo non è selezionabile perché la completa pagina è una foto. Per documenti PDF disponibili solo come immagine, è utile trasformare il testo dell'immagine solo per noi leggibile, in un testo leggibile anche per il computer.
Impostazioni di salvataggio PDF riguardo la sovrapposizione di livelli:
- Solo testo e immagini sostituisce la pagina scansionata con i risultati della conversione, posizionando gli oggetti di testo affianco ad eventuali oggetti di tipo immagine. Il risultato è un PDF ricercabile di piccole dimensioni perché non include l'immagine della pagina scansionata. Nel caso concreto il file ha una dimensione di 11 KB, che corrisponde a una riduzione del 93% confronto il file originale. Questa opzione è conveniente se è importante avere PDF di dimensione molto ridotta per motivi di immagazzinamento e trasmissione, ed è indifferente se l'aspetto del PDF ricercabile sia, o meno, fedele al documento originale.
- Testo sopra immagine pagina sovrappone il testo estratto all'immagine della pagina scansionata, ritoccandola ovunque sia presente del testo. Sarà quindi sempre creato un PDF ricercabile non fedele all'originale, ma con maggior corrispondenza circa gli elementi grafici, perché il PDF conterrà anche elementi visivi non identificate come oggetti di tipo immagine, come ad es. piccole notizie. Grazie al ritocco della pagina, la dimensione del PDF è sempre molto ridotta, nello specifico caso 24KB, quindi un 85% più leggero confronto al file originale.
- Testo sotto immagine pagina nasconde il testo estratto sotto la scansione. Quindi, indipendentemente dal risultato di estrazione e formattazione del testo, il PDF ricercabile salvato con questa opzione sarà sempre fedele al documento originale su video e in stampa. La dimensione del file aumenta perché il PDF ricercabile ora contiene sia l'immagine originale sia il testo estratto. Nello specifico caso il PDF ricercabile e di 164 KB.
Delle volte, il testo di un PDF ricercabile non corrisponde esattamente a ciò che si vede sullo schermo. Essendo il contenuto testuale utilizzato per le ricerche di files PDF, sono inesattezze nell'estrazione del testo che portano a risultati di ricerca errati, sotto forma di documenti mancanti oppure falsi positivi.