Nejc Bertoncelj

PDF: izvoz strani v slike, izvoz posameznih slik

Z orodjema iz zbirke poppler-tools.
24. 6. 2023, urejeno 10. 7. 2023

Vsi zgledi uporabljajo programe iz paketa poppler oz. poppler-tools. Na Linuxovih distribucijah so velikokrat že nameščeni. Repology.

Izvoz celih strani v slike 

Tu pride v poštev orodje pdftoppm. Elemente strani splošči in izvozi v poljuben format (PNG, JPEG in drugi). Meni pride prav pri izvažanju strani skeniranih knjig, saj lahko sočasno izberem izvoz lihih strani, številsko območje strani, koordinate za izrez in resolucijo.

$ pdftoppm -f 150 -l 343 -o -r 300 -jpeg -progress  \
    -x 120 -W 1845 -y 165 -H 2690                   \
    "Upmark - Die Architectur der Renaissance in Schweden.pdf" upmark

Po vrsti: -f poda začetno stran, -l končno. -o vzame le lihe strani (-e sode), -r poda resolucijo izvožene strani (enota DPI), -jpeg določi izhodni format, -progress pa sproti obvešča, katero stran obdeluje.

Za obrezovanje služijo 4 argumenti:

Zadnji argument je osnova datotečnega imena za vse pretvorjene slike, ki jim bo program pripel številko strani (upmark-151.jpg, upmark-153.jpg …). Svetujem začetni preizkus na majhnem številu strani, da se ugotovijo pravi parametri obrezovanja in resolucije.

Podrobnosti: pdftoppm -help oz. man pdftoppm.

Primer izvoza strani dokumenta v slike

Pregledovanje skeniranih dokumentov z več sto stranmi slik je zamudno zaradi počasnega nalaganja in polovice praznih strani. Izvoz v slike z možnostjo hitrega predogleda je zato dobrodošel.

Izvoz posameznih slik iz dokumenta 

Če ne želimo izvažati celotnih strani, temveč le slike v dokumentu, uporabimo pdfimages. Uporaba je podobna kot pri pdftoppm:

$ pdfimages -f 18 -l 28 -j -p "Anonimni modernizem Trnovo.pdf" trnovo

-f in -l sta za območje strani, -j izvozi v JPEG, -p pa datotečnemu imenu doda številko strani dokumenta, kjer se je slika nahajala. Na koncu je koren datotečnega imena. Sodih/lihih strani se ne da izbirati.

Podrobnosti: pdfimages -help oz. man pdfimages.

Ima pa pdfimages nekatere omejitve:

Neželjen izvoz posamezne strani v tri slike

Zato pri nekaterih celostranskih skeniranih dokumentih uporabljam pdftoppm.


© 2023 Nejc Bertoncelj · kontakt · Vsebina objavljena pod licenco CC BY-SA 4.0.