PDF: izvoz strani v slike, izvoz posameznih slik

Z orodjema iz zbirke poppler-tools.

24. 6. 2023, urejeno 10. 7. 2023

Vsi zgledi uporabljajo programe iz paketa poppler oz. poppler-tools. Na Linuxovih distribucijah so velikokrat že nameščeni. Repology.

Izvoz celih strani v slike ¶

Tu pride v poštev orodje pdftoppm. Elemente strani splošči in izvozi v poljuben format (PNG, JPEG in drugi). Meni pride prav pri izvažanju strani skeniranih knjig, saj lahko sočasno izberem izvoz lihih strani, številsko območje strani, koordinate za izrez in resolucijo.

$ pdftoppm -f 150 -l 343 -o -r 300 -jpeg -progress  \
    -x 120 -W 1845 -y 165 -H 2690                   \
    "Upmark - Die Architectur der Renaissance in Schweden.pdf" upmark

Po vrsti: -f poda začetno stran, -l končno. -o vzame le lihe strani (-e sode), -r poda resolucijo izvožene strani (enota DPI), -jpeg določi izhodni format, -progress pa sproti obvešča, katero stran obdeluje.

Za obrezovanje služijo 4 argumenti:

-x in -y podata odmik od zgornjega levega kota
-W in -H pa širino in višino, začenši na koordinatah, podanih z -x/-y (oz. v izhodišču, če nista podani)

Zadnji argument je osnova datotečnega imena za vse pretvorjene slike, ki jim bo program pripel številko strani (upmark-151.jpg, upmark-153.jpg …). Svetujem začetni preizkus na majhnem številu strani, da se ugotovijo pravi parametri obrezovanja in resolucije.

Podrobnosti: pdftoppm -help oz. man pdftoppm.

Pregledovanje skeniranih dokumentov z več sto stranmi slik je zamudno zaradi počasnega nalaganja in polovice praznih strani. Izvoz v slike z možnostjo hitrega predogleda je zato dobrodošel.

Izvoz posameznih slik iz dokumenta ¶

Če ne želimo izvažati celotnih strani, temveč le slike v dokumentu, uporabimo pdfimages. Uporaba je podobna kot pri pdftoppm:

$ pdfimages -f 18 -l 28 -j -p "Anonimni modernizem Trnovo.pdf" trnovo

-f in -l sta za območje strani, -j izvozi v JPEG, -p pa datotečnemu imenu doda številko strani dokumenta, kjer se je slika nahajala. Na koncu je koren datotečnega imena. Sodih/lihih strani se ne da izbirati.

Podrobnosti: pdfimages -help oz. man pdfimages.

Ima pa pdfimages nekatere omejitve:

pretvorba med izvozom je mogoča le v formata PNG in TIFF
izvoz slik JPEG iz dokumentov, pripravljenih za tisk (barvni prostor CMYK) jim lahko negira vse barve
nekateri (skenirani) dokumenti so sestavljeni iz več slojev, pdfimages izvozi vsakega v svojo sliko:

Neželjen izvoz posamezne strani v tri slike

Zato pri nekaterih celostranskih skeniranih dokumentih uporabljam pdftoppm.