Vsi zgledi uporabljajo programe iz paketa poppler oz. poppler-tools. Na Linuxovih distribucijah so velikokrat že nameščeni. Repology.
Tu pride v poštev orodje pdftoppm. Elemente strani splošči in izvozi v poljuben format (PNG, JPEG in drugi). Meni pride prav pri izvažanju strani skeniranih knjig, saj lahko sočasno izberem izvoz lihih strani, številsko območje strani, koordinate za izrez in resolucijo.
$ pdftoppm -f 150 -l 343 -o -r 300 -jpeg -progress \
-x 120 -W 1845 -y 165 -H 2690 \
"Upmark - Die Architectur der Renaissance in Schweden.pdf" upmark
Po vrsti: -f poda začetno stran, -l končno. -o vzame le lihe strani (-e sode), -r poda resolucijo izvožene strani (enota DPI), -jpeg določi izhodni format, -progress pa sproti obvešča, katero stran obdeluje.
Za obrezovanje služijo 4 argumenti:
-x in -y podata odmik od zgornjega levega kota-W in -H pa širino in višino, začenši na koordinatah, podanih z -x/-y (oz. v izhodišču, če nista podani)Zadnji argument je osnova datotečnega imena za vse pretvorjene slike, ki jim bo program pripel številko strani (upmark-151.jpg, upmark-153.jpg …). Svetujem začetni preizkus na majhnem številu strani, da se ugotovijo pravi parametri obrezovanja in resolucije.
Podrobnosti: pdftoppm -help oz. man pdftoppm.
Pregledovanje skeniranih dokumentov z več sto stranmi slik je zamudno zaradi počasnega nalaganja in polovice praznih strani. Izvoz v slike z možnostjo hitrega predogleda je zato dobrodošel.
Če ne želimo izvažati celotnih strani, temveč le slike v dokumentu, uporabimo pdfimages. Uporaba je podobna kot pri pdftoppm:
$ pdfimages -f 18 -l 28 -j -p "Anonimni modernizem Trnovo.pdf" trnovo
-f in -l sta za območje strani, -j izvozi v JPEG, -p pa datotečnemu imenu doda številko strani dokumenta, kjer se je slika nahajala. Na koncu je koren datotečnega imena. Sodih/lihih strani se ne da izbirati.
Podrobnosti: pdfimages -help oz. man pdfimages.
Ima pa pdfimages nekatere omejitve:
Zato pri nekaterih celostranskih skeniranih dokumentih uporabljam pdftoppm.