Kaip konvertuoti PDF failą į redaguojamą tekstą naudojant „Linux“ komandinę eilutę
Yra įvairių priežasčių, kodėl galbūt norėsite konvertuoti PDF failą į redaguojamą tekstą. Galbūt jums reikia peržiūrėti seną dokumentą ir viskas, ką turite, yra PDF versija. PDF failų konvertavimas sistemoje „Windows“ yra paprastas, bet ką daryti, jei naudojate „Linux“?
Nesijaudink. Parodysime, kaip lengvai konvertuoti PDF failus į redaguojamą tekstą naudodami komandinės eilutės įrankį, vadinamą pdftotext, kuris yra „poppler-utils“ paketo dalis. Šis įrankis jau gali būti įdiegtas. Norėdami patikrinti, ar jūsų sistemoje įdiegtas pdftotext, paspauskite „Ctrl + Alt + T“, kad atidarytumėte terminalo langą. Įveskite toliau nurodytą komandą ir paspauskite „Enter“.
dpkg -s poppler-utils
PASTABA: Kai sakome, kad kažką įrašyti į šį straipsnį ir yra teksto kabučių, NEĮrašykite kabučių, nebent nurodome kitaip.
Jei „pdftotext“ nėra įdiegtas, įrašykite toliau nurodytą komandą ir paspauskite „Enter“.
sudo apt-get įdiegti „poppler-utils“
Įveskite slaptažodį ir paspauskite „Enter“.
Poppler-utils pakete yra keletas įrankių, leidžiančių konvertuoti PDF į įvairius formatus, manipuliuoti PDF failais ir išgauti informaciją iš failų.
Toliau pateikiama pagrindinė komanda, skirta PDF failui konvertuoti į redaguojamą tekstinį failą. Paspauskite „Ctrl + Alt + T“, kad atidarytumėte terminalo langą, įveskite komandą komandoje ir paspauskite „Enter“.
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Pakeiskite kelią į kiekvieną failą, kad atitiktų originalaus PDF failo vietą ir pavadinimą ir kur norite išsaugoti gautą tekstinį failą. Taip pat pakeiskite failų pavadinimus, kad jie atitiktų jūsų failų pavadinimus.
Tekstinis failas sukurtas ir gali būti atidarytas taip, kaip atidarytumėte bet kurį kitą tekstinį failą „Linux“.
Konvertuotame tekste gali būti linijų pertraukos tose vietose, kurių nenorite. Linijos pertraukos įterpiamos po kiekvienos PDF failo eilutės eilutės.
Galite išsaugoti savo dokumento išdėstymą (antraštes, poraštes, ieškos ir pan.) Iš originalo PDF failo konvertuotame tekstiniame faile naudodami „-layout“ vėliavą.
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Jei norite konvertuoti tik PDF rinkmeną, naudokite „-f“ ir „-l“ (mažosios „L“) vėliavėlės, kad nurodytumėte pirmąjį ir paskutinį puslapių diapazoną, kurį norite konvertuoti.
pdftotext -f 5 -1 9 / home / lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Jei norite konvertuoti apsaugotą ir šifruotą PDF failą savininko slaptažodžiu, naudokite „-ww“ vėliavą (pirmasis vėliavos simbolis yra mažoji raidė „O“, o ne nulis).
pdftotext -opw 'password' / home / lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Pakeiskite „slaptažodį“ į tą, kuris naudojamas pirminiam PDF failui konvertuoti. Įsitikinkite, kad yra „vieno slaptažodžio“ kabučių, o ne dvigubai.
Jei PDF failas yra apsaugotas ir užkoduotas vartotojo slaptažodžiu, vietoj „-opw“ vėliavos naudokite „-ww“ vėliavą. Likusi komanda yra tokia pati.
Taip pat galite nurodyti eilutės pabaigos simbolio tipą, kuris taikomas konvertuotam tekstui. Tai ypač naudinga, jei planuojate pasiekti failą kitoje operacinėje sistemoje, pvz., „Windows“ arba „Mac“. Norėdami tai padaryti, naudokite „-eol“ vėliavą (vidurinis simbolis vėliavoje yra mažoji raidė „O“, o ne nulis), po kurio eina tarpas ir eilutės pabaigos simbolio tipas, kurį norite naudoti („ „unix“, „dos“ arba „mac“).
PASTABA: Jei nenurodote teksto failo pavadinimo, pdftotext automatiškai naudoja PDF failo vardo bazę ir prideda „.txt“ plėtinį. Pavyzdžiui, „file.pdf“ bus konvertuojamas į „file.txt“. Jei tekstinis failas nurodomas kaip „-“, konvertuotas tekstas siunčiamas į „stdout“, o tai reiškia, kad tekstas rodomas terminalo lange ir nėra išsaugotas faile.
Norėdami uždaryti terminalo langą, viršutiniame kairiajame kampe spustelėkite mygtuką „X“.
Daugiau informacijos apie komandą pdftotext įveskite „man page pdftotext“ spustelėję terminalo lange.