Kaip kopijuoti tekstą iš PDF, išsaugant formatavimą?

PDF, visur esantis dokumentų formatas, puikiai tinka bendrinant dokumentus, išsaugant šriftus, vaizdus ir bendrą išdėstymą per platformas. Tačiau ar yra paprastas būdas išsaugoti tą labai formatavimą, kai kopijuojate ir įklijuojate tekstą iš dokumento?

Šiandienos „Klausimų ir atsakymų“ sesija mums suteikiama pagal „SuperUser“ - „Stack Exchange“ padalinį, bendruomenės sukurtą „Q&A“ svetainių grupavimą.

Klausimas

„SuperUser“ skaitytuvas „Colen“ ieško būdų išgauti tekstą iš PDF, išsaugodamas formatavimą:

Kai nukopijuoju tekstą iš PDF failo ir į teksto redaktorių, jis įvairiais būdais baigiasi. Nyksta formatavimas, kaip paryškinti ir kursyvai; minkštos linijos pertraukos teksto dalyje konvertuojamos į kietųjų linijų pertraukas; brūkšneliai, pertraukiantys žodį per dvi eilutes, yra išsaugoti net tada, kai jie neturėtų būti; ir vienkartinės ir dvigubos kabutės pakeičiamos? ženklai.

Idealiu atveju norėčiau, kad galėčiau kopijuoti tekstą iš PDF ir suformatuoti HTML kodus, „protingas kabutes“ konvertuoti į „ir“, o eilutės pertraukos tinkamai atliktos. Ar yra kokių nors būdų tai padaryti?

Ar Colenui (ir kitiems mums) yra greitas ir paprastas būdas gauti tekstą be jokio pavojaus formatavimui?

Atsakymas

„SuperUser“ dalyvis „Frabjous“ siūlo sprendimą kartu su sunkia atsargumo doze:

Pirma, turite suprasti, kas yra PDF. PDF rinkmenos yra skirtos imituoti spausdintą puslapį ir yra sukurtos tik kaip išvesties formatas, o ne įvesties formatas. PDF iš esmės yra žemėlapis, kuriame yra tiksli simbolių vieta (atskiros raidės ar skyrybos ženklai ir kt.) arba vaizdai. Daugeliu atvejų PDF net neišsaugo informacijos apie tai, kur baigiasi vienas žodis, o kitas prasideda, daug mažiau dalykų, pvz., Minkštos pertraukos ir kietų pertraukų, taikomų pastraipų pabaigoms.

(Keletas naujausių PDF rinkmenų saugo tam tikrą informaciją apie šią medžiagą, bet tai yra nauja technologija, ir jums pasisekė rasti tokius PDF failus. Net jei tai padarėte, jūsų PDF žiūrovas gali nežinoti.)

Bet kokiu atveju, jūsų programinė įranga turi įgyvendinti tam tikrą „dirbtinį intelektą“, kad būtų išskirtas tik iš atskirų simbolių vietų, kas yra žodis, kas yra dalis ir pan. Skirtinga programinė įranga tai padarys geriau nei kiti, ir tai taip pat priklausys nuo to, kaip buvo sukurtas PDF. Bet kuriuo atveju, niekada neturėtumėte tikėtis tobulų rezultatų. Išvesties PDF turinys nėra tas pats, kaip ir šaltinio dokumentas. Geriau pabandyti tai gauti, jei galite.

Standartinis jūsų problemos sprendimas - naudoti „Adobe Acrobat Professional“ (brangiausią, o ne nemokamą skaitytuvą), kad PDF būtų konvertuojamas į HTML. Net ir tai negaus puikių rezultatų.

Yra nemokama programinė įranga, kuria galima išgauti tekstą iš PDF su kai kuriais formatavimais, bet vėl nesitikėkite puikių rezultatų. Žr., Pvz., Kalibro (kuris gali konvertuoti į RTF formatą), pdftohtml / pdfreflow arba „AbiWord“ tekstų procesorių (su visais įjungtais importo / eksporto įskiepiais). Taip pat yra „OpenOffice“ PDF importavimo įskiepis.

Tačiau prašome nesitikėti tobulumo su bet kuriuo iš šių rezultatų. Jūs einate prieš grūdus. PDF tiesiog nėra skirtas redaguotam įvesties formatui.

Jei kyla problemų sprendžiant, kokią priemonę pradėti, „Caliber“ yra tikrasis Šveicarijos armijos peilio dokumentas. Taip pat galite naudoti ją konvertuoti PDF failus, skirtus naudoti jūsų ebook skaitytojui, ir tvarkyti savo ebook / dokumentų biblioteką.

Ar ką nors papildyti paaiškinimu? Garsas išjungtas komentaruose. Norite perskaityti daugiau atsakymų iš kitų „tech-savvy Stack Exchange“ vartotojų? Čia rasite visą diskusijų temą.