Ištraukite tekstą iš PDF ir vaizdo failų
Turite PDF dokumentą, kurį norėtumėte ištraukti iš viso teksto? Ką apie nuskaityto dokumento vaizdo failus, kuriuos norite konvertuoti į redaguojamą tekstą? Tai yra keletas dažniausiai pasitaikančių problemų, kurias darbo vietoje stebėjau dirbant su failais.
Šiame straipsnyje kalbėsiu apie kelis skirtingus būdus, kaip bandyti išgauti tekstą iš PDF arba iš paveikslėlio. Ekstrakcijos rezultatai skirsis priklausomai nuo teksto tipo ir kokybės PDF arba vaizde. Be to, jūsų rezultatai skirsis priklausomai nuo naudojamo įrankio, todėl geriausia pasiekti geriausius rezultatus išbandyti kaip galima toliau..
Ištraukite tekstą iš vaizdo ar PDF
Paprasčiausias ir greičiausias būdas pradėti išbandyti internetinę PDF teksto šalinimo paslaugą. Jie paprastai yra nemokami ir gali suteikti jums tiksliai tai, ko ieškote, nenorėdami įdiegti nieko kompiuteryje. Štai du, kuriuos naudoju su labai gerais rezultatais:
ExtractPDF
„ExtractPDF“ yra nemokama priemonė, skirta iš PDF failo paimti vaizdus, tekstą ir šriftus. Vienintelis apribojimas yra tas, kad maksimalus PDF failo dydis yra 10 MB. Tai šiek tiek maža; taigi, jei turite didesnį failą, pabandykite atlikti kitus žemiau nurodytus metodus. Pasirinkite failą ir spustelėkite Siųsti failą mygtukas. Rezultatai paprastai yra labai greiti ir spustelėję skirtuką Tekstas turėtumėte matyti teksto peržiūrą.
Taip pat yra puiki pridėtinė nauda, kad ji taip pat išskiria vaizdus iš PDF failo, tik tuo atveju, jei jums to reikia! Apskritai, internetinis įrankis puikiai veikia, bet aš tekau pora PDF dokumentų, kurie suteikia man juokingą produkciją. Tekstas išgaunamas tik puikiai, bet dėl kokių nors priežasčių po kiekvieno žodžio bus eilutės pertrauka! Ne didelė problema trumpam PDF rinkmenai, bet tikrai daug failų turinčių failų. Jei taip atsitiks, pabandykite kitą įrankį.
Dabar naršo OCR
Internetinis OCR paprastai siekė dirbti su dokumentais, kurie nebuvo tinkamai konvertuojami su „ExtractPDF“, todėl yra gera mintis išbandyti abi paslaugas, kad sužinotumėte, kurie iš jų suteikia jums geresnį rezultatą. Dabar naršo OCR taip pat turi keletą geresnių funkcijų, kurios gali būti naudingos visiems, turintiems didelį PDF failą, kurį reikia konvertuoti tik keliuose puslapiuose, o ne visame dokumente.
Pirmas dalykas, kurį norite padaryti, yra eiti į priekį ir sukurti nemokamą paskyrą. Tai šiek tiek erzina, bet, jei nesukursite nemokamos paskyros, tai tik iš dalies konvertuos jūsų PDF, o ne visą dokumentą. Be to, vietoj to, kad galėtumėte tik įkelti tik 5 MB dokumentą, galite įkelti iki 100 MB vieno failo.
Pirma, pasirinkite kalbą ir pasirinkite išvesties formatų tipą, kurį norite konvertuotam failui. Turite kelias parinktis ir, jei norite, galite pasirinkti daugiau nei vieną. Pagal Daugelio puslapių dokumentas, galite pasirinkti Puslapių numeriai tada pasirinkite tik tuos puslapius, kuriuos norite konvertuoti. Tada pasirinkite failą ir spustelėkite Paversti!
Po konversijos būsite nukreipti į skyrių „Dokumentai“ (jei esate prisijungę), kur galite pamatyti, kiek laisvų nemokamų puslapių likote, ir nuorodas atsisiųsti konvertuotus failus. Atrodo, kad jūs turite tik 25 puslapius nemokamai per dieną, todėl, jei jums reikia daugiau nei to, turėsite palaukti šiek tiek arba nusipirkti daugiau puslapių.
Online OCR atliko puikų darbą konvertuodamas mano PDF failus, nes jis galėjo išlaikyti faktinį teksto išdėstymą. Mano teste aš paėmiau „Word“ doc, kuris naudojo kulkas, skirtingus šrifto dydžius ir pan. Tada aš naudoju Online OCR konvertuoti jį atgal į „Word“ formatą ir buvo apie 95% toks pat kaip ir originalas. Man tai gana įspūdinga.
Be to, jei norite konvertuoti vaizdą į tekstą, tada Online OCR gali tai padaryti taip pat lengvai, kaip išgauti tekstą iš PDF failų.
Nemokama OCR
Kadangi kalbėjomės apie vaizdo tekstą OCR, leiskite man paminėti dar vieną gerą svetainę, kuri puikiai veikia vaizduose. Nemokamas internetinis OCR buvo labai geras ir labai tikslus, kai ištraukite tekstą iš mano bandymų. Aš paėmiau keletą nuotraukų iš savo „iPhone“ puslapių iš knygų, brošiūrų ir tt, ir buvau nustebęs, kaip gerai jis galėjo konvertuoti tekstą.
Pasirinkite failą ir spustelėkite mygtuką Įkelti. Kitame ekrane yra keletas parinkčių ir vaizdo peržiūra. Jį galite apkarpyti, jei nenorite, kad visa tai būtų OCR. Tada tiesiog spustelėkite mygtuką OCR, o konvertuotas tekstas bus rodomas po vaizdų peržiūra. Ji taip pat neturi jokių apribojimų, kurie yra tikrai gražūs.
Be internetinių paslaugų, norėčiau paminėti du nemokamus PDF konverterius, jei jums reikia kompiuterio programinės įrangos, kad galėtumėte atlikti konversijas. Naudodamiesi internetu teikiamomis paslaugomis visuomet reikės interneto ryšio ir tai gali būti neįmanoma visiems. Tačiau pastebėjau, kad konversijų iš freeware programų kokybė buvo žymiai blogesnė nei svetainių.
PDF teksto ištraukiklis
PDF teksto ištraukėjas yra nemokama programa, kuri atlieka gana gerą teksto išgavimo iš PDF rinkmenų darbą. Atsisiuntę ją ir įdiegę, spustelėkite mygtuką Atidaryti, kad pasirinktumėte PDF failą. Tada spustelėkite Pradėti tekstą, kad pradėtumėte procesą.
Jis paprašys jūsų vietos išsaugoti teksto išvesties failą ir tada jis pradės išgauti. Taip pat galite spustelėti Galimybė mygtukas, leidžiantis pasirinkti tik tam tikrus ištraukiamus puslapius ir ištraukimo tipą. Antrasis variantas yra įdomus, nes jis ištraukia tekstą skirtingais išdėstymais ir verta išbandyti visus tris, kad pamatytumėte, kurie iš jų suteikia geriausią išėjimą.
PDF2Text Pilot
PDF2Text Pilotas atlieka teksto išgavimo darbą. Ji neturi jokių galimybių; jūs tiesiog pridedate failus ar aplankus, konvertuojate ir tikitės geriausiais. Kai kuriuose PDF dokumentuose jis veikė gerai, tačiau daugumai jų buvo daug klausimų.
Tiesiog spustelėkite Pridėti failus ir spustelėkite Paversti. Baigus konversiją, spustelėkite Naršyti, kad atidarytumėte failą. Jūs nuvažiuosite pagal šią programą, todėl nereikia tikėtis daug.
Be to, verta paminėti, kad jei esate verslo aplinkoje arba galite gauti rankas ant „Adobe Acrobat“ kopijos iš darbo, tuomet jūs tikrai galite gauti daug geresnių rezultatų. Akivaizdu, kad „Acrobat“ nėra nemokama, bet ji turi galimybę konvertuoti PDF į „Word“, „Excel“ ir „HTML“ formatą. Jis taip pat atlieka geriausią užduotį išlaikyti originalaus dokumento struktūrą ir konvertuoti sudėtingą tekstą.