Optical Character Recognition (OCR) refererer til programvare som lager en digital versjon av et trykt, maskinskrevet eller håndskrevet dokument som datamaskiner kan lese uten å måtte skrive eller skrive inn teksten manuelt. OCR brukes vanligvis på skannede dokumenter i PDF-format, men kan også lage en datamaskinlesbar versjon av tekst i en bildefil.
What OCR Is
OCR, også referert til som tekstgjenkjenning, er programvareteknologi som transformerer tegn som tall, bokstaver og tegnsetting (også k alt glyfer) fra trykte eller skrevne dokumenter til en elektronisk form som lettere gjenkjennes og leses av datamaskiner og andre programmer. Noen OCR-programmer gjør dette ettersom et dokument skannes eller fotograferes med et digitalkamera, og andre kan bruke denne prosessen på dokumenter som tidligere er skannet eller fotografert uten OCR. OCR lar brukere søke i PDF-dokumenter, redigere tekst og formatere dokumenter på nytt.
Getty Images
Hva brukes OCR til?
For raske, dagligdagse skannebehov er det ikke sikkert at OCR er en stor sak. Hvis du skanner mye, kan det å søke i PDF-filer for å finne akkurat den du trenger spare mye tid og gjøre OCR-funksjonaliteten i skannerprogrammet viktigere. Her er noen andre ting OCR hjelper med:
- Automatisk databehandling og dataregistrering (Eksempel: Sporingssystemer for jobbsøkere for CV-er).
- Gjør skannede bøker søkbare.
- Konvertering av håndskrevne skanninger til datamaskinlesbar tekst.
- Gjør dokumenter mer brukbare av leserprogrammer som hjelper synshemmede brukere.
- Bevaring av historiske dokumenter og aviser, samtidig som de gjør dem søkbare.
- Datautvinning og overføring til regnskapsprogrammer (eksempel: kvitteringer og fakturaer).
- Indeksering av dokumenter for bruk av søkemotorer.
- Gjenkjenning av førerkort med fotoboks og programvare for rødt lyskamera.
- Talesynthesizers for folk som ikke kan snakke – teoretisk fysiker, Stephen Hawking, er kanskje den mest kjente brukeren av et talesynthesizerprogram.
bunnlinjen
Hvorfor ikke bare ta et bilde, ikke sant? Fordi du ikke ville være i stand til å redigere noe eller søke i teksten fordi det bare ville være et bilde. Skanning av dokumentet og kjøring av OCR-programvare kan gjøre den filen til noe du kan redigere og søke etter.
History of OCR
Mens den aller tidligste bruken av tekstgjenkjenning dateres til 1914, begynte den utbredte utviklingen og bruken av OCR-relaterte teknologier for alvor på 1950-tallet, spesielt med etableringen av svært forenklede fonter som var lettere å konvertere til digit alt- lesbar tekst. Den første av disse forenklede skriftene ble laget av David Shepard og kjent som OCR-7B. OCR-7B er fortsatt i bruk i dag i finansbransjen for standardfonten som brukes på kredittkort og debetkort. På 1960-tallet begynte posttjenester i flere land å bruke OCR-teknologi for å øke hastigheten på postsorteringen betydelig, inkludert USA, Storbritannia, Canada og Tyskland. OCR er fortsatt kjerneteknologien som brukes til å sortere post for posttjenester rundt om i verden. I 2000 ble nøkkelkunnskap om grensene og mulighetene til OCR-teknologi brukt til å utvikle CAPTCHA-programmene som ble brukt til å stoppe roboter og spammere.
I løpet av tiårene har OCR blitt mer nøyaktig og mer sofistikert på grunn av fremskritt innen relaterte teknologiområder som kunstig intelligens, maskinlæring og datasyn. I dag bruker OCR-programvare mønstergjenkjenning, funksjonsdeteksjon og tekstutvinning for å transformere dokumenter raskere og mer nøyaktig enn noen gang før.
FAQ
Hvordan skanner jeg dokumenter med telefonen eller nettbrettet?
På iOS åpner du Notes-appen og oppretter et nytt notat. Åpne kameraet, og trykk deretter Scan Documents. På Android åpner du Google Disk og velger Plus (+), og trykker deretter på Scan for å skanne dokument med telefonen din.
Hvordan bruker jeg OCR i Adobe Acrobat?
Åpne en PDF-fil som inneholder et skannet bilde, og velg deretter Verktøy > Rediger PDF. Acrobat vil automatisk bruke OCR slik at du kan redigere teksten. Bare velg hvor du vil gjøre endringer og begynn å skrive.
Hva er forskjellen mellom OCR og OMR?
Optical Mark Recognition (OMR) er programvare som oppdager merker på papir, vanligvis et bobleark. OMR brukes til å behandle resultatene av eksamener, undersøkelser, spørreskjemaer og til og med valg. I motsetning til OCR kan ikke OMR tyde merkene på siden, men bare bekrefte at merkene er der.