What to Know
- I Google Books Ngram Viewer, skriv inn en setning, velg en datoperiode og korpus, angi utjevningsnivået og klikk Søk i mange bøker.
- Du kan gå ned i dataene. For for eksempel å søke etter verbformen til fisk, i stedet for substantivet fisk, bruk en kode: søk etter fish_VERB.
- Ngram Viewer sender ut en graf som representerer setningens bruk gjennom tiden. For flere fraser er hver representert med en fargekodet linje.
Denne artikkelen forklarer hvordan du bruker Ngram Viewer-verktøyet i Google Bøker til å utføre undersøkelser og omfattende søk.
How the Ngram Viewer Works
Et Ngram, også k alt et N-gram, er en statistisk analyse av tekst- eller taleinnhold for å finne n (et tall) av en slags element i teksten.
Søkeelementet kan være alle slags ting, inkludert fonemer, prefikser, fraser og bokstaver. Selv om et Ngram er uklart utenfor forskningsmiljøet, brukes det på en rekke felt og har mange implikasjoner for utviklere som koder dataprogrammer som forstår og reagerer på naturlig talespråk.
Når det gjelder Google Books Ngram Viewer, kommer teksten som skal analyseres fra det store antallet bøker i det offentlige domenet som Google skannet for å fylle ut sin Google Books-søkemotor. For Google Books Ngram Viewer refererer Google til teksten du skal søke i, som korpus. Ngram Viewer samles etter språk, selv om du kan analysere britisk og amerikansk engelsk separat eller klumpe dem sammen.
- Gå til Google Books Ngram Viewer på books.google.com/ngrams.
-
Skriv inn en setning eller setninger du vil analysere. Skill hver setning med et komma. Google foreslår «Albert Einstein, Sherlock Holmes, Frankenstein» for å komme i gang.
I NGram Viewer-søk skiller elementene mellom store og små bokstaver, i motsetning til i Google-nettsøk.
- Velg en datoperiode. Standard er 1800 til 2000.
- Velg et korpus. Du kan søke i fremmedspråklige tekster eller engelske tekster, og i tillegg til standardvalgene kan du legge merke til oppføringer som "English (2009)" eller "American English (2009)" nederst på listen. Dette er eldre korpus som Google siden har oppdatert, men du kan ha noen grunn til å sammenligne med gamle datasett. De fleste brukere kan ignorere dem og fokusere på de nyeste korpuene.
-
Angi utjevningsnivået. Utjevning refererer til hvor jevn grafen er på slutten. Den mest nøyaktige representasjonen gjenspeiler et utjevningsnivå på 0, men den innstillingen kan være vanskelig å lese. Standard er satt til 3. I de fleste tilfeller trenger du ikke å justere den.
- Trykk Søk i mange bøker.
Ved å bruke Googles Ngram Viewer kan du se nærmere på dataene. Hvis du vil søke etter verbet fisk i stedet for substantivet fisk, kan du gjøre det ved å bruke tagger. I dette tilfellet vil du søke etter fish_VERB.
Google tilbyr en fullstendig liste over kommandoer annen avansert dokumentasjon for bruk med Ngram Viewer på nettstedet.
bunnlinjen
Google Books Ngram Viewer gir ut en graf som representerer bruken av en bestemt setning i bøker gjennom tiden. Hvis du skrev inn mer enn ett ord eller en setning, representeres hvert av dem med en fargekodet linje for å kontrastere med de andre søkeordene. Dette ligner på Google Trender, bare søket dekker en lengre periode.
Case Study
Vurder casestudien av eddikpaier. De er nevnt i Laura Ingalls Wilders Little House on the Prairie-serien. Å utforske med Googles nettsøk for å lære mer om eddikpaier avslører at de regnes som en del av det amerikanske sørstatskjøkkenet og faktisk er laget med eddik. De lytter tilbake til tider da ikke alle hadde tilgang til ferske råvarer til alle tider av året, men er det hele historien?
Søk i Google Ngram Viewer etter eddikpai, og du vil møte noen omtaler av paien både på begynnelsen og slutten av 1800-tallet, mange omtaler på 1940-tallet og et økende antall omtaler i nyere tid. Men med et utjevningsnivå på 3 ser du et platå over omtalene på 1800-tallet. Fordi det ikke ble publisert mange bøker i løpet av den tiden, og fordi dataene er satt til å jevne, blir bildet forvrengt. Sannsynligvis var det bare én bok som nevnte eddikpai, og den ble beregnet for å unngå en pigg. Ved å sette utjevningen til 0, kan du se at dette er nettopp tilfelle. Piggen sentrerer seg om 1869, og det er en annen pigg i 1897 og 1900.
Det er usannsynlig at ingen snakket om eddikpaier resten av tiden: Det var nok oppskrifter som fløt over alt, men folk skrev ikke om dem i bøker, og det er en viktig begrensning for Ngram-søk.