Er disse superimponerende AI-lydbokstemmene gode eller dårlige?

Innholdsfortegnelse:

Er disse superimponerende AI-lydbokstemmene gode eller dårlige?
Er disse superimponerende AI-lydbokstemmene gode eller dårlige?
Anonim

Key takeaways

  • DeepZen bruker AI (kunstig intelligens) for å lage oppsiktsvekkende realistiske lydbøker fra tekst.
  • Teknologen bruker ekte menneskelige stemmeskuespillere for å gi byggeklossene.
  • Amazon og Audible godtar for øyeblikket ikke datamaskingenererte lydbøker.
Image
Image

DeepZen er et selskap som lager datastemmer brukt i lydbøker, basert på de virkelige stemmene til menneskelige skuespillere. Kvaliteten er skremmende-lett god nok til å lytte til i timevis av gangen. Gimmicken her er AI (kunstig intelligens)-komponenten, som kan lese teksten og utlede den korrekte følelsesmessige responsen basert på kontekst. Deretter legger den følelsen inn i stemmen.

Det er imponerende og veldig praktisk. Men ønsker vi virkelig en homogenisert lydbokopplevelse? Og hva med de stemmeskuespillerne?

"Fra indie-utgiverens perspektiv er alt som reduserer kostnadene for lydbokproduksjon veldig interessant," sa Rick Carlile, eier av det uavhengige utgiveren Carlile Media, til Lifewire via e-post.

"Men den attraksjonen forutsetter at produktet vil være av samme kvalitet som tradisjonell fortelling. Jeg tror ikke vi er hundre prosent der ennå. Misforstå meg rett, DeepZen er forbløffende bra. Det er en et enormt gjennombrudd, og skaperne fortjener enorm ros og suksess. Men det er ennå ikke perfekt."

Lyd som er "godt nok"

Den beste måten å forstå kvaliteten på DeepZen er å lytte til samplene. Hvis du ikke visste at de var datagenerert, var du kanskje ikke klar over det. Ikke på en stund i alle fall. La oss anta at DeepZens AI er perfekt og at den aldri feiltolker de følelsesmessige tonene den skal slå.

Image
Image

Selv da kan et menneske tilby mer nyanserte og ofte mer overraskende tolkninger. En skuespiller kan sette en uventet vri på ordene som en datamaskin aldri engang ville vurdere. Og i virkeligheten er AI-tolkningen absolutt ikke like god ennå som en profesjonell stemmeskuespiller.

"Som en som jobber med filmer og sist i lydfortellingens verden, mens jeg er imponert over AI-en vet jeg at det er dype dybder av betydning som en maskin ikke kan tolke," profesjonell stemme fort alte skuespiller Paul Cram til Lifewire via e-post.

"Vil det være en bølge av ukjente forfattere som bruker det? Jeg garanterer at det vil det fordi det er "bra nok.""

Å være god nok, kombinert med bekvemmeligheten og kostnadsbesparelsene, kan være tilstrekkelig til å drive uavhengige utgivere til tjenesten.

"Lydbøker kan koste opptil $500 per ferdig time med lyd (mye mer for en kjendisstemme), og det inkluderer ikke tidskostnadene for ledelse og admin," sier Carlile. "Å kunne halvere denne kostnaden ved å bare laste opp et manuskript til en leverandør som DeepZen er ekstremt attraktivt."

Talking Trouble

Det er ennå ikke fullt så enkelt som å sparke stemmeskuespillerne dine og laste opp manuskripter til DeepZen. Det er for øyeblikket én barriere for enkel lydbok AI-tale, og den er fra Amazon.

Image
Image

"For øyeblikket vil ikke ACX, selvutgiverens rute til Audible og Amazon lydbokdistribusjon, godta lydbøker som et menneske ikke har spilt inn," sier Carlile.

Hvorfor? Kvalitet. Her er FAQ-oppføringen fra nettstedet:

Tekst-til-tale eller andre automatiserte opptak er ikke tillatt. Hørelyttere velger lydbøker for fremføringen av materialet, så vel som historien. For å oppfylle den forventningen må lydboken din være spilt inn av et menneske. «

Dette betyr at DeepZen-genererte lydbøker er ute for nå, i det minste. Dette er rene spekulasjoner, men DeepZen virker som et ganske godt oppkjøp for Amazon, og lar det selge tjenesten og beholde den utelukkende for Audible-bøker. Og selv om det ikke skjer, hvis kvaliteten på datagenererte lydbøker er så god som dette, synes det liten grunn til ikke å gjøre et unntak fra denne regelen.

Vil du gjerne høre på lydbøker laget på denne måten? Når det skjer, vil de fleste ikke engang mistenke. Noen foretrekker kanskje perfeksjonen til datamaskingenererte stemmer fordi de vil være fri for vokale tics og vaner som noen ganger kan distrahere. Teknologien er også egnet for videospill, TV- og radioannonser, og alle andre scenarier der du vil ansette en stemmeskuespiller.

DeepZens teknologi vil også være en fin måte å automatisk lage nyhetspodcaster fra skrevne artikler, noe som kan være nyttig for pendlingen.

Og hva med de stemmeskuespillerne? Vel, det vil være minst én mulighet: De kan gå og jobbe for DeepZen.

Anbefalt: