Difonbaseret syntese
Difonbaseret syntese er bl.a. baseret på en lyddatabase, der indeholder en mængde difoner, der stammer fra optagelser med en speaker (eller en stemme), dvs. der er tale om en slags reproduktion af et ægte menneskes stemme.
Processen bag en syntese og kunstig tale
Syntetisk tale systemer består typisk af to moduler. Det ene modul er tekstmodulet (front end), der konverterer tekstinput til lydskrift på basis af en række komplicerede grammatikker regler. Disse regler styrer, hvordan skriftsprogets tegn skal konverteres til talesproget tegn. Det andet modul er talemodulet (back end), der bl.a. indeholder en taledatabasen. På samme måde som vi har et alfabet for det skrevne sprog, findes der et alfabet for hvert enkelt sprog, der beskriver dette sprogs "lyde". Eksempler på sådanne lydalfabeter er f.eks. IPA og SAMPA.
Taledatabasen
Lyddatabasen indeholder taledata fra en stor mængde tekst, som et menneske (en speaker) indlæser. Teksten udvælges, så den bedst muligt dækker samtlige lyde i et givent sprog. Når teksten er indlæst i lydfiler, benyttes disse filer af et program, der splitter filerne op i lyddele (dvs. de lyde der er defineret i det givne sprogs lydalfabet. Når syntesen senere danner kunstig tale, sker det herefter baggrund af disse lydstumper af "ægte menneskelig tale". Det bør dog bemærkes, at for at opnå god og korrekt intonation, dvs. at den syntetiske tale lyder ægte, styres "genbrugen" af lydstumperne af en række komplicerede regler, der er med stil at sikre, at de små sammensatte lydstumper giver en sammenhængende tale, når der læses ord eller større (vilkårlige) tekster op.
Tidligere udgaver af talesyntese
De tidlige systemer indenfor talesyntese (formantsyntese) benyttede sig ikke af indspilning af menneskelig tale, men på kunstigt maskinproduceret tale. Dette gav en meget robotlignende syntesekvalitet. Hvis teknologien bag en difonbaseret syntese ikke er i orden, kan man dog fortsat i dag finde systemer med robotlignende kvalitet selv om de er difonbaserede.