Examples

SSML is an XML-based markup language part of the W3C’s efforts, aimed at standardizing how synthetic speech is generated across various platforms, controlling aspects like pronunciation, volume, and pitch.

Trying Different Variants for Different Interpretation

Proszę bardzo.

The original audio could be perceived as rather plain and emotionless. To make it more upbeat and warm, try another voice variant and increase prosody range.

<speak>
  <lang xml:lang='pl'>
    <voice name='masza' variant='2'>
      <prosody range='+110%'>Proszę bardzo!</prosody>
    </voice>
  </lang>
</speak>

Boosting Positivity with Prosody

U mnie zawsze świeci słońce!

Similar to example above, to make synthesis more optimistic, increase prosody range and pitch.

<speak>
  <lang xml:lang='pl'>
    <voice name='masza' variant='1'>
      <prosody range='+150%' pitch='+10%'>U mnie zawsze świeci słońce!</prosody>
    </voice>
  </lang>
</speak>

Humanizing Synthesis with Sound Icons, Breaks and Tweaking Punctuation

Dzień dobry, jestem Masza, wirtualna asystentka Techmo. 
Postaram się odpowiedzieć na Twoje pytania lub rozwiązać problem. 
Nasza rozmowa jest nagrywana. 
A teraz powiedz w jakiej sprawie do nas dzwonisz?

To make synthesis more human-like consider using sound icons for basic phrases or human sounds. Also, do not hesitate to alter the original punctuation, even if it is not grammatically correct. In addition, a lot of longer prompts sound better with a break.

:dzień_dobry2:, jestem Masza- wirtualna asystentka Techmo. 
Postaram się odpowiedzieć na Twoje pytania lub rozwiązać problem. 
Nasza rozmowa jest nagrywana. <break strength="medium"/> 
A teraz powiedz- w jakiej sprawie do nas dzwonisz?

Increasing Intelligibility with Prosody

Powiedz, jaki błąd wyświetla się na ekranie telewizora?

Adding sound icon, increasing prosody range and decreasing speech rate make the prompt more realistic and understandable.

<speak>
  <lang xml:lang='pl'>
    <voice name='masza' variant='2'>
      <prosody range='+50%' rate='90%'>
        :hmm1:... Powiedz- jaki błąd wyświetla się na ekranie telewizora?
      </prosody>
    </voice>
  </lang>
</speak>

Making Speech More Natural with Randomized Breaks and Automated Normalization

Cześć, z tej strony wirtualny doradca. 
W kilku zdaniach chciałbym przedstawić Państwu najważniejsze obszary do rozwoju w Obszarze Contact Center. 
Rozwój nowych kanałów komunikacji, jak np. czat czy dalszy rozwój rozmów z wykorzystaniem wideo. 
Powtarzalne procesy będziemy obsługiwać z wykorzystaniem VoiceBotów oraz CzatBotów wykorzystujących sztuczną inteligencję. 
Celem efektywnego działania niezbędne jest posiadanie wiedzy o przebiegu wszystkich rozmów, pozwoli to na reagowanie na bieżąco na odchylenia od przyjętego standardu. 
Rozwój kompetencji sprzedażowych w zakresie m.in. klientów firmowych to kolejny z naszych celów na najbliższe miesiące. 
Zależy nam na tym, aby proces weryfikacji zarówno w rozmowach przychodzących jak i wychodzących był prosty i bezpieczny  z wykorzystaniem naszej aplikacji mobilnej. 
W momencie nawiązania połączenia przez Klienta, IVR poprowadzi go indywidualną ścieżką dostosowaną w pełni do jego profilu. 
Dziękuję, do usłyszenia.

An example below shows a variety of previously mentioned techniques of making a better sounding prompt. Notice the randomized break durations between the prompt segments to reflect the characteristics of human speech. Also remember that the most common abbreviations, proper names, brand names, etc. are automatically normalized by lexicons and built-in normalization (in this case Contact Center, VoiceBotów, m.in. and IVR).

:cześć1:, 
z tej strony wirtualny doradca. W kilku zdaniach chciałbym przedstawić Państwu najważniejsze obszary do rozwoju w Obszarze Contact Center. 
<break time="500ms"/> :ekhem2: <break time="200ms"/> Rozwój nowych kanałów komunikacji, jak np. czat czy dalszy rozwój rozmów z wykorzystaniem wideo. 
<break time="600ms"/> Powtarzalne procesy będziemy obsługiwać z wykorzystaniem VoiceBotów oraz CzatBotów wykorzystujących sztuczną inteligencję. 
<break time="650ms"/> Celem efektywnego działania niezbędne jest posiadanie wiedzy o przebiegu wszystkich rozmów- pozwoli to na reagowanie na bieżąco na odchylenia od przyjętego standardu. 
<break time="500ms"/> Rozwój kompetencji sprzedażowych w zakresie m.in. klientów firmowych to kolejny z naszych celów na najbliższe miesiące. 
<break time="700ms"/> Zależy nam na tym, aby proces weryfikacji zarówno w rozmowach przychodzących jak i wychodzących był prosty i bezpieczny  z wykorzystaniem naszej aplikacji mobilnej. 
<break time="650ms"/> W momencie nawiązania połączenia przez Klienta, IVR poprowadzi go indywidualną ścieżką dostosowaną w pełni do jego profilu. 
<break time="500ms"/> Dziękuję, :do_usłyszenia1:.

Using Phonetic Alphabet

Na miłośników włoskiej kuchni czekają: prosciutto crudo e melone, bruschetta, spaghetti aglio e olio oraz wyśmienite toskańskie chianti.

Using <phoneme> tag can be helpful with achieving perfect pronunciation of foreign words.

<speak>
  <lang xml:lang='pl'>
    <voice name='michal' variant='1'>
        Na miłośników włoskiej kuchni czekają: 
        <phoneme ph="prɔɕɕˈutɔ krˈudɔ‿ɛ‿mɛlˈɔnɛ, bruskˈɛta, spaɡˈɛti ˈaljɔ‿ɛ‿ˈɔljɔ"/> 
        oraz wyśmienite toskańskie <phoneme ph="kjˈanti."/>.
    </voice>
  </lang>
</speak>