
TTS, czyli text to speech, to technologia, która zamienia tekst pisany na mowę. W praktyce oznacza to, że komputer, telefon albo inne urządzenie potrafi przeczytać na głos to, co normalnie widzisz na ekranie. Brzmi prosto, ale za tym prostym efektem stoi sporo pracy i wiele lat rozwoju.
Analiza tekstu i naturalna intonacja głosu
Na najbardziej podstawowym poziomie TTS bierze zdanie zapisane w formie tekstu, analizuje je i próbuje odpowiedzieć na pytanie, jak człowiek powiedziałby to na głos. Nie chodzi tylko o wypowiedzenie pojedynczych liter czy słów. Liczy się tempo, intonacja, akcent, pauzy i to, czy zdanie jest pytaniem, stwierdzeniem czy wykrzyknieniem.
Dobre TTS nie brzmi jak automat sucho czytający instrukcję obsługi. Na początku rozwoju tej technologii było jednak z tym różnie. Starsze systemy TTS składały mowę z gotowych fragmentów dźwięku. Każde słowo albo sylaba były nagrane wcześniej przez lektora. Komputer tylko je łączył.
Z czasem podejście się zmieniło. Zamiast sklejać gotowe dźwięki, systemy zaczęły uczyć się, jak powstaje mowa. Dziś narzędzia TTS analizują ogromne ilości nagrań i tekstów, a potem próbują odtworzyć sposób, w jaki ludzie mówią. Dzięki temu potrafią zmieniać ton głosu w zależności od treści zdania, robić pauzy tam, gdzie są potrzebne, i lepiej radzić sobie z dłuższymi wypowiedziami.
Rozpoznawanie liczb, skrótów i kontekstu językowego
Ponadto dobry system musi poradzić sobie z liczbami, skrótami, datami czy symbolami. Musi wiedzieć, że zapis 2026 może oznaczać rok, a może numer. Musi rozpoznać, kiedy przeczytać coś jako skrót literowy, a kiedy jako pełne słowo. To wymaga analizy kontekstu, a nie tylko mechanicznego przetwarzania znaków. Dużym wyzwaniem jest też potoczność języka. Z drugiej strony, kwestia barwy i tonu głosu liczy się też pod względem odbioru przez użytkownika. W niektórych zastosowaniach ma to duże znaczenie, np. w materiałach edukacyjnych czy obsłudze klienta.
Zastosowanie TTS u osób z niepełnosprawnościami i w nawigacji
Zastosowań tej technologii jest bardzo dużo. Na przykład dla osób niewidomych albo słabowidzących TTS bywa podstawowym sposobem korzystania z internetu, książek czy dokumentów. Czytniki ekranu, które czytają na głos treść stron internetowych, maili lub menu aplikacji, opierają się właśnie na syntezie mowy. Bez niej wiele cyfrowych narzędzi byłoby po prostu niedostępnych.
TTS jest też powszechnie używany w codziennych sytuacjach. Nawigacja samochodowa, asystenci głosowi w telefonach, systemy informacyjne na dworcach czy lotniskach, a nawet aplikacje do nauki języków korzystają z tej technologii. Coraz częściej spotyka się ją również w audiobookach generowanych automatycznie, zwłaszcza tam, gdzie liczy się szybkość i niski koszt produkcji.
Parametry techniczne: częstotliwość i opóźnienia syntezy
Standardem częstotliwości dla TTS jest dziś 22,05 kHz lub 24 kHz przy 16 bitach. Coraz częściej spotyka się też 48 kHz, zwłaszcza w zastosowaniach profesjonalnych. Wyższe wartości dają lepsze odwzorowanie głosu, ale zwiększają zapotrzebowanie na moc obliczeniową i transfer danych. Oprócz tego liczy się również opóźnienie, liczone w ułamkach sekundy dla systemów lokalnych. W przypadku chmur jest to zakres od kilkudziesięciu do kilkuset milisekund. Pod względem szybkości mowy natomiast typowy zakres dla naturalnie brzmiącego głosu wynosi od 140 do 180 słów na minutę.