Ein Ton ist natürlich nicht irgendwie analog zum Bild, sondern ein Bild sagt mehr als tausend Worte - dem Ton entspricht ein Farbklecks oder -tupfer, dem Bild ein Musikstück oder ein gesprochener Text.
Ein Musikstück kann man intonieren. Eine synthetische Sprachausgabe, wenn es nur darum geht einen Text durch tts/mbrola zu jagen; ein Prozeß, bei dem der kritische Teil der Intonierung ja gerade nicht gelingt, Ausdruck ins Geräusch zu legen, sondern allenfalls notdürftig Satzanfang und Ende betont werden und ein Fragezeichen vermittelt wird, ... - keine Ahnung.
Vertonung gibt es noch als Ausdruck, wenn man etwa aus einem Gedicht ein Lied macht, womit man eher die Arbeit des Komponisten bezeichnet. Intonierung dagegen wäre die Umsetzung durch Musiker/Sänger, auch Interpretation.
Beim Sprachsynthesizer kann man wohl von abspulen/abspielen sprechen, vielleicht auch prozessieren, compilieren.