Moderne Sprachsynthese: Bilder lernen sprechen [Update]
01.04.2009 | Von Dirk Bösel
|
[Update 02.04.2009: Na klar, diese Meldung war unser Aprilscherz 2009]
Es ist heutzutage recht einfach und verbreitet, sich Texte vom Computer vorlesen zu lassen. Durch die moderne Sprachsynthese werden dazu keine menschlichen Sprecherinnen oder Sprecher benötigt. Für Sehbehinderte stellt diese Technik eine große Hilfe dar, andere Nutzer schätzen den Komfort solcher Text-to-Speech-Systeme. So bieten einige Onlinemagazine ihren Lesern die Möglichkeit, Artikel als MP3-Datei herunter zu laden und später auf dem mobilen Player anzuhören. Es gibt Programme, die Textdateien direkt in Audiodateien umwandeln und eigene Texte mit wenigen Klicks hörbar machen. Moderne Sprachsynthese-Systeme sind sehr leistungsfähig. Ihre Sprechqualität geht weit über die Rufnummernansage einer Mobilbox oder die Guthabenabfrage des Prepaid-Handys hinaus. Nur bei Abkürzungen oder Anglizismen geraten sie gerne ins Stolpern. Das gilt für reine Texte. Artikel in Magazinen oder Zeitschriften enthalten dagegen oft Abbildungen und Fotos. Text-to-Speech-Programme ignorieren solche Elemente und damit auch einen Teil des Inhalts. Bilder lernen sprechen Das Institut für elementare Linguistik an der FH Freudenstadt hat nun einen Ansatz entwickelt, per Sprachsynthese auch Bilder zu vertexten. Das imagolingo getaufte Verfahren nutzt dazu umfangreiche Bilddatenbanken und deren Schlagwortkataloge. Dazu gehören auch Foto-Communities im Internet, in denen Millionen von Fotos abrufbar und mit Schlagworten oder Kurzbeschreibungen versehen sind. Stößt imagolingo beim Konvertieren eines Textes auf Abbildungen, erstellt es einen digitalen Fingerabdruck, den es mit seiner Datenbank abgleicht. Über eine Heuristik werden Bilder mit hoher Übereinstimmung ermittelt und aus deren Schlagworten wiederum Bildbeschreibungen generiert. Angestestet Wir konnten einen Blick auf eine frühe Entwicklerversion der Bildbeschreibungsfunktion werfen. Die Ergebnisse können sich durchaus hören lassen. Zwar wurden nicht immer alle Inhalte unserer Fotografien vollständig erfasst, trotzdem dürfte die textliche Beschreibung das Vorstellungsvermögen in die richtigen Bahnen lenken. Die nachfolgenden Audiobeispiele unserer Testfotos demonstrieren das sehr eindrucksvoll.
[Audio 1 "Statue", MP3 220 KB] [Audio 2 "Hamburger", MP3 280 KB] [Audio 3 "Frosch", MP3 460 KB] |
KOMMENTARE / DISKUSSION
NEWSLETTER
» Jetzt für kostenlosen Newsletter anmelden
| « Voriger Artikel | News Gesamtübersicht | Nächster Artikel » |









