Benchmark-Setup: Wie wir die Messungen durchgeführt haben
Dieser Benchmark vergleicht SuperSpeech und OpenAI Whisper anhand realer WhatsApp-Sprachnachrichten, die im laufenden Produktionsbetrieb von Günther verarbeitet werden, und nicht unter künstlichen Laborbedingungen. SuperSpeech ist ein selbstgehosteter Transkriptionsdienst, der auf einem Mac Mini mit der leistungsstarken Apple Neural Engine in Deutschland betrieben wird und über einen Cloudflare-Tunnel unter transcribe.superspeech.cc erreichbar ist. Whisper ist OpenAIs cloudbasierter Spracherkennungsdienst, der über die offizielle REST-API angesprochen wird. Gemessen wurden vier entscheidende Kennzahlen: der Real-Time-Faktor als Verhältnis von Verarbeitungszeit zu Audiolänge, die absolute Latenz in Sekunden von Anfrage bis Antwort, die Kosten pro Minute verarbeitetes Audio in USD und die Genauigkeit anhand manueller Stichprobenprüfung von 50 zufällig ausgewählten Transkriptionen. Die Testdaten umfassen ausschließlich deutschsprachige WhatsApp-Sprachnachrichten im OGG-Opus-Format, wie es standardmäßig von WhatsApp erzeugt wird. Alle Messungen wurden über mehrere Tage bei unterschiedlicher Serverlast durchgeführt, um repräsentative Durchschnittswerte für den realen Einsatz zu erhalten.
Geschwindigkeit: RTF und absolute Latenz im direkten Vergleich
Der Real-Time-Faktor ist die wichtigste und aussagekräftigste Kennzahl für die Bewertung der Transkriptionsgeschwindigkeit eines Dienstes. Er gibt an, wie lange die Verarbeitung im Verhältnis zur Audiolänge dauert, wobei niedrigere Werte schnellere Verarbeitung bedeuten. Ein RTF von 0,1 bedeutet, dass eine 60-Sekunden-Aufnahme in 6 Sekunden verarbeitet wird. SuperSpeech erreicht einen beeindruckenden RTF von 0,018, während Whisper je nach Serverlast bei 0,05 bis 0,09 liegt. Konkret bedeutet das in der Praxis: Eine 57,8-Sekunden-Sprachnachricht wird von SuperSpeech in lediglich 1,03 Sekunden vollständig transkribiert. Whisper benötigt für exakt dieselbe Aufnahme drei bis fünf Sekunden, also den drei- bis fünffachen Zeitaufwand. Dieser deutliche Unterschied hat direkte Auswirkungen auf das wahrgenommene Nutzererlebnis in WhatsApp, wo Antwortzeiten unter zwei Sekunden von den meisten Nutzern als sofort und verzögerungsfrei wahrgenommen werden. SuperSpeech profitiert von der Apple Neural Engine im Mac Mini, die speziell für Machine-Learning-Inferenz optimiert ist und lokale Verarbeitung ohne Netzwerklatenz ermöglicht. Whisper läuft auf OpenAIs Cloud-GPUs mit zusätzlicher transatlantischer Netzwerkverzögerung.
Kosten: Preis pro Minute im detaillierten Direktvergleich
SuperSpeech kostet 0,003 USD pro Minute verarbeitetes Audio, während Whisper bei genau 0,006 USD pro Minute liegt, was eine unmittelbare Kostenersparnis von 50 Prozent zugunsten von SuperSpeech ergibt. Auf das tatsächliche Nutzungsvolumen von Günther mit über 2.400 täglich aktiven Nutzern hochgerechnet, summiert sich dieser Unterschied über die Monate zu einem erheblichen Betrag. Bei einem durchschnittlichen Audiovolumen von 30 Sekunden pro einzelner Transkription und angenommenen 500 Transkriptionen pro Tag betragen die reinen Verarbeitungskosten mit SuperSpeech 7,50 USD gegenüber 15,00 USD mit Whisper pro Tag. Pro Monat ergibt das eine Ersparnis von rund 225 USD allein bei den variablen API-Kosten. Zusätzlich fallen bei SuperSpeech Fixkosten für das Hosting des Mac Mini an, die sich auf etwa 20 bis 30 USD monatlich belaufen inklusive Strom und Cloudflare-Tunnel. Selbst mit diesen zusätzlichen Fixkosten bleibt SuperSpeech ab etwa 200 Transkriptionen pro Tag günstiger als Whisper. Für kleinere Projekte mit wenigen Transkriptionen täglich kann Whisper aufgrund der entfallenden Infrastrukturkosten wirtschaftlicher sein.
Genauigkeit: Wortfehlerrate bei deutschen Sprachnachrichten im Test
Die Genauigkeit beider Transkriptionsdienste wurde anhand von 50 manuell und sorgfältig transkribierten deutschen Sprachnachrichten verglichen, die ein breites Spektrum an Alltagsgesprächen, technischen Fachbegriffen und deutlich unterschiedlichen Aufnahmequalitäten abdecken. SuperSpeech und Whisper liefern bei klaren Aufnahmen in ruhiger Umgebung auf Deutsch eine Wortfehlerrate von unter 5 Prozent, was für alle praktischen Alltagszwecke als nahezu fehlerfrei gilt und manuelles Nachkorrigieren überflüssig macht. Bei Hintergrundgeräuschen wie Straßenlärm, Wind oder Gesprächen in der Nähe steigt die Fehlerrate bei beiden Diensten auf 8 bis 15 Prozent an, wobei Whisper hier marginal besser abschneidet, insbesondere mit dem leistungsstärkeren Modell large-v3. Bei starkem Dialekt wie Schwäbisch oder Bayrisch zeigt Whisper ebenfalls einen leichten Vorteil, da das Modell auf einem breiteren und diverseren Trainingsdatensatz basiert. Für den typischen WhatsApp-Anwendungsfall, bei dem Nutzer in normaler Lautstärke in ihr Smartphone sprechen, sind beide Dienste qualitativ vergleichbar und der Genauigkeitsunterschied in der Praxis kaum wahrnehmbar.
Datenresidenz: Wo werden die Sprachdaten tatsächlich verarbeitet?
Der größte und für viele Unternehmen entscheidende architektonische Unterschied zwischen beiden Diensten betrifft die Datenresidenz. SuperSpeech läuft auf einem physischen Mac Mini in Deutschland, der über einen verschlüsselten Cloudflare-Tunnel unter transcribe.superspeech.cc erreichbar ist. Die Audiodaten verlassen zu keinem Zeitpunkt die EU und werden nach der Transkription nicht dauerhaft auf dem Server gespeichert. Dies ist für die DSGVO-Konformität besonders relevant, da Sprachnachrichten biometrische Stimmmerkmale enthalten können und somit als besondere Kategorien personenbezogener Daten unter Artikel 9 der DSGVO fallen könnten. Whisper verarbeitet dagegen alle Audiodaten auf OpenAIs Servern in den USA. OpenAI bietet ein Data Processing Addendum unter dem EU-US Data Privacy Framework an und gibt an, API-Daten nicht für das Training ihrer Modelle zu verwenden. Dennoch werden die Audiodaten bei jeder Anfrage transatlantisch übertragen, was sowohl die Latenz messbar erhöht als auch ein rechtliches Risiko darstellt, sollte das DPF wie sein Vorgänger Privacy Shield durch den EuGH gekippt werden.
Ausfallsicherheit: Warum Günther bewusst beide Dienste parallel nutzt
Günther verwendet SuperSpeech als primären Transkriptionsdienst für den Normalbetrieb und Whisper als automatischen Fallback bei Nichterreichbarkeit. Diese bewusste Dual-Provider-Architektur hat einen pragmatischen Grund: SuperSpeech läuft auf einem einzelnen physischen Mac Mini und ist damit grundsätzlich anfälliger für Ausfälle als ein global verteilter Cloud-Dienst mit redundanten Rechenzentren. Wenn der Mac Mini nicht erreichbar ist, etwa durch Netzwerkprobleme, einen geplanten Neustart oder eine vorübergehende Störung, liefert Cloudflare einen HTTP-530-Fehler, und Günther wechselt vollautomatisch und transparent auf Whisper. Dieser Fallback wird über die Datei transcription_service.py gesteuert und erfolgt für den Nutzer völlig unsichtbar, ohne Fehlermeldung oder Verzögerung. In der Praxis läuft SuperSpeech stabil mit einer Verfügbarkeit von über 99 Prozent, unterstützt durch Cron-Watchdogs, die sowohl den TranscribeAPI-Prozess als auch den Cloudflare-Tunnel kontinuierlich überwachen und bei Bedarf automatisch neu starten. Der Fallback auf Whisper wird typischerweise nur ein- bis zweimal pro Monat kurzzeitig aktiviert.
Zusammenfassung: Wann welcher Dienst die klar bessere Wahl ist
SuperSpeech ist die eindeutig bessere Wahl, wenn Geschwindigkeit, EU-Datenresidenz und niedrige Kosten Priorität haben und das nötige technische Know-how für den Eigenbetrieb vorhanden ist. Mit einem RTF von 0,018 ist es drei- bis fünfmal schneller als Whisper, mit 0,003 USD pro Minute exakt 50 Prozent günstiger in den variablen Kosten, und die gesamte Verarbeitung bleibt vollständig innerhalb der EU-Grenzen. Whisper ist die bessere Wahl, wenn maximale Genauigkeit bei schwierigen Aufnahmebedingungen mit Hintergrundlärm oder Dialekt gefordert ist, keine eigene Infrastruktur betrieben oder gewartet werden soll oder das Transkriptionsvolumen so gering ist, dass die monatlichen Hostingkosten für einen dedizierten Server nicht wirtschaftlich gerechtfertigt sind. Für WhatsApp-KI-Assistenten wie Günther mit täglich tausenden Transkriptionen ergibt die intelligente Kombination beider Dienste das optimale Gesamtergebnis: SuperSpeech für den schnellen, datenschutzfreundlichen Normalbetrieb und Whisper als zuverlässiges Sicherheitsnetz bei vorübergehenden Ausfällen.