/cdn.vox-cdn.com/uploads/chorus_asset/file/23954046/VRG_Illo_STK427_K_Radtke_Getty_Mics.jpg)
OpenAI, das Unternehmen hinter dem Bild- und Meme-Generierungsprogramm DALL-E und der leistungsstarken Autovervollständigungs-Engine GPT-3, hat ein neues neuronales Open-Source-Netzwerk für die Transkription von Audio in geschriebenen Text (via Tech-Crunch). Es heißt Whisper, und das Unternehmen sagt, es „nähert sich der Robustheit und Genauigkeit der englischen Spracherkennung auf menschlicher Ebene an“ und kann auch andere Sprachen wie Spanisch, Italienisch und Japanisch automatisch erkennen, transkribieren und übersetzen.
Als jemand, der ständig Interviews aufzeichnet und transkribiert, war ich von dieser Nachricht sofort begeistert – ich dachte, ich könnte meine eigene Anwendung schreiben, um Audio direkt von meinem Computer sicher zu transkribieren. Während Cloud-basierte Dienste wie Otter.ai und Trint für die meisten Dinge funktionieren und relativ sicher sind, gibt es nur wenige Interviews, bei denen ich oder meine Quellen sich wohler fühlen würden, wenn die Audiodatei außerhalb des Internets bleiben würde.
Es stellte sich als noch einfacher heraus, als ich es mir vorgestellt hatte; Python und verschiedene Entwicklungstools sind bereits auf meinem Computer konfiguriert. Die Installation von Whisper war also so einfach wie das Ausführen eines einzigen Terminal-Befehls. In 15 Minuten konnte ich mit Whisper einen von mir aufgenommenen Test-Audioclip transkribieren. Für jemanden, der relativ technisch versiert ist und Python, FFmpeg, Xcode und Homebrew noch nicht eingerichtet hat, würde dies wahrscheinlich mehr als eine oder zwei Stunden dauern. Es gibt bereits jemanden, der daran arbeitet, den Prozess viel einfacher und benutzerfreundlicher zu gestalten, worüber wir gleich sprechen werden.
Während OpenAI diesen Anwendungsfall definitiv als eine Möglichkeit in Betracht gezogen hat, ist es ziemlich klar, dass das Unternehmen mit dieser Version in erster Linie Forscher und Entwickler anspricht. In dem Blog-Beitrag zur Ankündigung von Whisper sagte das Team, dass sein Code „als Grundlage für die Erstellung nützlicher Anwendungen und für weitere Forschungen zur robusten Sprachverarbeitung dienen könnte“ und dass sie hoffen, dass „die hohe Genauigkeit und Benutzerfreundlichkeit von Whisper es Entwicklern ermöglichen wird, etwas hinzuzufügen Sprachschnittstellen. zu einer viel breiteren Palette von Anwendungen. Dieser Ansatz ist jedoch immer noch bemerkenswert – das Unternehmen hat nur begrenzten Zugriff auf seine beliebtesten Projekte für maschinelles Lernen wie DALL-E oder GPT-3 und nennt den Wunsch, „mehr über die Nutzung auf der ganzen Welt zu erfahren und unsere Sicherheitssysteme weiter zu iterieren „. .“
Es gibt auch die Tatsache, dass es für die meisten Menschen nicht gerade ein benutzerfreundlicher Prozess ist, Whisper zu installieren. Der Journalist Peter Sterne tat sich jedoch mit der GitHub-Entwickleranwältin Christina Warren zusammen. zu versuchen, es zu beheben, und gaben bekannt, dass sie eine „kostenlose, sichere und benutzerfreundliche Transkriptions-App für Journalisten“ entwickeln, die auf dem maschinellen Lernmodell von Whisper basiert. Ich habe mit Sterne gesprochen, und er sagte, er habe entschieden, dass das Programm mit dem Namen Stage Whisper existieren sollte, nachdem er einige Interviews geführt und festgestellt hatte, dass es „die beste Abschrift sei, die ich je verwendet habe, zumindest ‚mit Ausnahme menschlicher Transkriptoren‘.
Ich habe ein von Whisper erstelltes Transkript mit dem verglichen, was Otter.ai und Trint für dieselbe Datei gepostet haben, und ich würde sagen, es war relativ vergleichbar. Es gab in allen genug Fehler, dass ich niemals Zitate kopieren und in einen Artikel einfügen würde, ohne das Audio zu überprüfen (was natürlich ohnehin die beste Vorgehensweise ist, unabhängig davon, welchen Dienst Sie verwenden). Aber die Version von Whisper würde absolut den Trick für mich tun; Ich kann dort nach den benötigten Abschnitten suchen und sie dann manuell erneut überprüfen. Theoretisch sollte Stage Whisper genauso funktionieren, da es dasselbe Modell verwendet, nur mit einer umgebenden GUI.
Sterne räumte ein, dass die Technologie von Apple und Google Stage Whisper innerhalb weniger Jahre überflüssig machen könnte – die Sprachaufzeichnungs-App von Pixel ist seit Jahren in der Lage, Offline-Transkriptionen durchzuführen, und eine Version dieser Funktionalität beginnt damit, auf anderen Android-Geräten und Apple eingeführt zu werden hat das Offline-Diktat in iOS integriert (obwohl es derzeit keine gute Möglichkeit gibt, Audiodateien damit zu transkribieren). „Aber so lange können wir nicht warten“, sagte Sterne. „Journalisten wie wir brauchen heute gute automatische Transkriptions-Apps.“ Er hofft, in zwei Wochen eine vereinfachte Version der Whisper-basierten App fertig zu haben.
Um es klar zu sagen, Whisper wird Cloud-basierte Dienste wie Otter.ai und Trint wahrscheinlich nicht vollständig überflüssig machen, egal wie einfach es zu bedienen ist. Zum einen vermisst das Modell von OpenAI eines der größten Merkmale traditioneller Transkriptionsdienste: die Fähigkeit zu markieren, wer was gesagt hat. Sterne sagte, dass Stage Whisper diese Funktion wahrscheinlich nicht unterstützen würde: „Wir entwickeln kein eigenes Modell für maschinelles Lernen.“
Die Cloud ist nur der Computer eines anderen – was wahrscheinlich bedeutet, dass er etwas schneller ist
Und während Sie die Vorteile der lokalen Verarbeitung nutzen, erhalten Sie auch die Nachteile. Der Hauptgrund ist, dass Ihr Laptop mit ziemlicher Sicherheit viel weniger leistungsstark ist als die Computer, die ein professioneller Transkriptionsdienst verwendet. Zum Beispiel habe ich Audio von einem 24-minütigen Interview in Whisper eingespeist, das auf meinem MacBook Pro M1 läuft; Es dauerte ungefähr 52 Minuten, um die gesamte Datei zu transkribieren. (Ja, ich habe dafür gesorgt, dass er die Python-Version von Apple Silicon anstelle der von Intel verwendet.) Otter spuckte in weniger als acht Minuten ein Transkript aus.
Die Technologie von OpenAI hat jedoch einen großen Vorteil: den Preis. Cloud-basierte Abonnementdienste werden Sie mit ziemlicher Sicherheit Geld kosten, wenn Sie sie professionell nutzen (Otter hat ein kostenloses Kontingent, aber bevorstehende Änderungen werden es weniger nützlich für Personen machen, die häufig Dinge transkribieren), und Transkriptionsfunktionen integrierte Plattformen wie Microsoft Word oder das Pixel, müssen Sie für separate Software oder Hardware bezahlen. Stage Whisper – und Whisper selbst – ist kostenlos und kann auf dem Computer ausgeführt werden, den Sie bereits besitzen.
Auch hier setzt OpenAI größere Hoffnungen in Whisper, als die Basis einer sicheren Transkriptionsanwendung zu sein – und ich bin sehr gespannt, was Forscher damit am Ende machen werden oder was sie lernen werden, wenn sie das maschinelle Lernmodell untersuchen, das auf „ 680.000 Stunden mehrsprachiger, Multitasking-überwachter Daten, die aus dem Internet gesammelt wurden.“ Dass es heute aber auch einen echten praktischen Nutzen hat, macht es umso spannender.
Previously published on www.theverge.com