Watson Speech to Text Review: Der beste hochvolumige Transkriptionsdienst?

Watson ist das Computersystem für die Verarbeitung natürlicher Sprache von IBM. Es unterstützt den berühmten Supercomputer zur Beantwortung von Fragen sowie eine Reihe von AI-basierten Unternehmensprodukten, darunter Watson Speech to Text. In unserer Watson Speech to Text-Rezension werfen wir einen Blick auf eine der besten Speech-to-Text-Apps, die sich ideal für alle eignen, die Audio in Textgröße skalieren möchten.

Die Watson-Sprachverarbeitungsplattform ist in der IBM Cloud verfügbar. Es ist ein vielseitiges Tool und kann in vielen Kontexten verwendet werden, einschließlich Diktat und Transkription von Telefonkonferenzen. Darüber hinaus ist es im Gegensatz zu den meisten anderen Sprach-Text-Apps als API verfügbar, sodass Entwickler es unter anderem in Sprachsteuerungssysteme einbetten können.

Watson Speech to Text: Pläne und Preise

Mit Watson Speech to Text können Sie bis zu 500 Minuten Audio pro Monat kostenlos verarbeiten. Wenn Sie mehr konvertieren möchten, müssen Sie für jede Audiominute bezahlen, und die Rate ändert sich basierend auf der Dauer der Audioverarbeitung. Die Kosten liegen zwischen 0,01 und 0,02 US-Dollar pro Minute. Wenn Sie das benutzerdefinierte Sprachmodell von IBM benötigen, wird eine zusätzliche Gebühr von 0,03 US-Dollar pro Minute erhoben. Es sind auch Premium-Watson-Angebote nur für Angebote verfügbar, die Zugriff auf erweiterte Datenschutzfunktionen und Verfügbarkeitsgarantien gewähren.

Der Preis für den Speech-to-Text-Service von Watson richtet sich nach dem Umfang des Inhalts, den Sie transkribieren müssen.

Sie können auch über ein universelles IBM Cloud-Abonnement auf das Watson Speech to Text-System zugreifen. Die Verarbeitung natürlicher Sprache ist nur eine App in einer Vielzahl von KI-Diensten, die Sie über IBM Cloud erhalten können. Dies ist daher eine gute Option für jedes Unternehmen, das Zugriff auf Hochgeschwindigkeitsdatenübertragungen, Chatbots oder Text-to-Speech-Tools benötigt.

Watson Speech to Text: Funktionen

Dank der flexiblen API-Integration und anderer vorgefertigter IBM-Tools geht der Watson-Spracherkennungsservice weit über die grundlegende Transkription hinaus. Wenn Sie es beispielsweise in einem Kundendienstkontext verwenden möchten, kann der Watson-Assistent so eingerichtet werden, dass Fragen in natürlicher Sprache direkt verarbeitet oder Fragen telefonisch beantwortet werden.

In Watson hat IBM eine funktionsreiche Plattform für die Verarbeitung natürlicher Sprachen zusammengestellt.

Watson arbeitet mit Live-Audio in 11 Sprachen und kann Sounds in verschiedenen aufgezeichneten Formaten importieren. Beim Streaming bedeutet Echtzeit-Diagnoseunterstützung, dass Watson Benutzer auffordern kann, sich ihrem Mikrofon zu nähern oder ihre Umgebung zu ändern. Beeindruckend ist auch die Tatsache, dass Watson dank Speaker Diarization, einer Funktion, die sich noch im Betatest befindet, in einem gemeinsamen Gespräch zwischen verschiedenen Sprechern unterscheiden kann.

Watson Speech to Text: Einrichtung

Um Watson verwenden zu können, müssen Sie zunächst ein IBM Bluemix-Konto erstellen. Die Registrierung ist kostenlos und problemlos und erfordert nur eine E-Mail-Adresse und ein Passwort. Sobald Sie angemeldet sind, müssen Sie Ihrem Konto eine Bestimmung für den Speech to Text-Dienst hinzufügen. Zu diesem Zeitpunkt erhalten Sie einige Anmeldeinformationen, die Sie in Ihren eigenen Unterlagen speichern sollten.

Die Registrierung für ein IBM Bluemix-Konto ist erforderlich, um Zugriff auf alle Funktionen von Watson zu erhalten.

Nachdem Sie dies getan haben, werden die Dinge erheblich komplexer. Um auf Watson zugreifen zu können, müssen Sie diese Anmeldeinformationen einem Stapel von cURL-Code (Client Uniform Resource Locator) hinzufügen und dann auf Ihrem Computer ausführen. Um genau herauszufinden, welchen Befehl Sie aufrufen müssen, lesen Sie diese praktische Anleitung. Wenn Sie nur sehen möchten, wie gut das Watson-System funktioniert, ohne durch all diese Rahmen springen zu müssen, können Sie es stattdessen auf der IBM Demo-Site ausprobieren.

Watson Speech to Text: Schnittstelle

Im Gegensatz zu Voice-to-Text-Apps für Endverbraucher sind die Dienste von Watson für den Zugriff über APIs und Code ausgelegt, die in andere Systeme eingebettet sind. Aus diesem Grund gibt es keine echte Watson-Schnittstelle. Stattdessen kann auf Watson über drei verschiedene Internetprotokolle zugegriffen werden. Dies sind WebSockets, REST API und Watson Developer Cloud.

Watson Speech to Text kann über das Watson Developer Cloud-System verwaltet werden.

Um Watson zu steuern, müssen Sie ein Befehlszeilentool verwenden, das über eine dieser drei Routen eine Verbindung zur IBM Cloud herstellt. Die Schnittstelle, die der Endbenutzer, der mit Watson interagiert, sieht, muss von jemandem in Ihrem Entwicklungsteam separat erstellt werden.

Watson Speech to Text: Leistung

Insgesamt waren wir beeindruckt von der Art und Weise, wie diese Plattform zur Verarbeitung natürlicher Sprache mit echter Sprache umging. Wir haben Watson verwendet, um Clips zu transkribieren, die wir in einer Reihe herausfordernder Umgebungen aufgenommen haben, sowie Soundbites berühmter Reden, die in mehreren der 11 von Watson unterstützten Sprachen gehalten wurden.

Wir fanden heraus, dass Watson mit aufgezeichneter Sprache gut abschnitt.

Obwohl Fehler bei Clips mit vielen Hintergrundgeräuschen häufiger auftraten, lieferte Watson im Allgemeinen unglaublich genaue Ergebnisse. Wir würden aus unseren Tests schätzen, dass unaufgeforderte Fehler durchschnittlich nur einmal alle 150 Wörter aufgetreten sind. Es wurde jedoch klar, warum Watsons Speaker Diarization-Funktion bei BETA-Tests weiterhin vorhanden ist, da während unserer Bewertung mehrmals eine Stimme als separate Sprecher falsch etikettiert wurde.

Watson Speech to Text: Unterstützung

Das IBM Resource Center bietet zahlreiche Dokumentationen, um besser zu verstehen, wie Watson auf Ihren speziellen Anwendungsfall angewendet wird. Es lohnt sich auch, die API-Integrationen und SDKs zu verwenden, die von der Watson-Entwickler-Community erstellt und auf GitHub veröffentlicht wurden.

Die GitHub-Seite der Watson-API ist eine gute Quelle für die Unterstützung des Watson Speech to Text-Dienstes.

Wenn Sie dort keine Lösung für Ihr Problem finden, können Sie sich direkt an IBM wenden, indem Sie ein Support-Ticket öffnen oder telefonisch Kontakt mit IBM aufnehmen. Solange Sie sich für eines der Premium-Watson-Pakete entschieden haben, wird Ihre Watson-Nutzung durch eine Service Level Uptime-Vereinbarung geschützt.

Watson Rede zum Text: Endgültiges Urteil

Wenn Ihr Unternehmen über das Know-how und die Ressourcen verfügt, um die IBM Watson Speech to Text-Plattform ordnungsgemäß in Ihr System zu integrieren, profitieren Sie von erweiterten Funktionen wie Echtzeit-Soundumgebungsdiagnose und vorläufigen Transkriptionsergebnissen. Kleine Unternehmen und Organisationen werden jedoch mit der technischen Herausforderung zu kämpfen haben, Watson ordnungsgemäß einzurichten.

Der Wettbewerb

Der IBM Watson Speech-to-Text-Dienst ist ein direkter Konkurrent zu den Massentranskriptionsdiensten Google Cloud Speech-to-Text und Amazon Transcribe. Beide sind erheblich billiger als Watson. Die Transkription von Google Cloud beginnt beispielsweise bei 0,006 US-Dollar pro Minute. Alle drei Dienste haben ähnliche Funktionen wie das angepasste Vokabular, aber eine Funktion, die IBM Watson schmerzlich fehlt, aber bei beiden Wettbewerbern verfügbar ist, ist die automatische Interpunktionserkennung.

Suchen Sie nach einer anderen Spoeech-to-Text-Lösung? Lesen Sie unseren Best-Speech-to-Text-Software-Leitfaden.