Es wird immer üblicher, Sprache zu verwenden, um unsere Häuser und Computer zu steuern. Wo es noch vor einem Jahrzehnt ungewöhnlich war, Alexa oder Google Home zu bitten, die Lichter zu steuern oder ein Produkt aus dem Internet zu bestellen, ist dies heute die Norm.
Eines der Unternehmen, das am meisten in diese Art von Technologie investiert hat, ist Google, das es seinen Google Home-Geräten und Android-Systemen ermöglicht, verbale Befehle zu akzeptieren und sogar den Sprecher zu erkennen.
Heute werden wir untersuchen, wie sie diese Technologie mit ihrer Google Text & Tabellen-Plattform verknüpft haben, und prüfen, ob dies eine praktikable Alternative zu anderen kommerziellen Voice-to-Text-Lösungen ist.
Preisgestaltung
Die Software ist in Google Text & Tabellen enthalten und daher von Natur aus kostenlos. Sie benötigen lediglich ein Google-Konto und entweder ein mobiles Gerät oder einen Computer mit Mikrofon. Es ist eine weitere Datenquelle für Google, die geerntet werden kann. Dies ist jedoch Teil des Preises für "kostenlos" in diesen Tagen.
Design
Es ist möglich, Sprache für die Eingabe in Google Text & Tabellen zu verwenden. Die Funktion heißt "Voice Typing" und befindet sich im Menü "Extras" in Google Text & Tabellen oder in Google Slides. Es kann auch an beiden Orten mit dem Hotkey Strg-Umschalt-S aktiviert werden.
Wenn Sie es zum ersten Mal aktiviert haben, werden Sie aufgefordert, den Zugriff auf das Mikrofon für docs.google.com zu genehmigen.
Sobald Sie akzeptiert haben, dass ein kleines Feld mit einem Mikrofonlogo angezeigt wird, auf das Sie klicken können, um die Spracheingabe zu aktivieren. Dieses wird dann durch ein rotes Mikrofonsymbol neben dem Dokument ersetzt, um anzuzeigen, dass sich das System im Hörmodus befindet.
Bevor Sie die Spracheingabe über das Bedienfeld aktivieren, können Sie eine Sprache aus einem Menü auswählen. Da es sich um Google handelt, stehen zahlreiche Optionen zur Verfügung. Sie können auch auf ein Fragezeichen klicken und Hilfe zur Verwendung des Systems erhalten.
Bei diesen Systemen handelt es sich um eine stark kondensierte Lösung.
Google verarbeitet das, was Sie sagen, nach besten Kräften. Wenn das System sich über ein Wort nicht sicher ist, wird es grau unterstrichen. Diese "verdächtigen" Wörter können dann angeklickt und einige Alternativen vom System bereitgestellt werden.
Sie können sich jedoch schnell in einem Dokument bewegen und Probleme manuell beheben oder den Cursor platzieren und Voice Typing erneut testen.
Wenn Sie während der Arbeit mit einer anderen Person sprechen müssen, können Sie Google bitten, nicht mehr zuzuhören und anschließend fortzufahren.
Um die volle Leistungsfähigkeit dieser Lösung zu erhalten, muss eine lange Liste von Befehlen gespeichert werden, die kopiert, eingefügt, im Dokument verschoben, Tabellen eingefügt und eine Vielzahl anderer Funktionen ausgeführt werden können.
Außerdem können Sie Interpunktion einfügen, das Dokument formatieren und sogar Hyperlinks einfügen.
Um das Beste daraus zu machen, müssen Sie sich jedoch an die Befehle erinnern oder die Hilfe öffnen, um Ihr Gedächtnis zu verbessern.
Eine Liste ist schnell verfügbar, indem Sie bequem "Sprachbefehlsliste" sagen.
Sprachen
Während viele Voice-to-Text-Lösungen nur eine kleine Anzahl von Sprachen abdecken, hat Google eine erhebliche Menge. Die aktuelle endgültige Liste lautet:
Afrikaans, Amharisch, Arabisch, Arabisch (Algerien), Arabisch (Bahrain), Arabisch (Ägypten), Arabisch (Israel), Arabisch (Jordanien), Arabisch (Kuwait), Arabisch (Libanon), Arabisch (Marokko), Arabisch (Oman) , Arabisch (Palästina), Arabisch (Katar), Arabisch (Saudi-Arabien), Arabisch (Tunesien), Arabisch (Vereinigte Arabische Emirate), Armenisch, Aserbaidschanisch, Bahasa Indonesien, Baskisch, Bengali (Bangladesch), Bengali (Indien), Bulgarisch, Katalanisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Chinesisch (Hongkong), Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch (Australien), Englisch (Kanada), Englisch (Ghana), Englisch (Indien), Englisch (Irland) , Englisch (Kenia), Englisch (Neuseeland), Englisch (Nigeria), Englisch (Philippinen), Englisch (Südafrika), Englisch (Tansania), Englisch (UK), Englisch (USA), Persisch, Philippinisch, Finnisch, Französisch , Galizisch, Georgisch, Deutsch, Griechisch, Gujarati, Hebräisch, Hindi, Ungarisch, Isländisch, Italienisch, Italienisch (Italien), Italienisch (Schweiz), Japanisch, Javanisch, Kannada, Khmer, Koreanisch, Laotisch, Lettisch, Litauisch, Malayalam, Malaysia n, Marathi, Nepali, Norwegisch, Polnisch, Portugiesisch (Brasilien), Portugiesisch (Portugal), Rumänisch, Russisch, Slowakisch, Slowenisch, Serbisch, Singhalesisch, Spanisch, Spanisch (Argentinien), Spanisch (Bolivien), Spanisch (Chile), Spanisch (Kolumbien), Spanisch (Costa Rica), Spanisch (Ecuador), Spanisch (El Salvador), Spanisch (Spanien), Spanisch (USA), Spanisch (Guatemala), Spanisch (Honduras), Spanisch (Lateinamerika), Spanisch (Mexiko) ), Spanisch (Nicaragua), Spanisch (Panama), Spanisch (Paraguay), Spanisch (Peru), Spanisch (Puerto Rico), Spanisch (Uruguay), Spanisch (Venezuela), Sundanesisch, Suaheli (Kenia), Suaheli (Tansania), Schwedisch, Tamilisch (Indien), Tamilisch (Malaysia), Tamilisch (Singapur), Tamilisch (Sri Lanka), Thailändisch, Türkisch, Ukrainisch, Urdu (Indien), Urdu (Pakistan), Vietnamesisch und Zulu.
Das sind 119 Sprachen, darunter 13 arabische Formen, 19 spanische Variationen, 13 englische Dialekte und sogar vier Arten von Tamil.
Es gibt Sprachen wie Zulu und Isländisch, die aufgrund der relativ geringen Anzahl von Sprechern nur selten von Diktiersoftware unterstützt werden.
Die Sprachabdeckung ist wahrscheinlich die größte Stärke von Google Voice Typing.
Aufnahmen
Wenn diese Lösung eine Schwachstelle aufweist, kann sie Aufzeichnungen nicht einfach verarbeiten.
Es ist zwar nicht unmöglich, dies zu tun, aber es erfordert das Patchen des Audiosystems des Computers, damit es die für die Lautsprecher bestimmte Ausgabe übernimmt und sie so leitet, als ob sie vom Mikrofon kommt. Auf diese Weise können Sie jedoch nicht zwischen verschiedenen Personen in den Aufzeichnungen unterscheiden. Dies kann die KI beeinträchtigen, die Google verwendet, um die verbale Genauigkeit zu verbessern, indem Sie lernen, wie Sie sprechen.
Wenn Sie Podcasts oder aufgezeichnete Interviews transkribieren möchten, empfehlen wir Ihnen, etwas anderes zu verwenden, da dieses Tool nicht für diesen Zweck entwickelt wurde.
Richtigkeit
Es ist schwierig, die Genauigkeit eines Sprachverarbeitungssystems zu beurteilen, wenn Sie nicht dieselben Aufzeichnungen senden können, die andere Produkte konvertiert haben. Und jeder, der Alexa oder Google Home regelmäßig verwendet, wird wissen, dass er uns gelegentlich nicht versteht, hauptsächlich aufgrund von Nebengeräuschen oder inkonsistenten Sprachausgabe.
Bei den aktiven Tests, die wir durchgeführt haben, wurden bei diesem Tool im Allgemeinen die meisten Wörter korrekt angezeigt, oder das richtige Wort war im Menü für verdächtige Wörter schnell verfügbar.
Um die besten Ergebnisse zu erzielen, muss die Geschwindigkeit, Lautstärke und der Ton des Sprechens kontrolliert werden, was zweifellos mit der Übung einhergeht. Wenn Sie sich alle speziellen Befehle merken können, kann dies auch dazu führen, dass weniger Nachbearbeitungen erforderlich sind.
Abhängig von Ihren Erwartungen ist die Genauigkeit hier akzeptabel. Die Interpretationen, die während unserer Tests beibehalten wurden, stimmen überein. Wie gut es für Sie funktioniert, können wir nicht vorhersagen. Da es jedoch kostenlos ist, kostet es nichts anderes als Ihre Zeit, dies festzustellen.
Sicherheit
Da es sich um Google handelt, ist das Sicherheitsmodell dasselbe, das den Zugriff auf alle Google-Konten steuert. Dies reicht vom einfachen Kennwortschutz über eine vernünftigere bis hin zur Zwei-Faktor-Authentifizierungsmethode (TFA).
Angesichts der Anzahl der Identitätsdiebe besteht bei Nutzern von Google ohne TFA ein erhebliches Risiko, dass ihre Konten kompromittiert werden.
Auch diese Sicherheitsoption hat ihre Grenzen, ist aber besser als nur ein Passwort.
Für diejenigen, die nicht paranoid genug sind, empfehlen wir dringend, zu https://myactivity.google.com/myactivity zu gehen
Außerdem sehen Sie, was Google täglich über Sie sammelt. Dazu gehören möglicherweise Aufzeichnungen Ihrer Sprachbefehle.
Endgültiges Urteil
Dies ist möglicherweise eine längere Überprüfung, wenn diese Software mehr Funktionen bietet, dies jedoch nicht.
Bei Voice-to-Text-Lösungen ist diese Lösung nicht kompliziert, verfügt jedoch über genügend Funktionen, um wirklich nützlich zu sein.
Andere Lösungen wurden entwickelt, um das Transkribieren von Gesprächen zwischen mehreren Personen zu handhaben, wobei dies für eine einzelne Person entwickelt wurde, die kontrolliert und präzise spricht.
Bei der Verwendung wird davon ausgegangen, dass Sie gerne Google und Google Text & Tabellen verwenden, auch wenn dies nicht das endgültige Ziel des von Ihnen eingegebenen Textes ist.
Es ist keine lästige Pflicht, ein Diktat aus Google Text & Tabellen in eine andere Anwendung zu kopieren, und Sie erhalten eine Cloud-Kopie, auf die Sie verweisen können, falls Sie eine benötigen.
Einige Nutzer haben verständlicherweise Probleme damit, den unstillbaren Appetit von Google auf Nutzerdaten zu stillen, und dieser Mechanismus ist eine weitere Datenquelle für den Snack.
Wenn Sie sich so fühlen, verwenden Sie weder Google Voice Typing noch etwas von Google.
Für diejenigen, die akzeptieren möchten, wie viel Google über sie weiß, ist die Sprachdiktierlösung in Google Text & Tabellen für den allgemeinen Gebrauch ausreichend, insbesondere wenn Sie diese Funktionalität nur gelegentlich benötigen.