Sprachschatz 4.003 für SynOhr (Deutsch)
+ Verbessert die Erkennung allgemein
+ Effizienz der Erkennung (Geschwindigkeit) optimiert
http://enertex.de/downloads/1144/SprachSchatz-DE.zip
Die Version ist auf die Standardsettings optimiert, eine Anpassung an die Gegebenheiten ist lediglich mit Deutlichkeit und Empfindlichkeit zu machen. Vorhandene Setups sollten weiterhin funktionieren.
Zum Hintergrund (für Interessierte):
Wir beschäftigen uns hier seit einiger Zeit mit der Anwendung von "KI" (Neuronalen Netzen). Als Randprojekt haben wir dabei die Spracherkennung auf SynOhr verglichen und untersucht. Die Spracherkennung in SynOhr wurde 2010-2012 entwickelt und arbeitet mit einem klassischen Ansatz der Erkennung (HMM Model). Siri Alexa etc. arbeiten hingegen mit dem KI Ansatz, der auch in Googles Tensorflow von 2018 integriert ist (https://www.tensorflow.org/tutorials/audio/simple_audio). Der Unterschied zu SynOhr besteht mathematisch/strukturell darin, dass das Neuronale Netz sich die optimalen Parameter selbst sucht. Daher werden bei KI Spracherkennungen weit mehr Audiodaten benötigt, als das mit SynOhr möglich gewesen wäre (Faktor 100). Zudem arbeitet das Neuronale Netz mit weit mehr Parametern als z.B. SynOhr. Daher ist diese KI-Spracherkennung wohl nicht auf die SynOhr Hardware zu portieren.
Wir haben allerdings nun den Lernvorgang beim Erstellen des Sprachschatzes von einer "KI" unterstützt und Parameter optimiert. Das Ergebnis ist eine deutlich verbesserte Erkennung der Wörter der Kommandos, eine weit bessere Sprecherunabhängigkeit und eine mögliche Anwendung auf andere Sprachen (FR/EN/ES). Die Robustheit gegen Fehlauslösungen ist etwas besser geworden, die Robustheit der Erkennung während Hintergrundgeräuschen ebenso. Die anderen Sprachen werden noch folgen.
+ Verbessert die Erkennung allgemein
+ Effizienz der Erkennung (Geschwindigkeit) optimiert
http://enertex.de/downloads/1144/SprachSchatz-DE.zip
Die Version ist auf die Standardsettings optimiert, eine Anpassung an die Gegebenheiten ist lediglich mit Deutlichkeit und Empfindlichkeit zu machen. Vorhandene Setups sollten weiterhin funktionieren.
Zum Hintergrund (für Interessierte):
Wir beschäftigen uns hier seit einiger Zeit mit der Anwendung von "KI" (Neuronalen Netzen). Als Randprojekt haben wir dabei die Spracherkennung auf SynOhr verglichen und untersucht. Die Spracherkennung in SynOhr wurde 2010-2012 entwickelt und arbeitet mit einem klassischen Ansatz der Erkennung (HMM Model). Siri Alexa etc. arbeiten hingegen mit dem KI Ansatz, der auch in Googles Tensorflow von 2018 integriert ist (https://www.tensorflow.org/tutorials/audio/simple_audio). Der Unterschied zu SynOhr besteht mathematisch/strukturell darin, dass das Neuronale Netz sich die optimalen Parameter selbst sucht. Daher werden bei KI Spracherkennungen weit mehr Audiodaten benötigt, als das mit SynOhr möglich gewesen wäre (Faktor 100). Zudem arbeitet das Neuronale Netz mit weit mehr Parametern als z.B. SynOhr. Daher ist diese KI-Spracherkennung wohl nicht auf die SynOhr Hardware zu portieren.
Wir haben allerdings nun den Lernvorgang beim Erstellen des Sprachschatzes von einer "KI" unterstützt und Parameter optimiert. Das Ergebnis ist eine deutlich verbesserte Erkennung der Wörter der Kommandos, eine weit bessere Sprecherunabhängigkeit und eine mögliche Anwendung auf andere Sprachen (FR/EN/ES). Die Robustheit gegen Fehlauslösungen ist etwas besser geworden, die Robustheit der Erkennung während Hintergrundgeräuschen ebenso. Die anderen Sprachen werden noch folgen.
Kommentar