Digitale Systeme für Stimme und Sprache

Neu: smartENDOSTROBO
Stroboskopie/Endoskopie

Update Stimmfeld VDC

Empfohlene Bücher Stimme-Sprache-lingWAVES


WEVOSYS
Remote Support
WEVOSYS Remote Support

Spracherkennung für Entwickler

Was wir bieten

WEVOSYS bietet AnwendungsentwicklerInnen einen flexiblen, leistungsfähigen und anerkannten Spracherkenner als SDK (WSRI-SDK) mit dazugehörigen Tools für eine schnelle und effiziente Entwicklung von Sprachanwendungen.

Beste Sprachanalyse / Spracherkennung
für Sprachlernprogramme

Computerbild 5/2010: Sprachlernprogramme mit WEVOSYS Spracherkennungstechnologie bieten die beste getestete Langenscheidt Kurs EnglischSprachanalyse mit Bewertung. Getestet wurden 6 Sprachlernprogramme, vier mit Sprachanalysefunktion. Nur das Langenscheidtprogramm mit WEVOSYS-Technologie hat eine "sehr gute" Analysefunktion. Die Rangfolge bzgl. "Qualität der Sprachanalyse":

  1. Platz: Langenscheidt Kurs 1 Englisch 5.0 (mit WEVOSYS-Spracherkennungstechnologie) - Wert: 1,18 (sehr gut)
  2. Platz: Rosetta Stone English Level 1 - Wert: 1,56 (gut)
  3. Platz: Auraog Tell me more 10 Silber Edition - Wert: 2,02 (gut)
  4. Platz: Digital Publishing Interaktive Sprachreise 13 - Wert 2,17 (gut)

Der Spracherkenner läuft auf allen Windows Betriebssystemen (98, me, 2000, XP, Vista und 7) und ist auch für linux-basierende Systeme verfügbar. Er wird in verschiedenen Landessprachen angeboten. Der Erkenner wird erfolgreich tausendfach in Sprachlernprogrammen, Telefonieanwendungen und Steuerungssystemen eingesetzt. Er ist NICHT für Diktiersysteme vorgesehen; die Anzahl von zu erkennenden Wörtern in einer Erkennerinstanz beschränkt sich auf ca. 4.000. Die Verarbeitung von mehreren Instanzen gleichzeitig oder hintereinander ist jedoch möglich.

Was ist das WSRI-SDK?

WSRI-SDK (WSRI - WEVOSYS Speech Recognition Interface) ist ein Programmierinterface zur Lösung von Spracherkennungsaufgaben. Mit diesem Tool wird Entwicklern eine einfach zu handhabende und für den Multimedia- und Telefonbereich erweiterte Programmierbibliothek zur Verfügung gestellt,  die ein Einbinden einer hochwertiger Spracherkennungstechnologie erlaubt. Das Interface kann sowohl einfache Aufgaben im Command & Control Bereich mit wenigen Befehlen als auch umfangreiche, interaktive und natürlichsprachliche Dialogaufgaben auf Multimedia PCs und auch in Telefonsystemen erfüllen. Alle Bestandteile des SDKs sind in ANSI C geschrieben und können somit direkt in C oder C++ Anwendungen, aber auch in allen anderen Entwicklungsumgebungen oder Autorensystemen verwendet werden, soweit diese das Einbinden einer DLL zulassen. Zusammen mit weiteren Tools ist die Planung, der Test und die Integration von Spracherkennungslösungen ein einfacher und schnell zu absolvierender Arbeitsprozess.

WSRI-SDK als Spracherkennungskomponente in einer Anwendung besteht aus drei Teilen:

  1. der Decoder (DLL) ist der Programmkern,
  2. Acoustic Models sind die einsetzbaren Landessprachen,
  3. Network (Spracherkennungsnetzwerk) regelt das "Was und Wie" der Erkennung und
  4. das Dictionary (Wörterbuch) enthält die in einem Netzwerk aufgeführten Wörter mit den dazugehörigen phonetischen Transkriptionen (Aussprache).

WSRI-SDK Schema

Wer kann das WSRI-SDK nutzen - Offline/Online?

Das SDK zielt auf EntwicklerInnen, die eine automatische Spracherkennung (Automatic Speech Recognition - ASR) in bereits bestehende oder noch zu entwickelnde Anwendungen einbinden wollen. Aufgrund der Flexibilität und den geringen Soft- und Hardwareanforderungen durch einen "kleinen" Wortschatz (empfohlen werden 4.000 Worte maximal in einem Task), eignet sich das SDK u. a. für Sprachsteuerung (z.B. im Medizinbereich, in Cockpitsystemen von Autos, in der Behindertentechnik, in Telefonsystemen,...), für Produzenten von Sprachlernprogrammen, PC-Spielen (Games) und Edutainmenttiteln, aber auch für Datenbankabfragen via Telefon.

Aktuell werden mit dem SDK auch Online-Anwendungen im Internet umgesetzt.

Wie sehen die technischen Details aus?