Spracherkennung für Entwickler
Was wir bieten
WEVOSYS bietet AnwendungsentwicklerInnen einen flexiblen, leistungsfähigen und anerkannten Spracherkenner als SDK (WSRI-SDK) mit dazugehörigen Tools für eine schnelle und effiziente Entwicklung von Sprachanwendungen.
Beste Sprachanalyse / Spracherkennung
für Sprachlernprogramme
Computerbild 5/2010: Sprachlernprogramme mit WEVOSYS Spracherkennungstechnologie bieten die beste getestete
Sprachanalyse mit Bewertung. Getestet wurden 6 Sprachlernprogramme, vier mit Sprachanalysefunktion. Nur das Langenscheidtprogramm mit WEVOSYS-Technologie hat eine "sehr gute" Analysefunktion. Die Rangfolge bzgl. "Qualität der Sprachanalyse":
- Platz: Langenscheidt Kurs 1 Englisch 5.0 (mit WEVOSYS-Spracherkennungstechnologie) - Wert: 1,18 (sehr gut)
- Platz: Rosetta Stone English Level 1 - Wert: 1,56 (gut)
- Platz: Auraog Tell me more 10 Silber Edition - Wert: 2,02 (gut)
- Platz: Digital Publishing Interaktive Sprachreise 13 - Wert 2,17 (gut)
Der Spracherkenner läuft auf allen Windows Betriebssystemen (98, me, 2000, XP, Vista und 7) und ist auch für linux-basierende Systeme verfügbar. Er wird in verschiedenen Landessprachen angeboten. Der Erkenner wird erfolgreich tausendfach in Sprachlernprogrammen, Telefonieanwendungen und Steuerungssystemen eingesetzt. Er ist NICHT für Diktiersysteme vorgesehen; die Anzahl von zu erkennenden Wörtern in einer Erkennerinstanz beschränkt sich auf ca. 4.000. Die Verarbeitung von mehreren Instanzen gleichzeitig oder hintereinander ist jedoch möglich.
Was ist das WSRI-SDK?
WSRI-SDK (WSRI - WEVOSYS Speech Recognition Interface) ist ein Programmierinterface zur Lösung von Spracherkennungsaufgaben. Mit diesem Tool wird Entwicklern eine einfach zu handhabende und für den Multimedia- und Telefonbereich erweiterte Programmierbibliothek zur Verfügung gestellt, die ein Einbinden einer hochwertiger Spracherkennungstechnologie erlaubt. Das Interface kann sowohl einfache Aufgaben im Command & Control Bereich mit wenigen Befehlen als auch umfangreiche, interaktive und natürlichsprachliche Dialogaufgaben auf Multimedia PCs und auch in Telefonsystemen erfüllen. Alle Bestandteile des SDKs sind in ANSI C geschrieben und können somit direkt in C oder C++ Anwendungen, aber auch in allen anderen Entwicklungsumgebungen oder Autorensystemen verwendet werden, soweit diese das Einbinden einer DLL zulassen. Zusammen mit weiteren Tools ist die Planung, der Test und die Integration von Spracherkennungslösungen ein einfacher und schnell zu absolvierender Arbeitsprozess.
WSRI-SDK als Spracherkennungskomponente in einer Anwendung besteht aus drei Teilen:
- der Decoder (DLL) ist der Programmkern,
- Acoustic Models sind die einsetzbaren Landessprachen,
- Network (Spracherkennungsnetzwerk) regelt das "Was und Wie" der Erkennung und
- das Dictionary (Wörterbuch) enthält die in einem Netzwerk aufgeführten Wörter mit den dazugehörigen phonetischen Transkriptionen (Aussprache).

Wer kann das WSRI-SDK nutzen - Offline/Online?
Das SDK zielt auf EntwicklerInnen, die eine automatische Spracherkennung (Automatic Speech Recognition - ASR) in bereits bestehende oder noch zu entwickelnde Anwendungen einbinden wollen. Aufgrund der Flexibilität und den geringen Soft- und Hardwareanforderungen durch einen "kleinen" Wortschatz (empfohlen werden 4.000 Worte maximal in einem Task), eignet sich das SDK u. a. für Sprachsteuerung (z.B. im Medizinbereich, in Cockpitsystemen von Autos, in der Behindertentechnik, in Telefonsystemen,...), für Produzenten von Sprachlernprogrammen, PC-Spielen (Games) und Edutainmenttiteln, aber auch für Datenbankabfragen via Telefon.
Aktuell werden mit dem SDK auch Online-Anwendungen im Internet umgesetzt.
Wie sehen die technischen Details aus?
- Das SDK ist für alle Windows Betriebsysteme (98, me, 2000, XP, Vista und 7) verfügbar. Linux-Version auf Anfrage.
- Es werden die Sprachen Deutsch, US und UK Englisch, Spanisch, Französisch und Italienisch unterstützt, Deutsch und US Englisch auch für die Telefonbandbreite.
- Der Spracherkenner ist sprecherunabhängig.
- Kontinuierliche Echtzeit-Spracherkennung.
- Erkenner wurde auf Geschwindigkeit und Speichernutzung optimiert.
- Die notwendigen Komponenten benötigen auf einem Datenträger zwischen 2 - 8 MB (je nach Anwendung). Die Ausführung der Spracherkennung kann z. B. auch von einer CD-ROM aus erfolgen, so dass keine Installation der Spracherkennung notwendig ist.
- Onlineanwendungen im Internet über Plug-Ins oder Serververarbeitung möglich.
- Detailreiche Ausgabe auch von Zeit- und Qualitätswerten sowohl auf Wort als auch auf Phonemebene.
- Rückweisungsmanagement durch Zuverlässigkeitsprüfung oder Integration von garbage Modellen.
- Automatische Spracheingabedetektion.
- Veränderung von Vokabular, Aussprache und Erkennernetzwerk während der Laufzeit des Spracherkenners.
- Nutzung verschiedener Eingabequellen (Mikrofon, Datei, Internet)
