Car-tech

Spracherkennungssysteme müssen intelligenter werden, Professor sagt

Wie sprechende Maschinen schlauer werden

Wie sprechende Maschinen schlauer werden
Anonim

gehen sollten Das Telefonieren mit automatisierten Spracherkennungssystemen mag Trost darin liegen, dass Wissenschaftler daran arbeiten, solche Systeme lebensechter und weniger störend zu machen.

"Nach Ansicht der Verbraucher sind diese Systeme sehr frustrierend", so James Allen, der Vorsitzende der Computerwissenschaft an der Universität von Rochester, spricht diese Woche vor der SpeechTEK Konferenz 2010 in New York.

Die meisten computergestützten Spracherkennungssysteme können verstehen, was ein Mensch zu 98 Prozent der Zeit sagt, Und dennoch schämen sich die Leute immer noch daran, automatisierte Help-Desk-Systeme zu nutzen. Der Schlüssel, um diese Systeme weniger frustrierend zu machen, bestünde darin, ihnen ein tieferes Verständnis der Sprache zu vermitteln und sie interaktiver zu gestalten, sagte Allen.

[Ihr neuer PC benötigt diese 15 kostenlosen, ausgezeichneten Programme]

Inzwischen bieten die Kundendienstabteilungen der meisten großen Unternehmen automatisierte telefonbasierte Hilfesysteme an. Ein Benutzer ruft die Hilfe-Nummer an und eine künstliche Stimme fragt den Anrufer nach einer Reihe von Fragen. Die meisten dieser Systeme basieren auf Frameworks, die im Wesentlichen große Entscheidungsbäume sind. Mit solchen Systemen "erfährst du nicht, was die Person will, du folgst einem Drehbuch", sagte er.

Die Systeme bestehen eigentlich aus einer Reihe verschiedener Technologien. Eine davon ist die Spracherkennung oder die Fähigkeit eines Computers, zu verstehen oder erfolgreich in Text zu übersetzen, was der Sprecher sagt.

Die andere Technologie, die Verarbeitung natürlicher Sprache (NLP), versucht entweder die Nachricht des Sprechers in einen Befehl umzuwandeln die der Computer ausführen kann oder die für einen menschlichen Operator zusammengefasst werden können.

Sowohl in der Spracherkennung als auch in NLPs wurden in den letzten Jahrzehnten große Fortschritte gemacht, aber sie haben ihren Benutzern scheinbar Frustration beschert. "Ich rufe nur die Bank an, wenn ich ein Problem habe, und kämpfe gegen diese Systeme. [Ich frage], was ich antworten kann, um so schnell wie möglich zu einer Person zu kommen", sagte Allen.

Allens akademische Forschungsarbeit war "Wir können mit einer Maschine genauso sprechen, wie wir mit einer Person sprechen können", sagte er.

Gespräche zwischen zwei Personen können präzise sein, auf welche Art und Weise Computer Schwierigkeiten bei der Zuordnung haben. Allen wies auf einige frühe Arbeiten hin, die er als Doktorand gemacht hatte, in denen er Gespräche an einem Informationsschalter am Bahnhof aufzeichnete. In einer Interaktion geht ein Passagier zur Kabine und sagt "8:50 nach Windsor", und der Wärter antwortet "Tor 10, 20 Minuten zu spät." Während der Flugbegleiter genau wusste, welche Informationen der Anfrager suchte, würden computerisierte Systeme die erste Aussage des Passagiers verwirren sehen.

Wie Allen es sieht, fehlen zwei Elemente in den modernen Systemen: Die Fähigkeit zu analysieren, was der Sprecher sagt und die Fähigkeit, sich mit dem Sprecher zu unterhalten, um mehr über das zu erfahren, was der Sprecher zu sagen beabsichtigt.

"Viel NLP-Standard ist eher oberflächlich. Wir haben keine Technologie, die Ihnen eine Bedeutung der Sätze gibt". er sagte. Statistische Verarbeitungstools und Worddefinitionsdienste wie WordNet können dabei helfen, ein Wort, aber auch die Beziehungen eines Wortes zu definieren, damit ein System weiß, dass beispielsweise eine "Tochtergesellschaft" Teil einer "Firma" ist.

Mehr Zweiwegekommunikation zwischen den Benutzern und den Computern wird ebenfalls benötigt. Wenn über ihre Bedürfnisse gesprochen wird, können Personen Informationen in einer bestimmten Reihenfolge bereitstellen. Es sollte Sache des Computers sein, diese Informationen zusammenzufassen und den Benutzer nicht mit Fragen zu belasten, deren Antworten bereits gegeben wurden.

"Dies ist die Zukunft, das wollen Sie wirklich, und wir können einen Dialog aufbauen Systeme, die diese Komplexität unterstützen können ", sagte er.

Um diese Idee zu veranschaulichen, entwarfen Allen und ein Team von Forschern ein Programm namens Cardiac, das die Fragen nachstellen konnte, die eine Krankenschwester einem Patienten mit Herzerkrankungen stellen würde. Das Programm wurde mit Mitteln der US-amerikanischen National Institutes of Health erstellt. Sobald ein Benutzer Informationen zur Verfügung stellt, würde das System nicht mehr danach fragen, sagte Allen. Das System würde darüber entscheiden, welches Material bereits bereitgestellt wurde und was noch benötigt wurde.

Ein anderes Programm, das von Allen und seinem Team namens Plough entwickelt wurde, kann lernen, wie man gewöhnliche Aufgaben auf einem Computer ausführt. "Dies ist ein System, mit dem Sie im Wesentlichen Dialog verwenden können, um Ihr System zu schulen, wie Sie Dinge für sich tun können", sagte er.

Als Beispiel demonstrierte Allen dem Programm, wie man in der Nähe befindliche Restaurants mit einem Browser findet. Der Benutzer würde einen Browser öffnen, zu einer Restaurant-Locator-Site navigieren, den Typ des gesuchten Restaurants und den Ort eingeben und dann die Ergebnisse ausschneiden und in eine leere Seite einfügen. Der Benutzer hat jeden Schritt so beschrieben, wie er ausgeführt wurde.

Dabei zeichnet Plough jeden Schritt auf und reagiert akustisch, wenn der Schritt verstanden ist. Später, wenn der Benutzer ein anderes Restaurant aufsuchen möchte, durchläuft das Programm die gleichen Schritte und erstellt automatisch eine weitere Liste von Restaurants. Die US-amerikanische Defense Advanced Research Projects Agency hat die Entwicklung dieses Programms finanziert.

Mehr Daten sind der Schlüssel für mehr menschenähnliche Sprachverarbeitungssysteme, sagte Microsoft-Chefwissenschaftler Larry Heck in einem weiteren Vortrag auf der Konferenz. "Wenn Sie die Daten nicht haben, ist es egal, wie ausgeklügelt Ihre Algorithmen sind", sagte er.

Ein Platz, um mehr Daten zu finden, wäre in Suchanfragen, schlug er vor. Suchmaschinen-Dienste erhalten eine große Anzahl von Abfragen, die alle mit Antworten verknüpft werden. "Ich sehe die Suche als einen engen Verwandten der Sprachverarbeitungstechnologie", sagte Heck.

In diesen Tagen werden die Leute darin geschult, ihre Abfragen als eine Reihe von Schlüsselwörtern zu strukturieren. Wenn die Benutzer stattdessen ganze Sätze eintippen, die beschreiben, was sie benötigen, kann der resultierende Datensatz viel dazu beitragen, dass die Systeme besser verstehen, wonach die Leute suchen.

Heck hat vorausgesagt, dass mehr Menschen sprachaktivierte Suchdienste nutzen Von Microsoft und Google werden sie sich daran gewöhnen, ihre Abfragen als ganze Sätze zu strukturieren, was NLP-Systemen im Laufe der Zeit helfen könnte, Benutzerbedürfnisse besser vorherzusehen.

Joab Jackson berichtet über Unternehmenssoftware und allgemeine Technologie für The IDG News Service. Folge Joab auf Twitter unter @Joab_Jackson. Joabs E-Mail-Adresse ist [email protected]