Car-tech

Τα συστήματα αναγνώρισης ομιλίας πρέπει να γίνουν πιο έξυπνα, λέει ο καθηγητής

J. Krishnamurti - San Diego 1970 - Public Talk 4 - What is meditation?

J. Krishnamurti - San Diego 1970 - Public Talk 4 - What is meditation?
Anonim

«Από την εμπειρία των καταναλωτών, οι άνθρωποι βρίσκουν αυτά τα συστήματα πολύ απογοητευτικά», δήλωσε ο James Ο Allen, ο οποίος είναι πρόεδρος της επιστήμης των υπολογιστών στο Πανεπιστήμιο του Rochester, μιλώντας πριν από το συνέδριο SpeechTEK 2010, που πραγματοποιήθηκε στη Νέα Υόρκη αυτή την εβδομάδα.

Τα περισσότερα ηλεκτρονικά συστήματα αναγνώρισης ομιλίας μπορούν να καταλάβουν τι λέει ένας άνθρωπος μέχρι το 98% και παρόλα αυτά οι άνθρωποι εξακολουθούν να αγνοούν τη χρήση αυτοματοποιημένων συστημάτων τηλεφωνικής υποστήριξης. Το κλειδί για να καταστήσουμε αυτά τα συστήματα λιγότερο απογοητευτικά θα ήταν να τους δώσουμε μια βαθύτερη κατανόηση της γλώσσας και να τα καταστήσουμε πιο αλληλεπιδραστικά, δήλωσε ο Allen.

[Περισσότερες πληροφορίες: Ο νέος σας υπολογιστή χρειάζεται αυτά τα 15 δωρεάν και εξαιρετικά προγράμματα]

Μέχρι τώρα, τα τμήματα εξυπηρέτησης πελατών των περισσότερων μεγάλων οργανισμών προσφέρουν αυτοματοποιημένα συστήματα βοήθειας με βάση το τηλέφωνο. Ένας χρήστης καλεί τον αριθμό βοήθειας και μια τεχνητή φωνή ζητά από τον καλούντα μια σειρά ερωτήσεων. Τα περισσότερα από αυτά τα συστήματα βασίζονται σε πλαίσια που είναι βασικά μεγάλα δέντρα αποφάσεων. Με τέτοια συστήματα, "δεν μπορείτε να μάθετε τι θέλει το άτομο, ακολουθείτε ένα σενάριο", δήλωσε.

Τα συστήματα είναι στην πραγματικότητα ένα σύνθετο μιας σειράς διαφορετικών τεχνολογιών. Το άλλο είναι η αναγνώριση ομιλίας ή η ικανότητα ενός υπολογιστή να καταλάβει ή να μεταφράσει επιτυχώς σε κείμενο, τι λέει ο ομιλητής.

Η άλλη τεχνολογία επεξεργασίας φυσικής γλώσσας (NLP) επιχειρεί είτε να μετατρέψει το μήνυμα του ομιλητή σε εντολή ότι ο υπολογιστής μπορεί να εκτελέσει ή ότι μπορεί να συνοψιστεί για έναν ανθρώπινο χειριστή.

Έχουν γίνει μεγάλα βήματα τόσο στην αναγνώριση φωνής όσο και στην NLP τις τελευταίες δεκαετίες, αλλά φαινόταν ότι έφεραν κυρίως απογοήτευση στους χρήστες τους. "Ονομάζω μόνο την τράπεζα όταν έχω ένα πρόβλημα και μάχες αυτά τα συστήματα. [Ρώτα] τι μπορώ να απαντήσω για να περάσω σε ένα πρόσωπο όσο πιο γρήγορα γίνεται», δήλωσε ο Allen.

Το ακαδημαϊκό ερευνητικό έργο του Allen στην αναζήτηση τρόπων ότι "μπορούμε να μιλάμε σε μια μηχανή με τον ίδιο τρόπο που μπορούμε να μιλάμε σε ένα άτομο", ανέφερε.

Οι συνομιλίες μεταξύ δύο ανθρώπων μπορεί να είναι ακριβείς με τους τρόπους που οι υπολογιστές δυσκολεύονται να ταιριάξουν. Ο Άλλεν επεσήμανε την πρόωρη δουλειά που έκανε ως μεταπτυχιακός φοιτητής, στην οποία κατέγραψε συνομιλίες σε ένα γραφείο πληροφοριών για το σιδηροδρομικό σταθμό. Σε μια αλληλεπίδραση, ένας επιβάτης περπατά μέχρι το περίπτερο και λέει "8:50 στο Windsor", και ο συνοδός απαντά "Πύλη 10, 20 λεπτά αργά". Ενώ ο υπάλληλος γνώριζε ακριβώς ποιες πληροφορίες αναζητούσε, τα ηλεκτρονικά συστήματα θα βρίσκουν την πρώτη δήλωση του επιβάτη.

Ο τρόπος που το βλέπει ο Άλεν, δύο στοιχεία λείπουν από τα σύγχρονα συστήματα: Η ικανότητα να αναλύει τι λέει ο ομιλητής και η ικανότητα να συζητάς με τον ομιλητή για να μάθεις περισσότερα για το τι προτίθεται να πει ο ομιλητής.

"Πολλά από τα NLP που βρίσκονται εκτός γραφείου τείνουν να είναι ρηχά, δεν έχουμε τεχνολογία που να σας δίνει νόημα των προτάσεων" αυτός είπε. Τα στατιστικά εργαλεία επεξεργασίας και η υπηρεσία ορισμού λέξεων όπως το WordNet μπορούν να βοηθήσουν να ορίσετε μια λέξη αλλά και τις σχέσεις μιας λέξης, έτσι ώστε το σύστημα να γνωρίζει ότι για παράδειγμα μια "θυγατρική" είναι μέρος μιας "εταιρείας".

Περισσότερα οι αμφίδρομες επικοινωνίες μεταξύ των χρηστών και των υπολογιστών είναι επίσης απαραίτητες. Όταν μιλάμε για τις ανάγκες τους, οι άνθρωποι μπορούν να παρέχουν πληροφορίες σε καμία συγκεκριμένη σειρά. Θα πρέπει να είναι στον υπολογιστή να συνδυάσει αυτές τις πληροφορίες και να μην επιβαρύνει τον χρήστη με ερωτήσεις των οποίων οι απαντήσεις έχουν ήδη παρασχεθεί.

"Αυτό είναι το μέλλον, αυτό είναι πραγματικά αυτό που θέλετε να κάνουν τα συστήματα και μπορούμε να χτίσουμε το διάλογο τα οποία μπορούν να υποστηρίξουν αυτό το εύρος πολυπλοκότητας », δήλωσε.

Για να απεικονίσει αυτή την ιδέα, ο Allen και μια ομάδα ερευνητών σχεδίασαν ένα πρόγραμμα που ονομάζεται Cardiac που θα μπορούσε να μιμηθεί τις ερωτήσεις που θα ζητήσει μια νοσοκόμα σε έναν ασθενή με καρδιακή νόσο. Το πρόγραμμα δημιουργήθηκε με χρηματοδότηση από τα Εθνικά Ινστιτούτα Υγείας των ΗΠΑ. Με αυτό το σύστημα, όταν ο χρήστης παρέχει πληροφορίες, το σύστημα δεν θα το ζητήσει ξανά, είπε ο Allen. Το σύστημα θα αιτιολογούσε ποιο υλικό είχε ήδη παρασχεθεί και τι χρειάζονταν ακόμα.

Ένα άλλο πρόγραμμα που σχεδιάστηκε από τον Allen και την ομάδα του, που ονομάζεται Plough, μπορεί να μάθει πώς να εκτελεί κοινά καθήκοντα σε έναν υπολογιστή. "Αυτό είναι ένα σύστημα που σας επιτρέπει να χρησιμοποιήσετε ουσιαστικά το διάλογο για να εκπαιδεύσετε το σύστημά σας πώς να κάνετε τα πράγματα για σας", ανέφερε.

Για παράδειγμα, ο Allen απέδειξε ότι το πρόγραμμα μάθησης πώς να βρει τα κοντινά εστιατόρια χρησιμοποιώντας ένα πρόγραμμα περιήγησης. Ο χρήστης θα ανοίξει ένα πρόγραμμα περιήγησης, θα μεταβεί σε έναν ιστότοπο εντοπισμού εστιατορίων, θα πληκτρολογήσει τον τύπο του επιδιωκόμενου εστιατορίου και την τοποθεσία και στη συνέχεια θα κόψει και θα επικολλήσει τα αποτελέσματα σε μια κενή σελίδα. Ο χρήστης περιγράφει κάθε βήμα όπως έγινε.

Κατά τη διαδικασία, το Plough θα καταγράφει κάθε βήμα και θα αποκρίνεται όταν το βήμα είναι κατανοητό. Αργότερα, όταν ο χρήστης θα ήθελε να αναζητήσει ένα άλλο εστιατόριο, το πρόγραμμα θα περάσει από όλες τις ίδιες κινήσεις, δημιουργώντας αυτόματα μια άλλη λίστα εστιατορίων. Η έρευνα για την ανάπτυξη αυτού του προγράμματος χρηματοδοτήθηκε από την Υπηρεσία Προηγμένων Ερευνητικών Προγραμμάτων των Ηνωμένων Πολιτειών της Αμερικής.

Περισσότερα δεδομένα είναι το κλειδί για περισσότερα συστήματα επεξεργασίας γλωσσών όπως το ανθρώπινο γένος, είπε ο επικεφαλής επιστήμονας της Microsoft για την ομιλία Larry Heck. "Αν δεν έχετε τα δεδομένα, δεν έχει σημασία πόσο εξελιγμένοι είναι οι αλγόριθμοί σας", ανέφερε.

Ένας τόπος για να βρείτε περισσότερα δεδομένα θα ήταν στα ερωτήματα μηχανών αναζήτησης, πρότεινε. Οι υπηρεσίες μηχανών αναζήτησης λαμβάνουν τεράστιο αριθμό ερωτημάτων, τα οποία συνδέονται με απαντήσεις. "Θεωρώ την αναζήτηση ως έναν στενό ξάδελφο στην τεχνολογία επεξεργασίας γλώσσας", δήλωσε ο Heck.

Αυτές τις μέρες, οι άνθρωποι εκπαιδεύονται να διαρθρώνουν τα ερωτήματά τους ως σύνολο λέξεων-κλειδιών. Αντίθετα, εάν οι χρήστες πληκτρολογούσαν πλήρεις προτάσεις που περιγράφουν τι χρειάζονται, το σύνολο δεδομένων που προέκυψε θα μπορούσε να συμβάλει σημαντικά στην κατανόηση των στοιχείων που αναζητούν οι χρήστες.

Ο Heck προέβλεψε ότι καθώς περισσότεροι άνθρωποι χρησιμοποιούν υπηρεσίες αναζήτησης που ενεργοποιούνται με φωνή από τη Microsoft και την Google, θα συνηθίσουν να διαρθρώνουν τα ερωτήματά τους ως πλήρεις προτάσεις, οι οποίες με την πάροδο του χρόνου θα μπορούσαν να βοηθήσουν τα συστήματα NLP να προβλέψουν καλύτερα τις ανάγκες των χρηστών.

Υπηρεσία

. Ακολουθήστε τον Joab στο Twitter στο @Joab_Jackson. Η διεύθυνση ηλεκτρονικού ταχυδρομείου του Joab είναι [email protected]