El número de aplicaciones y la importancia de las interfaces de voz está creciendo rápidamente

contenido

cuatro grandes
Los estadounidenses quieren comprar
¡Lavar, hornear, limpiar!
Viejo concepto. ¿Ha llegado finalmente su hora?
pregunta tecnicamente dificil
¿Voz? ¿Artes graficas? O tal vez ambas cosas?
¡Cuidado con la seguridad!

Una familia estadounidense en Portland, Oregón, se enteró recientemente de que el asistente de voz de Alex grabó sus chats privados y se los envió a un amigo. La propietaria de la casa, apodada Danielle por los medios, dijo a los periodistas que "nunca volvería a enchufar ese dispositivo porque no se puede confiar en ella".

Alexa, proporcionado por los altavoces Echo (1) y otros dispositivos en decenas de millones de hogares estadounidenses, comienza a grabar cuando escucha su nombre o "palabra de llamada" pronunciada por el usuario. Esto significa que incluso si se menciona la palabra "Alexa" en un anuncio de televisión, el dispositivo puede comenzar a grabar. Eso es exactamente lo que sucedió en este caso, dice Amazon, el distribuidor de hardware.

"El resto de la conversación fue interpretado por el asistente de voz como una orden para enviar un mensaje", dijo la compañía en un comunicado. “En algún momento, Alexa voz alta preguntó:‘¿A quién’? La continuación de la conversación familiar sobre el piso de madera debería haber sido percibido por la máquina como un elemento en la lista de contactos del cliente “. Al menos eso es lo que cree Amazon. Por lo tanto, la traducción se reduce a una serie de accidentes.

La ansiedad, sin embargo, permanece. Porque por alguna razón, en una casa en la que todavía se sentía a gusto, tenemos que entrar en una especie de “modo de voz”, ver lo que decimos, lo que la televisión está transmitiendo y, por supuesto, lo que este nuevo altavoz en el pecho de cajones dice. a nosotros.

sin embargo A pesar de las imperfecciones tecnológicas y las preocupaciones sobre la privacidad, con el aumento de la popularidad de dispositivos como Amazon Echo, las personas comienzan a acostumbrarse a la idea de interactuar con las computadoras usando su voz..

Como Werner Vogels, CTO de Amazon, observado durante sus AWS Re: Invent sesión a finales de 2017, la tecnología se ha limitado hasta ahora nuestra capacidad de interactuar con los ordenadores. Nos introducir palabras clave en Google utilizando el teclado, ya que esto sigue siendo la más común y la forma más fácil de introducir información en el equipo.

dijo Vogels. -

cuatro grandes

Al usar el motor de búsqueda de Google en el teléfono, probablemente notamos una señal de micrófono con una llamada para hablar hace mucho tiempo. Este Google ahora (2), que se puede usar para dictar una consulta de búsqueda, ingresar un mensaje por voz, etc. En los últimos años, Google, Apple y Amazon han mejorado mucho tecnología de reconocimiento de voz. Los asistentes de voz como Alexa, Siri y Google Assistant no solo graban tu voz, sino que también entienden lo que les dices y responden preguntas.

Google Now está disponible de forma gratuita para todos los usuarios de Android. La aplicación puede, por ejemplo, configurar una alarma, consultar el pronóstico del tiempo y consultar la ruta en Google Maps. Extensión conversacional de los estados de Google Now Asistente de Google () – asistencia virtual al usuario del equipo. Está disponible principalmente en dispositivos móviles y domésticos inteligentes. A diferencia de Google Now, puede participar en un intercambio bidireccional. El asistente debutó en mayo de 2016 como parte de la aplicación de mensajería de Google Allo, así como en el altavoz de voz de Google Home (3).

3. Google Inicio

El sistema IOS también tiene su propio asistente virtual, Siri, que es un programa incluido con los sistemas operativos de Apple iOS, watchOS, tvOS homepod y macOS. Siri debutó con iOS 5 y el iPhone 4s en octubre de 2011 en la conferencia Let's Talk iPhone.

El software se basa en una interfaz conversacional: reconoce el habla natural del usuario (con iOS 11 también es posible ingresar comandos manualmente), responde preguntas y completa tareas. Gracias a la introducción del aprendizaje automático, un asistente a lo largo del tiempo analiza las preferencias personales el usuario para proporcionar resultados y recomendaciones más relevantes. Siri requiere una conexión constante a Internet: las principales fuentes de información aquí son Bing y Wolfram Alpha. iOS 10 introdujo soporte para extensiones de terceros.

Otro de los cuatro grandes Kortana. Es un asistente personal inteligente creado por Microsoft. Es compatible con las plataformas Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android e iOS. Cortana se presentó por primera vez en la Conferencia de desarrolladores de Microsoft Build en abril de 2014 en San Francisco. El nombre del programa proviene del nombre de un personaje de la serie de juegos Halo. Cortana está disponible en inglés, italiano, español, francés, alemán, chino y japonés.

Usuarios del programa ya mencionado Alexa también deben considerar las restricciones de idioma: el asistente digital solo habla inglés, alemán, francés y japonés.

Amazon Virtual Assistant se utilizó por primera vez en los altavoces inteligentes Amazon Echo y Amazon Echo Dot desarrollados por Amazon Lab126. Permite la interacción de voz, reproducción de música, de tareas de creación de listas, ajuste de alarma, podcast de streaming, audiolibro de reproducción, y el clima en tiempo real, tráfico, deportes, noticias y otra información, como noticias (4). Alexa puede controlar múltiples dispositivos inteligentes para crear un sistema de automatización del hogar. También se puede usar para hacer compras convenientes en la tienda de Amazon.

4. Para qué usan los usuarios Echo (según la investigación)

Los usuarios pueden mejorar la experiencia de Alexa instalando "habilidades" de Alexa (), características adicionales desarrolladas por terceros, más comúnmente conocidas como aplicaciones como programas meteorológicos y de audio en otras configuraciones. La mayoría de los dispositivos Alexa le permiten activar su asistente virtual con una contraseña de activación, llamada .

Amazon definitivamente domina el mercado de parlantes inteligentes en la actualidad (5). IBM, que presentó un nuevo servicio en marzo de 2018, está tratando de ingresar a los cuatro primeros asistente de Watson, Diseñado para las empresas que desean crear sus propios sistemas de asistentes virtuales con control por voz. ¿Cuál es la ventaja de la solución de IBM? De acuerdo con representantes de la empresa, en primer lugar, sobre las oportunidades de mayores tanto para la personalización y la protección de la privacidad.

Primero, Watson Assistant no tiene marca. Las empresas pueden crear sus propias soluciones en esta plataforma y etiquetarlas con su propia marca.

En segundo lugar, pueden entrenar sus sistemas de asistencia utilizando sus propios conjuntos de datos, lo que según IBM hace que sea más fácil agregar funciones y comandos a ese sistema que otras tecnologías VUI (interfaz de usuario de voz).

En tercer lugar, Watson Assistant no proporciona a IBM información sobre la actividad del usuario: los desarrolladores de soluciones en la plataforma solo pueden guardar datos valiosos para ellos. Mientras tanto, cualquiera que construya dispositivos, por ejemplo con Alexa, debe saber que sus valiosos datos terminarán en Amazon.

Watson Assistant ya tiene varias implementaciones. El sistema fue utilizado, por ejemplo, por Harman, que creó un asistente de voz para el prototipo Maserati (6). En el aeropuerto de Munich, un asistente de IBM alimenta un robot Pepper para ayudar a los pasajeros a moverse. El tercer ejemplo es Chameleon Technologies, donde la tecnología de voz se utiliza en un medidor doméstico inteligente.

6. Watson Assistant en un prototipo de Maserati

Vale la pena agregar que la tecnología subyacente aquí tampoco es nueva. Watson Assistant incluye capacidades de cifrado para productos IBM existentes, Watson Conversation y Watson Virtual Agent, así como API para análisis de lenguaje y chat.

Amazon no solo es líder en tecnología de voz inteligente, sino que la está convirtiendo en un negocio directo. Sin embargo, algunas empresas han experimentado con la integración de Echo mucho antes. Sisense, una empresa en la industria de análisis y BI, presentó la integración de Echo en julio de 2016. A su vez, la startup Roxy decidió crear su propio software y hardware controlado por voz para la industria hotelera. A principios de este año, Synqq presentó una aplicación para tomar notas que utiliza procesamiento de voz y lenguaje natural para agregar notas y entradas de calendario sin tener que escribirlas en un teclado.

Todas estas pequeñas empresas tienen grandes ambiciones. Sin embargo, aprendieron sobre todo que no todos los usuarios quieren transferir sus datos a Amazon, Google, Apple o Microsoft, que son los jugadores más importantes en la construcción de plataformas de comunicación de voz.

Los estadounidenses quieren comprar

En 2016, la búsqueda por voz representó el 20% de todas las búsquedas móviles de Google. Las personas que usan esta tecnología a diario citan su conveniencia y multitarea entre sus mayores beneficios. (por ejemplo, la capacidad de usar un motor de búsqueda mientras conduce un automóvil).

Los analistas de Visiongain estiman que el valor de mercado actual de los asistentes digitales inteligentes es de $ 1,138 mil millones.Cada vez hay más mecanismos de este tipo. Según Gartner, a finales de 2018 ya 30% de nuestras interacciones con la tecnología será a través de conversaciones con sistemas de voz.

La firma de investigación británica IHS Markit estima que el mercado de asistentes digitales impulsados por IA alcanzará los 4 mil millones de dispositivos para fines de este año, y ese número podría aumentar a 2020 mil millones para 7.

Según informes de eMarketer y VoiceLabs, 2017 millones de estadounidenses usaron el control por voz al menos una vez al mes en 35,6. Esto supone un incremento de casi un 130% respecto al año anterior. Se espera que solo el mercado de asistentes digitales crezca un 2018% en 23. Esto significa que ya los estarás usando. 60,5 millones de estadounidenses, lo que redundará en dinero concreto para sus productores. RBC Capital Markets estima que la interfaz de Alexa generará hasta $ 2020 mil millones en ingresos para Amazon para 10.

¡Lavar, hornear, limpiar!

Las interfaces de voz están entrando cada vez más audazmente en los mercados de electrodomésticos y electrónica de consumo. Esto ya se pudo ver durante la exhibición IFA 2017 del año pasado. La empresa estadounidense Neato Robotics presentó, por ejemplo, una aspiradora robot que se conecta a una de varias plataformas de hogares inteligentes, incluido el sistema Amazon Echo. Al hablar con el altavoz inteligente Echo, puede indicarle a la máquina que limpie toda su casa en momentos específicos del día o de la noche.

En la feria se exhibieron otros productos activados por voz, desde televisores inteligentes vendidos bajo la marca Toshiba por la empresa turca Vestel hasta mantas térmicas de la empresa alemana Beurer. Muchos de estos dispositivos electrónicos también se pueden activar de forma remota utilizando teléfonos inteligentes.

Sin embargo, según los representantes de Bosch, es demasiado pronto para decir cuál de las opciones de asistente doméstico será dominante. En IFA 2017, un grupo técnico alemán mostró lavadoras (7), hornos y cafeteras que se conectan a Echo. Bosch también quiere que sus dispositivos sean compatibles con las plataformas de voz de Google y Apple en el futuro.

7. Lavadora Bosch que se conecta a Amazon Echo

Empresas como Fujitsu, Sony y Panasonic están desarrollando sus propias soluciones de asistente de voz basadas en IA. Sharp está agregando esta tecnología a los hornos y pequeños robots que ingresan al mercado. Nippon Telegraph & Telephone está contratando fabricantes de hardware y juguetes para adaptar un sistema de inteligencia artificial controlado por voz.

Viejo concepto. ¿Ha llegado finalmente su hora?

De hecho, el concepto de interfaz de usuario de voz (VUI) existe desde hace décadas. Cualquiera que haya visto Star Trek o 2001: Una odisea del espacio hace años probablemente esperaba que alrededor del año 2000 todos controláramos las computadoras con nuestras voces. Además, no solo los escritores de ciencia ficción vieron el potencial de este tipo de interfaz. En 1986, los investigadores de Nielsen preguntaron a los profesionales de TI cuál pensaban que sería el mayor cambio en las interfaces de usuario para el año 2000. Con mayor frecuencia señalaron el desarrollo de interfaces de voz.

Hay razones para esperar tal solución. La comunicación verbal es, después de todo, la forma más natural para las personas a intercambiar pensamientos conscientemente, por lo que usarlo para la interacción hombre-máquina parece ser la mejor solución hasta el momento.

Una de las primeras VUI, llamada caja de zapatos, fue creado a principios de los años 60 por IBM. Fue el precursor de los sistemas de reconocimiento de voz actuales. Sin embargo, el desarrollo de dispositivos VUI estuvo limitado por los límites de la potencia informática. Analizar e interpretar el habla humana en tiempo real requiere mucho esfuerzo, y se necesitaron más de cincuenta años para llegar al punto en que realmente se hizo posible.

Los dispositivos con interfaz de voz comenzaron a aparecer en la producción en masa a mediados de los 90, pero no ganaron popularidad. El primer teléfono con control de voz (marcación) fue chispa philipslanzado en 1996. Sin embargo, este dispositivo innovador y fácil de usar no estuvo exento de limitaciones tecnológicas.

Otros teléfonos equipados con las formas de interfaz de voz (creados por empresas como RIM, Samsung o Motorola) golpean regularmente el mercado, lo que permite a los usuarios marcar mensajes de texto por voz o enviar. Todos ellos, sin embargo, requiere memorizar comandos específicos y pronunciando los mismos de manera forzada, artificial, adaptado a las capacidades de los dispositivos de la época. Esto generaba una gran cantidad de errores que, a su vez, provocaban la insatisfacción de los usuarios.

Sin embargo, ahora estamos entrando en una nueva era de la informática, en la que los avances en el aprendizaje automático y la inteligencia artificial están desbloqueando el potencial de la conversación como una nueva forma de interactuar con la tecnología (8). La cantidad de dispositivos que admiten la interacción de voz se ha convertido en un factor importante que ha tenido un gran impacto en el desarrollo de VUI. Hoy, casi 1/3 de la población mundial ya posee teléfonos inteligentes que pueden usarse para este tipo de comportamiento. Parece que la mayoría de los usuarios finalmente están listos para adaptar sus interfaces de voz.

8. La historia moderna del desarrollo de la interfaz de voz.

Sin embargo, antes de que podamos hablar libremente con una computadora, como lo hicieron los personajes de A Space Odyssey, debemos superar una serie de problemas. Las máquinas todavía no son muy buenas para manejar los matices lingüísticos. Además mucha gente todavía se siente incómoda dando comandos de voz a un motor de búsqueda.

Las estadísticas muestran que los asistentes de voz se usan principalmente en casa o entre amigos cercanos. Ninguno de los entrevistados admitió haber utilizado la búsqueda por voz en lugares públicos. Sin embargo, es probable que este bloqueo desaparezca con la difusión de esta tecnología.

pregunta tecnicamente dificil

El problema al que se enfrentan los sistemas (ASR) es extraer datos útiles de una señal de voz y asociarlos con una determinada palabra que tiene un determinado significado para una persona. Los sonidos producidos son diferentes cada vez.

Variabilidad de la señal del habla es su propiedad natural, gracias a la cual, por ejemplo, reconocemos un acento o una entonación. Cada elemento del sistema de reconocimiento de voz tiene una tarea específica. Sobre la base de la señal procesada y sus parámetros, se crea un modelo acústico, que se asocia con el modelo de lenguaje. El sistema de reconocimiento puede funcionar en base a un pequeño o gran número de patrones, lo que determina el tamaño del vocabulario con el que trabaja. Pueden ser pequeños diccionarios en el caso de sistemas que reconozcan palabras individuales o comandos, así como grandes bases de datos que contenga el equivalente del conjunto lingüístico y tenga en cuenta el modelo lingüístico (gramática).

Problemas que enfrentan las interfaces de voz en primer lugar entender correctamente el habla, en los que, por ejemplo, se suelen omitir secuencias gramaticales enteras, se producen errores lingüísticos y fonéticos, errores, omisiones, defectos del habla, homónimos, repeticiones injustificadas, etc.. Todos estos sistemas ACP deben funcionar de forma rápida y fiable. Al menos esas son las expectativas.

La fuente de dificultades también son las señales acústicas distintas del habla reconocida que ingresan a la entrada del sistema de reconocimiento, es decir. todos los tipos interferencia y ruido. En el caso más simple, los necesitas filtrar. Esta tarea parece rutinaria y fácil; después de todo, se filtran varias señales y cada ingeniero electrónico sabe qué hacer en tal situación. Sin embargo, esto debe hacerse con mucho cuidado y cuidado si el resultado del reconocimiento de voz es cumplir con nuestras expectativas.

El filtrado utilizado actualmente permite eliminar, junto con la señal de voz, el ruido externo captado por el micrófono y las propiedades internas de la propia señal de voz, que dificultan su reconocimiento. Sin embargo, surge un problema técnico mucho más complejo cuando la interferencia a la señal de voz analizada es... otra señal de voz, es decir, por ejemplo, discusiones en voz alta. Esta pregunta es conocida en la literatura como la llamada . Esto ya requiere el uso de métodos complejos, los llamados. desconvolución (desenredando) la señal.

Los problemas con el reconocimiento de voz no terminan ahí. Vale la pena darse cuenta de que el habla lleva muchos tipos diferentes de información. La voz humana sugiere el género, la edad, los diferentes caracteres del dueño o el estado de su salud. Existe un extenso departamento de ingeniería biomédica que se ocupa del diagnóstico de diversas enfermedades en función de los fenómenos acústicos característicos que se encuentran en la señal del habla.

También hay aplicaciones en las que el propósito principal de analizar la señal de voz acústica es la identificación del hablante o la verificación de que es quien dice ser (la voz en lugar de una clave, código o código PUK). Esto puede ser importante, especialmente para las tecnologías de construcción inteligente.

El primer componente de un sistema de reconocimiento de voz es микрофон. Sin embargo, la señal captada por el micrófono suele ser de poca utilidad. Los estudios muestran que la forma y el curso de la onda de sonido varían mucho según la persona, la velocidad del habla y, en parte, el estado de ánimo del interlocutor, mientras que, en pequeña medida, reflejan el contenido mismo de los comandos hablados.

Por lo tanto, la señal debe procesarse correctamente. Juntos, la acústica, la fonética y la informática modernas proporcionan un amplio conjunto de herramientas que se pueden utilizar para procesar, analizar, reconocer y comprender una señal de voz. El espectro dinámico de la señal, el llamado espectrogramas dinámicos. Son bastante fáciles de obtener y el habla presentada en forma de espectrograma dinámico es relativamente fácil de reconocer usando técnicas similares a las que se usan en el reconocimiento de imágenes.

Los elementos simples del habla (por ejemplo, los comandos) pueden reconocerse por la simple similitud de espectrogramas completos. Por ejemplo, un diccionario de teléfono móvil activado por voz contiene solo unas pocas decenas a unos pocos cientos de palabras y frases, generalmente preapiladas para que puedan identificarse de manera fácil y eficiente. Esto es suficiente para tareas de control simples, pero limita severamente la aplicación general. Los sistemas construidos de acuerdo con el esquema, por regla general, admiten solo altavoces específicos para los cuales las voces están especialmente entrenadas. Entonces, si hay alguien nuevo que quiere usar su voz para controlar el sistema, lo más probable es que no sea aceptado.

El resultado de esta operación se llama espectrograma de 2 W, es decir, un espectro bidimensional. Hay otra actividad en este bloque a la que vale la pena prestar atención: segmentación. En términos generales, estamos hablando de dividir una señal de voz continua en partes que se pueden reconocer por separado. Sólo a partir de estos diagnósticos individuales se hace el reconocimiento del todo. Este procedimiento es necesario porque no es posible identificar un discurso largo y complejo de una sola vez. Ya se han escrito volúmenes enteros sobre qué segmentos distinguir en una señal de voz, por lo que no decidiremos ahora si los segmentos distinguidos deben ser fonemas (equivalentes de sonido), sílabas o tal vez alófonos.

El proceso de reconocimiento automático siempre se refiere a algunas características de los objetos. Se han probado cientos de conjuntos de diferentes parámetros para la señal de voz. dividido en marcos reconocidos y teniendo características seleccionadasmediante el cual estos cuadros se presentan en el proceso de reconocimiento, podemos realizar (para cada cuadro por separado) clasificación, es decir. asignando un identificador al marco, que lo representará en el futuro.

Siguiente etapa ensamblaje de marcos en palabras separadas - más a menudo basado en el llamado. modelo de modelos implícitos de Markov (HMM-). Luego viene el montaje de palabras. oraciones completas.

Ahora podemos volver al sistema Alexa por un momento. Su ejemplo muestra un proceso de múltiples etapas de "comprensión" de una persona por parte de una máquina, más precisamente: una orden dada por él o una pregunta formulada.

Comprender las palabras, comprender el significado y comprender la intención del usuario son cosas completamente diferentes.

Por lo tanto, el siguiente paso es el trabajo del módulo NLP (), cuya tarea es reconocimiento de la intención del usuario, es decir. el significado del comando/pregunta en el contexto en el que fue pronunciado. Si se identifica la intención, entonces asignación de las llamadas habilidades y capacidades, es decir, la característica específica admitida por el asistente inteligente. En el caso de una pregunta sobre el clima, se llama a las fuentes de datos meteorológicos, que quedan por procesar en voz (TTS - mecanismo). Como resultado, el usuario escucha la respuesta a la pregunta formulada.

¿Voz? ¿Artes graficas? O tal vez ambas cosas?

La mayoría de los sistemas de interacción modernos conocidos se basan en un intermediario llamado interfaz gráfica del usuario (interfaz gráfica). Desafortunadamente, la GUI no es la forma más obvia de interactuar con un producto digital. Esto requiere que los usuarios primero aprendan a usar la interfaz y recuerden esta información con cada interacción posterior. En muchas situaciones, la voz es mucho más conveniente, porque puede interactuar con la VUI simplemente hablándole al dispositivo. Una interfaz que no obliga a los usuarios a memorizar y memorizar ciertos comandos o métodos de interacción causa menos problemas.

Por supuesto, la expansión de VUI no significa abandonar las interfaces más tradicionales, sino que estarán disponibles interfaces híbridas que combinan varias formas de interactuar.

La interfaz de voz no es adecuada para todas las tareas en un contexto móvil. Con él, llamaremos a un amigo que conduce un automóvil e incluso le enviaremos un SMS, pero verificar las últimas transferencias puede ser demasiado difícil, debido a la cantidad de información transmitida al sistema () y generada por el sistema (sistema). Como sugiere Rachel Hinman en su libro Mobile Frontier, el uso de VUI se vuelve más efectivo cuando se realizan tareas en las que la cantidad de información de entrada y salida es pequeña.

Un teléfono inteligente conectado a Internet es conveniente pero también inconveniente (9). Cada vez que un usuario quiere comprar algo o usar un nuevo servicio, debe descargar otra aplicación y crear una nueva cuenta. Aquí se ha creado un campo para el uso y desarrollo de interfaces de voz. En lugar de obligar a los usuarios a instalar muchas aplicaciones diferentes o crear cuentas separadas para cada servicio, los expertos dicen que VUI trasladará la carga de estas tareas engorrosas a un asistente de voz impulsado por IA. Le será conveniente realizar actividades extenuantes. Sólo le daremos órdenes.

9. Interfaz de voz a través de un teléfono inteligente

Hoy en día, más que un teléfono y un ordenador conectado a Internet. termostatos inteligentes, luces, hervidores de agua y muchos otros dispositivos integrados-IO también están conectados a la red (10). Por lo tanto, hay dispositivos inalámbricos a nuestro alrededor que llenan nuestras vidas, pero no todos ellos encajan de forma natural en la interfaz gráfica de usuario. Usando VUI le ayudará fácilmente a integrarse en nuestro entorno.

10. Interfaz de voz con Internet de las cosas

La creación de una interfaz de usuario de voz pronto se convertirá en una habilidad clave del diseñador. Este es un problema real: la necesidad de implementar sistemas de voz lo alentará a centrarse más en el diseño proactivo, es decir, tratar de comprender las intenciones iniciales del usuario, anticipándose a sus necesidades y expectativas en cada etapa de la conversación.

La voz es una forma eficiente de ingresar datos: permite a los usuarios emitir rápidamente comandos al sistema en sus propios términos. Por otro lado, la pantalla proporciona una forma eficiente de mostrar información: permite que los sistemas muestren una gran cantidad de información al mismo tiempo, reduciendo la carga de memoria de los usuarios. Es lógico que combinarlos en un solo sistema suene alentador.

Los parlantes inteligentes como Amazon Echo y Google Home no ofrecen una pantalla visual en absoluto. Mejorando significativamente la precisión del reconocimiento de voz a distancias moderadas, permiten la operación de manos libres, lo que a su vez aumenta su flexibilidad y eficiencia; son deseables incluso para usuarios que ya tienen teléfonos inteligentes con control de voz. Sin embargo, la falta de una pantalla es una gran limitación.

Solo se pueden usar pitidos para informar a los usuarios de posibles comandos, y leer la salida en voz alta se vuelve tedioso, excepto para las tareas más básicas. Configurar un temporizador con un comando de voz mientras cocina es excelente, pero no es necesario que pregunte cuánto tiempo queda. Obtener un pronóstico del tiempo regular se convierte en una prueba de memoria para el usuario, que tiene que escuchar y absorber una serie de datos durante toda la semana, en lugar de recogerlos de la pantalla de un vistazo.

Los diseñadores ya han solución híbrida, Echo Show (11), que agregó una pantalla de visualización al altavoz inteligente Echo básico. Esto amplía enormemente la funcionalidad del equipo. Sin embargo, el Echo Show aún es mucho menos capaz de realizar las funciones básicas que han estado disponibles durante mucho tiempo en los teléfonos inteligentes y las tabletas. No puede (todavía) navegar por la web, mostrar reseñas o mostrar el contenido de un carrito de compras de Amazon, por ejemplo.

Una pantalla de visualización es de por sí una forma más eficaz de proporcionar a las personas con una gran cantidad de información que el sonido solo. Diseñar con prioridad de la voz puede mejorar en gran medida la interacción de voz, pero en el largo plazo, no arbitrariamente usando el menú visual para el bien de la interacción será como luchar con una mano atada a la espalda. Debido a la complejidad de las interfaces que se avecina de extremo a extremo de voz inteligente y de visualización, los desarrolladores deben considerar seriamente un enfoque híbrido a las interfaces.

El aumento de la eficiencia y la velocidad de los sistemas de generación y reconocimiento de voz ha hecho posible su uso en aplicaciones y áreas como, por ejemplo:

• militar (comandos de voz en aviones o helicópteros, por ejemplo, F16 VISTA),

• transcripción automática de texto (voz a texto),

• sistemas de información interactivos (Prime Speech, portales de voz),

• dispositivos móviles (teléfonos, teléfonos inteligentes, tabletas),

• robótica (Cleverbot - sistemas ASR combinados con inteligencia artificial),

• automotriz (control de manos libres de los componentes del automóvil, como Blue & Me),

• aplicaciones en el hogar (sistemas inteligentes de origen).

¡Cuidado con la seguridad!

Automoción, electrodomésticos, calefacción/refrigeración y sistemas de seguridad para el hogar, y una gran cantidad de electrodomésticos están comenzando a utilizar interfaces de voz, a menudo basadas en IA. En esta etapa, los datos obtenidos de millones de conversaciones con máquinas se envían a nubes de computación. Está claro que los vendedores están interesados en ellos. Y no solo ellos.

Un informe reciente de los expertos en seguridad de Symantec recomienda que los usuarios de comandos de voz no controlen las funciones de seguridad, como las cerraduras de las puertas, y mucho menos los sistemas de seguridad del hogar. Lo mismo ocurre con el almacenamiento de contraseñas o información confidencial. La seguridad de la inteligencia artificial y los productos inteligentes aún no ha sido suficientemente estudiada.

Cuando los dispositivos en toda la casa escuchan cada palabra, el riesgo de piratería y uso indebido del sistema se convierte en una gran preocupación. Si un atacante obtiene acceso a la red local o a sus direcciones de correo electrónico asociadas, la configuración del dispositivo inteligente se puede cambiar o restablecer a la configuración de fábrica, lo que provocará la pérdida de información valiosa y la eliminación del historial del usuario.

En otras palabras, los profesionales de seguridad temen que la voz impulsada por la IA y VUI aún no son lo suficientemente inteligentes como para protegernos de las amenazas potenciales y mantener la boca cerrada cuando un extraño le pide algo.