El reconocimiento de voz de Windows Vista SÍ que tiene fallos de seguridad


Me resulta bastante triste confirmarlo, pero el sistema de reconocimiento de voz de Windows Vista tienen varios agujeros de seguridad, alguno de ellos bastante serio.


La siguiente lista resume las cosas que he podido realizar y no deberían haber funcionado:



  • Abrir una consola de comandos y teclear dentro de ella.

  • Borrar todos los documentos del usuario activo.

  • Vaciar la papelera de reciclaje independientemente del número de ventanas abiertas.

  • Borrar correos situados en carpetas estándar de windows mail, como la bandeja de entrada, y luego vaciar la carpeta de elementos eliminados.

  • Ejecutar comandos potencialmente destructivos sin tocar el teclado o el ratón.

  • Redireccionar el navegador web a una dirección que pudiera contener un posible exploit o fallo de seguridad.

  • Pulsar un botón inserto en una página web que, por ejemplo, copiara el código de un script malicioso al portapapeles, primer paso para aprovechar alguno de los otros fallos.

  • Éste no lo he probado, pero creo que se podría ejecutar una consola de comandos con permisos de administrador en aquellos equipos en los que se entrase sin clave de acceso (lo que es habitual en miles de hogares).

  • Este tampoco lo he probado, pero mostrando la rejilla del ratón se puede pulsar en cualquier lado independientemente de la resoución del ordenador.

La solución a todo esto pasa por obligar a que cualquier comando realizado en el navegador, en la consola de comandos, o en el escritorio requiera mantener pulsada una tecla mientras se habla o aceptar el comando mediante la pulsación de una, como en el UAC.

33 comentarios sobre “El reconocimiento de voz de Windows Vista SÍ que tiene fallos de seguridad”

  1. Rafael,

    y porq esto es un problema de seguridad? si la idea del reconocimiento de voz, es permitir realizar tareas que tal vez no puedas hacer con el teclado o con el mouse ?
    no es lo mismo decir, q el mouse tiene problemas de seguridad ??
    ( es pura ironia 😛 )

    Saludos

  2. Pues mis recuerdos de la tecnología del reconocimiento de habla (soy uno de los pringaos que dieron la charla al respecto en el CodeCamp). Conclusiones que he sacado yo solito, en base a la experiencia que tuve (teniendo en cuenta que la charla la hicimos en inglés):

    – El que un cacharro te reconozca la voz si no lo tienes entrenado no es trivial. Concretamente, en cuanto al dictado, los resultados eran un poco caóticos. Cosa que se vio en la charla.

    – Cuando utilizas vista y una aplicación requiere privilegios de administrador, UAC te abre un diálogo para preguntarte si se los quieres conceder (vamos, siempre y cuando tu usuario sea, en efecto, un administrador). Esto por defecto tiene lugar en lo que creo recordar que se llamaba «secure desktop». Es decir, una sesión diferente en la que NO está abierto speech recognition, y por lo tanto no se puede interactuar con él por voz. Se puede deshabilitar a través de políticas de seguridad. De hecho, un usuario que tenga impedimentos reales y sólo pudiera interactuar por la voz con el ordenador, lo NECESITARÍA desactivar. Pero por defecto está activado. Y es una buena medida de seguridad.

    En cualquier caso, y aunque en efecto por defecto speech recognition está desactivado, igual alguna medida como las que propones sería interesante. Quiero decir, si es que no eres una persona con impedimentos reales. Porque para nosotros el reconocimiento de habla es algo accesorio, pero para alguien sin manos, no.

    De todos modos, dudo MUCHO que alguien intente difundir un gusano que se extienda a través de speech recognition.

  3. Espinete, el reconocimiento viene desactivado por defecto, y una vez activado puede estar en tres estados: activo y escuchando, activo y esperando el comando «abrir el micrófono» y desactivado. Sólo el último es seguro.

    Bruno: alguien desde fuera podría decir «Activar el micrófono», encadenar una serie de comandos que terminarían borrando TODOS tus documentos. Podría ser un mensaje de correo con la voz embebida, o una página web. Tu picas http://www.googre.com porque te has equivocado, esa web (que es mailiciosa), contiene una serie de comandos de voz que te redireccionara a otra página que contuviera la explotación de un fallo de seguridad del navegador.

    La solución es muy sencilla: como otros soft de reconocimiento de voz, ante un comando crítico hay que mantener una tecla pulsada.

    Tio Luiso: No necesitas para nada el UAC para borrar tus documentos, ni para abrir una consola de comandos y picar comandos potencialmente peligrosos, incluido un runas con elevación de privilegios si tu clave de ADM está vacía… y de ahí al infinito. Y respecto a que nadie va a utilizar el reconocimiento de voz para hacer desastres, tiempo al tiempo.

  4. Correcto. Hay cosas peligrosas / dañinas que se pueden lograr sin privilegios administrativos. Como borrar tus archivos.

    Sin embargo, hay cosas que no se pueden conseguir sin privilegios administrativos. Como crear una cuenta de usuario, instalar o desinstalar una aplicación, o instalar un driver.

    Si intentas hacer cualquier tarea que requiera privilegios administrativos, UAC saltará. Y speech recognition no puede interactuar (por defecto) con secure desktop.

    A esto me refería.

    En cuanto a lo de los gusanos… Haría una apuesta contigo, pero creo que mejor esperamos sentados a ver lo que ocurre. En fin, que lo intenten.

  5. Lo cierto es que el sistema de reconocimiento es toda una gozada, y que funciona a las mil maravillas. Si vocalizas bien lo reconoce casi todo (aunque suele fallar bastante con el tema de los acentos), de hecho estoy ansiando (esa es la palabra justa) recibir mi Ultimate en inglés para ponerla en el ordenador principal.

    Respecto a los potenciales problemas de seguridad, pues tu vas a esperar sentado, yo lo haré de pie -por si acaso me toca salir corriendo, uno nunca sabe-. 😛 Intentarlo seguro que lo van a intentar.

  6. jejeje … yo tambien esperaré de pie aunq tengo mis serias dudas 😀

    y con respecto a las acciones que se pueden ejecutar con el SpeechR … sigo pensando lo mismo, ¿es necesario un control adicional contra este tipo de ataques (tecla presionada)? o simplemente educar al usuario …

    t pongo un ejemplo, en una oficina anterior donde trabajaba; no era muy aconsejable despegarse del ordenador por un cafe y no dejar bloqueado el mismo. Si te olvidabas una sesion abierta, alguno con una velocidad mental poco recomendable, te cambiaba el nick del msn por alguna burrada (por ej: me gustan los tios) y luego te cerraba la sesion. Imaginate lo q sucedia cuando luego volvias e iniciabas sesion 😛

    Yo no creo q ese fuese una vulnerabilidad del teclado o del mouse, que te permitia realizar una tarea maliciosa (cambiar un nick, te juro q toca mas los coj@..n..s q me borren algun archivo); sino simplemente una cuestion de educacion del usuario.

    El SpeechR es una herramienta muy poderosa (una vez adiestrado reconoce casi todo !!!; thanks Tio Luiso por los materiales :D); y como todas las herramientas tenemos que comprender el alcance y las capacidades que contiene las mismas.

    Saludos

  7. De todas formas, supongo que el SpeechR lo entrenarás y se acomodará a tu voz y a tu forma de hablar… Por lo que también supongo que será más complicado que otra persona hable y lo entienda así por las buenas cuanto más entrenado lo tengas, no?

  8. Augusto, pero continúa aceptando un habla completamente neutra. Si otro coge el sistema y habla con un castellano perfecto el programa lo entenderá perfectamente. Evidentemente, si quieres abrir el Windows Mail deberás pronunciar «Abrir Windows Mail», si tu lo habitúas a que al decir «Abrir Windons Mai» te lo abra, alguien que pronuncie correctamente podrá abrirlo también, no sé si me explico.

  9. Vayamos por partes (dijo el forense):

    1.- En mi empresa, existe la costumbre de que si te separas de tu ordenador sin haberlo bloqueado, en menos de un minuto el resto de la empresa recibe correos en tu nombre del estilo de «Me gusta petarme gallinas». Es divertido (menos si eres una gallina).

    2.- No hay por qué darlas Bruno. Pero sigo esperando la caña. ¿Estarás este jueves?

    3.- Lo de la educación del sistema de reconocimento de habla es mayormente verdad. Sin embargo, la educación de la voz no es sólamente para que reconozca tu timbre de voz, e inflexiones en la pronunciación. También es para las condiciones acústicas de tu instalación, el tipo de micrófono, posición y distancia del mismo. Es decir, una cosa es que mi micrófono (uno de mesa monodireccional típico) coja bien mi voz cuando pronuncio algo en frente de él y a una distancia dada. Otra cosa bien diferente es el que lo reconozca cuando la procedencia (aunque sea de la misma voz, y con la misma entonación) sea los altavoces (que, por ejemplo, en mi equipo de sobremesa están por detrás del micrófono).

    Basándome en esto, entiendo que las condiciones cambian de un equipo a otro. Es decir. Si nos restringimos a equipos portátiles (por poner un ejemplo de algo más acotado), no hay dos en los que la posición de los altavoces y el micrófono sean los mismos. Pero es más, la configuración del mezclador también influye en la potencia de salida del sonido, y en la recepción del micrófono.

    Aparte de que el conjunto de comandos es dependiente del idioma. Por estos motivos entiendo que, aunque sería posible realizar una prueba de concepto que funcionase en un ordenador determinado, esta prueba seguramente no funcionaría en otro, por las diferentes condiciones acústicas. Y aunque fueran las mismas condiciones, si está en un idioma diferente haría falta un conjunto diferente de comandos.

    Y aunque comandos del estilo de «cierra la ventana» o «borra todos los archivos» admito que quizá y en las condiciones anteriormente citadas se podrían ejecutar, si hay que recurrir al dictado («ejecutar cmd. Format c:»), simplemente no creo que pueda llevarse a cabo ningún ataque genérico a gran escala.

    Luego, si tiene éxito, como es lógico, me tendré que comer mis palabras.

    Me apostaría una caña contigo a que en un tiempo, pongamos que de aquí a un año, nadie es capaz de crear un gusano que re reproduzca por voz.

    ¿Aceptas el reto?

  10. Yo no veo la necesidad ni el miedo… el teclado es mas peligroso, ejecuta mas comandos, y el ratón algunos. ademas cada pulsación de A, siempre produce A… pero, a que no se puede ejecutar tu teclado desde internet? a que si alguien te cuela un simulador de teclado, te ha jodido bien? pues es el mismo caso para este dispositivo… tiene que tener exactamente las mismas restricciones que los demas.

    Imaginate que la persona que necesita utilizar SpeechR de verdad (un señor sin manos, ni brazos, ni piernas, postrado en una silla) necesita darle a una tecla con un dedo mientras habla. Una putada, verdad??

  11. La verdad, es que cuando no queréis entender, es que realmente no queréis entender. ¿qué puñetas es eso de un «simulador de teclado». ¿desde cuándo se ha podido colar un hook global de teclado a través del navegador sin la intervención del usuario? Sin embargo, con el reconocimiento de voz, es muy posible que la misma página web, mediante un comando de voz, sea capaz de pulsar un botón en el lado cliente que lo instale.

    Miguel, parece ser que no te has enterado de que existe una cosa quese llama configurar un programa, y para un Sr. Que no tenga ni manos, ni brazos, ni piernas, y este postrado en una silla, mediante una opción de configuración, podría no tener la necesidad de mantener apretada una tecla.

    Tio Luiso, no es tan fácil como decir » borra todo los archivos», es un poco más complicado, pero se puede hacer. Y sigo manteniendo que con una dicción adecuada, es posible hacerlo siempre, estén donde estén los archivos, y tenga el ordenador la configuración que tenga. ¿tendré que poner una nueva entrada explicando paso a paso como se hace? Dime que sí, y la pongo.

  12. Recojo el guante. Vamos a intentar construir una prueba de concepto.

    Crea un archivo de audio que al reproducirse en tu ordenador haga algo menos destructivo pero suficientemente demostrativo, como por ejemplo: Abrir el internet explorer y navegar a una dirección arbitraria. Por ejemplo, hacia la página de tu blg de geeks («http://geeks.ms/blogs/rfog/default.aspx»).

    Lo que yo sostengo es que si ese mismo archivo lo ejecuto en mi ordenador de sobremesa (Windows Vista), no ejecutará nada, ya que mi micrófono no capta el sonido de mis altavoces (que están por detrás). Y que en portátiles, que la posición del micrófono y de los altavoces es más homogenea, funcionará sólamente en algunos. Y que de hecho variando ligeramente la configuración de alguno de los parámetros del mezclador, dejará de funcionar.

    Lo que me apuesto: Si tienes razón, te invito a una caña. Si la tengo yo, me invitas a una.

    Lo que realmente espero sacar de esto: De una forma o de otra, aprenderemos algo.

    P.S.: De verdad, cuando me preparé la charla, a veces nos costaba horrores que nos hiciera caso. Y eso controlando TODOS los parámetros, como la distancia al micrófono, los parámetros del mezclador… Mis jefes y mis compañeros de curro saben las horas que estuve intentando hacer que ejecutara algo.

  13. Grrrrrrrrrrr y re-grrrrrrrrrrrrrrrrrr. Pues vas a tener tu razón. No hay cojones a que interprete bien lo mismo que acaba de interpretar bien. Me explico: con un ordenador estoy grabando exactamente lo mismo que le estoy diciendo al otro (es decir, tengo un micrófono al lado del otro). Entonces reproduzco lo que he grabado y no lo entiende. Bueno, en realidad lo entiende casi todo, pero unas veces no interpreta bien unas cosas, y otras veces interpreta mal otras.

    Faltaría probar una grabación realizada en un estudio con control de ganancia automático, un buen micrófono, y alguien que hable mejor que yo.

    Vamos, a fin de cuentas, te debo una cerveza.

    He conseguido abrir el micrófono, abrir el navegador (evidentemente, unas veces con complementos y otras sin ellos), ir a la barra de dirección, pero en el deletreo se pierde miserablemente y no he conseguido que entienda el deletreo. También he intentado borrar la carpeta de documentos, pero cuando deletreo me interpreta mal. Sin embargo, si hablo a través del micro, el el deletreo lo entiendo perfectamente, pero el deletreo grabado no lo entiende.

    De todos modos, como ya dijo Galileo, pero se mueve … Y si no, tiempo al tiempo.

  14. No entiendo, este reconocimiento de voz no funciona en el Messenger ni en Power Point ¿o si?
    ¿ como se activa directo en el Messenger y en Power Piont?

  15. No entiendo, este reconocimiento de voz no funciona en el Messenger ni en Power Point ¿o si?
    ¿ como se activa directo en el Messenger y en Power Piont?

  16. Siempre he pensado que los humanos somos como borreguitos…
    Es decir…solo basta que un reducido grupo de personas saquen la pamplina de «Microsoft» es una mierda…para que todos los borregos sigan a los pastores.
    1.- Yo uso el reconocimiento de voz….casi a la perfeccion,si que es cierto que muy pocas veces comete fallos…pero es que un sistema perfecto no existe…de todas maneras el reconocimiento de voz te deja corregir esos fallos de una manera bastante sencilla.
    2.- No puedes hacer que un sistema de reconocimiento,sea compatible con el 100% de los programas inventados…porque no en todos los programas se tienen los mismos comandos.
    3.- El reconocimiento de voz,esta para ayudarte a manejar el ordenador de una manera mas sencilla y comoda,no para que tu te sientes y programes un juego con tan solo hablar…el MSN lo controla perfectamente…pero es cierto que no se puede escribir con el reconocimiento de voz….y pregunto yo….si teniendo un microfono,internet y messenger….¿No es mejor que uses el microfono para hablar…..y no para escribir?….que hay que ser rebuscado.
    Para el que le interese….a mi el reconocimiento de voz me va impresionantemente bien…y en vez de criticar el esfuerzo de tanta gente en crear programas que nos hacen mas faciles la vida…demosle un gran aplauso por ayudarnos un poquito mas

  17. no funciona del todo no reconoce algunas palabras y si no hablas se escribe sola.

    microsoft deveria hacer algo bien y luego sacarlo al mercado.

  18. ME FUNCIONA DE MARAVILLA, ES MUY AGRADABLE CUANDO LLEGAS A CASA CANSADO DE TECLEAR TODO EL DÍA EN EL TRABAJO, Y LE DICES: MENU INICIO, WINDOWS MAIL Y OBEDECE RAPIDÍSIMO.
    LO ENCUENTRO EXCELENTE.

  19. la verdad el reconocimiento de voz me funciona muy bien hay momentos donde se raya un poco cerrandome de todo pero ya sera cuestion de practicar con el solamente pues cada dia comete menos errores como lei por ahi arriba un aplaiso a quienes hacen mas facil la vida a los demas es un exelente trabajo

  20. Me parece insólito porque en realidad el reconocimiento de voz debería permitir realizar todo tipo de actividades.
    En mi caso inicie el internet explorer sin ayuda del mouse, escribir en la barra de direcciones la página de google dirigirme a la barra de búsqueda escribir reconocimiento de voz y llegar hasta esta página sólo utilizan el reconocimiento de voz.

    En mi opinión es una gran innovación, y avance tecnológico, espero con ansias implementen este sistema en todos los equipos electrónicos que sea posible (electrodomésticos, automóvil, etc.).

    Incluso este mensaje le escribí utilizando reconocimiento de voz.
    Y realice toda la acciones sólo utilizando el reconocimiento de voz y para completar con el reproductor de windows media en pleno funcionamiento y con volumen considerado.
    Creo que pedir más de estos sería irónico, pero no pierdo las esperanzas de que mejoren aún más este sistema.

  21. Vean, me parece que exageran.

    1-) El reconocimiento de voz solo funciona si el micrófono esta puesto.
    2-) Sirve casi a la perfeccion cuando está configurado. Y si está configurado y «entrenado» muy dificilmente va a reconocer otra voz que no sea la tuya.
    3-) Si escribe palabras solas, es porque el micrófono está muy sensible.
    4-) Solo cuando se ha configurado el reconocimiento de voz se inicia al arranque de la computadora, y a uno se le da la opción de que no sea así. Y siempre que esté activado hay un ícono en la barra ….
    5-) Quién se tomaría la molestia de hacer una grabación para indicarle a la compu que hacer?. Ni siquiera serviría si el equipo no tiene parlantes, y aún si los tuviera y que el micrófono esté activado es demasiado dificil que el equipo reconozca la voz.
    6-) Si hay gente a la que se le «borran» archivos o cosas así con comandos de voz, es porque son unas vacas en el manejo del mismo. Además existe un comando llamado «desactivar el microfono» por aquello de que uno vaya a hacer algo más. Y si uno se va de la compu. Le da clic derecho al icono en la barra de tareas y luego salir.

    Dios me molesta la ineptitud, ignorancia, y estupideces que dicen algunas personas -.-«

  22. he leido todo respecto al reconocimiento de voz y la verdad yo tambien lo quiero desinstalar pero no se como.Todavía no habeis contestado a otras personas que también quieren hacerlo,supongo
    que podiais ser un poco más amables,si lo estamos preguntando es por que realmente no entendemos como hacerlo por si solos,pues yo soy novata en todo esto de ordenadores y no me da verguenza decirlo ni admitirlo, solamente lo puse por curiosidad y ahora se me acopla,
    En verdad necesito ayuda,muchas gracias.
    Yo tengo el VISTA HOME PREMIUM

  23. A ver una cosa: un blog no es un sitio para responder dudas ni otras zarandajas. Si queréis respuestas, debéis ir a un foro, ya sea web o de noticias.

    El reconocimiento de voz que yo sepa no se puede desinstalar, lo más que puedes hacer es desactivarlo en las opciones del propio programa.

    No creo que sea tan difícil.

  24. Hola, este mensaje lo escribo con el reconocimiento de voz, la verdad hasta ahora no me ha presentado problemas, pero si quisiera nuevas actualizaciones, la verdad lo siento incompleto, en verdad hay que configurar un poco, pero luego de haberlo configurado funciona a un poco bien.

    Aunque no lo crean hasta el código de escribí con el reconocimiento de voz.

  25. para todos aquellos que quieren deshabilitar el reconocimiento de voz de win (Home Premium) estos son los pasos:

    1.-panel de control
    2.-opciones de reconocimiento de voz
    3.-opciones de voz avanzadas (se encuentra en el menu de la columna de la izq.)
    4.-aparece una ventana y desactivamos la casilla «ejecutar reconocimiento de voz al inicio «.
    5.- aceptar y listo!

  26. Pues yo lo he usado con mas de 3 microfonos, y cuando tienes un microfono de buena marca, funciona de maravilla, es cierto que tiene muchas cosas que arreglar, pero por ejemplo no tengo de que quejarme, ni me conecto a internet a las horas del dia, ni gente entra a mi habitación, jeje con ello hago mas cosas, mientras programo en una computador, en otro le dicto mis apuntes del colegio.

    Por ejemplo hace dias lleve mi notebook al colegio, y le saque conversacion a en profesor de sociales, mientras se configuraba su voz en la portatil, asi que cuando vi que ya todo estaba perfecto me retire, cuando llego la hora de clases busque una distancia para que se escuchara la voz clara, el profe dicto, mi notebook capturo y a todos nos fue bien.

    Solo hay que explotar toda la tecnologia en nuestras manos.

  27. Te ame por poner como desactivarlo!!!!!!!!!!!! lo tuve por dias y estaba super fustrada por no encontrar la forma de desactivarlooooo!!!!

    Gracias 😀

Responder a rfog Cancelar respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *