¿Por qué no servirá de nada que te tapes la cara si vas a cometer un delito?
Hoy en día podemos encontrar cámaras de vigilancia en multitud de lugares públicos: aeropuertos, estaciones, edificios de oficinas... Cámaras que captan imágenes que luego son susceptibles de ser utilizadas para identificar a alguien que, por ejemplo, haya cometido un delito o que esté siendo investigado por las autoridades a través de técnicas de reconocimiento facial.
El reconocimiento facial no nos es ajeno. Camina entre la delgada línea que separa la privacidad de factores como la seguridad o, incluso, la comodidad (si aplicamos estas técnicas a sistemas como el autoetiquetado de imágenes) o la medición de la satisfacción de los usuarios (como es el caso de la startup Emotient recientemente adquirida por Apple).
Pero, ¿qué ocurre si alguien lleva una máscara o un pasamontañas? A priori, parece complicada la identificación de una persona que cubre su rostro y, por tanto, esconde sus rasgos faciales distintivos a las cámaras y los sistemas de procesamiento de imágenes (más allá de mostrar los ojos y la distancia entre estos). Sin embargo, nuestra cara no es lo único que nos puede identificar.
Si pensamos en qué cosas pueden identificar a una persona, seguramente nos vengan muchas cosas a la cabeza: el rostro, nuestro ADN (nuestra principal firma biológica), nuestras huellas dactilares, nuestra forma de andar y, por supuesto, nuestra voz.
La voz y nuestra forma de hablar
Que la voz puede identificar a una persona es algo que todos, más o menos, tenemos claro y, de hecho, es algo que asumimos cuando contestamos al teléfono y reconocemos (sin tener que mirar el identificador de llamada entrante) quién es la persona que está al otro lado de la línea telefónica.
Según un estudio presentado por la Universidad de Montreal en el 18º congreso internacional de ciencias fonéticas celebrado en Glasgow, el ser humano es capaz de reconocer a una persona el 99,9% de las veces con oír apenas 2 palabras (en el caso del estudio: "merci beaucoup", muchas gracias en francés).
En el caso de los humanos, hay un conjunto de neuronas que se activan en el cerebro en el momento en el que oímos sonidos vocales. Esa zona cerebral es capaz de procesar la información lingüística y también las características físicas y emocionales del hablante; por tanto, es capaz de reconocer nuestra ”cara auditiva”.
Cada persona tiene unas características acústicas únicas, igual que huellas dactilares. Estas características vienen determinadas por nuestras cuerdas vocales, nuestra laringe y las cavidades oral y nasal; es decir, el sistema por el que pasan las ondas acústicas y sufren distintas variaciones al ir resonando. Nuestra voz es una onda formada por señales a distintas frecuencias, concretamente, las mujeres presentan un patrón de frecuencias entre 165 y 225 Hz y los hombres entre 85 y 180 Hz; las frecuencias que marcan la voz de cada individuo vienen determinadas por sus características físicas, por tanto, nuestra voz lleva anexa información relativa a nuestra edad, género, altura o peso.
Pero aún hay más información que va pareja a nuestra voz y nuestra manera de hablar, por ejemplo, nuestro origen o, incluso, nuestro estado de ánimo.
Aquí es donde entran en juego los fonemas, es decir, las unidades mínimas que representan los sonidos de una lengua. Cada persona tiene una manera característica de generar los fonemas que forman una palabra que estamos articulando con nuestra voz; es decir, cada persona pronuncia las palabras de una manera distinta, por un lado, debido a sus características fisiológicas (generación de sonido) y, por otro lado, por sus circunstancias y contexto (acento regional, imitación de su entorno cercano, etc.), por su estado anímico (estrés, tristeza, alegría) o, incluso, por su nivel cultural (dicción, palabras que utiliza, estructuración de las frases...). Incluso las pausas o silencios que introducimos en nuestra conversación también pueden llegar a ser un patrón característico de una persona.
De manera natural, el ser humano procesa toda esta información en su cerebro cuando escucha la voz de otra persona. Sin darnos cuenta, catalogamos a la persona que estamos escuchando para ver de dónde procede (acento), su nivel cultural (habla o no habla correctamente) o, incluso, para hacernos una idea de su estado anímico (por la voz de alguien que conocemos somos capaces de percibir si le sucede algo fuera de lo normal).
Reconocimiento de voz y reconocimiento del hablante
Llegados a este punto y sabiendo que nuestra voz dice mucho de nosotros, es importante que distingamos dos conceptos que, a veces, se suelen tratar como una única cosa: reconocimiento de voz (speech recognition) y reconocimiento del hablante (speaker recognition).
De manera genérica, solemos asumir bajo el paraguas de reconocimiento de voz tanto la capacidad de un sistema en "transcribir lo que decimos" como la capacidad de identificar a la persona que lo dice. Dicho de otra forma, que un sistema sea capaz de interpretar lo que estamos hablando (como hace Siri o Cortana o los sistemas de control por voz que se implementan en los automóviles) no es lo mismo que identificar quién o quiénes lo están diciendo.
La biometría que hay en nuestra voz es el gran reto al que se enfrentan investigadores, empresas de seguridad y servicios de inteligencia de todo el mundo.
Puede parecer ciencia-ficción o un recurso sacado de películas de espías como Juego de Patriotas pero es mucho más real de lo que, quizás, nos podamos llegar a imaginar puesto que es algo que se está utilizando, por ejemplo, para identificar a los miembros de Estado Islámico que protagonizan los vídeos de propaganda de la organización (a pesar de salir con la cara tapada).
Identificando voces
La identificación a través de la voz no es algo nuevo ni vinculado únicamente a la tecnología, es una disciplina que se conoce como lingüística forense y que se apoya, evidentemente, en la comparación de patrones de voz.
¿Y qué ocurre cuando alguien intenta alterar su voz o usa un distorsionador? ¿Es posible ocultar ciertos rasgos característicos? Precisamente, ésta fue la pregunta que se plantearon en el Laboratorio de Fonética del CSIC en el proyecto CIVIL (Cualidad Individual de Voz e Identificación de Locutor), un programa de investigación que tenía como objetivo averiguar qué características personales de nuestra voz no se pueden disimular ni tampoco distorsionar y, por tanto, son determinantes para identificar a una persona.
Como comentábamos al inicio, nuestra voz está formada por distintos tonos y frecuencias que son característicos de cada persona. Por tanto, un análisis de frecuencias es una buena vía de localizar la "biometría de nuestra voz"; sin embargo, el análisis de frecuencia puede llevar anexa información errónea debida al ruido ambiente o la presencia de otras voces.
Si nuestro cerebro es capaz de aislar estos agentes externos de ruido y procesar sonidos para transformarlos en palabras, quizás haya que tomar nuestro cerebro como referencia a la hora de realizar un análisis de la voz para identificar al hablante. Aquí es donde entran en juego los sistemas basados en redes neuronales y el machine learning.
Redes neuronales y machine learning
Los sistemas de inteligencia artificial basados en redes neuronales no son algo nuevo, llevan años usándose en sistemas de reconocimiento de imágenes o, incluso, en los sistemas de dictado de nuestros dispositivos móviles. En el fondo, son modelos que nos permiten desarrollar algoritmos que permiten que un sistema sea capaz de aprender en base a una información o conocimiento previo.
Dicho de otra forma, de la misma manera que una persona aprende en base a su propia experiencia (y se producen conexiones entre nuestras neuronas cerebrales), una máquina podría aprender y "saber qué hacer" en base a información previa (o histórica) suministrada como si fuesen ejemplos (generándose también conexiones en la "red neuronal artificial")...LEER NOTICIA COMPLETA