Biometría: Reconocimiento Facial

Los humanos a menudo utilizan los rostros para reconocer individuos y los avances en las capacidades de computación en las últimas décadas, ahora permiten reconocimientos similares en forma automática.

Los algoritmos de reconocimiento facial anteriores usaban modelos geométricos simples, pero el proceso de reconocimiento actualmente ha madurado en una Ciencia de Sofisticadas representaciones matemáticas y procesos de coincidencia.

Importantes avances e iniciativas en los pasados diez a quince años han propulsado a la tecnología de reconocimiento facial al centro de la atención.

La industria de reconocimiento facial basado en computadoras ha hecho muchos adelantos útiles en la pasada década; sin embargo la necesidad de sistemas de mayor precisión persiste.
A través de la determinación y compromiso de la industria, las evaluaciones del gobierno, y cuerpos estándar organizados, el crecimiento y el progreso continuaran, elevando la barra para la tecnología de reconocimiento facial.

Historia

El reconocimiento facial automatizado es relativamente un concepto nuevo. Desarrollado en los años 60, el primer sistema semiautomático para reconocimiento facial requería del administrador para localizar rasgos (como ojos, orejas, nariz y boca) en las fotografías antes de que este calculara distancias a puntos de referencia en común, los cuales eran comparados luego con datos de referencia.
En los años 70 Goldstein, Harmon, & Lesk [1], usaron 21 marcadores subjetivos específicos tales como el color del cabello y grosor de labios para automatizar el reconocimiento facial. El problema con estas soluciones previas era que se computaban manualmente. En 1988 Kirby & Sirobich aplicaron análisis de componentes principales, una técnica estándar del álgebra lineal, al problema del reconocimiento facial. Esto fue considerado algo así como un hito al mostrar que eran requeridos menos de 100 valores para cifrar acertadamente la imagen de una cara convenientemente alineada y normalizada [2].
En 1991 Turk & Pentland utilizando las técnicas Eigenfaces, el error residual podía ser utilizado para detectar caras en las imágenes [3] - un descubrimiento que permitió sistemas automatizados de reconocimiento facial en tiempo real fidedignos. Si bien la aproximación era un tanto forzada por factores ambientales, creó sin embargo un interés significativo en posteriores desarrollos de éstos sistemas.
La tecnología inicialmente capturó la atención del público a partir de la reacción de los medios a una prueba de implementación en el Super Bowl de la NFL en enero de 2001, la cual capturó imágenes de vigilancia y las comparó con una base de datos de fotoarchivos digitales. Esta demostración inició un muy requerido análisis sobre cómo usar la tecnología para satisfacer necesidades nacionales, mientras se tomaban en consideración las preocupaciones sociales y de privacidad del público. Hoy la tecnología de reconocimiento facial está siendo utilizada para combatir el fraude de pasaportes, soporte al orden público, identificación de niños extraviados y minimizar el fraude en las identificaciones.

Enfoques predominantes

Hay dos enfoques predominantes en el problema de reconocimiento facial:
El geométrico (basado en rasgos) y el fotométrico (basado en lo visual). Conforme a que el interés investigador en reconocimiento facial continuó, fueron desarrollados muchos algoritmos diferentes, tres de los cuales han sido bien estudiados en la literatura del reconocimiento facial:

Analisis de componentes principales (Principal Components Analysis, PCA),
Análisis lineal discriminante (Linear Discriminant Analysis, LDA), y
Correspondencia entre agrupaciones de grafos elásticos Elastic Bunch Graph Matching, EBGM).

Análisis de componentes principales (Principal Component Analysis, PCA)
PCA, comúnmente referida al uso de Eigenfaces, es la técnica impulsada por Kirby & Sirivich en 1988. Con PCA, el sondeo y la galería de imágenes deben ser del mismo tamaño y deben ser normalizadas previamente para alinear los ojos y bocas de los sujetos en las imágenes. La aproximación de PCA es luego utilizado para reducir la dimensión de los datos por medio de fundamentos de compresión de datos y revela la mas efectiva estructura de baja dimensión de los patrones faciales.
Esta reducción en las dimensiones quita información que no es útil [4] y descompone de manera precisa la estructura facial en componentes ortogonales (no correlativos) conocidos como Eigenfaces. Cada imagen facial puede ser representada como una suma ponderada (vector de rasgo) de los eigenfaces, las cuales son almacenadas en un conjunto 1D.
Una imagen de sondeo es comparada con una gallería de imágenes midiendo la distancia entre sus respectivos vectores de rasgos. La aproximación PCA típicamente requiere la cara completa de frente para ser presentada cada vez; de otra forma la imagen dará un resultado de bajo rendimiento.
La ventaja primaria de esta técnica es que puede reducir los datos necesarios para identificar el individuo a 1/1000 de los datos presentados [5].

Análisis lineal discriminante (Linear Discriminant Analysis, LDA)
LDA es una aproximación estadística para clasificar muestras de clases desconocidas basadas en ejemplos de entrenamiento con clases conocidas [4]. (Figura 2) Esta técnica tiene la intención de maximizar la varianza entre clases (ej. Entre usuarios) y minimizar la varianza de cada clase (Ej. De cada usuario). En la figura 2 donde cada bloque representa una clase, hay grandes variaciones entre clases, pero pequeñas en cada clase. Cuando se trata con datos faciales de alta dimensión, esta técnica enfrenta el problema de muestras de tamaño pequeño que surge donde hay u numero pequeño de ejemplos de entrenamiento comparados a la dimensionalidad del espacio de muestra [7].

Correspondencia entre agrupaciones de grafos elásticos Elastic Bunch Graph Matching, EBGM)
EBGM tiene en cuenta que las imágenes faciales reales tienen muchas características no lineales que no son tratadas en los métodos lineales de análisis discutidos previamente, tales como variaciones en la iluminación (Iluminación de exteriores vs. Interior fluorescente), postura (frontal vs. inclinada) y expresión (sonrisa vs. ceño fruncido).
Una ondeleta de transformación Gabor crea una arquitectura de enlace dinámico que proyecta el rostro sobre la planilla elástica. El Jet Gabor es un nodo en la planilla elástica, manifestado por círculos en la imagen debajo. El cual describe el comportamiento de la imagen alrededor de un píxel.
Este es el resultado de una convulsión de la imagen con un filtro Gabor, el cual es usado para detectar formas y extraer características utilizando procesamiento de imagen.(Una convulsión expresa la suma de solapamientos de las funciones en la mezcla de funciones entre si) El reconocimiento esta basado en la similitud de la respuesta del filtro Gabor a cada nodo Gabor [4].
Este método biológicamente basado utilizando filtros Gabor es un proceso ejecutado en la corteza visual de los mamíferos más grandes. La dificultad con este método es el requerimiento de la precisa localización del punto de referencia el cual puede ser algunas veces logrado combinando los métodos PCA y LDA [4].

Evaluaciones del gobierno de los Estados Unidos

El gobierno de los Estados Unidos a realizado múltiples evaluaciones para determinar las capacidades y limitaciones del reconocimiento facial, y para encausar y dirigir el desarrollo futuro. La evaluación del FERET (FacE REcognition Technology, tecnología de reconocimiento facial), auspiciado desde 1993-1997 por la a Agencia de Búsqueda de Productos Avanzados para Defensa (DARPA, Defense Advanced Research Products Agency) [10], fue un esfuerzo para encausar el desarrollo de los algoritmos de reconocimiento facial y la tecnología valorando los prototipos de sistemas de reconocimiento facial. Esto propulsó el reconocimiento facial desde su infancia a un mercado de productos comerciales.
Las pruebas a vendedores de reconocimiento facial (The Face Recognition Vendor Tests, FRVT) se llevaron a cabo en 2000 y 2002, y estaba planeada otra para 2006. Estas evaluaciones fueron construidas sobre el trabajo del FERET y en coincidencia con el inicio general de productos de reconocimiento facial comercialmente disponibles. EL FRVT 2000 tuvo dos metas [11]:
Evaluar las capacidades de los sistemas de reconocimiento facial comercialmente disponiblesEducar la comunidad de biometría y el público general sobre como presentar y analizar resultados apropiadamente. FRVT 2002 [12] fue diseñado para medir progresos técnicos desde el año 2000, para evaluar el rendimiento en bases de datos a gran escala de la vida real, y para introducir nuevos experimentos para ayudar a entender mejor el rendimiento del reconocimiento facial. El FRVT 2002 incluyó experimentos con barras de error mostrando radiaciones en los rendimientos al intercambiar imágenes similares. Son resultados clave del FRVT 2002:
La iluminación de interiores razonable controlada dada, la tecnología de punta de reconocimiento facial es de verificación del 90% a una tasa de falsa aceptación de 1%.El uso de modelos moldeables, los cuales mapean una imagen 2D sobre una grilla 3D en un intento de superar radiaciones posturales y de iluminación, puede mejorar significantemente el reconocimiento facial no frontal. El rendimiento de la lista de vigilancia decrece como función del tamaño de una galería- el rendimiento utilizando listas de vigilancia mas pequeñas es mejor que utilizando las más grandes.
En aplicaciones de reconocimiento facial, las ubicaciones deben ser hechas para la información demográfica ya que características como la edad y sexo pueden afectar significativamente el rendimiento.La meta del Gran Desafío del Reconocimiento Facial (Face Recognition Grand Challenge, FRGC) - el próximo paso en el proceso gubernamental de evaluación y desarrollo- es promover y adelantar la tecnología de reconocimiento facial diseñada para dar soporte a los esfuerzos existentes de reconocimiento facial del Gobierno de los Estados Unidos [13].
El FRGC procurará desarrollar nuevas técnicas de reconocimiento facial y desarrollar sistemas prototipo mientras que aumenta el rendimiento mediante un orden de magnitud.
EL FRGC esta abierto a compañías investigadores y desarrolladoras, academias e instituciones de investigación de reconocimiento facial.
Pronto después de la finalización del FRGC, el gobierno realizará una evaluación en profundidad del reconocimiento facial - el FRVT 2006*.
* El documento original de donde se tradujo este texto data de agosto de 2006

Perspectiva de los estándares

La estandarización es una porción vital del avance del mercado y el estado del arte. Mucho trabajo se ha realizado en los estándares tanto nacionales (USA) como internacionales para facilitar la interoperabilidad y los formatos de intercambio de datos, lo que ayudará a facilitar el avance de la tecnología en una plataforma estandarizada. Las normas ANSI/INCITS (M1) 385-2004 e ISO 19794-5 de formato de intercambio de datos de reconocimiento facial son los mayores estándares en el área y están dirigidas al examen humano detallado de imágenes de rostros, verificación de identificación humana, e identificación y verificación facial automatizada. Estos estándares tienen en cuenta la interoperatibilidad entre los vendedores de reconocimiento facial.
Los estándares han establecido una imagen frontal definida y han irrumpido en sub-secciones dando tratamiento a imágenes frontales y no frontales (una imagen frontal es definida como una imagen a cinco grados del centro. Una imagen no frontal está definida por la ubicación de los ojos). Estos estándares dejan otras imágenes -tales como semiperfil- indefinidas, pero aseguran que las imágenes enroladas alcanzarán el estándar de calidad necesario tanto para reconocimiento automatizado de rostros como para inspección humana de imágenes de rostros. El trabajo está en proceso en los niveles nacionales e internacionales para actualizar los estándares de datos de rostro 3D. ANSI NIST ITL 1-2000 está siendo también actualizada para incluir más y mejor información para imágenes faciales del tipo 10. Hay también trabajo relacionado con el nivel internacional, para proveer de una guía a los fotógrafos sobre cómo capturar mejor las imágenes faciales para reconocimiento automatizado. Estos estándares también facilitan el uso de información de rostros en aplicaciones que tienen capacidad de almacenamiento limitada (Ej. Pasaportes, visas, licencias de conducir). Otros estándares como INCITS 398-2005 (Common Biometric Exchange Formats Framework, CBEFF), o Marco de trabajo de Formatos para Intercambios Comunes de Biometría, tratan específicamente con los elementos utilizados para describir los datos de biometría de forma común.
La especificación INTCITS 358-2002 BioAPI (Application Programming Interface) define la interfase de programación de la aplicación y la interfase del proveedor del servicio para una interfase de tecnología biométrica estándar.
Las organizaciones estándar nacionales e internacionales continúan trabajando en la progresión de los estándares en un sentido que facilite el crecimiento, el avance y la interoperabilidad.

Referencias

[1] A. J. Goldstein, L. D. Harmon, and A. B. Lesk, "Identification of Human Faces," Proc. IEEE, May 1971, Vol. 59, No. 5, 748-760.
[2] L. Sirovich and M. Kirby, "A Low-Dimensional Procedure for the Characterization of Human Faces," J. Optical Soc. Am. A, 1987, Vol. 4, No.3, 519-524.
[3] M. A. Turk and A. P. Pentland, "Face Recognition Using Eigenfaces," Proc. IEEE, 1991, 586-591.
[4] D. Bolme, R. Beveridge, M. Teixeira, and B. Draper, "The CSU Face Identification Evaluation System: Its Purpose, Features and Structure," International Conference on Vision Systems, Graz, Austria, April 1-3, 2003. (Springer-Verlag) 304-311.
[5] "Eigenface Recognition" http://et.wcu.edu/aidc/BioWebPages/eigenfaces.htm.
[6] MIT Media Laboratory Vision and Modeling Group, "Photobook/Eigenfaces Demo" 25 July 2002.
http://vismod.media.mit.edu/vismod/demos/facerec/basic.html.
[7] J. Lu, K.N. Plataniotis, and A.N. Venetsanopoulos, "Regularized Discriminant Analysis For the Small Sample Size Problem in Face
Recognition," Pattern Recognition Letters, December 2003, Vol. 24, Issue 16: 3079-3087.
[8] Juwei Lu, "Boosting Linear Discriminant Analysis for Facial Recognition," 2002.
[9] Laurenz Wiskott, "Face Recognition by Elastic Bunch Graph Matching, " 24 April 1996.
http://www.neuroinformatik.ruhr-unibochum.de/ini/VDM/research/computerVision/graphMatching/identification/faceRecognition/contents.html.

[11] D. M. Blackburn, J. M. Bone, and P. J. Phillips, "Facial Recognition Vendor Test 2000 Evaluation Report," February 2001
http://www.frvt.org.
[12] P. J. Phillips, P. Grother, R. J. Micheals, D. M. Blackburn, E. Tabassi, and J. M. Bone, "Face Recognition Vendor Test 2002 Overview and Summary," March 2003. http://www.frvt.org.
[13] P. J. Phillips, P. J. Flynn, T. Scruggs, K. W. Bowyer, J. Chang, K. Hoffman, J. Marques, J. Min, and W. Worek, "Overview of the Face Recognition Grand Challenge," Proc. Computer Vision and Pattern Recognition Conference, San Diego, 2005.
[14] "Information technology - Biometric data interchange formats - Part 5: Face image data." Documents ISO/IEC 19794-5:2005, 2004 http://www.iso.org.
[15] "Information Technology - Face Recognition Format for Data Interchange," document 385-2004 ANSI INCITS, 2004 http://www.incits.org.

FuentePuede encontrar el original en inglés de este documento (PDF) y otros desarrollados por el Subcomité de Biometría del NSTC en www.biometrics.gov.
© Agosto 2006 - Consejo Nacional de Ciencia y Tecnología (NSTC)
Comité de Tecnología
Comité de Seguridad Nacional de los Estados Unidos
Subcomité de Biometría

Autor: Pedro Janices, Consultor en tecnología, seguridad y biometría. @pjanices