¿Pueden las máquinas ver mejor que nosotros si la imagen es falsa?

ANASTACIO ALEGRIA
8 Lectura mínima

La respuesta corta es sí, y mucho mejor. Una respuesta larga requeriría profundizar en lo que consideramos “ver”, que va más allá de un mero acto mecánico y es un proceso cognitivo complejo que claramente atribuimos a los seres humanos.

Sin embargo, es cierto que nuestra visión, comparada con la de otros seres vivos, es bastante normal o pobre. Aunque podemos percibir el color en un grado aceptable, tenemos una agudeza visual bastante mediocre a largas distancias, con una capacidad muy limitada para distinguir detalles.

Hay innumerables ejemplos de otras especies que han desarrollado órganos visuales (y generalmente perceptivos) mucho mejor que los nuestros. Por lo tanto, hemos desarrollado estrategias tecnológicas que nos permiten superar nuestras limitadas capacidades biológicas de “fábrica”.

Máquinas “tontas” que ven mejor que nosotros

Resulta que las máquinas que creamos para extender nuestra visión más allá de nuestras fronteras “ven” mucho mejor que nosotros. Y ello a pesar de que insistimos en que las consideramos máquinas todavía “estúpidas”, porque carecen de esa capacidad humana de “ver”, es decir, de “comprender”.

Tenemos ejemplos muy recientes de cómo avanzó la tecnología de la imagen en lo que el filósofo alemán Martin Heidegger llamó la “era de la imagen del mundo”, en su ensayo del mismo título La era de la imagen del mundo.

Lamentablemente, esta visión ampliada que nos permite ver todos los rincones del planeta como nunca antes también sirve, por ejemplo, para la vigilancia militar, el seguimiento por satélite y los ataques a “objetivos enemigos”. Un ejemplo son los recientes acontecimientos bélicos en Irán, con el uso de drones FPV (First Person View).

Es fácil engañarnos

Al mismo tiempo, la inteligencia artificial generativa avanza, creando imágenes realistas y sofisticadas que son difíciles de distinguir de la realidad. Podemos ponernos a prueba con pruebas como la creada por Microsoft para determinar nuestra capacidad de “ver” qué personas realmente coinciden con personas reales y cuáles son generadas por IA. O podemos probar un experimento diseñado para servir como capacitación en detección de falsificaciones profundas para futuros estudiantes de radiología.

La evidencia empírica confirma que la capacidad humana para distinguir qué imágenes son falsas es aproximadamente del 62%. Pero la tasa de éxito es mucho menor cuando se trata de manipulaciones sofisticadas: la capacidad de detección de los deepfakes (imágenes creadas con herramientas de inteligencia artificial, que además son muy baratas y disponibles) está por debajo del 25%. Se estima que en 2025 las organizaciones criminales internacionales “romperán” más de 10 mil millones de dólares con este tipo de fraude.

Pero no sólo es posible generar imágenes con IA de forma mucho más rápida y eficiente que nosotros (aunque no necesariamente “mejores”): los propios algoritmos de IA también son expertos en detectar imágenes que han sido manipuladas o generadas directamente por la IA o a mano.

Imagen manipulada (izquierda) / Detección de manipulación de copia y movimiento (derecha) utilizando CNN+ViT, conjunto de datos CASIA 2.0. Proyecto SCIMFAKE: Filiberto Pla Banjon y Francisco López Cantos. Falsificaciones en la ciencia.

En el ámbito de las publicaciones científicas se han multiplicado los escándalos de investigadores que falsifican sus resultados mediante la manipulación de imágenes. Aunque se han descubierto en plataformas peer-to-peer como PubPeer y RetractionWatch, este abuso es muy común. Cada vez es más fácil falsificar imágenes con software convencional, que es difícil de detectar. En este sentido, las nuevas herramientas de IA no hacen más que magnificar el problema y acelerar su propagación.

En nuestro proyecto de investigación, nos centramos en la detección de manipulaciones del tipo “copiar-mover” – “copiar y mover”, una técnica de falsificación de imágenes digitales en la que una parte de la imagen se copia y pega en otra área de la misma imagen. El objetivo principal es la aplicación de nuestras soluciones en el campo de la investigación.

Para hacer esto, desarrollamos una arquitectura de red neuronal convolucional (CNN) combinada con el uso de redes basadas en transformadores visuales (ViT). Hemos probado y optimizado su eficacia en sucesivas mejoras en bases de datos de referencia, como CASIA y COMOFOD, que son utilizadas por grupos de investigación de todo el mundo para probar técnicas de detección de última generación.

Lo que nuestro sistema de IA “ve” es el resultado de un proceso de aprendizaje automatizado en el que, tras dividir el conjunto de datos -los conjuntos de datos de entrenamiento- en tres subconjuntos de imágenes (entrenamiento, validación y prueba), se obtienen mayores tasas de éxito. Es un proceso de aprendizaje iterativo que permite mejorar las métricas. Finalmente, se entrena la red neuronal para que, cuando se le proporcione una nueva imagen, ya haya aprendido lo suficiente como para detectar si contiene elementos que han sido clonados.

Cuando llega una nueva imagen, primero se preprocesa para optimizarla y ajustarla, y luego pasa a los procesos más críticos: reconocimiento e identificación de patrones.

Para el reconocimiento de patrones, se requiere un proceso de segmentación de la imagen, que implica dividirla en sus partes componentes. Esto se puede hacer utilizando una técnica de umbral clásica más simple (separar objetos según su brillo) o detección de bordes. Posteriormente, en la fase de descripción, se extraen datos cuantitativos y características de dichos objetos, como superficie, perímetro o textura, como paso previo para su posterior interpretación automatizada.

Finalmente, el sistema asigna una etiqueta al objeto mediante un proceso de clasificación o reconocimiento automático -es decir, si se trata de un vehículo, un caballo, un televisor, etc.- en base a conocimientos previos. De esta forma, el sistema compara las descripciones extraídas de la imagen con una base de datos de patrones conocidos utilizados en el proceso de aprendizaje automático y les asigna la etiqueta adecuada.

Los datos preliminares de nuestros experimentos en el proyecto SCIMFAKE nos permiten detectar falsificaciones con una precisión de alrededor del 95%, muy por encima de lo que se puede lograr a simple vista. Estos resultados son consistentes con los de otros trabajos de última generación, particularmente los desarrollados por grupos de investigación asiáticos.

Así que, en definitiva, y respondiendo a la pregunta inicial, las máquinas “ven” mejor que nosotros. Mucho mejor. Me gustaría que fuera para mejor, pero lamentablemente también es para peor. Por ello, nos guste o no, la investigación y aplicación de las técnicas de visión artificial más vanguardistas son imprescindibles hoy en día.


Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Comparte este artículo
Deja un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESSpanish

Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo