La ilusión de los detectores de inteligencia artificial: por qué no son ni útiles ni justos

ANASTACIO ALEGRIA
8 Lectura mínima

HAKINMANH/Shutterstock

El estudiante está haciendo un trabajo brillante. Pero resultó estar demasiado bien escrito, demasiado estructurado, demasiado “perfecto”. Inmediatamente surge una sospecha: tal vez lo haya hecho la inteligencia artificial. El primer impulso es utilizar un detector de texto generado por inteligencia artificial. Lo aplicamos al papel y esta herramienta nos dice que es 87% texto generado por máquina. Luego damos libertad al sesgo de automatización que nos obliga a tomar decisiones automatizadas sin sentido crítico. Caso cerrado. Sentencia impuesta.

¿O no? El caso no está cerrado. Este juicio informático no sólo es poco fiable; Es, sobre todo, injusto.

Los detectores de inteligencia artificial parecen una solución lógica, pero tienen dos problemas fundamentales. El primero es técnico: no funcionan bien. El segundo problema es más relevante: incluso si funcionaran perfectamente, no resolverían el problema real.

¿Te gustaría recibir artículos como este? Suscríbete a Teacher Conversation y recibe los últimos análisis y tendencias del sector educativo, seleccionados por nuestra Editora de Educación Eva Catalan.

Una solución técnicamente frágil

A diferencia del plagio tradicional, en el que el texto se compara con fuentes existentes, no existe un original con el que compararlo. Se intenta distinguir entre texto estadísticamente humano y texto generado estadísticamente por una máquina para parecer humano. Una línea divisoria difícil de trazar y cada vez más difusa.

Además, hay motivos para pensar que este límite desaparecerá. Cuanto mejores sean los modelos generativos, más indistinguible será su producción de la de un ser humano. Descubrir el uso de la inteligencia artificial será como intentar distinguir entre dos textos igualmente creíbles, una tarea que, llevada al extremo, equivale a lanzar una moneda al aire. Pura casualidad.

El precio de los errores

Podemos aceptar que los detectores se equivoquen en algunos casos. Pero en educación esos casos específicos son muy importantes. Como todos los clasificadores, los detectores de texto de IA cometerán dos tipos de errores: falsos positivos y falsos negativos.

Un falso positivo, es decir, acusar de fraude a un estudiante que ha hecho el trabajo, tiene graves consecuencias: ansiedad, impotencia y, en muchos casos, una acusación imposible de refutar.

Por otro lado, un falso negativo, que no detecta a quienes utilizaron IA, tiene un efecto más difuso pero igualmente dañino de premiar a quienes no cumplieron con su compromiso académico: erosiona la confianza en el propio sistema educativo y los estudiantes ven que el esfuerzo no vale la pena y la motivación se deteriora.

Leer más: Cómo ahorrar esfuerzo en la era de la inteligencia artificial

Los sistemas se pueden ajustar para minimizar los falsos negativos o los falsos positivos, pero no ambos al mismo tiempo. (Por ejemplo: o ajustamos el sistema que detecta el cáncer de mama mediante rayos X para que no pase por alto ningún caso posible, a costa de un sobrediagnóstico, o dejamos que los casos se pasen por alto).

Por tanto, utilizar estos sistemas siempre implicará aceptar uno de dos tipos de injusticia. Si minimizamos los falsos negativos, apostaremos por una evaluación basada en el control: nuestra prioridad es no “colar” ninguno, aunque algunos de los detectados no sean textos escritos por IA.

Por el contrario, si nos preocupamos más por no caer en falsos positivos, abogaremos por una evaluación que priorice el aprendizaje y que minimice la penalización por error del alumno que se esforzó en redactar su trabajo.

Un problema mal planteado

Sin embargo, incluso si resolviéramos los problemas técnicos y éticos (por ejemplo, optar por introducir algún texto artificial para no penalizar injustamente), todavía nos faltaría lo esencial.

Muchas tareas académicas tienen sentido porque implican un esfuerzo cognitivo: escribir un ensayo, preparar un informe o resolver un ejercicio requieren tiempo y trabajo. Y ese esfuerzo es exactamente lo que genera aprendizaje.

Leer más: Esta clase vale la pena: cómo combatir el ausentismo escolar

La IA no sólo puede provocar calificaciones injustas: ha cortado la conexión entre estas tareas y el esfuerzo cognitivo que implicaban. Esto cambia completamente el significado de la evaluación. Cuando se utilizan herramientas de IA, es posible que no se produzca el aprendizaje.

Una apariencia de descubrimiento

Los detectores ofrecen algo muy tentador: una sensación de control. Nos permiten pensar que el problema es limitado, que basta con identificar a quienes infringen las reglas del fraude. Pero ese sentimiento es engañoso.

Como dice el chiste, buscamos las llaves debajo de una farola, no porque las hayamos perdido allí, sino porque allí hay luz. Es decir, intentamos detectar el aprendizaje donde sabemos mirar, sin preocuparnos si eso implica necesariamente que esté ocurriendo.

La dependencia de los productos finales (texto, informe, solución) como prueba del aprendizaje ya ha sido discutible: ¿realmente sirven para garantizar que el alumno conoce un tema? Ahora, directamente, resulta insuficiente. Por lo tanto, los esfuerzos por mejorar la detección son, en el mejor de los casos, irrelevantes. Y en el peor de los casos, una distracción.

Leer más: Pequeños cambios para recuperar el pensamiento profundo en la universidad

Cuando la solución empeora el problema

El uso sistemático de detectores desplaza la actitud educativa hacia la sospecha. En lugar de promover la corresponsabilidad de los estudiantes en su aprendizaje, introduce una lógica de vigilancia en la que el estudiante se convierte en el potencial infractor, ignorando la presunción de inocencia, y el profesor, en el perro guardián.

Esto no sólo tiene implicaciones éticas. También afecta el aprendizaje. La confianza, la autonomía y la responsabilidad son difíciles de desarrollar en un entorno donde evitar las acusaciones es una prioridad. Así, paradójicamente, al intentar proteger la integridad académica, podemos estar socavando las condiciones que la hacen posible.

Cambia tu dirección

En lugar de preguntar “¿Cómo puedo detectar si un estudiante usó IA?”, podríamos preguntar “¿Cómo diseño una evaluación en la que usar IA sin aprendizaje sea inútil?”

Esto implica, por ejemplo, diseñar tareas donde el valor no esté sólo en el resultado final, sino también en el proceso que sigue. O sugiera actividades que requieran interacción, contexto o toma de decisiones que no se puedan delegar fácilmente.

No es una solución sencilla ni inmediata. Pero, a diferencia de la detección, apunta al meollo del problema: un replanteamiento de los métodos de evaluación. Y esto, aunque desagradable, puede ser una oportunidad.

La conversación

Marc Alier Forment recibe financiación para la investigación en proyectos competitivos financiados por entidades públicas.

Pharaon Llorens Largo no recibe remuneración, no consulta, posee acciones ni recibe financiación de ninguna empresa u organización que pueda beneficiarse de este artículo, y ha declarado que no tiene afiliaciones relevantes distintas al puesto académico mencionado anteriormente.


Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Comparte este artículo
Deja un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESSpanish

Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo