¿Está la IA empobreciendo el lenguaje periodístico (y social)?

ANASTACIO ALEGRIA
7 Lectura mínima

¿Qué sucede con el lenguaje público cuando una parte cada vez mayor de los textos que circulan en la prensa, Internet y las redes pasan a ser escritos por máquinas? Esta cuestión no afecta sólo al periodismo como actividad profesional. También puede afectar la riqueza del lenguaje que utilizamos para comprender, describir y discutir la realidad.

Históricamente, la prensa ha sido uno de los espacios donde se amplía y enriquece el lenguaje público. Por supuesto, no es el único motor de los cambios lingüísticos, pero es uno de los ámbitos en los que las sociedades hacen circular palabras, frases y formas de denominar los hechos que aparecen. Diversos trabajos sobre lenguaje periodístico y neologismos muestran precisamente que los periódicos han funcionado como espacios de creación y difusión de nuevo vocabulario, especialmente cuando tienen que informar sobre acontecimientos, tecnologías o transformaciones sociales para una audiencia amplia.

Ese papel puede debilitarse si una parte importante de la redacción periodística se deja en manos de sistemas generativos. Los modelos de lenguaje grandes generalmente se basan en la predicción del siguiente token o palabra probable dentro de una secuencia. Por esta razón, producen textos fluidos y creíbles, pero también tienden a privilegiar las regularidades estadísticas, los patrones frecuentes y las formulaciones ya estabilizadas. En sí mismo, esto no significa una degradación automática del idioma. El problema surge cuando esta lógica se vuelve dominante en la escritura pública.

Entrenar una IA con textos producidos por otras IA

El riesgo se vuelve más grave cuando estos sistemas comienzan a entrenarse con textos producidos por otras IA. Esto es lo que varios estudios recientes han descrito como la dinámica del colapso del modelo: un proceso degenerativo en el que los datos generados por el modelo contaminan el entrenamiento de las generaciones posteriores.

Traducido al nivel del lenguaje, esto significa que si los sistemas aprenden cada vez más de textos sintéticos, y si estos textos también comienzan a llenar la web y el espacio público, el ecosistema verbal disponible para futuras capacitaciones se estrecha. Más texto artificial significa menos contacto con la variación social efectiva del lenguaje humano, lo que puede significar un deterioro del lenguaje en diversas áreas.

Reproducción y amplificación del sesgo.

Para empezar, cuando se reduce la variación de los datos y prevalecen los patrones establecidos, los sesgos presentes en el material de capacitación pueden amplificarse en lugar de corregirse. La literatura reciente sobre la evolución de los modelos y sesgos del lenguaje advierte con precisión que los procesos recursivos pueden reforzar los sesgos existentes en lugar de diversificar las perspectivas.

Por otro lado, la escritura comienza a sonar cada vez más como sí misma: se repiten estructuras sintácticas, medios tonos, secuencias formulaicas y formas predecibles de desarrollar los párrafos. Esto es especialmente importante en el periodismo, porque la prensa no sólo transmite información: también media entre los registros especializados y el público en general, selecciona acentos, traduce diccionarios y ensaya la redacción. Cuando la prosa pública se vuelve demasiado uniforme, esa capacidad de ajuste frente a un periódico disminuye.

La erosión de la innovación lingüística

Se reducen así palabras raras o específicas, construcciones más raras y algunos matices pragmáticos, como la ironía, la ambigüedad o ciertas modulaciones del punto de vista. El aumento del texto sintético en la formación se asocia con una degradación del rendimiento y una peor cobertura de la distribución del lenguaje humano. En pocas palabras: el sistema protege mejor el centro que los bordes.

Y muchas innovaciones nacen como soluciones inestables, usos extraños o soluciones locales para nombrar algo nuevo. Si el sistema siempre favorece a los más probables, estas formas emergentes tienen menos espacio para la circulación y consolidación. Este punto no debe entenderse como una oposición abstracta entre “humano” y “máquina”, sino como una diferencia entre el lenguaje expuesto a la contingencia social y la prosa generada a partir de regularidades ya aprendidas.

Deterioro del ecosistema del lenguaje público

No es sólo que tengas menos palabras diferentes, sino también menos capacidad para hacer distinciones sutiles. Cuando el lenguaje se vuelve más vago, repetitivo o predecible, también se empobrecen las herramientas con las que la sociedad describe problemas, califica posiciones y debates en el espacio público.

En un nivel más amplio, el problema ya no es sólo lo que le sucede al modelo, sino lo que le sucede al ecosistema del lenguaje público. Si la web se llena de textos sintéticos, los lectores, periodistas y las propias instituciones empezarán a convivir con un lenguaje público menos diverso. Algunos trabajos recientes hablan incluso de la “contaminación” del ecosistema web con datos sintéticos y muestran que la forma en que se mezclan los datos reales y artificiales es decisiva para evitar un mayor deterioro.

¿Está todo perdido?

Sin embargo, es aconsejable no exagerar. La investigación no respalda que cualquier uso de la IA conduzca inevitablemente al colapso o la degradación. Algunos estudios muestran que cuando se mezclan datos sintéticos con datos reales en lugar de reemplazarlos por completo, el colapso no se comporta igual y el error puede seguir siendo limitado. Es decir, el problema no es el uso oportuno de la inteligencia artificial ni la mezcla juiciosa de datos sintéticos y humanos, sino la sustitución masiva de la escritura humana y luego el reciclaje de esa sustitución como si fuera una lengua viva.

Con la incorporación de la inteligencia artificial a las rutinas de producción periodística, el periodismo gana en eficiencia. Pero ¿qué pierde la sociedad cuando el lenguaje que circula públicamente se vuelve más uniforme, predecible y menos abierto a lo nuevo? Si la prensa renuncia, aunque sea parcialmente, a la función de escribir, traducir, nombrar y probar nuevas formulaciones, no sólo cambian las rutinas de trabajo. Además, se debilitó uno de los ámbitos donde históricamente el lenguaje público fue más capaz de enriquecer, renovar y ampliar sus posibilidades.


Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Comparte este artículo
Deja un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESSpanish

Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo