¿Qué sucede con el lenguaje cuando una cantidad cada vez mayor de texto publicado en forma impresa, en línea y en las redes sociales es escrito por máquinas? Esta pregunta no sólo es importante para la profesión periodística: también afecta la riqueza del lenguaje que todos utilizamos para comprender, describir y discutir la realidad misma.
Históricamente, la prensa ha sido el espacio donde crece y se enriquece el lenguaje público. Por supuesto, no es el único impulsor del cambio lingüístico, pero es uno de los campos en los que comienzan a circular dentro de la sociedad palabras, giros de frase y formas de describir hechos nuevos o novedosos.
Sin embargo, si una cantidad significativa de redacción periodística se subcontrata a la inteligencia artificial generativa, este papel disminuirá. Los modelos de lenguaje grande (LLM) generalmente funcionan prediciendo el siguiente “token” o palabra en una secuencia. Esto les permite producir escritos fluidos y persuasivos, pero también tiende a priorizar la regularidad estadística, así como argumentos y formulaciones comunes y establecidos.
En sí mismo, esto no degrada el idioma. El problema surge cuando esta lógica domina la escritura en la esfera pública.
Retroalimentación de bucles de IA
Los riesgos se vuelven serios cuando los sistemas de IA comienzan a entrenarse con textos que la IA ya ha producido. Esto conduce a lo que muchos estudios llaman “colapso del modelo”, un proceso degenerativo en el que el material producido por un modelo contamina los datos de entrenamiento de generaciones posteriores.
En pocas palabras, esto significa que los sistemas de IA aprenden cada vez más del texto sintético. Si estos textos llenan los espacios públicos –tanto online como offline– el ecosistema verbal para la formación futura será mucho más reducido.
Un mayor volumen de texto artificial significa menos contacto con las variaciones sociales inherentes al lenguaje humano. Esto puede conducir a un declive lingüístico en varias áreas.
También refuerza los sesgos y prejuicios existentes. Cuando la variación de los datos disminuye y prevalecen los patrones establecidos, los sesgos en el material de capacitación pueden reforzarse en lugar de corregirse. La investigación sobre la evolución del sesgo LLM advierte que los procesos recursivos pueden magnificar los sesgos existentes en lugar de ampliar las perspectivas.
Además, la escritura también es cada vez más repetitiva y homogeneizada. Repite estructuras sintácticas y se esfuerza por lograr un tono neutral, expresiones formuladas y estructuras de párrafos predecibles. Esto es especialmente importante en el periodismo porque la prensa no existe sólo para difundir información: también media entre registros especializados y más accesibles, decide dónde poner énfasis, traduce vocabulario y enseña formas de expresión.
Cuando el lenguaje público se vuelve demasiado uniforme, limita la capacidad del periodismo para afinar su escritura en respuesta a nueva información.
Leer más: ‘Cerebros digitales’ que ‘piensan’ y ‘sienten’: ¿por qué personificamos los modelos de IA? ¿Son realmente útiles estas metáforas?
Corrosión de la innovación lingüística
Todo esto conduce a una reducción en el número de palabras inusuales o especializadas, construcciones menos comunes y matices pragmáticos (término que se refiere a recursos como la ironía, la ambigüedad y la variación de puntos de vista). El uso cada vez mayor de texto sintético en el entrenamiento de IA también se asocia con una degradación del rendimiento y una cobertura más limitada de la diversidad del lenguaje humano. En pocas palabras, el sistema protege mejor el centro que los bordes.
Pero en el lenguaje, muchas innovaciones comienzan como desvíos erráticos, usos improbables de palabras o formas localizadas de nombrar un nuevo fenómeno. Si el sistema siempre favorece la opción estadísticamente más probable, esto significa que hay menos espacio para que el lenguaje emergente circule y arraigue.
Leer más: ¿La IA realmente “escribe”? De sacerdotisa a filósofa, los autores antiguos dirían “no”
Este punto no debe entenderse como una dicotomía abstracta entre hombre y máquina, sino como una diferencia concreta: entre el lenguaje expuesto a los acontecimientos aleatorios de la sociedad humana y la producción textual que surge de una regularidad previamente aprendida.
El declive del ecosistema del lenguaje público
No se trata sólo de una menor cantidad de palabras diferentes, sino también de una capacidad reducida para hacer distinciones sutiles. Cuando el lenguaje se vuelve vago, más predecible o repetitivo, también empobrece las herramientas que utilizamos como sociedad para describir problemas, aclarar opiniones y participar en el debate público.
En un nivel más amplio, el problema no se limita a lo que sucede con los modelos de IA entrenados con estos datos, sino también a lo que sucede con el ecosistema del lenguaje público. Si Internet se llena de textos sintéticos, los lectores, periodistas e instituciones quedarán expuestos a un lenguaje público menos diverso.
Algunas investigaciones también hablan de texto sintético que “contamina” el ecosistema en línea, lo que demuestra que la forma en que mezclamos datos reales con datos artificiales es vital para evitar una mayor degradación.
Leer más: ¿Los periodistas se han saltado la conversación sobre ética en lo que respecta al uso de la inteligencia artificial?
no todo esta perdido
Dicho todo esto, no debemos dejarnos llevar. Las investigaciones no muestran que todo uso de la IA conduzca siempre al colapso o al declive. Algunos estudios muestran que cuando se mezclan datos sintéticos con datos reales en lugar de reemplazarlos por completo, el colapso no se comporta de la misma manera y el error se puede contener.
En otras palabras, el problema no es el uso ocasional de inteligencia artificial o la combinación juiciosa de datos sintéticos y humanos. Ocurre cuando la escritura humana es reemplazada masivamente, y su reemplazo luego se reutiliza como si fuera un lenguaje vivo.
A medida que la IA se convierte en parte de la vida laboral de los periodistas, el periodismo se vuelve más eficiente. Pero ¿qué pierde la sociedad cuando el lenguaje que circula en la esfera pública se vuelve más uniforme y predecible y menos abierto a la innovación?
Si la prensa renuncia, aunque sea parcialmente, a su papel de escribir, traducir, nombrar y enseñar una nueva lengua, no afectará sólo a la jornada laboral de los periodistas. También debilitará uno de los ámbitos donde más podría enriquecerse, renovarse y ampliarse el lenguaje público.
Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US
Suscríbete y recibe las últimas entradas en tu correo electrónico.


