Con la IA generativa, cualquiera con una pizca de habilidad puede hacerse pasar por experto en una materia, firmar textos llenos de datos, redactar trabajos universitarios o científicos (o periodísticos…) y lucirse, obtener brillantes calificaciones, con el mínimo esfuerzo.
Así que en el ecosistema intelectual surge la necesidad de una nueva especie que sea capaz de cazar a los tramposos del corta y pega, para mantener un cierto equilibrio “ético”.
Es a lo que se dedica la compañía lituana Identific, con un servicio específico en España a través de la web plag.es: pillar los plagios y los textos creados con inteligencia artificial.
En 2011, cuando sólo en algunos círculos especializados se hablaba de la IA, Arnoldas Viburys y Chorst Klaus fundaron en Vilnius (Lituania) una startup llamada Lingua Intellegens, orientada a la educación.
“En 2017 una aceleradora invirtió en nuestra compañía y cambiamos el negocio hacia la inteligencia de lenguaje”, explica Klaus a DISRUPTORES - EL ESPAÑOL. Cambiaron la marca a Oxsico, que hace referencia a “Oxford similarity checker”, centrándose en ayudar a “mantener la integridad académica”.
Y ahora, en plena era de la inteligencia artificial generativa y las potentes herramientas que trae consigo, la empresa renombrada otra vez, ahora como Identific, en la que Klaus figura como fundador, mientras su colega Viburys es el jefe de tecnología, se presenta como cazadora de plagios y textos generados con IA.
La compañía presenta su plataforma Plag como un detector de textos en los que ha intervenido ChatGPT, tanto en el campo académico como en el de los negocios. Su plan es añadir la misma especificidad para otros modelos LLM, como Gemini, de Google.
Frases creadas por IA
Propone servicios de detección de plagios; eliminación de ellos en textos propios; formateo de textos, para adecuarse a las normas de estilo de una institución; corrección de citas incorrectas y corrección gramatical de textos.
En algunos de estos casos intervienen editores humanos profesionales, para, por ejemplo, refinar un paper. Verifican citas, o “las añaden si faltan”, y “si ven que un texto es excesivo, pueden reescribirlo un poco… sin añadir nada ni cambiar la idea original”.
La herramienta de reconocimiento utiliza un código de colores para destacar las frases que pueden haber sido creadas por IA. La precisión que sus creadores atribuyen al modelo es del 99,8%. Si indica más del 50% de probabilidad de intervención de la IA en un texto, cabe suponer con bastante certeza que ha sido generado automáticamente.
¿Y cómo se descubre técnicamente que ese texto es producto de una inteligencia artificial?
“Disponemos de una amplia colección de textos escritos por humanos, con los que hemos entrenado nuestro modelo de IA para que lo reconozca. Aunque seguimos trabajando para hacer la detección más precisa”, dice Klaus.
“Añadimos información sobre el lenguaje, como cuántos sustantivos hay [en el texto], en qué orden y cosas así. Entrenamos el modelo con textos creados por humanos y por la IA, y eso le facilita distinguir entre ambos. Cuando subes un texto, puedes ver qué partes más parecen generadas por la IA y cuáles escritas por un humano. Nos muestra las posibilidades estadísticas de ambas opciones”, concreta.
Hasta 129 idiomas
En una prueba realizada por este periodista con un texto propio, Plag lo analizó como libre de intervención de la IA. Sin embargo, tras una traducción automática al inglés detectó un 50% de automatismo. Klaus tiene la explicación: “Es por el algoritmo de traducción. En lituano nos pasa igual al traducir a inglés. El lenguaje es muy correcto, muy estructurado”.
En cuanto a idiomas, plag.es, que se presenta en español, se declara “totalmente multilingüe” con capacidad para detectar plagios y engaños en 129 idiomas.
Incluso pueden aparecer mezcladas diferentes lenguas “dentro de un mismo documento”. El cofundador explica que “en muchos papers pueden usarse dos idiomas y en actas de conferencias, que pueden llegar a las 300 páginas, cabe encontrar artículos en alemán, español, francés e inglés. El truco es dividir el documento en partes más pequeñas, identificar el idioma en cada una de ellas y aplicar el modelo de IA correspondiente”.
La web de la marca principal de la compañía, identific.com, permite utilizarla en una decena de idiomas, incluyendo español, inglés, francés, alemán e italiano y otros cinco del Este de Europa, aparte de poder analizar documentos en los mismos 129 idiomas.
“La diferencia entre ambas es que Plag está abierta a cualquiera. Estudiantes y profesores pueden registrarse y usarla de manera gratuita en algunas de sus funciones. En cambio, Identific es para las universidades y las empresas. Tienen diferentes funcionalidades”, indica Klaus.
“En lo que se refiere a los estudiantes y la IA, es un asunto complicado: la mayoría está usando esa herramienta ya en las escuelas y estamos recibiendo muchas consultas de profesores sobre cómo trabajar con eso”, añade.
Según una encuesta entre estudiantes de secundaria en España, Alemania e Italia, liderada por plag.es, el 87% de los que han oído hablar sobre la IA generativa dice haber utilizado ya alguna vez herramientas como ChatGPT o Gemini (Google). De ellos, el 72% la ha usado para buscar información y el 63% para hacer los deberes.
En España, con un trabajo de TMG Research en 63 escuelas de secundaria y consultando a 1.006 estudiantes, sólo un 6% se manifiesta contrario a utilizar herramientas IA, incluso en el futuro.
Lidiar con la IA en la educación
“Los resultados de España son muy similares a los de Alemania e Italia, pero no puedo decir si eso bueno o malo”, concede Klaus. “Están usando y aprendiendo la tecnología. Pero, por otra parte, hay más riesgos en el sector educativo, que necesita desarrollar alguna metodología para lidiar con la IA”.
Señala también que una encuesta en Lituania hecha en noviembre daba resultados “más bajos”, aunque cree que si repitiera ahora “mostraría algo similar a España y el resto de los países”.
Klaus confiesa que en el ámbito estudiantil ya se usaba la inteligencia artificial “incluso antes de ChatGPT, que ya existían algunos modelos. Pero no estaba tan extendido y los estudiantes no tenían noticia ni era un asunto caliente para ellos. Todo cambió con ChatGPT porque hubo una gran campaña de marketing”.
“También cambió para nosotros, para entrenar nuestro modelo”, prosigue. “Felizmente, teníamos un historial desde 2011, con textos que sabíamos que eran de origen humano. En los papers actuales no sabes si realmente lo son”.
Aquel momento les supuso “trabajar 16 horas al día, con ocho horas para dormir, entrenando y entrenando los modelos. Recuerdo que era verano y estuvimos todos los días dedicados a crear una lógica para hacerlo, obtener el conocimiento y probar todo, para que se adaptase a los documentos científicos”.
Como no todos los servicios son gratuitos, Klaus aclara que los precios pueden depender de cada país: “Tenemos algunos descuentos y, por ejemplo, en Ucrania el acceso es totalmente libre. Para las universidades de los países en los que tenemos más clientes resulta más barato que en los que tenemos pocos, por los costes de mantener los idiomas”.
Precios según países
Cuando intervienen editores humanos “es un servicio de pago”, porque tienen que cobrar por su trabajo. El precio “depende de la extensión y también es diferente según los países, pero la regla general es en torno a diez euros por página o algo así”, precisa Klaus.
Por otra parte, aunque Identific no tiene oficinas en los 120 países en los que se está utilizando, lo que sí hace es “una búsqueda de socios con los que los clientes puedan hablar, en algunos países en los que no podemos trabajar de manera remota. Por ejemplo, en Filipinas, India, Indonesia… donde no podemos participar en licitaciones públicas sin tener una presencia allí”.
Para la detección de plagios, el modelo de inteligencia “es propio, creado con una herramienta lógica también propia”, aunque para entrenarlo utilizan la infraestructura de Google.
Otro asunto importante es la gestión de la propiedad intelectual: “Para el entrenamiento tenemos políticas que nos permiten usar textos con fines estadísticos, en los que no se puede distinguir al autor. Y en cuanto a las universidades, les dejamos que decidan si algo es correcto o no. Nosotros no decidimos si una parte [de contenidos] infringe el copywright. Las universidades tienen diferentes opiniones sobre lo que es un uso correcto”.
Klaus remarca la utilidad que sus herramientas tienen también en ámbitos industriales de todo tipo. Incluso en el de la innovación y las patentes: “Pueden evidenciar la similitud entre ideas, los patrones similares, porque contamos con una gran base de datos para hacer comparaciones rápidas. Y estamos trabajando para poder hacer la comparación entre textos en diferentes idiomas”.
Además, subraya que su trabajo no se limita a revisar textos con la IA. “Hay partes en las que tenemos que utilizar reconocimiento óptico de caracteres en imágenes para extraer texto. Algunos estudiantes engañan con las imágenes insertadas en el documento. También tenemos algunos algoritmos matemáticos para comparar que no usan IA”.