CAPTCHA es un acrónimo que se traduciría como «Test de Turing completamente automático y público para diferenciar ordenadores de humanos». Este sistema de pequeños tests de visión y lógica humana lleva años siendo un estándar en todo tipo de servicios web antes de registrarnos.
Su razón de ser es simple: confirmar que quien se registra y navega por un sitio web no es un bot. Es una medida de ciberseguridad común para evitar ataques DDoS, en los que se usan grandes cantidades de bots para colapsar los servidores de una web y hacer que caiga o sea inaccesible.
Originalmente, fue un sistema desarrollado por un grupo de investigadores de la Carnegie Mellon University para contrarrestar el spam de bots en la web. Aunque la mayoría de pruebas que conocemos son una segunda versión que acabaría siendo comprada por Google, la llamaron reCAPTCHA.
Esta incluyó pruebas que van más allá de transcribir un texto deformado, y aquí es donde hay muchas claves que destacar sobre su funcionamiento y objetivos.
Pruebas reCAPTCHA: imágenes reales
reCAPTCHA siguió con pruebas más tradicionales como transcribir texto de imágenes distorsionadas, pero también incorporó imágenes de objetos reales como carteles, señales de tráfico o periódicos. Todas cosas que, en su momento, eran imposibles de leer para programas informáticos.
Otro tipo de prueba añadido fue el reconocimiento de imágenes, en el que se pide al usuario identificar objetos, personas o animales. Las pruebas pueden variar entre una selección de imágenes o una imagen más amplia dividida en una cuadrícula, pero todas fotografías reales con borrosidades e imperfecciones. La dificultad de este test está principalmente en diferenciar entre objetos similares, peluches y animales, o dibujos y personas reales.

Ahora bien, hay pruebas de reCAPTCHA indirectas y menos evidentes. Mucha gente duda de la veracidad de la típica casilla de “No soy un robot”, pero lo cierto es que es un método más fiable de lo que parece. Lo que se evalúa no es marcar la casilla, sino el movimiento del cursor, que un humano realiza de manera impredecible. También puede usar datos del historial y cookies para analizar tendencias de tráfico y verificar, de forma holística, si la navegación es natural o programada.
Todos estos son ejemplos de métodos innovadores e ingeniosos, grandes soluciones para el problema del spam de bots. Sin embargo, las acciones que desempeña el usuario de identificación tienen otro objetivo muy concreto, y relacionado directamente con bots o más bien algoritmos complejos.
Entrenamiento de algoritmos al mejor precio
Un algoritmo como los que usan las redes sociales, un bot autónomo que navega la web o un gran modelo de lenguaje, requiere de un proceso de entrenamiento. En otro artículo ya hablamos sobre distintos tipos de algoritmo para reconocimiento facial.
El proceso en sí es sencillo, se hace una criba entre distintas variantes de un algoritmo en la que se escoge al que mejor cumple con los objetivos, en el caso de la visión artificial sería identificar un objeto concreto en una imagen.
Así, por ejemplo, se pueden entrenar a “generaciones” de algoritmos para ir consiguiendo mejores resultados para identificar imágenes de abejas. Para hacer las pruebas a los algoritmos hay que alimentarlos con imágenes de abejas, marcadas deliberadamente con la palabra. Luego hay que mostrar nuevas imágenes sin marcar y comprobar su efectividad. Este proceso requiere de un trabajo exhaustivo y tedioso de recopilación de imágenes y humanos teniendo que identificarlas.
Teniendo esto en cuenta no es difícil entender el potencial de reCAPTCHA para el material de entrenamiento de algoritmos. Sólo hay que recabar imágenes y luego dejar que millones de usuarios hagan el trabajo humano de identificar distintos objetos o transcribir un texto borroso. Gracias a reCAPTCHA se mejoró en sistemas de transcripción de escaneos en universidades que digitalizaban libros antiguos.
Google abiertamente hablaba de la compra de reCAPTCHA como una gran ventaja para la digitalización de libros de Google Books y News Archive. La cuestión está en que, evidentemente, no se quedaron ahí, todos los productos de Google y avances en IA se benefician de horas y horas de trabajo humano. Muchos precisamente destacan la brillantez de esta dinámica, para el usuario individual es un trámite de 10 segundos pero para la empresa es un trabajo que, de otra manera, costaría millones a lo largo de los años.







