Un nuevo algoritmo es capaz de solucionar cualquier captcha de texto automáticamente

Hace unos días recogíamos una extensión para Chrome que permitía solucionar los captcha de identificación de imagen de Google. Esta extensión, llamada Buster, sólo funciona con ReCaptcha de Google, que nos pide identificar una imagen cuando estamos navegando con una dirección IP sospechosa. Sin embargo, hay otros muchos tipos de captchas, y un nuevo algoritmo es capaz de solucionarlos todos.

Los captcha de texto están muertos con este nuevo algoritmo

Desarrollado por investigadores de Reino Unido y China, este nuevo algoritmo basado en machine learning puede saltarse los captcha basados en texto con menos esfuerzo, más rápido y con mayor precisión que cualquiera de los métodos existentes en la actualidad. Este algoritmo está basado en el concepto de GAN, siglas de “Generative Adversarial Network”.

Los algoritmos GAN basados en IA se utilizan cuando no hay una gran base de datos que usar para aprender, ya que normalmente los algoritmos de aprendizaje necesitan millones de datos para entrenarse a la hora de realizar una tarea con precisión. Con GAN, los puntos de datos se van generando con un componente que produce datos similares, que son luego enviados al algoritmo para que los resuelva.

Los algoritmos desarrollados hasta la fecha usaban bases de datos de captchas ya existentes, los cuales no se encuentran en el mundo real. Sin embargo, los que vemos en las distintas webs se generan aleatoriamente. Por ello, usaron 500 captchas de texto de los 11 tipos de captcha más usados en 32 de las 50 webs más visitadas según el ranking de Alexa, con webs como Wikipedia, Microsoft, eBay, etc.

También puede aprender a descifrar cualquier captcha nuevo

A partir de esos 500 captcha, generaron 200.000 captchas “sintéticos”. La precisión que lograron fue del 100% en páginas como Blizzard o Authorize.net. En otras como Amazon, PayPal, Reddit o Yahoo consiguieron una precisión superior en todas las pruebas con respecto a los algoritmos existentes.

Su algoritmo es también más barato y rápido, pudiendo resolver uno en 0,05 segundos con un ordenador. Así, no es necesario utilizar una gran potencia de procesado para hacer un ataque en tiempo real contra una de estas webs, lo cual suele resultas en baneos. Quienes realizan este tipo de ataques suelen contratar servicios en la nube para hacer frente a la cantidad de procesamiento necesario.

Además, gracias a que puede entrenarse, el algoritmo puede aprender a descifrar un captcha nuevo a partir de una pequeña muestra de datos. Sus propios creadores tienen miedo de este algoritmo, ya que con él han conseguido romper la única barrera de seguridad que tienen muchas páginas web para protegerse de bots y ataques. Por ello, recomiendan utilizar otras alternativas para detectar bots con varias capas de seguridad, como hace reCAPTCHA v3 de Google, que analiza datos como la ubicación, patrones de uso en webs o datos biométricos para verificar que se trata de una persona. De hecho, la última versión no requiere ni hacer click.

Fuente: ZDNet | adslzone

Software

- Todos los logos o imagenes mencionados en esta web son propiedad de sus empresas correspondientes -