La filial tecnológica de Cdiscount, Peaksys, ofrece con Baleen una solución para la protección contra ataques DDoS junto con WAF y CDN. Los modelos de IA combinados con una red neuronal y un bosque aleatorio brindan puntuación de consultas y protección contra diferentes tipos de bots.
El gigante francés del comercio electrónico, Cdiscount, acoge en su seno a una filial tecnológica que lejos de haber sido puesta en el punto de mira tanto como su empresa matriz, Peaksys. Esta entidad, que reúne a 650 empleados, incluidos aproximadamente 350 desarrolladores, no solo es responsable de proporcionar los recursos técnicos y humanos asignados a los proyectos de TI de Cdiscount. Durante los últimos dos años, también ha estado publicando una solución, Baleen, especializada en protección anti-DDoS, WAF y CDN, pero también en la lucha contra bots maliciosos basados en IA. Entre los usuarios de este producto, Cdiscount por supuesto, pero también otros como Pix, el Diario Oficial, el Ministerio de Transición Energética…
«La IA es parte de nuestra estrategia tanto en nuestros equipos de desarrollo como en btob», explicó Fabien Poletti, CTO de Peaksys. Mientras observa de cerca la IA generativa de OpenAI ChatGPT para categorizar las hojas de productos de los comerciantes electrónicos, el grupo ha recurrido durante varios años a la ciencia de datos y la IA para luchar contra los ataques de bots que se han vuelto cada vez más agresivos y efectivos con el tiempo. “Tenemos 20 millones de visitantes por mes y cientos de miles de consultas por segundo para identificar”, dice Fabien Poletti. Baste decir: complicado para Peaksys procesarlos manualmente, lo que luego llevó a la subsidiaria a recurrir a un modelo ML basado en bosques aleatorios para ganar en eficiencia y confiabilidad en su lucha contra los bots maliciosos antes de ir un paso más allá. “Utilizamos una red neuronal para aislar y calificar todas las solicitudes en tiempo real de acuerdo con un conjunto de criterios para detectar usuarios de bots legítimos. Una vez realizado el análisis estadístico, enviamos un captcha, que ahora permite limitar los falsos positivos al 0,1%”, dice Fabien Poletti.
Baleen bloquea las solicitudes entrantes no legítimas. (crédito: Peaksys)
4 años de trabajo
Inicialmente, Peaksys comenzó con un bosque aleatorio para su puntuación, pero decidió pasar a la parte superior de una biblioteca de ML específica para mejorar sus resultados. “Comenzamos hace 4 años y nuestro equipo de científicos de datos está trabajando para lidiar con bots cada vez más avanzados. Por lo tanto, era necesario avanzar con el aprendizaje automático en los registros”, continúa el CTO de Peaksys.
¿Cómo funciona Balen? A la plataforma llega una solicitud la cual será enriquecida con información sobre el usuario, su reputación y su conexión, y será puntuada con el árbol de decisión del modelo ML para que se le asigne un valor de 0 a 1. Los historiales de calificación también son considerados como parte de este análisis. Dependiendo del resultado, la solicitud se acepta o se redirige a un captcha. “Estamos captando cada vez más rebotes relacionados con la inteligencia económica”, avanza también Fabien Poletti. “Usaremos cada vez más registros para alimentar esta IA y daremos un paso más en términos de análisis de comportamiento centrándonos en el tiempo de navegación. Tenemos una visión que todavía es un poco estática, la vamos a hacer más dinámica para identificar un curso típico”.
El puesto de observación de Peaksys monitorea como la leche en llamas posibles ataques en la red de Cdiscount como los de sus otros clientes. (crédito: Cdiscount / Peaksys)
Acepte el desafío de hacer que los científicos de datos y los desarrolladores trabajen juntos
Para ejecutar sus modelos de inteligencia artificial y aprendizaje automático, Peaksys utiliza varios ladrillos tecnológicos. En el lado del desarrollo, una gran cantidad de código Python trabaja en grandes bases de datos SQL y noSQL junto con la transmisión de datos de Apache Kafka. “Tenemos una integración 100% open source que por el momento no está contenerizada en máquinas virtuales”, explica el CTO de Peaksys. Los sistemas utilizados para entrenar el modelo de aprendizaje no son rayos: “Tenemos servidores Dell, Nutanix y un poco de memoria GPU y CPU para ejecutar el algoritmo. También tenemos ADN de descuento en nuestras plataformas”.
En el contexto de este proyecto, Fabien Poletti no menciona grandes dificultades técnicas encontradas, sino algunas dificultades a superar en términos culturales: «son proyectos en los que tienes que hacer que los científicos de datos que son matemáticos trabajen junto con los desarrolladores que son ingenieros . Por lo tanto, debemos encontrar los mejores compromisos posibles, cada uno con sus propias habilidades pero también teniendo que entender las de los demás para trabajar juntos”.