Opinión

El aprendizaje automático, clave en la prevención y detección de ciberataques

Publicado el

12 septiembre, 2019

por

La intensidad y el número de ciberataques crece exponencialmente y afecta cada vez a más organizaciones. Solo en el último año, el 57% de los CIOs y/o CISOs han reportado, al menos, un incidente de ciberseguridad significativo en sus compañías. Las prácticas poco apropiadas de los empleados, los accesos no autorizados o la introducción de malware en el sistema operativo han sido las causas más comunes. Esta situación ha provocado que las organizaciones estén incrementando sus presupuestos de seguridad para poder adoptar nuevas tecnologías y defensas.

En esta situación, las soluciones basadas en aprendizaje automático (Machine Learning) se están convirtiendo en una muy buena opción, al ser capaces de analizar comportamientos que pueden resultar sospechosos y de detectar cualquier tipo de anomalía que se produzca en el sistema. Tal es así que, en estos momentos, cualquier organización interesada en alcanzar una prevención, detección y mitigación más rápidas de amenazas para evitar que tengan un impacto significativo en el negocio, deberían optar por ellas.

La red es predecible

Partiendo de la premisa de que cualquier red es predecible, la implementación de tecnologías de análisis automatizado requiere primero observar y aprender el comportamiento de la red de cada organización. De esta forma, tras esa primera fase, todo lo nuevo o extraordinario que no respete el comportamiento aprendido será reportado a los administradores de IT. Asimismo, después de entrenar el aprendizaje automático, la solución puede ayudar a crear una base de datos de predicción que contendrá todas las aplicaciones conocidas y desplegadas en la organización.

Las soluciones de Machine Learning no pierden su eficacia cuando una aplicación se actualiza. Así, cuando se ejecuta por primera vez una nueva versión de cualquier aplicación, la solución se encarga de verificar si la base de datos de predicción contiene la aplicación iniciada. Si no se encuentra una coincidencia perfecta, se empleará un factor de similitud que estime estadísticamente las posibilidades de que la aplicación desconocida sea similar a algo que la base de datos ya tiene.

Si ese porcentaje de similitud supera un umbral específico, la aplicación se considera confiable y la base de datos se actualiza. Si la puntuación de similitud está por debajo del umbral, la aplicación se pone en cuarentena y se notifica al administrador de IT.

Creación de un perfil de aplicaciones con Machine Learning

La creación de un perfilado de aplicaciones con aprendizaje automático requiere el uso de varios algoritmos. Todo comienza con la construcción de un modelo que puede servir para obtener una detección precisa. Este modelo es, en realidad, una ecuación matemática generada automáticamente que satisface un conjunto de condiciones que se sabe que están asociadas a un archivo malicioso. Su propósito es estimar estadísticamente las posibilidades de que un archivo desconocido o nunca antes visto sea malicioso.

Las redes neuronales se encuentran entre los tipos de algoritmos de aprendizaje automático más utilizados, ya que pueden extraer las características de los archivos en funciones (como la forma del archivo, la información del emulador, el tipo de compilador y muchas más), y normalizar esas funciones en números.

Por supuesto, no todas las funciones se utilizan para el entrenamiento de un modelo, ya que tan solo algunas de ellas pueden alcanzar resultados altamente precisos. Todas estas funciones se colocan en matrices N-dimensionales, donde N representa el número de funciones y genera ecuaciones (o modelos) altamente complejas que identifican con precisión las muestras desconocidas como maliciosas o no, en función de si se cumple la ecuación.

De esta forma, si un archivo desconocido alcanza el perímetro de una organización, la solución de aprendizaje automático lo prueba para ver si resuelve una serie de ecuaciones matemáticas que se sabe que se resuelven solo con archivos o aplicaciones maliciosos.

¿Es el aprendizaje automático fiable en un entorno empresarial?

La realidad es que el entorno empresarial (desde el tráfico de la red hasta la actividad de un dispositivo concreto) resulta mucho más predecible que el comportamiento on-line de cualquier usuario medio. Por ello, debido a que las soluciones de aprendizaje automático pueden rastrear a través de grandes cantidades de datos y proporcionar una estimación estadísticamente precisa sobre si ocurre algo anormal, su implementación resulta muy adecuada en un entorno empresarial.

Aunque la capacitación del modelo pueda necesitar algún tiempo, la ecuación resultante solo pesa un par de kilobytes, por lo que resulta muy rápida y ocupa muy poca memoria. Naturalmente, siempre es recomendable disponer de varios modelos específicos para el análisis de determinados comportamientos, cubriendo, de este modo, una amplia gama de posibles vectores de ataque.

Eso sí, no todas las soluciones de aprendizaje automático son igual de eficaces. Siempre habrá que tener en cuenta la experiencia del proveedor de seguridad, ya que solo esta experiencia es capaz de proporcionar una comprensión profunda del comportamiento del malware y de los ciberataques en general, algo fundamental a la hora de producir unos algoritmos y modelos de aprendizaje automático fiables. Es decir, el conocimiento humano resulta vital en la creación de modelos precisos de aprendizaje automático.

La necesaria automatización de la seguridad

Debido al rápido ritmo con el que hemos integrado el software en nuestras vidas y negocios, no solo se recomienda potenciar la ciberseguridad con inteligencia artificial, sino que debería ser algo obligatorio. En muchos sentidos, el aprendizaje automático es una técnica mucho mejor y más rápida que las prácticas humanas a la hora de identificar patrones relacionados con el Big Data, especialmente porque en estos momentos existen 6.400 millones de dispositivos conectados a Internet con los que interactuamos y que también se comunican entre ellos.

Además, también tenemos cerca de 400.000 programas maliciosos que circulan por Internet a diario, algo que sobrepasa la capacidad de control de los humanos. La aplicación de inteligencia artificial no solo ayuda, por tanto, a detectar y combatir amenazas nuevas y desconocidas, sino que también reduce la cantidad de tiempo necesario para reaccionar ante ellas.

El valor fundamental de la inteligencia artificial en el ámbito de la seguridad es que es capaz de reconocer patrones que emergen de experiencias pasadas y de hacer predicciones basadas en ellos. De esta forma, los algoritmos de aprendizaje automático pueden llegar a una fiabilidad cercana al 100% en sus predicciones.

Además, la inteligencia artificial también es capaz de ayudar al hombre cuando su intervención resulta necesaria, dividiendo, por ejemplo, grandes cantidades de datos en conjuntos de información más pequeños y asequibles para la capacidad de análisis humana. Sin embargo, el objetivo siempre debe ser automatizar completamente el proceso de identificación del malware, de modo que los humanos solo necesiten intervenir a la hora de realizar ajustes en el algoritmo o de introducir mejoras de rendimiento.

Firmado: Liviu Arsene, Global Cybersecurity Researcher en Bitdefender