L’explosion de l’intérêt pour l’intelligence artificielle (IA) et plus particulièrement pour les modèles de langage (LLM) a récemment pris tout le monde de court.
La dualité du pouvoir et des risques que cette technologie recèle est particulièrement pertinente pour la cybersécurité.
D’une part, les capacités de résumé, de synthèse et de création (ou de cocréation) de langage et de contenu qu’offrent les LLM sont époustouflantes.
D’autre part, le cyberespace suscite de vives inquiétudes, non seulement en ce qui concerne les “IA hallucinations“, mais aussi l’utilisation abusive de cette technologie pour semer la désinformation, ou encore créer du carburant pour l’ingénierie sociale pouvant même générer des codes malveillants.
Greg Bell, cofondateur de Corelight, présente une belle analogie dans un article récent de Forbes que vous pouvez consulter ici.
Plutôt que de se concentrer sur l’avenir de l’IA, il est plus judicieux actuellement de partager certaines des façons dont Corelight a réfléchi à l’IA et l’a utilisée dans ses produits NDR aujourd’hui.
L’approche de Corelight consiste à exploiter l’IA là où elle peut rendre les clients plus productifs dans leurs opérations de sécurité quotidiennes, et à le faire d’une manière à la fois responsable et respectueuse de la confidentialité des données clients.
L’amélioration de l’efficacité des SOC grâce à la production de meilleures détections et à la mise à niveau plus rapide des compétences des analystes contribue directement à résoudre les problèmes de main-d’œuvre en cybersécurité auxquels toutes les organisations sont confrontées.
Machine learning
Le terme générique d’IA couvre toutes les capacités de l’apprentissage machine (ML), y compris les LLM.
Corelight utilise des modèles d’apprentissage automatique pour une variété de détections dans l’ensemble de sa plateforme NDR ouverte, directement sur ses capteurs et dans son offre SaaS Investigator.
Le fait de disposer de cette puissante capacité à la périphérie et dans le cloud permet aux clients, qu’ils soient déployés dans des environnements à distance ou entièrement connectés au cloud, d’exploiter la puissance de ces détections ML.
Qu’il s’agisse de trouver des canaux C2 ou d’identifier des logiciels malveillants, la ML continue d’être un outil puissant dans la boîte à outils analytique.
Les modèles Corelight de ML supervisés et d’apprentissage profond permettent des détections ciblées et efficaces qui minimisent les faux positifs couramment associés à certains autres types de modèles de ML.
Le modèles Corlight peuvent identifier des comportements tels que les algorithmes de génération de domaine (DGA) qui peuvent indiquer une infection de l’hôte, surveiller le téléchargement de logiciels malveillants et identifier les tentatives d’exfiltration de données d’une organisation par des canaux cachés tels que le DNS.
Corelight utilise également des techniques d’apprentissage profond pour identifier les URL et les domaines qui tentent de tromper les utilisateurs pour qu’ils soumettent des informations d’identification ou installent des logiciels malveillants, ce qui permet d’arrêter les attaques dès le début de leur cycle de vie.
Fournir des détections efficaces basées sur le ML n’est que le début de cette approche.
Pour accélérer le triage et la résolution des problèmes, il est essentiel de disposer d’un contexte approprié et de pouvoir expliquer ces détections.
Corelight fournis également des vues détaillées de ce qui est généralement identifiée comme une “boîte noire” de la détection ML.
La plateforme Corelight Investigator présente les caractéristiques qui composent le modèle, ainsi que les pondérations qui ont conduit à une détection spécifique. Ces données permettent aux analystes de savoir vers quelles preuves spécifiques se tourner pour les prochaines étapes d’une enquête.
Corelight construit continuellement de nouveaux modèles et améliore ses modèles existants afin de s’assurer que ses clients soient protégés contre les menaces les plus récentes que nous voyons dans le monde réel.
Corelight est également en train de prototyper un cadre de détection des anomalies qui s’applique largement à une variété de cas d’utilisation comportementale, de l’authentification à l’escalade des privilèges, tout en offrant le niveau d’explication que les clients attendent de Corelight.
Large Language Models
Lors de différentes expériences avec les LLM, Corelight a rapidement été convaincus que le pouvoir de résumer et de synthétiser les informations existantes était la meilleure application pour la maturité actuelle des LLM.
Corelight a trouvé que leur capacité à créer des détections en discernant entre le trafic réseau légitime et malveillant était faible dans ses tests initiaux, mais a validé le fait que ces modèles de langage peuvent fournir un contexte puissant, des idées et les étapes suivantes pour aider à accélérer l’investigation, ou encore à former les analystes.
Corelight bénéficie également du fait que sa plateforme et les données qui en résultent sont basées sur des outils open-source tels que Zeek® et Suricata, sur lesquels de nombreux LLM commerciaux sont déjà formés.
Étant donné que Corelight produit un format de données ouvert de référence pour les NDR, celle-ci a rapidement fourni une puissante fonction de résumé des alertes et d’accélération des RI dans sa plateforme “Investigator”, pilotée par GPT.
Voici comment cela fonctionne :
Les chercheurs de Corelight créent, testent et valident un nombre limité d’invites axées sur les alertes de sécurité créées par la plateforme Corelight.
Ces messages sont ensuite utilisés pour interroger GPT en se basant uniquement sur les métadonnées de l’alerte (aucune donnée client spécifique n’est envoyée) et les résultats sont mis en cache dans ses infrastructure SaaS.
Un client qui consulte une alerte voit automatiquement le résumé de l’alerte GPT et peut accéder aux étapes suivantes potentielles pour enquêter et remédier à l’alerte simplement en cliquant sur une série de “clouds” d’invites supplémentaires.
Les clients peuvent également suggérer des invites supplémentaires et faire des suggestions sur la manière d’améliorer les résultats de GPT.
Aucune donnée du client n’est jamais envoyée à GPT et aucun trafic du site du client n’est jamais envoyé à GPT, car cela est géré par l’infrastructure SaaS de Corelight.
Corelight pense qu’en contrôlant soigneusement l’exactitude des invites et des réponses, et en veillant à ce qu’aucune donnée client ne soit transmise à GPT, cela offre un juste milieu pour offrir une grande valeur aux LLM sans compromettre la vie privée des clients.
Cette approche a été constamment validée par ses clients, les analystes et les partenaires avec lesquels Corelight travaille.
Corelight commence maintenant à expérimenter l’ajout d’un contexte supplémentaire, y compris des informations sur les CIO, les TTP de MITRE ATT&CK®, les acteurs de la menace et plus encore, ainsi que la poursuite de la formation des analystes de la sécurité sur la meilleure façon d’utiliser les preuves de Zeek et de Corelight pour enquêter et répondre aux alertes.
Grâce à une mise au point plus poussée et à une connaissance spécifique des données Corelight, nous pouvons constater que les modèles sont de plus en plus capables de traiter des informations et des étapes de travail supplémentaires.
Pour pouvoir utiliser certaines de ces fonctions supplémentaires, nous devons “cross the bridge” en demandant aux modèles de traiter directement les données des clients sans accès aux preuves supplémentaires du réseau que les modèles ne peuvent pas aider.
Corelight a adopté une approche initiale conservatrice en ne partageant aucune donnée client avec les LLM.
Cependant, celle-ci prévoie qu’avec les garanties appropriées, certains clients pourraient choisir de partager leurs données pour avoir accès à une nouvelle suite d’accélérations de flux de travail basées sur l’IA.
What’s next
Bien que Corelight est commencé ses explorations LLM avec le GPT d’OpenAI, l’entreprise continue à suivre l’incroyable croissance du marché des nouveaux modèles et plateformes construits autour des LLM provenant de différentes sources de l’industrie technologique.
De plus son travail avec GPT, lui a permis d’établir des relations de collaboration avec d’autres développeurs de LLM, qui de ce fait lui permet d’influencer et de façonner certains éléments du développement de leurs produits, tels que le programme d’aperçu privé Microsoft Security Copilot, comme indiqué dans cet article.
Les détections ML et les flux de travail assistés par ML ne sont que quelques-unes des façons dont Corelight utilise l’IA dans ses produits, mais il se passe bien d’autres choses en coulisses !
Soyez à l’affût des nombreux autres développements passionnants au cours des prochains mois concernant l’utilisation de l’IA par Corelight pour rendre les flux de travail d’investigation plus efficaces, générer des détections et aider à améliorer la compréhension des données réseau par les analystes.
En attendant, vous pouvez en savoir plus sur l’intégration de LLM dans Investigator, découvrir comment son utilisation de la ML améliore les analyses, et comment tout cela s’intègre dans l’offre complète de plateforme ouverte de NDR de Corelight.
Source : CoreLight
Pour plus d’informations concernant les solutions