Изчерпателен анализ на решението на Thales за откриване и класифициране на данни, базирано на машинно обучение
В бързо разрастващата се сфера на данни, където около 80% от данните са неструктурирани, традиционните ръчни методи за класификация на данни стават остарели поради трудоемкия им характер и склонността им към грешки. Thales се справя с това предизвикателство с CipherTrust Data Discovery and Classification (DDC) – решение, подобрено с модели за машинно обучение (ML). Тези модели са от решаващо значение за автоматизиране на класификацията на данни, като значително подобряват точността и ефективността в сложни хибридни ИТ среди.
Първата стъпка в класификацията на данни е откриването на данни, което е от решаващо значение за спазването на глобалните разпоредби за защита на данните. CipherTrust DDC ефективно навигира в различни хранилища за данни, като класифицира данните въз основа на чувствителност и риск, независимо дали се съхраняват на място, в сървъри на трети страни или в облака.
Иновативният подход на Thales съчетава съпоставяне на модели с ML, за да установи значими връзки между различни точки от данни. Тази хибридна техника не само открива данните в ИТ системите, но и ги контекстуализира, като повишава точността на класификацията. Компонентът ML е универсален, като използва различни модели за различни задачи, като категоризация и разпознаване на именувани същности (NER).
Съпоставянето на шаблони на CipherTrust DDC, задвижвано от двигателя GLASS™ на Ground Labs, обхваща широк спектър от типове данни и е в съответствие с множество закони за поверителност на данните. Това включва лични, финансови и здравни данни, както и потенциално компрометирана информация, като например твърдо кодирани частни ключове.
NER, ключова функция на CipherTrust DDC, използва обработка на естествен език (NLP) за извличане на същности като имена и дати от неструктуриран текст, като елиминира необходимостта от ръчен анализ. Този процес е изключително мащабируем и адаптивен към различни видове документи и езици.
И накрая, CipherTrust DDC използва ML за класификация на категориите, като определя естеството на документите, например финансови или правни, въз основа на тяхното съдържание. Тази способност за точно категоризиране на документите е от ключово значение за идентифицирането и защитата на личната информация (PII).
Основни изводи за специалистите по киберсигурност:
- Възползвайте се от ML при класифицирането на данни, за да се справите с нарастващия обем и сложност на неструктурираните данни.
- Използване на хибридни подходи, съчетаващи съвпадение на модели и ML, за цялостно откриване и класифициране на данни.
- Използвайте усъвършенствани ML модели като NER за мащабируем и ефективен анализ на данни.
- Осигурете съответствие със законите за защита на данните, като използвате инструменти, които обхващат широк спектър от типове данни и разпоредби за поверителност.
Връзка към статията: Класификация на данни с машинно обучение в CipherTrust DDC