Big data anonymizačný framework

Big data anonymizačný framework

Spoločnosti majú dnes veľa údajov. Z dôvodu ich veľkého množstva sa ukladajú v štruktúrovanom formáte v dátovom sklade (DWH). Postupom času spoločnosti nazhromažďovali kvantum údajov a cena za rozširovanie DWH rástla exponenciálne, zatiaľ čo nie všetky údaje museli byť k dispozícii okamžite.

Na vyriešenie tohto problému začali spoločnosti historické údaje ukladať na platformách Hadoop, ktoré sa dajú ľahko a lacno rozširovať a poskytujú veľké distribuované ukladanie údajov, ako aj distribuovanú výpočtovú silu na spracovanie údajov.

Všetky údaje sa však kvôli nariadeniu GDPR nemôžu ukladať večne.

GDPR definuje, čo môžu zákazníci od spoločností požadovať, aby urobili s ich údajmi, a nedovoľuje, aby spoločnosti spracovávali alebo mali uložené osobné informácie navždy. Ako dlho je možné osobné údaje uchovávať, sú definované zákonmi každej krajiny.

Keďže spoločnosti nemôžu uchovávať osobné údaje navždy, musia byť po určitom čase vymazané alebo anonymizované. Odstránenie však znamená, že spoločnosť stráca cenné údaje a úplná anonymizácia môže viesť k zbytočnému použitiu údajov na akékoľvek analytické účely.

Náš prístup

Pre našich zákazníkov chceme uchovávať čo najviac prehľadných údajov tak dlho, ako je to možné, aby analytici mohli s dátami stále efektívne pracovať a prinášať inovatívne riešenia v oblastiach umelej inteligencie a strojového učenia. Aby to bolo možné realizovať, je náš prístup rozdelený do troch fáz:

  1. Rozsiahla analýza údajov zákazníkov.
  2. Konfigurácia a nasadenie vlastného anonymizačného rámca.
  3. Vykonanie anonymizácie.

Anonymizačný framework

None

Proces analýzy je najdôležitejšou časťou, pretože každý zákazník má rôzne údaje, rôzne potreby a rôzne definície toho, čo považuje za identifikovateľné informácie. Preto sa analyzuje každá tabuľka a každý stĺpec, aby sa zistilo, či ide o informácie umožňujúce identifikáciu osôb, a ak áno, aký druh anonymizácie alebo pseudo-anonymizácie by sa mal použiť. To všetko potvrdzuje zákazník.

None

Ďalšie kroky zahŕňajú konfiguráciu, nasadenie a vykonanie procesu anonymizácie. Adastra vyvinula anonymizačný rámec pre prostredia DWH a Hadoop, ktorý umožňuje okamžitú anonymizáciu, pseudo-anonymizáciu a tokenizáciu hodnôt v prípade, že niektoré hodnoty musia byť reverzibilné. Ak existujúce metódy nie sú dostatočné, je možné pridať nové metódy anonymizácie. Keď je rámec nasadený a nakonfigurovaný, pridanie novej tabuľky na anonymizáciu je jednoduchou záležitosťou konfigurácie.

Zanechajte nám kontakt, ozveme sa vám.

Ďakujeme

V čo najbližšej dobe sa vám ozveme.

Matej Bordáč

Managing Consultant

Matej Bordáč