Klastry Big Data służą nam do bezpiecznego składowania i analizowania naszych danych. Rozwiązania Apache Hadoop & Family kładą duży nacisk na odporność na wszelkie rodzaje awarii sprzętowych. Mamy także zaimplementowanych kilka mechanizmów chroniących przed błędami użytkowników. Jednak bezpieczeństwo wymaga także od nas zabezpieczenia się przed nieuprawnionym dostępem i wykorzystaniem naszych danych. W przypadku rozwiązań typu “Data Lake” w naszym klastrze może znajdować się wiele niezwykle ważnych i cennych informacji, co wymaga od nas wykonania odpowiednich kroków w celu ich ochrony.

Klastry Big Data to zbiór wielu technologii, stąd wdrożone mechanizmy bezpieczeństwa danych muszą obejmować szeroki wachlarz rozwiązań, począwszy od składowania danych, przez systemy obliczeniowe, strumieniowanie danych i kończąc na warstwie prezentacji i wizualizacji wyników. Wprowadzenie zabezpieczeń tylko na wybranych poziomach lub technologiach uczyni nasz system podatny na ataki.

Dodatkowym utrudnieniem w przypadku prawidłowego zabezpieczenia naszych danych jest praca w środowisku rozproszonym wymagających dużo bardziej zaawansowanych mechanizmów bezpieczeństwa.

W przypadku ochrony klastrów “Hortonworks Data Platform” mówimy o pięciu płaszczyznach zabezpieczeń:

  1. Administracja (warstwa niskopoziomowa sieci i sprzętu)
  2. Uwierzytelnianie (authentication)
  3. Autoryzacja (authorization)
  4. Audyt
  5. Ochrona danych (szyfrowanie)

Uwierzytelnianie (authentication)

W celu uwierzytelnienia użytkowników dystrybucja Hortonworks korzysta z narzędzia Kerberos. Jest to standard większości rozwiązań Big Data i nie tylko. Kerberos jest wspierany przez Apache Ambari na poziomie wdrożenia, konfiguracji i zarządzania.

Kerberos wymaga jednak dość skomplikowanej konfiguracji, dlatego często integruje się go z Apache Knox Gateway upraszczającego integrację z Kerberosem oraz dostarczającego dodatkowe funkcjonalności.

Autoryzacja (authorization)

Kluczowym rozwiązaniem dostępnym w HDP jest Apache Ranger.

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.5/bk_security/content/ad_integration_ranger_architecture.html

Dzięki systemowi pluginów (Java) instalowanych po stronie konkretnych narzędzi, umożliwia on kontrolę większości komponentów dostępnych w dystrybucji, jak np:

  • Apache Hadoop HDFS
  • Apache Hadoop YARN
  • Apache Hive
  • Apache HBase
  • Apache Storm
  • Apache Knox
  • Apache Solr
  • Apache Kafka
  • Apache NiFi

Ranger umożliwia autoryzację dla takich narzędzi jak Hive i Spark na poziomie tabel jak i nawet wierszy czy wybranych kolumn bądź wykonywanych akcji. Uprawnienia mogą być wskazane dla danej grupy lub użytkownika.

Audyt

Hortonworks wprowadza do swojej dystrybucji inicjatywę “Data Governance Initiative (DGI)” dla rozwiązań z rodziny Hadoop. W ramach prac zostało zaadaptowane rozwiązanie Apache Atlas oferujące rozwiązania typu Data Governance.

https://hortonworks.com/apache/atlas/

Apache Atlas umożliwia zarządzanie metadanymi dotyczącymi naszego klastra na wiele wyższym poziomie niż mogliśmy to do tej pory uzyskać wykorzystując Hive Metastore.

Dzięki integracji z Apache Ranger, Atlas umożliwia realizację bezpieczeństwa danych za pomocą polityk bazujących na metadanych zdefiniowanych w Atlasie.

Atlas i Ranger wspierają także audyt dostępu do danych i prezentację tych informacji w postaci raportów.

Ochrona danych (szyfrowanie)

Dzięki wbudowanemu w rozwiązaniu Hadoop systemowi Key Management Server (KMS) możliwa jest także realizacja bezpieczeństwa danych za pomocą szyfrowania. Realizowane to może być zarówno na poziomie transportu po sieci jak i składowania danych w HDFS. Szyfrowanie danych oparte jest o współpracę z Apache Ranger.

Dzięki szyfrowaniu nasze dane mogą być zabezpieczone przed dostępem osób odpowiedzialnych za infrastrukturę, jak np. administratorzy Linux lub Hadoop.

Cybersecurity

Hortonworks ma także dedykowaną platformę do gromadzenia i analizy danych związanych z bezpieczeństwem o nazwie “Hortonworks Cybersecurity Platform (HCP)”.

Hortonworks Cybersecurity Platform (HCP) (obraz pochodzi z https://hortonworks.com/products/data-platforms/cybersecurity/)

Dzięki wdrożeniu tego typu rozwiązań możemy wzbogacić ochronę naszych systemów i sieci o dodatkowe analizy tego co się z nimi dzieje i wyłapywać nadużycia.

Apache Metron (obraz pochodzi z http://metron.apache.org/about/)

Platforma HCP bazuje na rozwiązaniu Apache Metron.