Big Data – der Rohstoff der Zukunft

Transcription

Big Data – der Rohstoff der Zukunft
Big Data – der Rohstoff der Zukunft
Wie Sie auch mit Big Data Datenschutz und Datensicherheit
fest im Griff behalten
Wolfgang Epting
Senior Technical Sales Professional
IBM Information Lifecycle and Governance
Sven Herschel
Senior Technical Sales Professional
IBM Information Lifecycle and Governance
Big Data – der Rohstoff der Zukunft !
 Was ist eigentlich Big Data ?
 Die Herausforderung
 Schutz von Big Data mit IBM InfoSphere
Guardium
 Schutz von Big Data mit IBM InfoSphere
Optim
© 2013 International Business Machines Corporation
2
Was ist eigentlich „Big Data“? – Eine
beispielhafte Klassifizierung
Beispiele
Web and
Social Media
Clickstream Daten
• Twitter Feeds
• Facebook Postings
• Web content
“Big
data are high
• E-Mails
•
volume, high velocity,
and/or high variety information assets
• Smart Meter Daten
Maschinen• RFID
thatInformationen
require new forms of processing
daten
• GPS Signale
to enable enhanced decision making,
• Sensordaten (z.B. Durchflußmengen, Druck, Temperaturen)
insight discovery and process optimization.”
• Gesichtserkennung
Maschinen• Genetische Daten
fremde Daten
Douglas, Laney. "The Importance of 'Big Data': A Definition". Gartner, 2012.
Aufzeichnungen von Call-Center-Gesprächen
• Schriftliche Dokumente (Arztberichte, Reklamationsberichte etc.)
•
Transaktionsdaten
Telekommunikationsverbindungsdaten
• Energieabrechungsdaten
•
© 2013 International Business Machines Corporation




3
“Big Data”: Vielfältige und schnell wachsende
Daten, gut genutzt
Variety
Variabilität
Strukturiert,
unstrukturiert,
Text, Multimedia
Geschwindigkeit
Analyse von
Datenströmen für
Entscheidungen in
Sekundenbruchteilen
Volume
Terabytes bis Petabytes
Velocity
Datenmengen
Veracity
Daten –
Verlässlichkeit
Belastbare Daten mit
bekannter Herkunft, für
geschäftliche
Entscheidungen
aufbereitet.
Die derzeitige Herausforderung besteht darin, „Big Data“ sinnvoll
in unternehmerischen Entscheidungsprozessen einzusetzen
© 2013 International Business Machines Corporation
4
Big Data macht nicht Alles Neu, sondern ergänzt
bekannte Konzepte
Traditioneller Ansatz
Neuer Ansatz
Strukturiert, analytisch, logisch
kreativ, ganzheitlich, intuitiv
Transaction Data
Data
Warehouse
Hadoop
Streams
Web Logs
Social Data
Internal App Data
Structured
Strukturiert
Repeatable
Linear
Mainframe DataWiederholbar
Linear
Monthly sales reports
Profitability analysis
OLTP System
Datasurveys
Customer
ERP data
Traditional
Sources
© 2013 International Business Machines Corporation
Enterprise
Integration
Unstructured
Unstrukturiert
Exploratory
Text Data: emails
Erforschend
Iterative
IterativBrand sentiment
Product
strategy
Sensor
data: images
Maximum asset utilization
New
Sources
RFID
5
Big Data – der Rohstoff der Zukunft !
 Was ist eigentlich Big Data ?
 Die Herausforderung
 Schutz von Big Data mit IBM InfoSphere
Guardium
 Schutz von Big Data mit IBM InfoSphere
Optim
© 2013 International Business Machines Corporation
6
Information Governance Core Disciplines
Security and Privacy
Understand &
Define
Secure &
Protect
Monitor
& Audit
http://ibmexperts.computerwoche.de/analytics-big-data/artikel/managementreagiert-zu-langsam-auf-datenmissbrauch?r=4626308161045983&lid=208618
© 2013 International Business Machines Corporation
7
Big Data – der Rohstoff der Zukunft !
 Was ist eigentlich Big Data ?
 Die Herausforderung
 Schutz von Big Data mit IBM InfoSphere
Guardium
 Schutz von Big Data mit IBM InfoSphere
Optim
© 2013 International Business Machines Corporation
8
Typische Anforderungen des Auditors
• Dokumentation von
–
–
–
–
Benutzerzugriffen privilegierter / persönlicher Benutzer
Accountmanagement-Aktivitäten (GRANT, REVOKE etc.)
Administrativen Kommandos, Utilities etc.
Zugriffen auf sensible Objekte (z.B. Kreditkartendaten)
• Einhaltung von Best Practices
– Schutz vor SQL-Injection
– Regelmäßige Prüfung ordnungsgemäßer Datenbankkonfiguration
• Erstellung und Prüfung von Berichten über diese Dokumentation
© 2013 International Business Machines Corporation
9
Typische Anforderung des Auditierten
GET OUT OF MY WAY.
© 2013 International Business Machines Corporation
10
Typische Anforderungen des Auditierten
(konstruktiv)
• Minimale Konfigurations- und Administrationsaufwände
• Integration in bestehende Landschaft
– Authentifizierung
– Rechte- und Rollenkonzept
– Ggf. existierende Alarmierungsketten
• Minimaler Overhead
– Einfluss auf die Infrastruktur
– Speicheranforderungen für Audit-Logs
© 2013 International Business Machines Corporation
11
Ähnliche Anforderungen an Sicherheit und
Compliance auch in Big Data
•Who is running specific big data requests?
•What map-reduce jobs are they running?
Infrastrukturen Big Data Platform
Structured
•Are they trying to download all of the
sensitive data for non-authorized purposes?,
•Is there an exceptional number of file
permission exceptions?
Unstructured
•Are these jobs part of an authorized
program list accessing the data?
•Has some new query application been
developed that you were previously
unaware existed?
Streaming
Clients
 Massive volume of structured data movement
• 2.38 TB / Hour load to data warehouse
• High-volume load to Hadoop file system
 Ingest unstructured data into Hadoop file system
 Integrate streaming data sources
© 2013 International Business Machines Corporation
Hadoop Cluster
12
Big Data – HDFS Commands
© 2013 International Business Machines Corporation
13
Guardium provides real-time Data Activity Monitoring
to also protect sensitive data in data warehouses, Big
Data Environments and file shares
DATA
Big Data
Environments
NEW
InfoSphere
BigInsights
Integration with
LDAP, IAM,
SIEM, TSM,
Remedy, …
© 2013 International Business Machines Corporation
14
Big Data – der Rohstoff der Zukunft !
 Was ist eigentlich Big Data ?
 Die Herausforderung
 Schutz von Big Data mit IBM InfoSphere
Guardium
 Schutz von Big Data mit IBM InfoSphere
Optim
© 2013 International Business Machines Corporation
15
Datenanonymisierung in nicht-produktiven
Umgebungen (Entwicklung, Test, Schulung)
• Maskieren oder anonymisieren von sensitiven Daten, die
auf eine Einzelperson schließen lassen
• Sicherstellen, dass maskierte Daten dem Kontext der ersetzten
Daten entsprechen, um die Testqualität nicht zu beeinflussen
• Realistische und dennoch fiktive Daten
• Maskierte Daten innnerhalb der erlaubten Limits
• Unterstützung von referentieller Integritat der maskierten Daten
zur Vermeidung von Fehlern beim Testen
JASON MICHAELS
© 2013 International Business Machines Corporation
ROBERT SMITH
PCI DSS Compliance
Informationen, die Rückschlüsse auf Einzelpersonen erlauben, werden
für Test und Entwicklung
mit realistischen, aber
fiktiven Daten ersetzt
16
Auffinden von versteckten
sensitiven Daten
Information Governance Core Disciplines
Security and Privacy
Understand &
Define
Secure &
Protect
InfoSphere
Discovery
Monitor
& Audit
• Sensitive Daten lassen sich durch einfache Suchen meist nicht lückenlos auffinden
– Tabellen und Lookup Tabellen müssen miteinander verknüpft werden
– In längeren Feldern versteckt (Substring) oder über mehere Felder gespeichert (Concatenations)
– Unterschiedliche Darstellung (Lookup Tabellen und Fallunterscheidungen)
• “Corporate memory” ist mangelhaft und weist Lücken auf
– Unvollständige Dokumentation
– Spezialisten kennen meist nur ein oder zwei Systeme
• Hunderte von Tabellen mit Millionen von Zeilen:
– Komplex
– Schwer zu verifizieren
• Mangelnde Datenqualität verstärkt das Problem
Table A
Date
Phone
Time
10-28-2008
555 908 1212
13:52:49
Table B
Transaction Number
1352555908121210282008
© 2013 International Business Machines Corporation
17
Mask and Move / Mask in Place
Patient No 123456
SSN 333-22-4444
Name Erica Schafer
Address 12 Murray Court
City Austin
State TX
Zip 78704





Anonymisierung
InfoSphere Optim
Data Masking
Patient No 112233
SSN 123-45-6789
Name Amanda Winters
Address 40 Bayberry Drive
City Elgin
State IL
Zip 60123
Erhöhung der Sicherheit in nicht produktiven Umgebungen
Hohe Datenqualität beschleunigt den Testprozess
Anonymisierung von kompletten Geschäftsobjekten
Einhaltung der referentiellen Integrität
Konnsistente Maskierung über Applikations-, Plattform- und Datenbankgrenzen hinweg
© 2013 International Business Machines Corporation
18
Masking on the fly - auswertungsorientiert
Customer Number 123456
Purchase Order 333-22-4444
Name Erica Schafer
Address 12 Murray Court
City Austin
State TX
Zip 78704
Anonymisierung
CFO Business
reports
Marketing team
reports
InfoSphere Optim
Data Masking
Reports for
business partners
Übertragung rollenbasierter Zugriffsrechte auf die Datenebene
durch die Verwendung unterschiedlicher Sichten
© 2013 International Business Machines Corporation
19
Data Redaction - Schwärzen von Daten
Original
© 2013 International Business Machines Corporation
Redacted
20
InfoSphere Optim Leader
Gartner Magic Quadrant for Data Masking Technology
Gartner MQ for Data
Masking Technology
IBM
Leader
The Magic Quadrant is copyrighted 2012 by Gartner, Inc. and is reused with permission. The Magic Quadrant is a graphical representation of a marketplace at and for a specific time period. It depicts Gartner’s analysis of how certain vendors measure
against criteria for that marketplace, as defined by Gartner. Gartner does not endorse any vendor, product or service depicted in the Magic Quadrant, and does not advise technology users to select only those vendors placed in the “Leaders”
quadrant. The Magic Quadrant is intended solely as a research tool, and is not meant to be a specific guide to action. Gartner disclaims all warranties, express or implied, with respect to this research, including any warranties of merchantability or
fitness for a particular purpose.
21 © 2013 International Business Machines Corporation
21
Optim Data Lifecycle Management for Big Data
Data
Discovery
Discover
Understand
Classify
Test Data
Management
• Subset
• Mask
DATA
All Business
Data
DATA
• Archive
• Retire
• Compare
• Refresh
• Policybased
Dev/Test
Supports
Data
Masking
Data Growth
Management
Application
Retirement
Archive
© 2013 International Business Machines Corporation
22
Fragen
© 2013 International Business Machines Corporation
23
Please feel free to contact us with any questions
Dipl.-Betriebswirt
Sven Herschel
sven.herschel@de.ibm.com
+49 175 2956045
IBM Software Group
Data Governance Solution Architect
© 2013 International Business Machines Corporation
Wolfgang Epting
wolfgang.epting@de.ibm.com
+49 160 9064 3048
IBM Software Group
Senior Technical Sales Professional
IBM Optim Classic, - zOS, - SAP, IBM InfoSphere Discovery
24