Big Data – der Rohstoff der Zukunft
Transcription
Big Data – der Rohstoff der Zukunft
Big Data – der Rohstoff der Zukunft Wie Sie auch mit Big Data Datenschutz und Datensicherheit fest im Griff behalten Wolfgang Epting Senior Technical Sales Professional IBM Information Lifecycle and Governance Sven Herschel Senior Technical Sales Professional IBM Information Lifecycle and Governance Big Data – der Rohstoff der Zukunft ! Was ist eigentlich Big Data ? Die Herausforderung Schutz von Big Data mit IBM InfoSphere Guardium Schutz von Big Data mit IBM InfoSphere Optim © 2013 International Business Machines Corporation 2 Was ist eigentlich „Big Data“? – Eine beispielhafte Klassifizierung Beispiele Web and Social Media Clickstream Daten • Twitter Feeds • Facebook Postings • Web content “Big data are high • E-Mails • volume, high velocity, and/or high variety information assets • Smart Meter Daten Maschinen• RFID thatInformationen require new forms of processing daten • GPS Signale to enable enhanced decision making, • Sensordaten (z.B. Durchflußmengen, Druck, Temperaturen) insight discovery and process optimization.” • Gesichtserkennung Maschinen• Genetische Daten fremde Daten Douglas, Laney. "The Importance of 'Big Data': A Definition". Gartner, 2012. Aufzeichnungen von Call-Center-Gesprächen • Schriftliche Dokumente (Arztberichte, Reklamationsberichte etc.) • Transaktionsdaten Telekommunikationsverbindungsdaten • Energieabrechungsdaten • © 2013 International Business Machines Corporation 3 “Big Data”: Vielfältige und schnell wachsende Daten, gut genutzt Variety Variabilität Strukturiert, unstrukturiert, Text, Multimedia Geschwindigkeit Analyse von Datenströmen für Entscheidungen in Sekundenbruchteilen Volume Terabytes bis Petabytes Velocity Datenmengen Veracity Daten – Verlässlichkeit Belastbare Daten mit bekannter Herkunft, für geschäftliche Entscheidungen aufbereitet. Die derzeitige Herausforderung besteht darin, „Big Data“ sinnvoll in unternehmerischen Entscheidungsprozessen einzusetzen © 2013 International Business Machines Corporation 4 Big Data macht nicht Alles Neu, sondern ergänzt bekannte Konzepte Traditioneller Ansatz Neuer Ansatz Strukturiert, analytisch, logisch kreativ, ganzheitlich, intuitiv Transaction Data Data Warehouse Hadoop Streams Web Logs Social Data Internal App Data Structured Strukturiert Repeatable Linear Mainframe DataWiederholbar Linear Monthly sales reports Profitability analysis OLTP System Datasurveys Customer ERP data Traditional Sources © 2013 International Business Machines Corporation Enterprise Integration Unstructured Unstrukturiert Exploratory Text Data: emails Erforschend Iterative IterativBrand sentiment Product strategy Sensor data: images Maximum asset utilization New Sources RFID 5 Big Data – der Rohstoff der Zukunft ! Was ist eigentlich Big Data ? Die Herausforderung Schutz von Big Data mit IBM InfoSphere Guardium Schutz von Big Data mit IBM InfoSphere Optim © 2013 International Business Machines Corporation 6 Information Governance Core Disciplines Security and Privacy Understand & Define Secure & Protect Monitor & Audit http://ibmexperts.computerwoche.de/analytics-big-data/artikel/managementreagiert-zu-langsam-auf-datenmissbrauch?r=4626308161045983&lid=208618 © 2013 International Business Machines Corporation 7 Big Data – der Rohstoff der Zukunft ! Was ist eigentlich Big Data ? Die Herausforderung Schutz von Big Data mit IBM InfoSphere Guardium Schutz von Big Data mit IBM InfoSphere Optim © 2013 International Business Machines Corporation 8 Typische Anforderungen des Auditors • Dokumentation von – – – – Benutzerzugriffen privilegierter / persönlicher Benutzer Accountmanagement-Aktivitäten (GRANT, REVOKE etc.) Administrativen Kommandos, Utilities etc. Zugriffen auf sensible Objekte (z.B. Kreditkartendaten) • Einhaltung von Best Practices – Schutz vor SQL-Injection – Regelmäßige Prüfung ordnungsgemäßer Datenbankkonfiguration • Erstellung und Prüfung von Berichten über diese Dokumentation © 2013 International Business Machines Corporation 9 Typische Anforderung des Auditierten GET OUT OF MY WAY. © 2013 International Business Machines Corporation 10 Typische Anforderungen des Auditierten (konstruktiv) • Minimale Konfigurations- und Administrationsaufwände • Integration in bestehende Landschaft – Authentifizierung – Rechte- und Rollenkonzept – Ggf. existierende Alarmierungsketten • Minimaler Overhead – Einfluss auf die Infrastruktur – Speicheranforderungen für Audit-Logs © 2013 International Business Machines Corporation 11 Ähnliche Anforderungen an Sicherheit und Compliance auch in Big Data •Who is running specific big data requests? •What map-reduce jobs are they running? Infrastrukturen Big Data Platform Structured •Are they trying to download all of the sensitive data for non-authorized purposes?, •Is there an exceptional number of file permission exceptions? Unstructured •Are these jobs part of an authorized program list accessing the data? •Has some new query application been developed that you were previously unaware existed? Streaming Clients Massive volume of structured data movement • 2.38 TB / Hour load to data warehouse • High-volume load to Hadoop file system Ingest unstructured data into Hadoop file system Integrate streaming data sources © 2013 International Business Machines Corporation Hadoop Cluster 12 Big Data – HDFS Commands © 2013 International Business Machines Corporation 13 Guardium provides real-time Data Activity Monitoring to also protect sensitive data in data warehouses, Big Data Environments and file shares DATA Big Data Environments NEW InfoSphere BigInsights Integration with LDAP, IAM, SIEM, TSM, Remedy, … © 2013 International Business Machines Corporation 14 Big Data – der Rohstoff der Zukunft ! Was ist eigentlich Big Data ? Die Herausforderung Schutz von Big Data mit IBM InfoSphere Guardium Schutz von Big Data mit IBM InfoSphere Optim © 2013 International Business Machines Corporation 15 Datenanonymisierung in nicht-produktiven Umgebungen (Entwicklung, Test, Schulung) • Maskieren oder anonymisieren von sensitiven Daten, die auf eine Einzelperson schließen lassen • Sicherstellen, dass maskierte Daten dem Kontext der ersetzten Daten entsprechen, um die Testqualität nicht zu beeinflussen • Realistische und dennoch fiktive Daten • Maskierte Daten innnerhalb der erlaubten Limits • Unterstützung von referentieller Integritat der maskierten Daten zur Vermeidung von Fehlern beim Testen JASON MICHAELS © 2013 International Business Machines Corporation ROBERT SMITH PCI DSS Compliance Informationen, die Rückschlüsse auf Einzelpersonen erlauben, werden für Test und Entwicklung mit realistischen, aber fiktiven Daten ersetzt 16 Auffinden von versteckten sensitiven Daten Information Governance Core Disciplines Security and Privacy Understand & Define Secure & Protect InfoSphere Discovery Monitor & Audit • Sensitive Daten lassen sich durch einfache Suchen meist nicht lückenlos auffinden – Tabellen und Lookup Tabellen müssen miteinander verknüpft werden – In längeren Feldern versteckt (Substring) oder über mehere Felder gespeichert (Concatenations) – Unterschiedliche Darstellung (Lookup Tabellen und Fallunterscheidungen) • “Corporate memory” ist mangelhaft und weist Lücken auf – Unvollständige Dokumentation – Spezialisten kennen meist nur ein oder zwei Systeme • Hunderte von Tabellen mit Millionen von Zeilen: – Komplex – Schwer zu verifizieren • Mangelnde Datenqualität verstärkt das Problem Table A Date Phone Time 10-28-2008 555 908 1212 13:52:49 Table B Transaction Number 1352555908121210282008 © 2013 International Business Machines Corporation 17 Mask and Move / Mask in Place Patient No 123456 SSN 333-22-4444 Name Erica Schafer Address 12 Murray Court City Austin State TX Zip 78704 Anonymisierung InfoSphere Optim Data Masking Patient No 112233 SSN 123-45-6789 Name Amanda Winters Address 40 Bayberry Drive City Elgin State IL Zip 60123 Erhöhung der Sicherheit in nicht produktiven Umgebungen Hohe Datenqualität beschleunigt den Testprozess Anonymisierung von kompletten Geschäftsobjekten Einhaltung der referentiellen Integrität Konnsistente Maskierung über Applikations-, Plattform- und Datenbankgrenzen hinweg © 2013 International Business Machines Corporation 18 Masking on the fly - auswertungsorientiert Customer Number 123456 Purchase Order 333-22-4444 Name Erica Schafer Address 12 Murray Court City Austin State TX Zip 78704 Anonymisierung CFO Business reports Marketing team reports InfoSphere Optim Data Masking Reports for business partners Übertragung rollenbasierter Zugriffsrechte auf die Datenebene durch die Verwendung unterschiedlicher Sichten © 2013 International Business Machines Corporation 19 Data Redaction - Schwärzen von Daten Original © 2013 International Business Machines Corporation Redacted 20 InfoSphere Optim Leader Gartner Magic Quadrant for Data Masking Technology Gartner MQ for Data Masking Technology IBM Leader The Magic Quadrant is copyrighted 2012 by Gartner, Inc. and is reused with permission. The Magic Quadrant is a graphical representation of a marketplace at and for a specific time period. It depicts Gartner’s analysis of how certain vendors measure against criteria for that marketplace, as defined by Gartner. Gartner does not endorse any vendor, product or service depicted in the Magic Quadrant, and does not advise technology users to select only those vendors placed in the “Leaders” quadrant. The Magic Quadrant is intended solely as a research tool, and is not meant to be a specific guide to action. Gartner disclaims all warranties, express or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose. 21 © 2013 International Business Machines Corporation 21 Optim Data Lifecycle Management for Big Data Data Discovery Discover Understand Classify Test Data Management • Subset • Mask DATA All Business Data DATA • Archive • Retire • Compare • Refresh • Policybased Dev/Test Supports Data Masking Data Growth Management Application Retirement Archive © 2013 International Business Machines Corporation 22 Fragen © 2013 International Business Machines Corporation 23 Please feel free to contact us with any questions Dipl.-Betriebswirt Sven Herschel sven.herschel@de.ibm.com +49 175 2956045 IBM Software Group Data Governance Solution Architect © 2013 International Business Machines Corporation Wolfgang Epting wolfgang.epting@de.ibm.com +49 160 9064 3048 IBM Software Group Senior Technical Sales Professional IBM Optim Classic, - zOS, - SAP, IBM InfoSphere Discovery 24