Dieses Memorandum ist eine Initiative aus der Trusted Cloud Forschung heraus.

Smart Data - A Big Data Memorandum

Smart Data - A Big Data Memorandum (PDF)
Smart Data - A Big Data Memorandum (PDF)

Mit diesem Memorandum soll eine Diskussion zur Schärfung des Begriffs „Smart Data“ initiiert werden, mit besonderem Fokus auf die Rolle des Themas für die deutsche Wirtschaft sowie in Bezug und Abgrenzung zum Begriff „Big Data“.

Smart Data

= Big Data + Nutzen + Semantik + Datenqualität + Sicherheit + Datenschutz

= nutzbringende, hochwertige und abgesicherte Daten

Diese griffige Formel stellt dar, wie „Smart Data“ über „Big Data“ hinausgeht. Smart Data ist ein zentrales Thema der IKT für Anbieter wie Nutzer. Die dabei entstehenden Herausforderungen müssen interdisziplinär bearbeitet werden, um wirtschaftlich nachhaltige Lösungen zu schaffen.

„Smart Data“-Szenarien sind eingebettet in einen Kontext des wirtschaftlichen Nutzens. Dieser wirtschaftliche Nutzen kann liegen in:

  1. neuen Geschäftsmodellen, die erst durch die Analyse von Datenbeständen möglich sind (gängige Beispiele sind z.B. Google, Amazon, etc.)
  2. der Steigerung der Effizienz bestehender Geschäftsmodelle (wie beispielsweise mittels Predictive Maintenance oder Enterprise Big Data).

Gerade in letzterem Fall liegen besondere Chancen, denn häufig liegen Datenbestände (z.B. aus Produktionsprozessen oder dem Vertrieb) schon vor oder sind leicht zu erhalten und besitzen in der Regel schon eine gewisse nutzbare Struktur. Dabei können Mehrwerte von Smart Data erst entstehen durch

  • die Speicherung und Verarbeitung der Semantik der Daten und Metadaten während der Verarbeitung der Daten, sowie
  • definierte Qualitätsmerkmale von Daten

Allerdings muss man auch kritisch die erhöhten Risiken dieser neuen Art der Datenverarbeitung erkennen: Ohne die Einhaltung des Datenschutzes und der Gewährleistung von Sicherheit bei der Verarbeitung und Nutzung wie auch des Schutzes vor Verfälschung und Missbrauch der Daten, werden die erwarteten Vorteile für die deutsche Wirtschaft nicht zu erreichen sein. Dazu gehört neben technischen Lösungen zur Einhaltung von Datenschutz und Sicherheit auch die Klärung rechtlicher Fragen, z.B. nach der Rolle des Urheberrechts und des „Besitzes“ von Daten.

Herausforderungen für Smart Data

Während erste Werkzeuge für die Handhabung großer Datenmengen Marktreife erlangt haben (insbesondere Datenbanken und Analysewerkzeuge), rücken weitergehende Herausforderungen, die sich aus einer wirtschaftlichen Nutzung umfangreicher Datenmengen ergeben, in den Vordergrund:

  • Der Einsatz von Big Data-Technologien lässt sich nur schwer mit dem Datenschutz und insbesondere dem Recht auf informationelle Selbstbestimmung vereinbaren. Es werden Werkzeuge benötigt, die ein transparentes Management von Zugriffsrechten auf Datenbeständen, Anfragen und Analysen ermöglichen und durchsetzen [Forbes Trends, BITKOM1, BITKOM2, Nayak2013].
  • Nach wie vor sind 80% der weltweit anfallenden Daten unstrukturiert und 95% nicht automatisiert auswertbar. Laut [IBM 2014] liegen allgemein für Unternehmen die Potentiale gezielter Datenanalysen zu gleichen Teilen in internen wie externen Datenbeständen.
  • Die Verfügbarkeit von OpenData und LinkedData ist eine noch weitestgehend brach liegende Möglichkeit für Wirtschaftswachstum, bspw. durch die Bewertung von Marktpotentialen [Fujitsu12, McKinseyOpenData2013, BPBOpenData, OpenGov2012, Herb2012].

Wie lassen sich unter solchen Rahmenbedingungen die zweifelsfrei vorhandenen  Potentiale, die in der wirtschaftlichen Nutzung in großen Datenmengen liegen, heben?

Die semantische Anreicherung von Datenbeständen mit Metadaten gehört hier zu den zentralen Ansätzen, ebenso die Verknüpfung mehrerer Daten-Silos, so dass sogenannte Daten-Marktplätze entstehen und flexibel genutzt werden können. Zudem sind die Datenqualitäten zu erfassen, zu verbessern und nachvollziehbar zu gestalten, so dass diese zum einen helfen können bestehende Geschäftsmodelle besser zu unterstützen oder neue Geschäftsmodelle basierend auf Daten zu ermöglichen.

Derart aufgewertetes Datenmaterial geht in seinen Nutzungsmöglichkeiten weit über Big Data hinaus; es ist daher angebracht, einen neuen Begriff zu verwenden, „Smart Data“. Im folgenden werden die Begriffe in der einleitenden „Formel“ erläutert.

Big Data

Das Big Data Paradigma ist seit 2012 ein zentrales Themenfeld der IKT-Branche [Forbes Trends]. Die von Google bereits 2004 vorgeschlagene Map-Reduce Programmierumgebung [Google MapReduce] war ein Auslöser. Bereits 2012 übertrafen die durch Unternehmen im Big Data Umfeld erzielten Einnahmen die in der Marktstudie [Wikibon] prognostizierten Werte deutlich. Auch über die kommenden drei Jahre werden im Big Data der IKT jährlich Wachstumsraten von über 30% erwartet. Für 2014 werden laut Wikibon Marktstudie [Wikibon] weltweit 28,4 Milliarden USD an Einnahmen prognostiziert.

Laut einer Umfrage der SAP AG [SAP] oder auch in Berichten der BITKOM [BITKOM1, BITKOM2] liegen die Hauptpotentiale beim Einsatz von Big Data Technologien im noch auszuschöpfenden Optimierungspotential von Geschäftsprozessen, in einem verbesserten Risiko-Management, sowie einer stärker markt-orientierten Produktentwicklung.

Nutzen

Smart Data ist kein Selbstzweck, sondern es Voraussetzung zur Lösung weitergehender gesellschaftlicher und wirtschaftlicher Herausforderungen, wie ein modernes Energie-Management unserer Stromnetze, die Einführung von Industrie 4.0-Szenarien, sowie eine modernes, leistungsstarkes und dennoch kosteneffizientes Gesundheitswesen:

  • Energienetze: Insbesondere Smart Grids mit intelligenten hochvernetzten Verbrauchern und Erzeugern funktionieren nur mittels Smart Data. Selbst einfache Energiemessdaten ohne Wissen über z. B. Messfehler, Mess-Orte und Energieart lassen sich nicht mehr zweifelsfrei verarbeiten. Ohne semantische Annotationen, belegbare Datenqualität und die Wahrung der Privatsphäre sind keine zuverlässigen und kostengünstigen Energienetze der Zukunft realisierbar.
  • Industrie 4.0: Rückkopplungen großer Datenmengen aus dem Feld in den Produktionsprozess erlauben selbstverbessernde Prozesse. Durch Datenverarbeitungen in Realzeit werden adaptive Fertigung und unmittelbare Reaktion auf Nachfrageänderungen möglich. Über die explizite Semantik in Smart Data werden verlässliche Geschäftsentscheidungen auf Analyseergebnissen möglich.
  • Gesundheitsbereich: Es werden erhebliche Mengen an komplexen und zunehmend strukturierten Daten generiert. Einer Studie von McKinsey [McKinsey2013] zufolge wird für die USA ein jährliches Einsparpotential der Healthcare Kosten von 300 – 450 Milliarden US$ durch die Nutzung von Big Data Technologien prognostiziert.
  • Medien: Etwa ein Drittel aller Datenbestände sind schon in der Cloud gespeichert, dieser Anteil wächst im Laufe dieses Jahres auf 40 Prozent an. Vor allem private Anwender werden zunehmend diese praktische Auslagerung ihrer Daten nutzen. Fast die Hälfte der 2020 in der Cloud abgelegten Daten werden aus dem Unterhaltungsbereich kommen, sagt IDC in ihrer Studie voraus [IDC2012].

Da kleine und mittelständische Unternehmen (KMU) im Vergleich zu Großunternehmen mit weniger Ressourcen arbeiten und seltener Skaleneffekte nutzen können, ist es für sie umso schwieriger, sich einem erhöhten Wettbewerbsdruck aus eigener Kraft zu stellen. Integrierte, firmenübergreifende Wertschöpfungsnetze bieten hingegen eine Möglichkeit, die notwendigen Skalen- und Verbundeffekte zu realisieren. Dabei werden die Vernetzung von sensorgestützten Produkten und Produktionsanlagen und Nutzern eine besondere Rolle spielen. Dabei ist Smart Data eine wichtige Voraussetzung, indem Planungs-, Steuerungs- und Zustandsinformationen aus heterogenen Datenquellen in Echtzeit über Unternehmensgrenzen hinweg aufbereitet, analysiert und bereitgestellt werden.

Semantik

Erst durch eine intelligente Verarbeitbarkeit wird Big Data zu Smart Data. Die Verwendung semantischer Technologien ist dabei Voraussetzung insbesondere für die effektive Adressierung des ‚Variety‘-Aspekts von Big Data.

Die Wichtigkeit einer expliziten Betrachtung von „Bedeutung“ im Umfeld von Smart Data zeigt sich in vier wesentlichen Gesichtspunkten:

  1. Interoperabilität durch die Verwendung standardisierter Sprachen und Datenstrukturen. Insbesondere wird dadurch die Wiederverwendung etablierter Ontologien und Domänenmodelle ermöglicht.
  2. Intelligente Verarbeitung von Smart Data durch die Berücksichtigung ihrer Bedeutung. Dies ermöglicht insbesondere die kontextabhängige Bestimmung von Konsistenz,  Relevanz, sowie Update-Häufigkeit bei der Nutzung von Daten (vgl. auch ‚Variety‘).
  3. Datenintegration durch standardisierte Web-Zugriffsprotokolle  und die semantische Beschreibung von Daten. Durch diese Ansätze wird die Integration von Daten aus verschiedenen Quellen (sowohl  firmenintern als auch extern) automatisierbar und nachvollziehbar (vgl. auch ‚Veracity‘).
  4. Mit Adaptiver Datenanalyse können Objekte und Ereignisse in multimodalen Datenquellen (u.a. informelle Texte, Videos, etc.) erkannt und mit existierendem Wissen (siehe auch Linked Open Data) nutzbringend verknüpft werden (vgl. auch Velocity).

THESEUS:Theseus Logo

Die Entwicklung und Anwendung semantischer Technologien im Projekt THESEUS liefert eine hervorragende Ausgangslage für Weiterentwicklungen in Richtung Smart Data. Insbesondere ist eine Weiterentwicklung in Richtung der vier V’s von wesentlicher Relevanz: Skalierbarkeit (‚Volume‘), Streaming Data (‚Velocity‘), Handhabung unterschiedlicher Datenarten einschließlich  bspw. informeller Texte (‚Variety‘), sowie Beschreibung von Datenherkunft und Verlässlichkeit der Quellen (‚Veracity‘).

Datenqualität

Das bislang fast blinde Vertrauen in die Korrektheit oder Relevanz von Daten und Informationen ist anhand einer  herzustellenden Nachvollziehbarkeit bez. Herkunft, Verarbeitung und Qualitätsstufen der Daten auf ein solides Fundament zu stellen, das wesentliche Grundlage für nachhaltige Geschäftsmodelle, aufbauend auf Daten, ist.  Die Qualität von Daten und Metadaten muss dazu aus der Nutzersicht datenbasierter Angebote bestimmt und zudem messbar, nachvollziehbar und dokumentierbar sein. Dies gilt für die Daten, als auch für ihren Ursprung und Kontext, ihre Bestimmung, etc. anhand zugeschriebener Metadaten. Dabei gilt es, neben Genauigkeit oder Aktualität auch Fragen der Hinfälligkeit/des Verfalls oder der Fehlerbehebung in Daten und Metadaten zu betrachten. Daten und Metadaten (hierarchisch, integriert oder orchestriert) als auch ihre Qualitäten sind dazu in ihrer Erstellung und Verarbeitung als Prozesse zu verstehen, die methodisch und technisch für die verschiedenen Nutzungsszenarien im Geschäft, der Wissenschaft, dem Datenjournalismus, etc. erfasst werden müssen.

Sicherheit und Datenschutz

Die Absicherung und Verifizierbarkeit von Smart Data bedingt in vielen Fällen, dass bei der Erhebung in den Metadaten erweiterte Informationen zur Datenquelle gespeichert werden. Neben der Möglichkeit, dass in den eigentlichen Daten persönliche oder personenbezogene Daten enthalten sind, entstehen durch diese Anreicherung neue Risiken bezüglich der informationellen Selbstbestimmung. Ein nachvollziehbares Beispiel sind hier z.B. Orts- und Bewegungsdaten von Fahrzeugen, die andererseits aber für interessante Anwendungen wie die Optimierung von Infrastrukturplanung und Verkehrssteuerung besonders wertvoll sein können. Durch eine Kombination und semantische Anreicherung von Informationen lassen sich jedoch möglicherweise Bezüge zu Einzelpersonen herstellen.  Nach dem Deutschen Datenschutzrecht dürfen Personenbezogene Daten allerdings nur unter konkreter Beauftragung und zweckgebunden verarbeitet werden [RKHelbing]. Verstöße gegen das Datenschutzgesetz können weitreichende Folgen in Form von enormen Bußgeldsummen oder sogar Haftstrafen nach sich ziehen. Daher ist es besonders wichtig, organisatorische, technische und rechtliche Rahmenbedingungen, Good Practices und Basisinfrastruktur zu entwickeln, innerhalb derer diesen Anforderungen Rechnung getragen wird. Dazu gehören beispielsweise die Schaffung und Nutzung geeigneter Pseudonymisierungs- und Anonymisierungsverfahren sowie für die Fälle, in denen eine persönliche Zuordnung der Daten sinnvoll und notwendig ist, Mechanismen zur durchgreifenden Kontrolle seitens des Eigentümers [SecFor2014] beziehungsweise im Falle des gewerblichen Handels mit entsprechenden Informationen auch die Möglichkeit der Teilhabe des Eigentümers/Urhebers.

Trusted Cloud:Trusted Cloud Logo

Im Trusted Cloud Programm wurden die Grundlage für sichere Datenverarbeitung und Lösungskonzepte des Cloud Computing erarbeitet. Diese bilden die Grundlage für die erfolgreiche Umsetzung von Smart Data. Cloud Computing muss vertrauenswürdig ein, damit es für smart data nutzbar ist. Umgekehrt kann auch der Betrieb von Clouds eine Beispiel für smart data-Nutzung sein.

Metadaten

Metadaten beinhalten Informationen über die eigentlichen (Basis-)Daten [Wikipedia]. Bekannt geworden durch die zurzeit diskutierten „Telefonverbindungsdaten“ haben sie aber viel weiter reichende Aufgaben, um die Verarbeitung von Daten zu ermöglichen. Sie beschreiben Datenqualität, Struktur der Daten, Semantik, Herkunft, Verwendungszweck und -rechte oder auch Datenschutzverpflichtungen für die Besitzer.

Metadaten sind daher essenziell für die intelligente Auswertung und korrekte Nutzung von Basis-Daten. Metadaten sind die „Smartness“ in Smart Data. Die Form und Detaillierung der Metadaten hängt jedoch stark von der intendierten Nutzung der Basis-Daten ab.

Als Beispiele können dienen:

  • Metadaten organisieren Rechtemanagement bei Mediadaten (u.a. Filmen).
  • Banken benötigen Metadaten über Kundendatensätze für Basel-2/3.
  • Im Anlagenbau oder bei intelligenten mobilen Robotern ist die Verarbeitung von Sensordaten ohne Qualitäts-Metadaten sowie die Steuerung ohne Gültigkeits-Merkmale undenkbar.

Im Bereich Metadaten gibt es derzeit viele Vorschläge, aber kaum gute und damit zur Interoperabilität führende Standards. Jede Anwendung bzw. Abteilung muss  deshalb eigene Metadaten-Strukturen modellieren. Daten-Marktplätze werden nur dann entstehen, wenn passende Metadaten-Modelle standardisiert vorliegen.

Zusammengefasst bedeutet dies, dass durch die Assoziation von Datenanalysen zu Szenarien des wirtschaftlichen Nutzens hohe Potentiale für Unternehmen stecken. Branchenübergreifend spielen Themen wie Datenqualität, Semantik, Sicherheit und Datenschutz dabei eine wesentliche Rolle als Erfolgsfaktor.

Initialunterzeichner

Trusted Cloud Logo

Das Smart Data Memorandum ist eine Initiative aus der Trusted Cloud Forschung heraus und wurde von den folgenden Personen erstunterzeichnet:

Torsten Frank, medisite
Dr. Detlef Hühnlein, ECSEC

Professor Dr. Helmut Krcmar, TUM und fortiss

Florian von Kurnatowski, ENX

Professor Dr. Ralf Reussner, KIT und FZI

Professor Dr. Bernhard Rumpe, RWTH Aachen

Dr. Ralf Schäfer, Fraunhofer HHI

Professor Dr.-Ing. Ina Schieferdecker, Fraunhofer FOKUS und FU Berlin

Professor em. Dr. Herbert Weber, TU Berlin
Dieses Memorandum wurde mit Hinblick auf die Smart-Data Initiative des Bundes erstellt.

Unterstützen

Sie können das Smart Data Memorandum unterstützen, indem Sie sich als Unterstützer registrieren. Das Smart Data Memorandum gibt es auch als PDF-Dokument.

Quellen

[Wikibon] Jeff Kelly, Big Data Vendor Revenue and Market Forecast 2012-2017,  http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2012-2017, Oktober 2013

[SAP] Shandy Lo, Big Data Facts & Figures, http://blogs.sap.com/innovation/big-data/big-data-facts-figures-02218, November 2012

[IBM 2014] Jeff Bertolucci, IBM's Predictions: 6 Big Data Trends In 2014, http://www.informationweek.com/big-data/big-data-analytics/ibms-predictions-6-big-data-trends-in-2014-/d/d-id/1113118, Dezember 2013

[BITKOM1] Bitkom (Hrsg.), Management von Big-Data-Projekten, http://www.bitkom.org/files/documents/LF_big_data2013_web.pdf, 2013

[BITKOM2] Bitkom (Hrsg.), Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte, http://www.bitkom.org/files/documents/BITKOM_LF_big_data_2012_online%281%29.pdf, 2012

[RKHelbing] Helbig Kanzlei für IT- und Datenschutzrecht, Big Data und Datenschutzrecht - Einführung, Übersicht und Webinar, http://www.thomashelbing.com/de/big-data-datenschutzrecht-einfuehrung-uebersicht-webinar

[SecFor2014] Dr. Lukas Feiler, SSCP (Baker & McKenzie), Big Data – Big Liability? Rechtliche Risiken durch Big Data, https://www.securityforum.at/big-data-big-liability-rechtliche-risiken-durch-big-data/

[BPBOpenData] Bundeszentrale für Politische Bildung, Open Data http://www.bpb.de/gesellschaft/medien/opendata/

[Forbes Trends] Forbes - Top Four Big Data Trends For Businesses In 2014, http://www.forbes.com/sites/centurylink/2014/01/07/top-four-big-data-trends-for-businesses-in-2014/, Januar 2014

[Google MapReduce] Dean, J., & Ghemawat, S., MapReduce: simplified data processing on large clusters. Proceedings of the 6th conference on Symposium on Operating Systems Design & Implementation, Volume 6, 2004

[McKinsey2013] Peter Groves, Basel Kayyali, David Knott, Steve Van Kuiken, The ‘big data’ revolution in healthcare, http://www.mckinsey.com/insights/health_systems/~/media/7764A72F70184C8EA88D805092D72D58.ashx, Januar 2013

[Nayak2013] S. Nayak, Innovations in Big Data Analytics, Technology Analysis Report, Frost&Sullivan Institute, Dezember 2013

[McKinseyOpenData2013] Open data: Unlocking innovation and performance with liquid information, McKinsey Global Institute, http://www.mckinsey.com/insights/business_technology/open_data_unlocking_innovation_and_performance_with_liquid_information, October 2013,

[OpenGov2012] Open Government Data Deutschland: Eine Studie zu Open Government in Deutschland im Auftrag des Bundesministerium des Innern, http://www.bmi.bund.de/SharedDocs/Downloads/DE/Themen/OED_Verwaltung/ModerneVerwaltung/opengovernment.pdf?__blob=publicationFile, Juli 2012,

[Fujitsu12] Linked data. Connecting and exploiting big data, Fujitsu, http://globalsp.ts.fujitsu.com/dmsp/Publications/public/wp-linked-data.pdf , Mai 2012