Das Speichern von Datensätzen kann verschieden gelöst werden. Zum einen werden oft die uns nun bekannten relationale Datenbanken genutzt und Datensätze oder Felder via SQL abgefragt. Werden diese relationale Datenbanken genutzt werden, dann muss zum Analysieren dieser Daten wird oft eine andere Datenbank, sog. OLAP, verwendet. Wird mit relationalen Datenbanken gearbeitet, ist somit immer ein zweites Analysesystem nötig, um die verwalteten Daten zu analyiseren, Prognosen zu stellen oder ähnliches.
Falls jedoch die gesammelten Daten nicht vom gleichen Typ sind oder sich vom Typ her ändern können, dann kann nicht mehr eine relationale Datenbank genutzt werden.
Im Vergleich zu unserem Instahub mit den generierten 200 Nutzern ist Instagram mit momentan über 2 Milliarden Nutzern ( Siehe hier) verwaltet seine riesigen Datenmengen.
Viele heute grosse Tech-Unternehmen standen vor 10 bis 15 Jahren vor den folgenden zentralen Fragen, deren Beantwortung zur Entwicklung der nötigen Technologien für unsere heutigen (und vermutlich auch viele zukünftige) sozialen Netzwerke oder auch andere Anwendungen (Google, Amazon-Store, …) zentral sind.
In diesem Zusammenhang muss von BIG DAGA und der Herausforderung des Verwaltens und Analysierens von grossen Datenmengen gesprochen werden.
Doch, was ist überhaupt genau BIG DATA? Einen kurzen und guten Überblick bietet der Film. Sicherlich haben die vergangenen Jahre gezeigt: Grundsätzlich werden immer mehr Daten erzeugt, diese sind oft unstrukturiert von verschiedenen Quellen und müssen fast zeitgleich verarbeitet und anschliessend gut abgespeichert werden, möglichst fehlerfrei versteht sich. Dies scheint ein fast unmögliches Vorhaben, diese unglaublich grosse Menge an Daten zu speichern, zu bearbeiten und zu analysieren.
Um diese unglaubliche Menge an Daten überhaupt verwalten und analysieren zu können, ist eine Kombination verschiedener Technologien und Architekturen nötig. Diese sind auf Skalierbarkeit, Leistung und Zuverlässigkeit ausgelegt.
Wir betrachten die zentralen Herausforderungen von Instahub. Vieles davon gilt für alle anderen Riesendatenbanken gleich. Es werden auch sehr oft die gleichen Technologien verwendet.
Es geht darum, dass die Datenbank auf verschiedene Server (bzw. Rechenzentren) verteilt wird, dass bei steigender Anzahl an Nutzern eine Verfügbarkeit wichtig ist. Zudem sollte möglichst rasch und effizient, mit kleiner Fehlertoleranz eine Abfrage bearbeitet werden – oder Analyse von Daten möglich sein. Die Anwendung (als Beispiel Instagram), welche die riesige Datenbank nutzt, muss aber konstant und korrekt zu funktionieren, ohne Ausfälle oder Fehler.
Dies ist bei dieser schieren Datenflut eine echte Herausforderung.
Im Folgenden werden einige der wichtigsten zentralen technischen Fragestellungen und Probleme der Verarbeitung von sehr grossen Datenmengen thematisiert. Diese Probleme wurden oft gemeinsam von vielen heute grossen Tech-Unternehmen wie Amazon, Google oder auch einigen Universitäten, welche sich in diesem Gebiet spezialisierten, gelöst. Eine erste Antwort ist jeweils formuliert und zusätzliches Lesematerial bereitgestellt.
Die mit diesem Thema einhergehenden ethischen oder auch politischen Themen werden ausgeklammert, wären aber sehr interessant.
Was ist Big-Data?
Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden. Dies bedingt aber, dass es gute Datenbankmanegementsysteme gibt, die dies überhaupt ermöglichen. Diese Insta-Datenbank und die damit verbundenen Hardware- und Softwaresysteme müssen verschiedene Kriterien erfüllen:
Ein Datencenter von innen…wo die Daten physisch gespeichert sind… https://youtu.be/_r97qdyQtIk
Hier ein Experiment von Malte Spitz (einem Journalisten) zu Bewegungsdaten und was daraus geschlossen werden kann! Malte hat auch eine Website dazu: https://apps.informatik.cc/tracking/. Dies ist eine beeindruckende und zugleich simple Illustration der Macht verknüpfter Daten allgemein.
Was passiert, wenn grosse Datenmengen mit Hilfe von KI durchsucht, geordnet oder auch analysiert werden?
- Macht verknüpfter Daten mithilfe von KI SRF-Beitrag und allgemein ein Dokument zu KI und Daten(-analyse) https://www.plattform-lernende-systeme.de/files/Downloads/Publikationen/AG1_Whitepaper_Von_Daten_zu_KI.pdf
Macht der Daten ist ein Artikel von Katharina Nocun, Publizistin, Politik- und Wirtschaftswissenschaftlerin, ehemalige Netzaktivistin, Bloggerin und Politikerin.
Opendata.ch, Gegensteuer zu den grossen Tech-Konzernen, lasst uns gemeinsam unsere digitale Zukunft gestalten, um auf soziale Bedürfnisse zu reagieren und Menschen zu unterstützen. An diesen Projekte arbeiten wir, um unsere Vision zu verwirklichen.