Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| gf2:datenbanken:herausforderungen [2024/05/19 22:02] – marroc | gf2:datenbanken:herausforderungen [2024/06/12 14:57] (aktuell) – marroc | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| ====Verschiedene Datenbanktypen=== | ====Verschiedene Datenbanktypen=== | ||
| - | Das Speichern von Datensätzen kann verschieden gelöst werden. Zum einen werden oft die uns nun bekannten relationale Datenbanken genutzt und Datensätze oder Felder via SQL abgefragt. Werden diese relationale Datenbanken genutzt werden, dann muss zum Analysieren dieser Daten wird oft eine andere Datenbank, sog. OLAP, verwendet. Wird mit relationalen Datenbanken gearbeitet, ist somit immer ein zweites Analysesystem nötig, um die verwalteten Daten zu analyiseren, | + | Das Speichern von Datensätzen kann verschieden gelöst werden. Zum einen werden oft die uns nun bekannten relationale Datenbanken genutzt und Datensätze oder Felder via SQL abgefragt. Werden diese relationale Datenbanken genutzt werden, dann muss zum Analysieren dieser Daten wird oft eine andere Datenbank, sog. OLAP, verwendet. Wird mit relationalen Datenbanken gearbeitet, ist somit immer ein zweites Analysesystem nötig, um die verwalteten Daten zu analyiseren, |
| + | Falls jedoch die gesammelten Daten nicht vom gleichen Typ sind oder sich vom Typ her ändern können, dann kann nicht mehr eine relationale Datenbank genutzt werden. | ||
| < | < | ||
| <panel title=" | <panel title=" | ||
| Zeile 15: | Zeile 16: | ||
| </ | </ | ||
| ==== Herausforderungen für grosse Datenbanken ==== | ==== Herausforderungen für grosse Datenbanken ==== | ||
| - | Im Vergleich zu unserem Instahub mit den generierten 200 Nutzern ist Instagram mit momentan über 2 Milliarden Nutzern ([[https:// | + | {{ : |
| + | Im Vergleich zu unserem Instahub mit den generierten 200 Nutzern ist Instagram mit momentan über 2 Milliarden Nutzern ([[https:// | ||
| + | \\ | ||
| + | Viele heute grosse Tech-Unternehmen standen vor 10 bis 15 Jahren vor den folgenden zentralen Fragen, deren Beantwortung zur Entwicklung der nötigen Technologien für unsere heutigen (und vermutlich auch viele zukünftige) sozialen Netzwerke oder auch andere Anwendungen (Google, Amazon-Store, | ||
| + | \\ | ||
| + | <color # | ||
| + | Doch, was ist überhaupt genau BIG DATA? Einen kurzen und guten Überblick bietet der Film. Sicherlich haben die vergangenen Jahre gezeigt: // Grundsätzlich werden immer mehr Daten erzeugt, diese sind oft unstrukturiert von verschiedenen Quellen und müssen fast zeitgleich verarbeitet und anschliessend gut abgespeichert werden, möglichst fehlerfrei // versteht sich. Dies scheint ein fast unmögliches Vorhaben, diese unglaublich grosse Menge an Daten zu speichern, zu bearbeiten und zu analysieren. | ||
| |{{ youtube> | |{{ youtube> | ||
| - | Viele heute grosse Tech-Unternehmen standen vor 10 bis 15 Jahren vor den folgenden zentralen Fragen, deren Beantwortung zur Entwicklung der nötigen Technologien für unsere heutigen (und vermutlich auch viele zukünftige) sozialen Netzwerke oder auch andere Anwendungen (Google, Amazon-Store, | + | ====Big Data und die Herausforderungen==== |
| - | + | ||
| - | ====Big Data - wenn unglaublich grosse Datensätze bzw. Datenbanken bearbeitet | + | |
| Um diese unglaubliche Menge an Daten überhaupt verwalten und analysieren zu können, ist eine Kombination verschiedener Technologien und Architekturen nötig. Diese sind auf **Skalierbarkeit**, | Um diese unglaubliche Menge an Daten überhaupt verwalten und analysieren zu können, ist eine Kombination verschiedener Technologien und Architekturen nötig. Diese sind auf **Skalierbarkeit**, | ||
| + | Wir betrachten die zentralen Herausforderungen von Instahub. Vieles davon gilt für alle anderen Riesendatenbanken gleich. Es werden auch sehr oft die gleichen Technologien verwendet. | ||
| - | {{ : | + | Es geht darum, dass die Datenbank auf verschiedene Server (bzw. Rechenzentren) verteilt wird, dass bei steigender Anzahl an Nutzern eine Verfügbarkeit wichtig ist. Zudem sollte möglichst rasch und effizient, mit kleiner Fehlertoleranz eine Abfrage bearbeitet werden – oder Analyse von Daten möglich sein. Die Anwendung |
| <color # | <color # | ||
| Im Folgenden werden einige der wichtigsten zentralen technischen Fragestellungen und Probleme der Verarbeitung von sehr grossen Datenmengen thematisiert. Diese Probleme wurden oft gemeinsam von vielen heute grossen Tech-Unternehmen wie Amazon, Google oder auch einigen Universitäten, | Im Folgenden werden einige der wichtigsten zentralen technischen Fragestellungen und Probleme der Verarbeitung von sehr grossen Datenmengen thematisiert. Diese Probleme wurden oft gemeinsam von vielen heute grossen Tech-Unternehmen wie Amazon, Google oder auch einigen Universitäten, | ||
| - | Die mit diesem Thema einhergehenden ethischen oder auch politischen Themen werden ausgeklammert, | + | Die mit diesem Thema einhergehenden ethischen oder auch politischen Themen werden ausgeklammert, |
| + | [[https:// | ||
| + | |Was ist Big-Data?]] | ||
| <WRAP nicebox blue> | <WRAP nicebox blue> | ||
| - | {{ : | + | ===Wie können Billionen von Bildern |
| - | <color # | + | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden. Dies bedingt aber, dass es gute Datenbankmanegementsysteme gibt, die dies überhaupt ermöglichen. |
| - | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden! | + | Diese Insta-Datenbank und die damit verbundenen Hardware- und Softwaresysteme müssen verschiedene Kriterien erfüllen: |
| + | * Wir als Nutzer möchten, dass wir immer auf Instagram zugreifen können und es keine technischen (oder zeitlichen) Verzögerungen oder Ausfälle gibt. | ||
| + | * Es sollte auf Seiten Instagram möglichst wenig Fehler geben und die Daten sollten für alle Nutzer gleich aktuell sein. | ||
| + | * Es darf nie Probleme geben, dass ein Bild nicht gespeichert werden kann, somit muss Instagram sehr viel Speicherplatzflexibilität aufweisen können. | ||
| + | * Die Nutzerdaten sollten sicher auf Instagram verwaltet werden. | ||
| + | * ... | ||
| </ | </ | ||
| - | <WRAP nicebox blue> | ||
| - | {{ : | ||
| - | <color # | ||
| - | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden! | ||
| + | <WRAP nicebox yellow> | ||
| + | ===Insta' | ||
| + | * Instagram hat sehr **viele Server**, alle davon stehen in Kalifornien. Das Unternehmen kann sehr schnell mehr Server dazuschalten. | ||
| + | * Es gibt eine gute **technische Überwachung des Systems**, welches ein gutes Management der Server, ein gutes Backup und eine optimierte Abfrage und Datenspeicherung garanitiert. | ||
| + | * Die Aktivität der Nutzer wird in viele kleine Anwendungen (Services) bzw. **Teilaufgaben** aufgeteilt. So können diese oft unabhängig voneinander bearbeitet werden. Spannend ist auch, dass diese Aufgaben oft **asynchron** bearbeitet werden und es hier viel Geschick brauchte, damit dieses nicht gleichzeitige Bearbeiten überhaupt fehlerfrei möglich wird und von uns Nutzern nicht bemerkt wird. | ||
| + | * Instagram muss zudem auch sicherstellen, | ||
| + | * Was der Nutzer nicht merken sollte, aber sicher hin und wieder zum Einsatz kommt, ist ein gut funktionierendes **Backupsystem**, | ||
| + | * Wird bei einer so grossen Datenbank eine **Abfrage** gemacht, muss diese **optimiert** werden (JOINs brauchen viel Zeit und sollten möglichst vermieden oder auf kleinere Datenmengen angewandt werden...) | ||
| + | * ... | ||
| </ | </ | ||
| - | <WRAP nicebox blue> | ||
| - | {{ : | ||
| - | <color # | ||
| - | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden! | ||
| - | </ | + | ===Wo werden |
| - | <WRAP nicebox blue> | + | Ein Datencenter von innen...wo die Daten physisch gespeichert sind... |
| - | <color # | + | https:// |
| - | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden! | + | {{ youtube> |
| - | </ | + | ==Links - Technisches zu Instagram== |
| - | <WRAP nicebox blue> | + | |
| - | <color #7092be>**Wie kann eine so grosse Datenbank überhaupt gespeichert werden? | + | * [[https:// |
| - | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden! | + | |
| - | </ | + | ===Daten sind Macht === |
| - | <WRAP nicebox blue> | + | == Ein Experiment == |
| - | <color # | + | |
| - | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden! | + | |
| - | </WRAP> | + | [[https:// |
| - | <WRAP nicebox blue> | + | \\ |
| - | <color #7092be>**Wie kann eine so grosse | + | == KI und Datenmengen == |
| - | Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden! | + | |
| + | Was passiert, wenn grosse | ||
| + | - Macht verknüpfter Daten mithilfe von KI [[https:// | ||
| + | \\ | ||
| + | \\ | ||
| + | ==Macht der grossen Tech-Konzerne== | ||
| + | [[https:// | ||
| + | |||
| + | [[https:// | ||
| - | </ | ||