Kapitel Daten geschrieben

586016d7 · Tom Schindler · 726d3a5c · 586016d7 · 586016d7
Commit 586016d7 authored 7 months ago by Tom Schindler
--- a/bericht/bericht.pdf
+++ b/bericht/bericht.pdf
--- a/bericht/bericht.tex
+++ b/bericht/bericht.tex
@@ -5,6 +5,8 @@
 \usepackage[utf8]{inputenc}
 \usepackage{hyperref}
 \usepackage{amssymb}
+\usepackage{enumitem}
+\usepackage{csquotes}
 % Dimensionen bitte nicht ändern. 
 \usepackage[left=2cm, right=2cm, top=2cm, bottom=2cm, bindingoffset=1cm, includeheadfoot]{geometry}
 %Zeilenabstand bitte nicht ändern
@@ -47,7 +49,7 @@ abgestimmte Produkte zu entwickeln.
 \subsection{Anwendungshintergrund}
 Die Analyse von Smartphone-Hardwaredaten spielt eine zentrale Rolle, wenn es darum geht, Kundenpräferenzen zu
 verstehen und darauf basierend gezielte Marketingstrategien zu entwickeln. Moderne Smartphones bestehen aus
-einer Vielzahl von Hardwarekomponenten, wie Prozessoren, Speichereinheiten, Batterien und Kameras, die alle
+einer Vielzahl von Hardwarekomponenten, wie Prozessoren, Speichereinheiten, Batterien und Bildschirmgröße, die alle
 unterschiedlich wahrgenommen und genutzt werden. Diese Daten können durch geeignete Analysetools extrahiert
 und visuell aufbereitet werden, um Muster und Trends zu erkennen, die für Unternehmen von großem Interesse sind.\\
 \\
@@ -107,7 +109,82 @@ In den folgenden Abschnitten werden die verwendeten Daten, die erstellten Visual
 und deren Anwendungensfälle detailliert beschrieben.

 \section{Daten}
-
+Die verwendeten Daten stammen von Kaggle\cite{Daten} und liegen im CSV-Format vor. Diese Datensammlung umfasst Informationen
+zu verschiedenen Hardware-Komponenten, Preisen, Bewertungen und weiteren Merkmalen einer großen Anzahl älterer und aktueller
+Smartphone-Modelle (insgesamt 984 Einträge in der CSV-Datei). Die Datenspalten der CSV-Datei\cite{Daten} umfassen:
+
+\begin{itemize}[itemsep=0pt]
+    \item Brand - Marke des Smartphones
+    \item Model - Model des Smartphones
+    \item Price - Price des Smartphones
+    \item Rating - durchschnittliche Kundenbewertung
+    \item 5G - hat 5G oder nicht
+    \item NFC - hat NFC oder nicht
+    \item IR Blaster - hat IR Blaster oder nicht
+    \item Processor Name - Name des Prozessors
+    \item Processor Brand - Marke des Prozessors
+    \item NumCores - Kernanzahl
+    \item Processor Speed - Anzahl der Zyklen pro Sekunde, die eine CPU ausführen kann
+    \item Ram and internal storage (ram) - RAM and interner Speicher
+    \item Battery - Kapazität der Battery
+    \item Fast Charging - hat Fast Charging oder nicht, und falls ja Kapazität
+    \item Internal Mem - interner Speicher des Smartphones
+    \item RAM - RAM des Smartphones
+    \item Screen Size - Bildschirmgröße des Smartphones
+    \item Resolution - Auflösung des Smartphones
+    \item Refresh Rate - Bildwiederholfrequenz des Smartphones
+    \item Camera - Kameraqualität der Rück- und Frontkamera
+    \item Card - Speicherkarte unterstützt oder nicht und falls ja Speicherkapazität
+    \item OS - Betriebssystem des Smartphones
+\end{itemize}
+Die meisten Datenspalten aus der CSV-Datei wurden in die Datenvorverarbeitung der Anwendung integriert, die in Elm
+programmiert wurde. Ausgenommen davon ist die Spalte \enquote{Ram and internal storage (ram)}, da hierfür bereits separate
+Spalten vorhanden sind. Einige weitere Spalten wie \enquote{Camera}, \enquote{Card}, \enquote{OS} und \enquote{Resolution} wurden bei der
+Vorverarbeitung lediglich als Zeichenketten gespeichert und werden in den Visualisierungen der Anwendung nicht
+weiter berücksichtigt. Diese Spalten weisen Inkonsistenzen in ihren Datenwerten auf (meist in Textform), was es
+schwierig machte, daraus numerisch vergleichbare Werte zu erzeugen.
+Diese Daten könnten in zukünftigen Arbeiten weiter aufbereitet und in die Visualisierungen integriert werden.\\
+\\
+Alle anderen Daten fließen entweder direkt oder indirekt (z.B. als Filteroption oder Beschriftung) in die
+Visualisierungen ein. Bei der Vorverarbeitung wurden bei den meisten numerischen Werten bestimmte Zeichen oder
+Wörter entfernt, um den reinen numerischen Wert zu extrahieren (z.B. Screen Size = \enquote{6.6 inches} zu \enquote{6.6} oder
+Processor Speed = \enquote{2.2 GHz Processor} zu \enquote{2.2}). Daten, die das Vorhandensein eines Merkmals beschreiben, wurden
+in Elm in Wahrheitswerte übersetzt (z.B. \enquote{5G}), welche meist als Filteroption dienen. Alle weiteren beschreibenden
+(textuellen) Daten wurden in ihrer ursprünglichen Form als Zeichenketten gespeichert und dienen hauptsächlich der
+Beschriftung oder als Filter. Fehlende Datenwerte wurden in Elm als Nothing-Werte behandelt.\\
+\\
+\textbf{Verarbeitungschritte:}
+\begin{enumerate}[]
+    \item Auswahl der Daten (nach Sinnhaftigkeit für Projekt)
+    \item Zuordnung der Daten zu einer Arten (numerische vergleichbare Werte, Wahrheitswerte, textuelle Beschreibungen)
+    \item Falls nötig manuelle Anpassung einzelner (fehlerhafter) Werte
+    \item Parsen der Datenwerte von der CSV-Datei:
+          \begin{itemize}
+              \item Falls numerischer Wert in Zeichenkette - extrahieren durch entfernen der Textinhalte und parsen zu Datentyp
+              \item Falls numerischer Wert - extrahieren und parsen zu Datentyp
+              \item Falls Wahrheitswert - in Elm Wahrheitwert übersetzen
+              \item Falls Wert nicht vorhanden (egal welcher Art) - in Elm Nothing übersetzen
+              \item sonst - als Zeichenkette speichern
+          \end{itemize}
+    \item Speicherung der Daten im Model
+\end{enumerate}
+Anmerkung: Da bei einigen wenigen Smartphone-Modellen in der CSV-Datei falsche Datenwerte für den RAM und den internen Speicher
+vorlagen, wurden diese Daten korrigiert oder ergänzt. Beispielsweise waren bei einigen Modellen RAM und interner Speicher
+vertauscht oder der interne Speicher wurde fälschlicherweise unter RAM eingetragen (z.B. RAM = \enquote{512GB}).\\
+\\
+Die ausgewählten Daten eignen sich gut (bzw. ausreichend) für die Analyse der Smartphone-Daten in Bezug auf die Kundenzufriedenheit und erfüllen
+die Informationsbedürfnisse der definierten Zielgruppe. Aus den Daten lassen sich Zusammenhänge zwischen verbauter Hardware
+und Preis sowie den Kundenbewertungen ableiten und auswerten. Diese Erkenntnisse ermöglichen es, Schwachstellen und Erfolge
+der verschiedenen Modelle zu identifizieren. Die gewonnenen Informationen können von Produktmanagern, Marketingexperten und
+Unternehmensanalysten in die zukünftige Produktentwicklung und -planung neuer Modelle einfließen, um wirtschaftlich
+erfolgreiche und kundenorientierte Smartphones zu entwickeln.\\
+\\
+Leider fehlten in der ausgewählten Datenmenge zusätzliche Informationen wie das Erscheinungsdatum und die Anzahl der
+verkauften Einheiten. Diese Daten wären jedoch äußerst wertvoll, um die Informationsbedürfnisse der definierten Zielgruppe
+noch besser zu unterstützen. Das Erscheinungsdatum eines Smartphones könnte Rückschlüsse auf die in einem bestimmten Jahr
+oder einer bestimmten Zeit verwendete Hardware ermöglichen, was helfen würde, ältere Modelle bei der Produktentwicklung
+und -planung auszuschließen. Die Daten zu den verkauften Einheiten könnten zudem den tatsächlichen Erfolg eines Modells
+verdeutlichen, anstatt sich ausschließlich auf Kundenbewertungen zu stützen.

 \section{Visualisierungen}
 \subsection{Analyse der Anwendungsaufgaben}