@@ -256,7 +256,7 @@ Sie können ihnen konkrete Fragen stellen oder falls sie keine Fragen haben, den
% Document the extent of (or lack of) communication with the original authors. To make sure the reproducibility report is a fair assessment of the original research we recommend getting in touch with the original authors. You can ask authors specific questions, or if you don't have any questions you can send them the full report to get their feedback.
Where SDS is a simplified variant of the BIRD Dataset and the synthetic industrial-scale Dataset is a combination of different Databases from BIRD.
Where SDS is a simplified variant of the BIRD dataset and the synthetic industrial-scale dataset is a combination of different databases from BIRD.
SDS is given in the repository but the industrial scaled Dataset could be difficult to reproduce.
SDS is given in the repository but the industrial scaled dataset could be difficult to reproduce.
\textbf{Metrics}: Execution accuracy is used as the metric for comparison. Report both the total number of tokens and the number of LLM calls required by approach.
\end{frame}
%------------------------------------------------
% Die Text-to-SQL-Gruppen sollen sich auf den Spider-Datensatz beschränken
% Als LLM soll Hilfsmittel OLLAMA verwendet werden, das startet dann einen Webservice
% Anfragen sind dann nur HTTP-requests mit einem JSON-Objekt
% Antwort ist base64-codiert, sollte leicht dekodierbar sein
% Datensatz Spider, ggf. noch Spider 2.0 light, Bird geht zu weit (auch vom inhaltlichen Niveau her, das wäre wohl eher DBP, Ziel ist aber EDB)
% Notiz: eine Anfrage BIRD mit Llama3.2 auf Quadro P4000 mit zu kleiner context-length ca. 1.5 Stunde, über 1500 Fragen
%------------------------------------------------
\makesection{Zielstellung}
%------------------------------------------------
% Darauf eingehen, welche Experimente gemacht wurden und zu welchem Ergebnis die gekommen sind
% Dann unsere eigene Zielstellung formulieren
\begin{frame}{Experiments in the main paper}
%The experiments in the main study are categorised as follows: --Redundant
...
...
@@ -238,110 +253,136 @@
\vfill
For the industrial-scaled dataset, it is not specified how this is formed and it is not made available either.
\end{frame}
%------------------------------------------------
\makesection{Our goals}
%------------------------------------------------
% Unsere eigene Zielstellung formulieren
\begin{frame}{Our goals for the replication}
Für $CHESS_{(IR,CG,UT)}$ wurde Gemini 1.5-pro verwendet\\% $CHEES_{(IR,CG,UT)}$
%\begin{frame}{Our goals for the replication}
%Für $CHESS_{(IR,CG,UT)}$ wurde Gemini 1.5-pro verwendet\\ % $CHEES_{(IR,CG,UT)}$
% Da gibt es auch eine kostenlose Version müsste aber noch mal einer genauer nachschauen wie das geregelt ist. Ich weiß nicht wie man die API bedient und wie das mit den Zahlungen geregelt ist
Replikation der Ergebnisse über Reihenfolge von Unit Test und SQL-Canidates (EX=68.31 vs EX=66.78)
%Replikation der Ergebnisse über Reihenfolge von Unit Test und SQL-Canidates (EX=68.31 vs EX=66.78)
Für $CHESS_{(IR,SS,CG)}$ experiments using older proprietary models such as GPT-3.5/4-turbo (niedriger Dollar Bereich), as well as open-source models like \textbf{Llama-3-70B} and a \textbf{fine-tuned DeepSeek} model. % $CHEES_{(IR,SS,CG)}$
Hier können wir würde ich vorschlagen die Open-Source Varianten zu reproduzieren.
%Für $CHESS_{(IR,SS,CG)}$ experiments using older proprietary models such as GPT-3.5/4-turbo (niedriger Dollar Bereich), as well as open-source models like \textbf{Llama-3-70B} and a \textbf{fine-tuned DeepSeek} model. % $CHEES_{(IR,SS,CG)}$
%Hier können wir würde ich vorschlagen die Open-Source Varianten zu reproduzieren.
Wenn eines der beiden steht kann man am besten die einzelnen Funktionen vom SS weglassen und versuchen die Ergebnisse zu replizieren auch den Entity und Kontext Retriver weglassen ist eine Option. Hier wird das SDS verwendet was im repository hinterlegt ist.
Aber leider keine Angaben zum verwendeten LLM.
%Wenn eines der beiden steht kann man am besten die einzelnen Funktionen vom SS weglassen und versuchen die Ergebnisse zu replizieren auch den Entity und Kontext Retriver weglassen ist eine Option. Hier wird das SDS verwendet was im repository hinterlegt ist.
%Aber leider keine Angaben zum verwendeten LLM.
Technische Anforderungen fallen bei uns bis auf API Verfügbarkeit weg. Zu Open Source leider keine Angaben gefunden.
\end{frame}
%Technische Anforderungen fallen bei uns bis auf API Verfügbarkeit weg. Zu Open Source leider keine Angaben gefunden.
%\end{frame}
\begin{frame}{Our goals for the replication (Cont.)}
\begin{frame}{Our goals for the replication}
% Stephans Ideen, überschneidungen mit obiger Folie
\begin{itemize}
\item Testing implementation and check proposed execution accuracy with $CHEES_{(IR,CG,UT)}$ (with ???LLM) and $CHESS(IR,SS,CG)$ (with ???LLM) on the bird dataset
\item Testing implementation and check proposed execution accuracy with $CHESS_{(IR,SS,CG)}$ (with Llama-3-70B) on the SDS
%Testing implementation and check proposed execution accuracy with $CHESS_{(IR,CG,UT)}$ (with ???LLM) on the bird dataset
\item Additionally testing $CHESS(IR,SS,CG)$ (low power) with different number of revisions in the CG because of the tremendous accuracy drop of 6.80\% without revision tools (see tab. 4 in \cite{Talaei2024})
\item Additionally testing $CHESS_{(IR,SS,CG)}$ (low power) with different number of revisions in the CG because of the tremendous accuracy drop of 6.80\% without revision tools (see tab. 4 in \cite{Talaei2024})
% Laut paper wurde die schwache konfiguration mit 1 und 3 Kandidaten getestet und der/diese mussten dann das richtige Ergebnis haben. Aber die Revision hat laut Tab. 4 eine extremen einfluss, daher sollten wir diesen Untersuchen, denke ich. vermutlich machen ein paar mehr schon eine großen Unterschied aus, aber ab einem bestimmten Wert verbessert sich nichts mehr.
\item Maybe we also could test a different kind of unit tests where $1$ candidate is evaluated against $M$ UTs (instead of $N$ candidates against $1$ UT) examine claimed accuracy drop of 68.31 down to 66.78 (see 4.2.1)
\item We want to carry out additional experiments, where we want to test the $CHESS_{(IR,SS,CG)}$ configuration with the Spider2.0 Dataset
\end{itemize}
\end{frame}
\begin{frame}{Expected results}
\begin{itemize}
\item For the tests with the $CHESS_{(IR,SS,CG)}$ configuration and Llama-3-70B we hope for very similar results compared to the paper
% --> Gleiches Dataset und gleiche Umgebung, nur die Hardware ist vermutlich anders.
\item The ablation studies and the different way of Unit-Testing will probably differ from the original work because we can't use Gemini and the $CHESS(IR,CG,UT)$ configuration. But we hope for similar proportions as in the original work
\item The tests with the Spider2.0 dataset should be good but not as good as with the Spider dataset used in the original work
\end{itemize}
\end{frame}
%------------------------------------------------
\makesection{Code der Autoren}
\makesection{Code provided by the authors}
%------------------------------------------------
\begin{frame}{GitHub}
\url{https://github.com/ShayanTalaei/CHESS}
\begin{frame}{First impression of provided code}
\begin{itemize}
\item available on GitHub: \url{https://github.com/ShayanTalaei/CHESS}
\item 3 main run scripts, configured for OpenAI API (GPT, \$\$ required)
\item config files and python code for different models
\item directory for datasets (fits BIRD best)
\item directory with source code
\item very short customization instructions for other models in README.md
\item Ollama: webservice (localhost), very easy to set up
\end{itemize}
\end{frame}
%------------------------------------------------
\makesection{Latex Examples}
% \makesection{Latex Examples}
% Das ist nur für uns, um zu sehen, welche Highlights dieses Packet bereit stellt
% Schlage vor, das wieder einzukommentieren, wenn wir nochmal nachschauen wollen, was es gab - Erik
%------------------------------------------------
%------------------------------------------------
% Highlight boxes
\begin{frame}{Blocks of Highlighted Text}
In this slide, some important text will be \alert{highlighted} because it's important. Please, don't abuse it.
% \begin{frame}{Blocks of Highlighted Text}
% In this slide, some important text will be \alert{highlighted} because it's important. Please, don't abuse it.
\begin{block}{Block}
Sample text
\end{block}
% \begin{block}{Block}
% Sample text
% \end{block}
\begin{alertblock}{Alertblock}
Sample text in red box
\end{alertblock}
% \begin{alertblock}{Alertblock}
% Sample text in red box
% \end{alertblock}
\begin{examples}
Sample text in green box. The title of the block is ``Examples".
\end{examples}
\end{frame}
% \begin{examples}
% Sample text in green box. The title of the block is ``Examples".
% \end{examples}
% \end{frame}
%------------------------------------------------
% Double columns
\begin{frame}{Multiple Columns}
\begin{columns}
\begin{column}{0.45\textwidth}
\colheader{Heading}
\begin{enumerate}
\item Statement
\item Explanation
\item Example
\end{enumerate}
\end{column}
\begin{column}{0.45\textwidth}%%<--- here
\colheader{Heading}
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer lectus nisl, ultricies in feugiat rutrum, porttitor sit amet augue. Aliquam ut tortor mauris. Sed volutpat ante purus, quis accumsan dolor.
\end{column}
\end{columns}
\end{frame}
% \begin{frame}{Multiple Columns}
% \begin{columns}
% \begin{column}{0.45\textwidth}
% \colheader{Heading}
% \begin{enumerate}
% \item Statement
% \item Explanation
% \item Example
% \end{enumerate}
% \end{column}
% \begin{column}{0.45\textwidth} %%<--- here
% \colheader{Heading}
% Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer lectus nisl, ultricies in feugiat rutrum, porttitor sit amet augue. Aliquam ut tortor mauris. Sed volutpat ante purus, quis accumsan dolor.
% \end{column}
% \end{columns}
% \end{frame}
%------------------------------------------------
% Theoerm (in highlighted box) and Equation in text
\begin{frame}{Theorem}
\begin{theorem}[Mass--energy equivalence]
$E = mc^2$
\end{theorem}
Equation in text
\begin{equation}
c^{2} = a^{2} + b^{2}
\end{equation}
\end{frame}
% \begin{frame}{Theorem}
% \begin{theorem}[Mass--energy equivalence]
% $E = mc^2$
% \end{theorem}
% Equation in text
% \begin{equation}
% c^{2} = a^{2} + b^{2}
% \end{equation}
% \end{frame}
%------------------------------------------------
% Citations
\begin{frame}[fragile] % Need to use the fragile option when verbatim is used in the slide
\frametitle{Citation}
An example of the \verb|\cite| command to cite within the presentation:\\~
% \begin{frame}[fragile] % Need to use the fragile option when verbatim is used in the slide
% \frametitle{Citation}
% An example of the \verb|\cite| command to cite within the presentation:\\~
This statement requires citation \cite{Talaei2024}.
\end{frame}
% This statement requires citation \cite{Talaei2024}.
% \end{frame}
%------------------------------------------------
% Referenced
...
...
@@ -376,7 +417,8 @@
\end{frame}
%-----------------------------------------------
% Final PAGE
\finalpagetext{Vielen Dank für Ihre Aufmerksamkeit}
% \finalpagetext{Vielen Dank für Ihre Aufmerksamkeit}