10. Probleme in der Reproducibility beim Testen der num_channels in CNN (stattdessen mit Lernrate getestet)
11. Probleme bei der Reproducibility bei LOF: Optimale Hyperparameter stimmen nicht mit den getesten überein $\rightarrow$ gelöst
# Email an die Autoren
````
Dear Mr. Liu and Mr. Paparrizos,
we are students from the Martin-Luther-University Halle-Wittenberg from Germany. According to one of our lectures we were supposed to analyse a paper, reconstruct the model(s) and reproduce the results. We choose your publication "The Elephant in the Rom: Towards A Reliable Time-Series Anomaly Detection Benchmark" and have some questions.
In order to solve the given task we select a few of your models and concentrate on the results for univariate datasets for statistical methods and neuronal networks. From your git https://github.com/TheDatumOrg/TSB-AD we took the needed code and try to reconstruct everything as close as possible. Except of using one optimal hyperparameter set for a model to all of the time series, we preferred doing a grid search and store the best hyperparameters for each time series.
Here we wanted to ask, how did you find the optimal hyperparameters and why you decided to use one hyperparameter set for all of the time series instead of finding them for each given dataset or specific times series. Especially when the datasets (like TAO, YAHOO or Exathlon) differ so much from each other so that it could have lead to a better performance. For our test the KMeansAD turned out to perform best with a VUS-PR of 0.489.
Secondly we had problems to run KShapeAD with the hyperparameters and had to debugg the code. There were problems with creating the subsequence in the definition _kshape_subsequence() and following prediction with ks.fit_predict(np.array(all_subsequences)). This error occurred in the time series 280_NEK_id_4_WebService_tr_500_1st_231.csv with a periodicity of three and here a one dimensional empty matrix was created instead of a two dimensional one. So the library couldn't handle it. We also don't know why the loop was trying to create the 2D Matrix if the subsequence was empty.
The next problem with reconstruction we had with the CNN. As we tried to tune with different layers ({ 'window_size': [50, 100, 150], 'num_channel': [[32, 32, 40], [16, 32, 64]] }), we got this error "1. RuntimeError: Given groups=1, weight of size [64, 16, 3], expected input[128, 32, 24] to have 16 channels, but got 32 channels instead", which told us, that the shapes of the input didn't fit with the layer ones in line 80 in CNN.py. Unfortunately we couldn't fix it easily.
Another question we have is about the training and evaluation of the semi-supervised methods. Here we saw, that these models were training on a small part of the test data. Did we see this correctly? Or did you use here another method, we couldn't find? Could these models have overfit or do you think that the training set was so small, that it didn't really affect the test results.
Also we wanted to ask you about your procedure with training and tuning your models in general. We used the files which you have written down in the folder "main/Datasets/File_List" for evaluation (not full) and tuning and put them together to one dataset. All in all we were able to reproduce your results for almost all of the datasets for nearly every model. But it wasn't working for every dataset like TAO. Here we got sometimes like 0.7 VUS-PR instead of 0.9 or better. The derivation for the concerning datasets and the models is listed down below. Do you have any idea, what could have went wrong with our replication?
Lastly we saw that for the most of the datasets the models performed nearly equally with AUC-PR and VUS-PR. But we saw a very huge difference mainly in TAO and Stock, followed by TODS with better greater results in VUS-PR. Here the averaged difference was for the first two ones over 0.5 and for Stock 0.4. These datasets combines a high anomaly density with point anomalies. We were wondering if the VUS-PR is also looking at the surroundings of the labeled anomaly points and the model which finds the anomaly in the near will still benefit. So that the detection for point anomalies will be better evaluate with VUS-PR.
We would love to here from you. It was a really nice project and we totally enjoyed working with your paper.
Thank you in advance for your time.
Best regards
Sofia Wuckert, Ahmad Watter and Desiree Wyrzykala
`````
# TO DO'S
- [ ] Datensätze genauer untersuchen
- [x] Auffälligkeiten (Anomalien erkennbar?, Punkt- oder Sequenzanomalien, Eigenschaften)
+ Gesamtsteigerung der AUC-PR: um 9.4 % von 0.35 auf 0.383
- Gesatmtsteigerung der VUS-PR: um 5.8 % von 0.40 auf 0.423
- Besser bei Sequenzanomalien nach AUC-PR (auch Precision, AUC-ROC und F1), bei VUS-PR besser bei Punktanomalien (auch Recall)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modelleistung von der Anomaliedichte allgemein und bei Sequenzanomalien
- Keine Abhängigkeit in der Modellleistung bei Punktanomalien
### POLY
- Gesamtsteigerung der AUC-PR: um 27.1 % von 0.31 auf 0.394
- Gesatmtsteigerung der VUS-PR: um 22.6 % von 0.39 auf 0.478
- Besser bei Sequenzanomalien
- Lt. Pearson und p-Wert in der Abhängigkeit der Modelleistung von der Anomaliedichte allgemein und bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR von der Anomaliedichte mit PCC = 0.94 und p-Wert= 0.00 (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
- Lt. Pearson und p-Wert keine Abhängigkeit der Modelleistung von der Anomaliedichte allgemein und bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR von der Anomaliedichte mit PCC = 0.91 und p-Wert= 0.00 (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### PCA
- Gesamtsteigerung der AUC-PR: um 10.0 % von 0.37 auf 0.407
- Gesatmtsteigerung der VUS-PR: um 5.7 % von 0.42 auf 0.444
...
...
@@ -115,9 +116,7 @@
- Große Abweichungen in VUS-PR auf dem Datensatz TAO (0.84 statt 0.93)
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung nach VUS-PR, aber nicht nach AUC-PR, von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.35, p-Wert = 0.11; bei VUS-PR: pcc= 0.45, p-Wert = 0.03)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modellleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.96, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.94, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### IForest
- Gesamtsteigerung der AUC-PR: um 4.8 % von 0.29 auf 0.304
- Gesatmtsteigerung der VUS-PR: um 13.7 % von 0.30 auf 0.341
...
...
@@ -125,9 +124,7 @@
- Große Abweichung zu den Autoren bei der VUS-PR auf den Datensätzen TAO (0.73 statt 0.99), Stock ( 0.74 statt 0.99), IOPS (0.13 statt 0.28), SWaT (0.37 statt 0.5), Yahoo (0.14 statt 0.44) und WSD (0.03 statt 0.14)
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.44, p-Wert = 0.03; bei VUS-PR: pcc= 0.51, p-Wert = 0.01)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modellleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach AUC-PR (pcc=0.86, p-Wert=0.01) und VUS-PR (pcc=0.96, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
- Starke positive Abhängigkeit in der Modellleistung nach AUC-PR (pcc=0.99, p-Wert=0.00) und VUS-PR (pcc=0.90, p-Wert= 0.01) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### Sub-IForest
- Gesamtsteigerung der AUC-PR: um 103.8 % von 0.16 auf 0.326
- Gesatmtsteigerung der VUS-PR: um 64.5 % von 0.22 auf 0.362
...
...
@@ -135,65 +132,68 @@
- Große Abweichungen in VUS-PR auf den Datensätzen TAO (0.73 statt 0.90), SED (0.69 statt 0.79), SMAP (0.36 statt 0.47) und TODS (0.50 statt 0.66)
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.46, p-Wert = 0.03; bei VUS-PR: pcc= 0.54, p-Wert = 0.01)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modellleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach AUC-PR (pcc=0.80, p-Wert=0.03) und VUS-PR (pcc=0.96, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
- Starke positive Abhängigkeit in der Modellleistung nach AUC-PR (pcc=0.93, p-Wert=0.00) und VUS-PR (pcc=0.91, p-Wert= 0.01) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### USAD
Gesamtsteigerung der AUC-PR: um 9.4 % von 0.32 auf 0.352
- Gesatmtsteigerung der VUS-PR: um 4.2 % von 0.36 auf 0.375
- Besser bei Sequenzanomalien
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung nach VUS-PR, aber nicht nach AUC-PR, von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.38, p-Wert = 0.07; bei VUS-PR: pcc= 0.46, p-Wert = 0.03)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modellleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.98, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
#### LSTMAD
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.95, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### KMeansAD
- Gesamtsteigerung der AUC-PR: um 38.8 % von 0.32 auf 0.444
- Gesatmtsteigerung der VUS-PR: um 32.2 % von 0.37 auf 0.489
- Besser bei Punktanomalien
- Lt. Pearson und p-Wert keine Abhängigkeit der Modelleistung von der Anomaliedichte allgemein und bei Sequenzanomalien und Punktanomalien
### Sub-KNN
- Gesamtsteigerung der AUC-PR: um 30 % von 0.27 auf 0.351
- Gesatmtsteigerung der VUS-PR: um 23.1 % von 0.35 auf 0.431
- Besser bei Sequenzanomalien nach AUC-PR (auch Precision, F1), nach VUS-PR (auch Recall, AUC-ROC) bei Punktanomalien
- Lt. Pearson und p-Wert keine Abhängigkeit der Modelleistung von der Anomaliedichte allgemein und bei Sequenzanomalien
- Positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.77, p-Wert= 0.04) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### OmniAnomaly
- Gesamtsteigerung der AUC-PR: um 31.1 % von 0.27 auf 0.254
- Gesatmtsteigerung der VUS-PR: um 30.0 % von 0.29 auf 0.377
- Besser bei Sequenzanomalien
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung nach VUS-PR, aber nicht nach AUC-PR, von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.41, p-Wert = 0.05; bei VUS-PR: pcc= 0.48, p-Wert = 0.02)
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung nach VUS-PR und nach AUC-PR, von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.41, p-Wert = 0.049; bei VUS-PR: pcc= 0.48, p-Wert = 0.02)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modellleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.97, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.94, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### LOF
- Gesamtsteigerung der AUC-PR: um 11.4 % von 0.14 auf 0.156
- Gesatmtsteigerung der VUS-PR: um 8.8 % von 0.17 auf 0.185
- Besser bei Punktanomalien
- Lt. Pearson und p-Wert keine Abhängigkeit der Modelleistung von der Anomaliedichte allgemein
- Mittlere Abhängigkeit der Modellleistung von der Anomaliedichte nach VUS-PR (pcc=0.48, p-Wert =0.03) bei Sequenzanomalien
- Starke positive Abhängigkeit der Modellleistung nach VUS-PR von der Anomaliedichte mit PCC = 0.83 und p-Wert= 0.02 (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### OCSVM
- Gesamtsteigerung der AUC-PR: um 71.9 % von 0.16 auf 0.275
- Gesatmtsteigerung der VUS-PR: um 47.4 % von 0.23 auf 0.339
- Besser bei Sequenzanomalien
- Lt. Pearson und p-Wert mittlere signifikante Abhängigkeit der Modelleistung (AUC-PR: pcc=0.50, p-Wert=0.02; VUS-PR: pcc=0.51, p-Wert=0.01) von der Anomaliedichte allgemein
- Keine Abhängigkeit der Modelleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR von der Anomaliedichte mit PCC = 0.84 und p-Wert= 0.02) und nach AUC-PR (PCC=0.96, p-Wert=0.00) (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### LSTMAD
- Gesamtsteigerung der AUC-PR: um 10.0 % von 0.37 auf 0.407
- Gesatmtsteigerung der VUS-PR: um 5.7 % von 0.42 auf 0.444
- Besser bei Sequenzanomalien
- Große Abweichungen in VUS-PR auf dem Datensatz TAO (0.84 statt 0.93)
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung nach VUS-PR, aber nicht nach AUC-PR, von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.35, p-Wert = 0.11; bei VUS-PR: pcc= 0.45, p-Wert = 0.03)
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung nach VUS-PR, aber nicht nach AUC-PR, von der Anomaliedichte allgemein (bei AUC-PR: pcc = 0.34, p-Wert = 0.11; bei VUS-PR: pcc= 0.42, p-Wert = 0.04)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modellleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.96, p-Wert= 0.00) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR, weniger nach AUC-PR (VUS-pR: pcc=0.90, p-Wert= 0.01; AUC-PR: pcc=0.76, p-Wert=0.049) von der Anomaliedichte (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien
### CNN
- Gesamtsteigerung der AUC-PR: um 10.9 % von 0.33 auf 0.366
- Gesatmtsteigerung der VUS-PR: um 7.9 % von 0.34 auf 0.367
- Besser bei Punktanomalien
- Lt. Pearson und p-Wert mittlere positive Abhängigkeit der Modelleistung nach VUS-PR und AUC-PR von der Anomaliedichte allgemein
- Lt. Pearson und p-Wert keine Abhängigkeit der Modelleistung nach VUS-PR und AUC-PR von der Anomaliedichte allgemein
- Lt. Pearson und p-Wert keine Abhängigkeit der Modellleistung von der Anomaliedichte bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.92, p-Wert= 0.00) von der Anomaliedichte bei Punktanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR (pcc=0.90, p-Wert= 0.01) und AUC-PR (pcc=0.86, p-Wert=0.01) von der Anomaliedichte bei Punktanomalien
### Sub-LOF
- Gesamtsteigerung der AUC-PR: um 133.8 % von 0.16 auf 0.374
- Gesatmtsteigerung der VUS-PR: um 89.2 % von 0.25 auf 0.473
- Besser bei Sequenzanomalien nach AUC-PR (auch Precision, F1) und nach VUS-PR bei Punktanomalien (auch Recall und AUC-ROC)
- Lt. Pearson und p-Wert keine Abhängigkeit der Modelleistung von der Anomaliedichte allgemein und bei Sequenzanomalien
- Starke positive Abhängigkeit in der Modellleistung nach VUS-PR von der Anomaliedichte mit PCC = 0.85 und p-Wert= 0.02) (je höher Anomaliedichte umso besser VUS-PR) bei Punktanomalien