import pandas as pd
import numpy as np

# read in file
r1 = pd.read_csv(
    "C:/Users/morit/OneDrive/Dokumente/Goethe Projects/XAI BauerZahnHinz/ISR revision/Results/all_apps_wide_2022-03-30.csv")
r1["run_id"] = 1
r2 = pd.read_csv("C:/Users/morit/Downloads/all_apps_wide_2022-04-13(7).csv")
r2["run_id"] = 2
r = r1.append(r2)

r_done = r[r['participant._current_page_name'] == "ThankYouPage"]
print(f"Treatment distributions of completes:\n"
      f"{r_done['participant.treatment'].value_counts()}\n")
print(f"Treatment distribution of 'Stage2 Stoppers':\n"
      f"{r1[r1['participant._current_page_name'] == 'Stage2']['participant.treatment'].value_counts()}\n")
print(f"Number of IHK Respondents:\n"
      f"{np.nansum(r_done['participant.label'].str.endswith('e')) + 1}")

labels = r_done["participant.label"]
labels = labels[~labels.isna()]
pd.Series([a[0] for a in labels if len(a) == 20]).value_counts()
len(labels)

kontakt_emails = r_done[
    (r_done["participant.label"].str.len() == 20) & (r_done["participant.label"].str.startswith("k"))] \
    ["xai_experiment.1.player.email"]