Balanserad träningsdata
Jag har försökt lösa denna uppgiften i vad som känns som en evighet.. Jag förstår inte riktigt vad jag gör fel, läraren har sagt att jag ska kolla på första kodcellen med balanserad data, men jag förstår ändå inte vad som blir felet i min kod
Vad blir det och vad borde det bli?
Jag får detta när jag kör, jag glömde lägga till med test_data
Vad man gör med zero_division vet jag inte.
Om X_test är en lista så kan du inte göra equals på den, men vanlig == kanske går? Eller gör equals något mer avancerat?
Jag frågade min lärare angående detta och fick endast svaret att jag skulle använda "den första kodcellen under rubriken 'balanserad data'". Alltså detta för räkna ut :
Vår träningsdata är obalanserad, vilket leder till att de mer frekventa klasserna oftare blir korrekt predicerade. Utför undersampling för att skapa ett balanserat dataset.
min_class_freq = training_data['party'].value_counts().min()train_balanced = pd.DataFrame(columns=training_data.columns)for p in train_parties: train_balanced = train_balanced.append(training_data.loc[training_data['party'] == p].sample(min_class_freq) ,ignore_index=True)train_balanced.head()
Men jag förstår ändå inte hur, och är inte superduktig på programmering heller och kursen är "Ai i naturligt språk"
Jag kan tyvärr inte det här.