pandas - Knn 赋予距离上的特定特征更多的权重
问题描述
我正在使用Kobe Bryant Dataset。我希望用 KnnRegressor 预测 shot_made_flag。
我曾经game_date
提取year
和month
特征:
# covert season to years
kobe_data_encoded['season'] = kobe_data_encoded['season'].apply(lambda x: int(re.compile('(\d+)-').findall(x)[0]))
# add year and month using game_date
kobe_data_encoded['year'] = kobe_data_encoded['game_date'].apply(lambda x: int(re.compile('(\d{4})').findall(x)[0]))
kobe_data_encoded['month'] = kobe_data_encoded['game_date'].apply(lambda x: int(re.compile('-(\d+)-').findall(x)[0]))
kobe_data_encoded = kobe_data_encoded.drop(columns=['game_date'])
并且我希望使用season
, year
,month
特征在距离函数中赋予它们更大的权重,因此与当前事件日期更近的事件将是更近的邻居,但仍与潜在的其他数据点保持合理的距离,例如我不希望发生事件由于日期功能,同一天将是最近的邻居,但它会考虑其他功能,例如shot_range
等。
为了给它更多的权重,我尝试使用metric
自定义距离函数的参数,但参数该函数只是numpy
没有熊猫列信息的数组,所以我不确定我能做什么以及如何实现我想要做的事情。
编辑:
对日期特征使用更大的权重来找到从cv
10 中运行的最佳 k :k
[1, 100]
from IPython.display import display
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
# scaling
min_max_scaler = preprocessing.MinMaxScaler()
scaled_features_df = kobe_data_encoded.copy()
column_names = ['loc_x', 'loc_y', 'minutes_remaining', 'period',
'seconds_remaining', 'shot_distance', 'shot_type', 'shot_zone_range']
scaled_features = min_max_scaler.fit_transform(scaled_features_df[column_names])
scaled_features_df[column_names] = scaled_features
not_classified_df = scaled_features_df[scaled_features_df['shot_made_flag'].isnull()]
classified_df = scaled_features_df[scaled_features_df['shot_made_flag'].notnull()]
X = classified_df.drop(columns=['shot_made_flag'])
y = classified_df['shot_made_flag']
cv = StratifiedKFold(n_splits=10, shuffle=True)
neighbors = [x for x in range(1, 100)]
cv_scores = []
weight = np.ones((X.shape[1],))
weight[[X.columns.get_loc("season"),
X.columns.get_loc("year"),
X.columns.get_loc("month")
]] = 5
weight = weight/weight.sum() #Normalize weights
def my_distance(x, y):
dist = ((x-y)**2)
return np.dot(dist, weight)
for k in neighbors:
print('k: ', k)
knn = KNeighborsClassifier(n_neighbors=k, metric=my_distance)
cv_scores.append(np.mean(cross_val_score(knn, X, y, cv=cv, scoring='roc_auc')))
#optimal K
optimal_k_index = cv_scores.index(min(cv_scores))
optimal_k = neighbors[optimal_k_index]
print('best k: ', optimal_k)
plt.plot(neighbors, cv_scores)
plt.xlabel('Number of Neighbors K')
plt.ylabel('ROC AUC')
plt.show()
运行真的很慢,知道如何让它更快吗?加权特征的想法是找到更接近数据点日期的邻居以避免数据泄漏和 cv 以找到最佳 k。
解决方案
首先,您必须准备一个 numpy 一维weight
数组,为每个特征指定权重。您可以执行以下操作:
weight = np.ones((M,)) # M is no of features
weight[[1,7,10]] = 2 # Increase weight of 1st,7th and 10th features
weight = weight/weight.sum() #Normalize weights
您可以使用在数据框中查找, ,特征的kobe_data_encoded.columns
索引 来替换上面的第二行。season
year
month
现在定义一个距离函数,根据准则,它必须采用两个 1D numpy 数组。
def my_dist(x,y):
global weight #1D array, same shape as x or y
dist = ((x-y)**2) #1D array, same shape as x or y
return np.dot(dist,weight) # a scalar float
并初始化KNeighborsRegressor
为:
knn = KNeighborsRegressor(metric=my_dist)
编辑:为了提高效率,您可以预先计算距离矩阵,并在KNN
. 这应该通过减少对 的调用来显着提高速度my_dist
,因为这个非向量化的自定义 python 距离函数非常慢。所以现在——
dist = np.zeros((len(X),len(X))) #Computing NXN distance matrix
for i in range(len(X)): # You can halve this by using the fact that dist[i,j] = dist[j,i]
for j in range(len(X)):
dist[i,j] = my_dist(X[i],X[j])
for k in neighbors:
print('k: ', k)
knn = KNeighborsClassifier(n_neighbors=k, metric='precomputed') #Note: metric='precomputed'
cv_scores.append(np.mean(cross_val_score(knn, dist, y, cv=cv, scoring='roc_auc'))) #Note: passing dist instead of X
我无法测试它,所以如果有什么问题,请告诉我。
推荐阅读
- c++ - C++ 中 std::bitset 的算术运算
- reactjs - 如何在我们要编辑的单元格内单击按钮时将反应表单元格置于编辑模式
- windows - 无法在 Windows 10 wsl 中删除 jenkins docker 旧的持久数据,
- python - 最后一个值仅添加到列表中
- javascript - Instagram 公共 API 的新 CORS 政策?
- python - Memoization:设置消耗缓存的大小
- javascript - 查询标记为“广告”的 iframe
- python - 当我为 django 版本执行命令提示符时,即使它在 pycharm 帮助上成功,它也不会出现
- reactjs - Apollo 客户端 v3“替换 Y 对象的字段 X 时可能会丢失缓存数据”
- r - 如何从 tibble 中的不同组中选择不同比例的样本