python - 使用余弦相似度获取带有潜在客户段落和 web_url 的 NewsId
问题描述
我正在尝试使用 cosine Similarity 获得推荐的 news_id 及其 lead_paragraph 和 web_url 。我的数据集有 3 列 news_id、lead_paragraph、web_url
以下代码仅返回推荐的 news_id
import pandas as pd
import numpy
ds = pd.read_csv("nytimes.csv")
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english')
ds['lead_paragraph'] = ds['lead_paragraph'].fillna('')
tfidf_matrix = tfidf.fit_transform(ds['lead_paragraph'])
from sklearn.metrics.pairwise import linear_kernel
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)
indices = pd.Series(ds.index, index=ds['_id']).drop_duplicates()
def get_recommendations(id, cosine_sim=cosine_sim):
idx = indices[id]
sim_scores = list(enumerate(cosine_sim[idx]))
sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
sim_scores = sim_scores[1:11]
movie_indices = [i[0] for i in sim_scores]
return ds['_id'].iloc[movie_indices]
get_recommendations('4fd2b43e8eb7c8105d8a67e8')
如何通过列表中的lead_paragraph 和web_url 获得推荐的news_id?
解决方案
推荐阅读
- reactjs - 从每个需要它的组件调用 React Apollo Hooks 有什么缺点,而不是将数据从父级传递给子级作为道具?
- javascript - Css 菜单下拉菜单
- swift - Mac OS:在开发时记住应用程序的安全和隐私选项
- python - 如何按要求显示输出?
- javascript - 给定 x 和 y 缩放图像
- csv - 在 Google 表格中打开 CSV 文件时,某些行被合并到一个单元格中
- c - =(赋值)的例子是右结合的
- linux - 汇编代码到 shell 代码:section .data 和 section .text 的顺序是什么?
- asp.net-core - ASP.NET Core MVC 中的标识脚手架问题
- flutter - Flutter - FutureBuilder 返回空快照,但未来实际上是返回数据