首页 > 解决方案 > 从两个不同的数据集创建数据集

问题描述

我有两个不同的数据集:

1. state    VDM MDM OM
      AP    1   2   5
     GOA    1   2   1
      GU    1   2   4
      KA    1   5   1

2. Attribute:Value     Support     Item
             VDM:1     4           1
             VDM:2     0           2
             VDM:3     0           3
             VDM:4     0           4
             VDM:5     0           5
             MDM:1     0           6
             MDM:2     3           7
             MDM:3     0           8
             MDM:4     0           9
             MDM:5     1           10
              OM:1     2           11
              OM:2     0           12
              OM:3     0           13
              OM:4     1           14
              OM:5     1           15

第一个数据集仅包含 1-5 个值。第二个数据集包含 Attribute:Value 对及其出现次数和序列号 (Item)。

我想要一个如下所示的数据集:

state      Item Number
   AP      1, 7, 15
  GOA      1, 7, 11
   GU      1, 7, 14
   KA      1, 10, 11

标签: python-3.xpandasdataset

解决方案


这些都不是真正吸引我的。但有时你只需要苦苦思索就可以让你的数据被处理掉。

尝试#0

a = dict(zip(df2['Attribute:Value'], df2['Item']))
cols = ['VDM', 'MDM', 'OM']
b = {
    'Item Number':
    [', '.join([str(a[f'{c}:{t._asdict()[c]}']) for c in cols]) for t in df1.itertuples()]
}

df1[['state']].assign(**b)

  state Item Number
0    AP    1, 7, 15
1   GOA    1, 7, 11
2    GU    1, 7, 14
3    KA   1, 10, 11

尝试#1

a = dict(zip(df2['Attribute:Value'], df2['Item'].astype(str)))
d1 = df1.set_index('state').astype(str)
r1 = (d1.columns + ':' + d1).replace(a)  # Thanks @anky_91
# r1 = (d1.columns + ':' + d1).applymap(a.get)
r1

      VDM MDM  OM
state            
AP      1   7  15
GOA     1   7  11
GU      1   7  14
KA      1  10  11

然后

pd.DataFrame({'state': r1.index, 'Item Number': [*map(', '.join, zip(*map(r1.get, r1)))]})

  state Item Number
0    AP    1, 7, 15
1   GOA    1, 7, 11
2    GU    1, 7, 14
3    KA   1, 10, 11

尝试#2

a = dict(zip(df2['Attribute:Value'], df2['Item'].astype(str)))
cols = ['VDM', 'MDM', 'OM']
b = {
    'Item Number':
    [*map(', '.join, zip(*[[a[f'{c}:{i}'] for i in df1[c]] for c in cols]))]
}

df1[['state']].assign(**b)

  state Item Number
0    AP    1, 7, 15
1   GOA    1, 7, 11
2    GU    1, 7, 14
3    KA   1, 10, 11

尝试#3

from itertools import cycle

a = dict(zip(zip(*df2['Attribute:Value'].str.split(':').str), df2['Item'].astype(str)))
d = df1.set_index('state')
b = {
    'Item Number':
    [*map(', '.join, zip(*[map(a.get, zip(cycle(d), np.ravel(d).astype(str)))] * 3))]
}

df1[['state']].assign(**b)

  state Item Number
0    AP    1, 7, 15
1   GOA    1, 7, 11
2    GU    1, 7, 14
3    KA   1, 10, 11

尝试#4

a = pd.Series(dict(zip(
    zip(*df2['Attribute:Value'].str.split(':').str),
    df2.Item.astype(str)
)))

df1.set_index('state').stack().astype(str).groupby(level=0).apply(
    lambda s: ', '.join(map(a.get, s.xs(s.name).items()))
).reset_index(name='Item Number')

  state Item Number
0    AP    1, 7, 15
1   GOA    1, 7, 11
2    GU    1, 7, 14
3    KA   1, 10, 11

推荐阅读