首页 > 解决方案 > 查找具有相似产品的类别 - 低效率 - 去

问题描述

你好,对不起我的英语


我有一个与每个类别相关的类别和产品列表

cats = [cat1, cat2, cat3]

prod = {
 cat1 = [a, b, c]
 cat2 = [d, e, c]
 cat3 = [z, x, w]
}

我想要的是

{
    group1: [cat1, cat2]
    group2: [cat3]
}

我需要对共享您的某些产品的类别进行分组

一切都对我有用,但我有400,000个类别,制作两个这样数量的循环并不好。我的算法需要 4 天才能完成

我刚开始使用golang,有人知道如何处理这个问题吗?谢谢


func main() {

    cats, prod := getDataDB()

    for _, cat1 := range cats {

        for _, cat2 := range cats {

            result := percentageSimilarity(prod[cat1], prod[cat2])

            if result > 50{
                // save group
            }
        
        }
        
    }

}

func percentageSimilarity(a, b []string) int {

    sum := 0
    percentage := 0

    if len(a) > len(b) {

        for _, key := range a {

            if contains(b, key) {
                sum++
            }

        }

        percentage = sum * 100 / len(b)

    } else {

        for _, key := range b {

            if contains(a, key) {
                sum++
            }

        }

        percentage = sum * 100 / len(a)

    }

    return percentage

}

func contains(s []string, e string) bool {
    for _, a := range s {
        if a == e {
            return true
        }
    }
    return false
}

标签: algorithmperformancegomapsslice

解决方案


首先,将您的类别从最少的产品排序到最多的产品。

接下来,创建一个从产品到包含该产品的类别数组的映射。

现在做这样的事情:

for each category
   create empty category_shared_products map from category to count of shared products
   for each product
      for each other_category containing that product
          add/increment category_shared_products[other_category]
   decide what to merge this category into (if anything)

有很多细节需要做对。但现在我们不再查看每一对类别,而是只查看实际上共享产品的成对类别。


推荐阅读