首页 > 技术文章 > 算法和复杂度

xiangyangboke 2022-06-16 15:45 原文

1、什么是算法

  算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

2、时间复杂度

  算法的执行效率,粗略地讲,就是算法代码执行的时间。

  这里有段非常简单的代码,求 1,2,3…n 的累加和。现在,我就带你一块来估算一下这段代码的执行时间。

1 public int cal(int n) {
2     int sum = 0;
3     int i = 1;
4     for (; i <= n; ++i) {
5         sum = sum + i;
6     }
7     return sum;
8 }

  从 CPU 的角度来看,这段代码的每一行都执行着类似的操作:读数据-运算-写数据。尽管每行代码对应的 CPU 执行的个数、执行的时间都不一样,但是,我们这里只是粗略估计,所以可以假设每行代码执行的时间都一样,为 t。在这个假设的基础之上,这段代码的总执行时间是多少呢?

  第 2、3 行代码分别需要 1 个 t 的执行时间,第 4、5 行都运行了 n 遍,所以需要 2nt 的执行时间,所以这段代码总的执行时间就是 (2n+2)t。可以看出来,所有代码的执行时间 T(n) 与每行代码的执行次数成正比。

  按照这个分析思路,我们再来看这段代码。

 1 public void cal(int n) {
 2     int sum = 0;
 3     int i = 1;
 4     int j = 1;
 5     for (; i <= n; ++i) {
 6         j = 1;
 7         for (; j <= n; ++j) {
 8             sum = sum +  i * j;
 9         }
10     }
11 }

  我们依旧假设每个语句的执行时间是 t。那这段代码的总执行时间 T(n) 是多少呢?

  第 2、3、4 行代码,每行都需要 1 个t的执行时间,第 5、6 行代码循环执行了 n遍,需要 2nt的执行时间,第 7、8 行代码循环执行了 n^2遍,所以需要 (2n^2)t 的执行时间。所以,整段代码总的执行时间T(n) = (2n^2+2n+3)t。

  尽管我们不知道 t 的具体值,但是通过这两段代码执行时间的推导过程,我们可以得到一个非常重要的规律:

  所有代码的执行时间 T(n) 与每行代码的执行次数 n 成正比,即T(n) = O((f(n))。

  我来具体解释一下这个公式。其中,T(n) 我们已经讲过了,它表示代码执行的时间;n 表示数据规模的大小;f(n) 表示每行代码执行的次数总和。因为这是一个公式,所以用 f(n) 来表示。公式中的 O,表示代码的执行时间 T(n) 与 f(n) 表达式成正比。

  所以,第一个例子中的 T(n) = O(2n+2),第二个例子中的 T(n) = O(2n2+2n+3)。这就是大 O 时间复杂度表示法。大 O 时间复杂度实际上并不具体表示代码真正的执行时间,而是表示代码执行时间随数据规模增长的变化趋势,所以,也叫作渐进时间复杂度,简称时间复杂度。

3、时间复杂度分析

  如何分析一段代码的时间复杂度?下面是三个比较实用的方法:

  a.只关注循环执行次数最多的的一段代码

  b.加法法则:总复杂度等于量级最大的那段代码的复杂度

  c.乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积

4、O(m+n) 、O(m*n)

  我们再来讲一种跟前面都不一样的时间复杂度,代码的复杂度由两个数据的规模来决定。老规矩,先看代码!

 1 public int cal(int m,int n) {
 2     int sum_1 = 0;
 3     int i = 1;
 4     for (; i < m; ++i) {
 5         sum_1 = sum_1 + i;
 6     }
 7     int sum_2 = 0;
 8     int j = 1;
 9     for (; j < n; ++j) {
10         sum_2 = sum_2 + j;
11     }
12     return sum_1 + sum_2;
13 } 

  从代码中可以看出,m 和 n 是表示两个数据规模。我们无法事先评估 m 和 n 谁的量级大,所以我们在表示复杂度的时候,就不能简单地利用加法法则,省略掉其中一个。所以,上面代码的时间复杂度就是 O(m+n)。

  针对这种情况,原来的加法法则就不正确了,我们需要将加法规则改为:T1(m) + T2(n) = O(f(m) + g(n))。但是乘法法则继续有效:T1(m)*T2(n) = O(f(m)*f(n))。

  最后附上常见的时间复杂度。

O(1) 常数阶
O(n) 线性阶
O(n^2) 平方阶
O(logn) 对数阶
O(nlogn) 线性对数阶
O(n^3) 立方阶
O(2^n) 指数阶
O(n!)  阶乘阶

5、空间复杂度分析

  大O表示法和时间复杂度分析,理解了前面讲的内容,空间复杂度分析方法学起来就非常简单了。

  前面我讲过,时间复杂度的全称是渐进时间复杂度,表示算法的执行时间与数据规模之间的增长关系。类比一下,空间复杂度全称就是渐进空间复杂度,表示算法的存储空间与数据规模之间的增长关系。

  我还是拿具体的例子来给你说明。

 1 public void printNum(int n) {
 2     int i = 0;
 3     int[] a = new int[10];
 4     for (; i < n; ++i) {
 5         a[i] = i * i;
 6     }
 7     for (i = n - 1; i >= 0; --i) {
 8         System.out.println(a[i]);
 9     }
10 }

  跟时间复杂度分析一样,我们可以看到,第 2 行代码中,我们申请了一个空间存储变量 i,但是它是常量阶的,跟数据规模 n 没有关系,所以我们可以忽略。第 3 行申请了一个大小为 n 的 int 类型数组,除此之外,剩下的代码都没有占用更多的空间,所以整段代码的空间复杂度就是 O(n)。

  我们常见的空间复杂度就是 O(1)、O(n)、O(n2 ),像 O(logn)、O(nlogn) 这样的对数阶复杂度平时都用不到。而且,空间复杂度分析比时间复杂度分析要简单很多。所以,对于空间复杂度,掌握刚我说的这些内容已经足够了。

推荐阅读