首页 > 技术文章 > 算法基础

Yang-Sen 2018-08-29 18:54 原文

  在学习算法之前引用一位大佬的话:如果你只是想成为一个码农或是一个代码搬运工(Code  Monkey),你大可不必学习算法,因为算法对你确实没有用;但是如果你想要成为一个优秀的开发者(Developer),扎实的算法必不可少,因为你会不断掉进一些只能借助算法才能爬出去的坑里。

算法定义

  算法是指解题方案的准确而完整的描述,非形式的说,算法就是一切良定义的计算过程,该过程取某个值或值的集合作为输入并产生某个值或值的集合作为输出。算法则描述一个特定的计算过程来实现该输入/输出关系。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

一个算法主要具有以下七个重要的特征:

1、有穷性(Finiteness):算法的有穷性是指算法必须能在执行有限个步骤之后终止;

2、确切性(Definiteness):算法的每一步骤必须有确切的定义;

3、输入项(Input):一个算法有0个或多个输入,以刻画运算对象的初始情况,所谓0个输入是指算法本身定出了初始条件;

4、输出项(Output):一个算法有一个或多个输出,以反映对输入数据加工后的结果。没有输出的算法是毫无意义的;

5、可行性(Effectiveness):算法中执行的任何计算步骤都是可以被分解为基本的可执行的操作步,即每个计算步都可以在有限时间内完成(也称之为有效性);

6、高效性(High efficiency):执行速度快,占用资源少;

7、健壮性(Robustness):对数据响应正确

时间复杂度

  一提到时间复杂度,第一个想到的绝对就是算法了,而时间复杂度就是指执行算法所需要的计算工作量。

  在计算机科学当中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间,时间复杂度常用大O符号(大O符号(Big O notation)是用于描述函数渐进行为的数学符号。更确切地说,它是用另一个(通常更简单的)函数来描述一个函数数量级的渐近上界。在数学中,它一般用来刻画被截断的无穷级数尤其是渐近级数的剩余项;在计算机科学中,它在分析算法复杂性的方面非常有用。)大O,简而言之可以认为它的含义是“order of”(大约是)

计算方法:

  一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的时间多,哪个算法花费的时间少就可以了。并且一个算法花费的时间与算法中语句的执行次数成正比例,哪个算法中语句执行次数多,它花费时间就多。

  简单来说,算法是我们解决问题的方法,而我们用这个方法解决这个问题所执行的语句次数,称为语句频度或者时间频度,为T(n)

  一般情况下,算法的基本操作重复执行的次数是模块n的某一个函数f(n),因此,算法的时间复杂度记作T(n) = O( f( n ) ).随着模块n的增加算法执行的时间增长率和f(n)的增长率成正比,所以f(n)越小,算法的时间复杂度越低,算法的效率越高。

  在计算时间复杂度的时候,先找出算法的基本操作,然后根据相应的各语句确定它的执行次数,再找出T(n)的同数量级(它的同数量级有以下:1,Log2n ,n ,nLog2n ,n的平方,n的三次方,2的n次方,n!),找出后,f(n)=该数量级,若T(n)/f(n)求极限可得到一常数c,则时间复杂度T(n)=O(f(n))

简单理解

循环减半的过程——>O(logn)

几层循环就是O的几次方的复杂度,

常见的时间复杂度(按数量级递增排列):

常数阶O(1), 对数阶O(log2n), 线性阶O(n), 线性对数阶O(nlog2n), 平方阶O(n^2), 立方阶O(n^3),..., k次方阶O(n^k), 指数阶O(2^n)

其中:

1、O(n),O(n^2), 立方阶O(n^3),..., k次方阶O(n^k) 为多项式阶时间复杂度,分别称为一阶时间复杂度,二阶时间复杂度。。。。

2、O(2^n),指数阶时间复杂度,该种不实用

3、对数阶O(log2n), 线性对数阶O(nlog2n),除了常数阶以外,该种效率最高

定义:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数 T(n)称为这一算法的“时间复杂性”。

当输入量n逐渐加大时,时间复杂性的极限情形称为算法的“渐近时间复杂性”。

我们常用大O表示法表示时间复杂性,注意它是某一个算法的时间复杂性。大O表示只是说有上界,由定义如果f(n)=O(n),那显然成立f(n)=O(n^2),它给你一个上界,但并不是上确界,但人们在表示的时候一般都习惯表示前者。

此外,一个问题本身也有它的复杂性,如果某个算法的复杂性到达了这个问题复杂性的下界,那就称这样的算法是最佳算法。

“大O记法”:在这种描述中使用的基本参数是 n,即问题实例的规模,把复杂性或运行时间表达为n的函数。这里的“O”表示量级 (order),比如说“二分检索是 O(logn)的”,也就是说它需要“通过logn量级的步骤去检索一个规模为n的数组”记法 O ( f(n) )表示当 n增大时,运行时间至多将以正比于 f(n)的速度增长。

这种渐进估计对算法的理论分析和大致比较是非常有价值的,但在实践中细节也可能造成差异。例如,一个低附加代价的O(n2)算法在n较小的情况下可能比一个高附加代价的 O(nlogn)算法运行得更快。当然,随着n足够大以后,具有较慢上升函数的算法必然工作得更快。

O(1)

Temp=i;i=j;j=temp;                    

以上三条单个语句的频度均为1,该程序段的执行时间是一个与问题规模n无关的常数。算法的时间复杂度为常数阶,记作T(n)=O(1)。如果算法的执行时间不随着问题规模n的增加而增长,即使算法中有上千条语句,其执行时间也不过是一个较大的常数。此类算法的时间复杂度是O(1)。

O(n^2)

2.1. 交换i和j的内容
     sum=0;                 (一次)
     for(i=1;i<=n;i++)       (n次 )
        for(j=1;j<=n;j++) (n^2次 )
         sum++;       (n^2次 )
解:T(n)=2n^2+n+1 =O(n^2)

2.2.   
    for (i=1;i<n;i++)
    {
        y=y+1;         ①   
        for (j=0;j<=(2*n);j++)    
           x++;        ②      
    }         
解: 语句1的频度是n-1
          语句2的频度是(n-1)*(2n+1)=2n^2-n-1
          f(n)=2n^2-n-1+(n-1)=2n^2-2
          该程序的时间复杂度T(n)=O(n^2).         

O(n)      
                                                      
2.3.
    a=0;
    b=1;                      ①
    for (i=1;i<=n;i++) ②
    {  
       s=a+b;    ③
       b=a;     ④  
       a=s;     ⑤
    }
解:语句1的频度:2,        
           语句2的频度: n,        
          语句3的频度: n-1,        
          语句4的频度:n-1,    
          语句5的频度:n-1,                                  
          T(n)=2+n+3(n-1)=4n-1=O(n).
                                                                                                 
O(log2n )

2.4.
     i=1;       ①
    while (i<=n)
       i=i*2; ②
解: 语句1的频度是1,  
          设语句2的频度是f(n),   则:2^f(n)<=n;f(n)<=log2n    
          取最大值f(n)= log2n,
          T(n)=O(log2n )

O(n^3)

2.5.
    for(i=0;i<n;i++)
    {  
       for(j=0;j<i;j++)  
       {
          for(k=0;k<j;k++)
             x=x+2;  
       }
    }
解:当i=m, j=k的时候,内层循环的次数为k当i=m时, j 可以取 0,1,...,m-1 , 所以这里最内循环共进行了0+1+...+m-1=(m-1)m/2次所以,i从0取到n, 则循环共进行了: 0+(1-1)*1/2+...+(n-1)n/2=n(n+1)(n-1)/6所以时间复杂度为O(n^3).
                                  

我们还应该区分算法的最坏情况的行为和期望行为。如快速排序的最 坏情况运行时间是 O(n^2),但期望时间是 O(nlogn)。通过每次都仔细 地选择基准值,我们有可能把平方情况 (即O(n^2)情况)的概率减小到几乎等于 0。在实际中,精心实现的快速排序一般都能以 (O(nlogn)时间运行。
下面是一些常用的记法:


访问数组中的元素是常数时间操作,或说O(1)操作。一个算法如 果能在每个步骤去掉一半数据元素,如二分检索,通常它就取 O(logn)时间。用strcmp比较两个具有n个字符的串需要O(n)时间。常规的矩阵乘算法是O(n^3),因为算出每个元素都需要将n对 元素相乘并加到一起,所有元素的个数是n^2。
指数时间算法通常来源于需要求出所有可能结果。例如,n个元 素的集合共有2n个子集,所以要求出所有子集的算法将是O(2n)的。指数算法一般说来是太复杂了,除非n的值非常小,因为,在 这个问题中增加一个元素就导致运行时间加倍。不幸的是,确实有许多问题 (如著名的“巡回售货员问题” ),到目前为止找到的算法都是指数的。如果我们真的遇到这种情况,通常应该用寻找近似最佳结果的算法替代之。
View Code

空间复杂度

 空间复杂度是指执行这个算法所需要的内存空间。

空间复杂度(Space Complexity)是对一个算法在运行过程中临时占用存储空间大小的量度,记做S(n)=O(f(n))。

  对于一个算法来说,空间复杂度和时间复杂度往往是相互影响的。当追求一个较好的时间复杂度时,可能会使空间复杂度的性能变差,即可能导致占用较多的存储空间;反之,当追求一个较好的空间复杂度时,可能会使时间复杂度的性能变差,即可能导致占用较长的运行时间。

有时我们可以用空间来换取时间以达到目的。

列表查找

列表查找(从列表中查找指定元素)

输入:列表、待查找元素

输出:元素下标或未查找到元素

1、顺序查找(遍历)

从列表第一个元素开始,顺序进行搜索,直到找到为止。

def linear_search(data_set, value):
       for i in range(range(data_set)):
            if data_set[i] == value:
                return i       
       return

2、二分查找

从有序列表的候选区data[0:n]  开始,通过对待查找的值与候选区中间值的比较,可以使候选区减少一半。

# li是用来查找的列表,val是将要查找的值
def bin_search(li, val):
    low = 0
    high = len(li) - 1
    while low <= high:
        mid = (low + high) // 2
        if li[mid] == val:
            return mid
        elif li[mid] < val:
            low = mid + 1
        else:
            high = mid - 1
    return None

 递归版本的二分查找

def bin_search_rec(data_set, value, low, high):
    if low <= high:
        mid = (low + high) // 2
        if data_set[mid] == value:
            return mid
        elif data_set[mid] > value:
            return bin_search_rec(data_set, value, low, mid - 1)
        else:
            return bin_search_rec(data_set, value, mid + 1, high)
    else:
        return

常用排序

名称

复杂度

说明

备注

冒泡排序
Bubble Sort

O(N*N)

将待排序的元素看作是竖着排列的“气泡”,较小的元素比较轻,从而要往上浮

 

插入排序

Insertion sort

O(N*N)

逐一取出元素,在已经排序的元素序列中从后向前扫描,放到适当的位置

起初,已经排序的元素序列为空

选择排序

O(N*N)

首先在未排序序列中找到最小元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小元素,然后放到排序序列末尾。以此递归。

 

快速排序

Quick Sort

O(n *log2(n))

先选择中间值,然后把比它小的放在左边,大的放在右边(具体的实现是从两边找,找到一对后交换)。然后对两边分别使用这个过程(递归)。

 

堆排序HeapSort

O(n *log2(n))

利用堆(heaps)这种数据结构来构造的一种排序算法。堆是一个近似完全二叉树结构,并同时满足堆属性:即子节点的键值或索引总是小于(或者大于)它的父节点。

近似完全二叉树

希尔排序

SHELL

O(n1+)

0<£<1

选择一个步长(Step) ,然后按间隔为步长的单元进行排序.递归,步长逐渐变小,直至为1.

 

箱排序
Bin Sort

O(n)

设置若干个箱子,把关键字等于 k 的记录全都装入到第k 个箱子里 ( 分配 ) ,然后按序号依次将各非空的箱子首尾连接起来 ( 收集 ) 。

分配排序的一种:通过" 分配 " 和 " 收集 " 过程来实现排序。

演示工具:https://visualgo.net/en

冒泡排序

冒泡排序,是一种计算机科学领域的比较简单的排序算法。

重复走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就将他们交换过来。走访数列的工作是重复地进行直到没有在需要交换的,也就是说该数列已经排序完成。

这个算法的名字由来是因为越大的元素会经由交换慢慢浮到数列的顶端,所以叫做冒泡排序

# 冒泡排序
def bubble_sort(li):
    # i 是要执行的趟数
    for i in range(len(li) - 1):
        # j 是指针
        for j in range(len(li) - i - 1):
            # 当前数比上一个数大的时候交换两个数的位置
            if li[j] > li[j + 1]:
                li[j],li[j + 1] = li[j + 1],li[j]
    return li

插入排序

 将列表分成有序区和无序区两个部分。在最开始有序区只有一个元素;每次从无序区选择一个元素,插入到有序区的位置,知道无序区变空

#### 插入排序
def insertSort(li):
    for i in range(len(li) - 1):
        tmp = li[i]
        j = i - 1
        while j >= 0  and li[j] > tmp:
            li[j+1] = li[j]
            j = j - 1
        li[j+1] = tmp

选择排序

 第一趟遍历记录中最小的数,将其放到第一个位置;再一趟遍历记录中剩余的最小的数,继续放置,依次类推,知道所有的记录遍历完毕...

# 选择排序
def selectSort(li):
    for i in range(len(li) - 1):
        min = i
        for j in range(i+1, len(li)):
            if li[min] > li[j]:
               li[min], li[j] = li[j], li[min]

快速排序(最常用)

 快排是我在知道算法后听到最多的一种算法,它是好写的排序算法中最快的一种、执行快的排序算法中最好写的。

要排序一个数组,首先选取任意一个数据(通常选用数组的第一个数)来作为关键数据,然后将所有比它小的数都放到它的前面,所有比它大的数都放到它的后面。这个过程为一趟快速排序。需要注意的是,快速排序不是一种稳定的排序算法,也就是说,多个相同的值的相对位置也许会在算法结束时产生变动。

#### 快速排序
def partition(li, left, right): # li 传入的数组
    # 默认选取最左边的数
    tmp = li[left]
    while left < right:
        # 当最左边的下标小于最右边的下标和最右边的数大于默认选中的数条件成立
        while left < right and li[right] > tmp:
            # 依次往左进行判断
            right = right - 1
        # 循环结束,就代表li[right]小于默认数,
        li[left] = li[right]

        # 当最左边的下标小于最右边的下标和最左边的数小于默认选中的数条件成立
        while left < right and li[left] < tmp:
            # 依次往右判断
            left = left + 1
        # 循环结束,就代表li[left]大于默认数
        li[right] = li[left]
    
    li[left] = tmp

    return left

def quickSort(li, left, right):

    if left < right:
        mid = partition(li, left, right)
        quickSort(li, left, mid - 1)
        quickSort(li, mid+1, right)

 

补充:

斐波那契数列非递归写法

def climbStairs(n):
    a = 1
    b = 1
    for i in range(n):
        a, b = b, a + b
    return a

 

推荐阅读