数据结构学习-三大查找八大排序

三大查找方法

顺序查找，二分法查找（折半查找），分块查找

顺序查找的基本思想：

从表的一端开始，顺序扫描表，依次将扫描到的结点关键字和给定值（假定为a）相比较，若当前结点关键字与a相等，则查找成功；若扫描结束后，仍未找到关键字等于a的结点，则查找失败。

说白了就是，从头到尾，一个一个地比，找着相同的就成功，找不到就失败。很明显的缺点就是查找效率低。

适用于线性表的顺序存储结构和链式存储结构。

image.png

计算平均查找长度。例如上表，查找1，需要1次，查找2需要2次，依次往下推，可知查找16需要16次，可以看出，我们只要将这些查找次数求和（我们初中学的，上底加下底乘以高除以2），然后除以结点数，即为平均查找长度。设n=节点数平均查找长度 =（n+1）/2

二分法查找（折半查找）的基本思想：

前提：

（1）确定该区间的中点位置：mid =（low+high）/2

min代表区间中间的结点的位置，low代表区间最左结点位置，high代表区间最右结点位置

（2）将待查a值与结点mid的关键字（下面用R[mid].key）比较，若相等，则查找成功，否则确定新的查找区间：

如果R[mid].key>a，则由表的有序性可知，R[mid].key右侧的值都大于a，所以等于a的关键字如果存在，必然在R[mid].key左边的表中。这时high=mid-1

如果R[mid].key<a,则等于a的关键字如果存在，必然在R[mid].key右边的表中。这时low=mid

如果R[mid].key=a，则查找成功。

（3）下一次查找针对新的查找区间，重复步骤（1）和（2）

（4）在查找过程中，low逐步增加，high逐步减少，如果high<low，则查找失败。

/**

* @param $x

* @param $a

* @param $lower

* @param $high

* @return bool|int

* 二分查找,需要数组是一个有序数组

* 递归实现

*/privatefunctionbinRecursive($x,&$a,$lower=0,$high=11){//$lower开始位置 $high结束位置//采用二分法查找$c=count($a);if($high>$c){returnfalse;}if($lower<=$high){$middle=intval(($lower+$high)/2);if($a[$middle]==$x){return$middle;}elseif($a[$middle]<$x){//在后半段里查return$this->binSearchRecursive($x,$a,$middle+1,$high);}else{//在前半段里查return$this->binSearchRecursive($x,$a,$lower,$middle-1);}}else{returnfalse;}}

image.png

平均查找长度=Log2(n+1)-1

注：虽然二分法查找的效率高，但是要将表按关键字排序。而排序本身是一种很费时的运算，所以二分法比较适用于顺序存储结构。为保持表的有序性，在顺序结构中插入和删除都必须移动大量的结点。因此，二分查找特别适用于那种一经建立就很少改动而又经常需要查找的线性表。

分块查找的基本思想：

二分查找表使分块有序的线性表和索引表（抽取各块中的最大关键字及其起始位置构成索引表）组成，由于表是分块有序的，所以索引表是一个递增有序表，因此采用顺序或二分查找索引表，以确定待查结点在哪一块，由于块内无序，只能用顺序查找。

image.png

设表共n个结点，分b块，s=n/b(分块查找索引表)平均查找长度=Log2（n/s+1）+s/2(顺序查找索引表)平均查找长度=(S2+2S+n)/(2S)

注：分块查找的优点是在表中插入或删除一个记录时，只要找到该记录所属块，就在该块中进行插入或删除运算（因块内无序，所以不需要大量移动记录）。它主要代价是增加一个辅助数组的存储控件和将初始表分块排序的运算。

它的性能介于顺序查找和二分查找之间。

八大排序

数据结构常见的八大排序算法，他们之间关系如下：

img

排序算法.png

他们的性能比较：

img

性能比较.png

下面，利用Python分别将他们进行实现。

直接插入排序

算法思想：

img

直接插入排序.gif

直接插入排序的核心思想就是：将数组中的所有元素依次跟前面已经排好的元素相比较，如果选择的元素比已排序的元素小，则交换，直到全部元素都比较过。

因此，从上面的描述中我们可以发现，直接插入排序可以用两个循环完成：

第一层循环：遍历待比较的所有数组元素

第二层循环：将本轮选择的元素(selected)与已经排好序的元素(ordered)相比较。

如果：selected > ordered，那么将二者交换

代码实现

#直接插入排序definsert_sort(L):#遍历数组中的所有元素，其中0号索引元素默认已排序，因此从1开始forxinrange(1,len(L)):#将该元素与已排序好的前序数组依次比较，如果该元素小，则交换#range(x-1,-1,-1):从x-1倒序循环到0foriinrange(x-1,-1,-1):#判断：如果符合条件则交换ifL[i]>L[i+1]:temp=L[i+1]L[i+1]=L[i]L[i]=temp

希尔排序

算法思想：

img

希尔排序.png

希尔排序的算法思想：将待排序数组按照步长gap进行分组，然后将每组的元素利用直接插入排序的方法进行排序；每次将gap折半减小，循环上述操作；当gap=1时，利用直接插入，完成排序。

同样的：从上面的描述中我们可以发现：希尔排序的总体实现应该由三个循环完成：

第一层循环：将gap依次折半，对序列进行分组，直到gap=1

第二、三层循环：也即直接插入排序所需要的两次循环。具体描述见上。

代码实现：

#希尔排序definsert_shell(L):#初始化gap值，此处利用序列长度的一般为其赋值gap=(int)(len(L)/2)#第一层循环：依次改变gap值对列表进行分组while(gap>=1):#下面：利用直接插入排序的思想对分组数据进行排序#range(gap,len(L)):从gap开始forxinrange(gap,len(L)):#range(x-gap,-1,-gap):从x-gap开始与选定元素开始倒序比较，每个比较元素之间间隔gapforiinrange(x-gap,-1,-gap):#如果该组当中两个元素满足交换条件，则进行交换ifL[i]>L[i+gap]:temp=L[i+gap]L[i+gap]=L[i]L[i]=temp#while循环条件折半gap=(int)(gap/2)

简单选择排序

算法思想

img

简单选择排序.gif

简单选择排序的基本思想：比较+交换。

从待排序序列中，找到关键字最小的元素；

如果最小元素不是待排序序列的第一个元素，将其和第一个元素互换；

从余下的 N - 1 个元素中，找出关键字最小的元素，重复(1)、(2)步，直到排序结束。

因此我们可以发现，简单选择排序也是通过两层循环实现。

第一层循环：依次遍历序列当中的每一个元素

第二层循环：将遍历得到的当前元素依次与余下的元素进行比较，符合最小元素的条件，则交换。

代码实现

# 简单选择排序defselect_sort(L):#依次遍历序列中的每一个元素forxinrange(0,len(L)):#将当前位置的元素定义此轮循环当中的最小值minimum=L[x]#将该元素与剩下的元素依次比较寻找最小元素foriinrange(x+1,len(L)):ifL[i]<minimum:temp=L[i];L[i]=minimum;minimum=temp#将比较后得到的真正的最小值赋值给当前位置L[x]=minimum

堆排序

堆的概念

堆：本质是一种数组对象。特别重要的一点性质：任意的叶子节点小于（或大于）它所有的父节点。对此，又分为大顶堆和小顶堆，大顶堆要求节点的元素都要大于其孩子，小顶堆要求节点元素都小于其左右孩子，两者对左右孩子的大小关系不做任何要求。

利用堆排序，就是基于大顶堆或者小顶堆的一种排序方法。下面，我们通过大顶堆来实现。

基本思想：

堆排序可以按照以下步骤来完成：

首先将序列构建称为大顶堆；

（这样满足了大顶堆那条性质：位于根节点的元素一定是当前序列的最大值）

![img](https://upload-images.jianshu.io/upload_images/1156494-596eee6397817ca2.png)构建大顶堆.png

取出当前大顶堆的根节点，将其与序列末尾元素进行交换；

（此时：序列末尾的元素为已排序的最大值；由于交换了元素，当前位于根节点的堆并不一定满足大顶堆的性质）

对交换后的n-1个序列元素进行调整，使其满足大顶堆的性质；

![img](https://upload-images.jianshu.io/upload_images/1156494-7e5c63ce1ed48ebf.png)Paste_Image.png

重复2.3步骤，直至堆中只有1个元素为止

代码实现：

#-------------------------堆排序--------------------------------#**********获取左右叶子节点**********defLEFT(i):return2*i+1defRIGHT(i):return2*i+2#********** 调整大顶堆 **********#L:待调整序列 length: 序列长度 i:需要调整的结点defadjust_max_heap(L,length,i):#定义一个int值保存当前序列最大值的下标largest=i#执行循环操作：两个任务：1 寻找最大值的下标；2.最大值与父节点交换while(1):#获得序列左右叶子节点的下标left,right=LEFT(i),RIGHT(i)#当左叶子节点的下标小于序列长度并且左叶子节点的值大于父节点时，将左叶子节点的下标赋值给largestif(left<length)and(L[left]>L[i]):largest=leftprint('左叶子节点')else:largest=i#当右叶子节点的下标小于序列长度并且右叶子节点的值大于父节点时，将右叶子节点的下标值赋值给largestif(right<length)and(L[right]>L[largest]):largest=rightprint('右叶子节点')#如果largest不等于i 说明当前的父节点不是最大值，需要交换值if(largest!=i):temp=L[i]L[i]=L[largest]L[largest]=temp i=largestprint(largest)continueelse:break#********** 建立大顶堆 **********defbuild_max_heap(L):length=len(L)forxinrange((int)((length-1)/2),-1,-1):adjust_max_heap(L,length,x)#********** 堆排序 **********defheap_sort(L):#先建立大顶堆，保证最大值位于根节点；并且父节点的值大于叶子结点build_max_heap(L)#i：当前堆中序列的长度.初始化为序列的长度i=len(L)#执行循环：1. 每次取出堆顶元素置于序列的最后(len-1,len-2,len-3...)# 2. 调整堆，使其继续满足大顶堆的性质，注意实时修改堆中序列的长度while(i>0):temp=L[i-1]L[i-1]=L[0]L[0]=temp#堆中序列长度减1i=i-1#调整大顶堆adjust_max_heap(L,i,0)

冒泡排序

基本思想

img

冒泡排序.gif

冒泡排序思路比较简单：

将序列当中的左右元素，依次比较，保证右边的元素始终大于左边的元素；

（第一轮结束后，序列最后一个元素一定是当前序列的最大值；）

对序列当中剩下的n-1个元素再次执行步骤1。

对于长度为n的序列，一共需要执行n-1轮比较

（利用while循环可以减少执行次数）

*代码实现

#冒泡排序defbubble_sort(L):length=len(L)#序列长度为length，需要执行length-1轮交换forxinrange(1,length):#对于每一轮交换，都将序列当中的左右元素进行比较#每轮交换当中，由于序列最后的元素一定是最大的，因此每轮循环到序列未排序的位置即可foriinrange(0,length-x):ifL[i]>L[i+1]:temp=L[i]L[i]=L[i+1]L[i+1]=temp

快速排序

算法思想：

img

快速排序.gif

快速排序的基本思想：挖坑填数+分治法

从序列当中选择一个基准数(pivot)

在这里我们选择序列当中第一个数最为基准数

将序列当中的所有数依次遍历，比基准数大的位于其右侧，比基准数小的位于其左侧

重复步骤1.2，直到所有子集当中只有一个元素为止。

用伪代码描述如下：

1．i =L; j = R; 将基准数挖出形成第一个坑a[i]。

2．j--由后向前找比它小的数，找到后挖出此数填前一个坑a[i]中。

3．i++由前向后找比它大的数，找到后也挖出此数填到前一个坑a[j]中。

4．再重复执行2，3二步，直到i==j，将基准数填入a[i]中

代码实现：

#快速排序#L：待排序的序列；start排序的开始index,end序列末尾的index#对于长度为length的序列：start = 0;end = length-1defquick_sort(L,start,end):ifstart<end:i,j,pivot=start,end,L[start]whilei<j:#从右开始向左寻找第一个小于pivot的值while(i<j)and(L[j]>=pivot):j=j-1#将小于pivot的值移到左边if(i<j):L[i]=L[j]i=i+1#从左开始向右寻找第一个大于pivot的值while(i<j)and(L[i]<pivot):i=i+1#将大于pivot的值移到右边if(i<j):L[j]=L[i]j=j-1#循环结束后，说明 i=j，此时左边的值全都小于pivot,右边的值全都大于pivot#pivot的位置移动正确，那么此时只需对左右两侧的序列调用此函数进一步排序即可#递归调用函数：依次对左侧序列：从0 ~ i-1//右侧序列：从i+1 ~ endL[i]=pivot#左侧序列继续排序quick_sort(L,start,i-1)#右侧序列继续排序quick_sort(L,i+1,end)

归并排序

算法思想：

img

归并排序.gif

归并排序是建立在归并操作上的一种有效的排序算法，该算法是采用分治法的一个典型的应用。它的基本操作是：将已有的子序列合并，达到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。

归并排序其实要做两件事：

分解----将序列每次折半拆分

合并----将划分后的序列段两两排序合并

因此，归并排序实际上就是两个操作，拆分+合并

如何合并？

L[first...mid]为第一段，L[mid+1...last]为第二段，并且两端已经有序，现在我们要将两端合成达到L[first...last]并且也有序。

首先依次从第一段与第二段中取出元素比较，将较小的元素赋值给temp[]

重复执行上一步，当某一段赋值结束，则将另一段剩下的元素赋值给temp[]

此时将temp[]中的元素复制给L[]，则得到的L[first...last]有序

如何分解？

在这里，我们采用递归的方法，首先将待排序列分成A,B两组；然后重复对A、B序列

分组；直到分组后组内只有一个元素，此时我们认为组内所有元素有序，则分组结束。

代码实现

# 归并排序#这是合并的函数# 将序列L[first...mid]与序列L[mid+1...last]进行合并defmergearray(L,first,mid,last,temp):#对i,j,k分别进行赋值i,j,k=first,mid+1,0#当左右两边都有数时进行比较，取较小的数while(i<=mid)and(j<=last):ifL[i]<=L[j]:temp[k]=L[i]i=i+1k=k+1else:temp[k]=L[j]j=j+1k=k+1#如果左边序列还有数while(i<=mid):temp[k]=L[i]i=i+1k=k+1#如果右边序列还有数while(j<=last):temp[k]=L[j]j=j+1k=k+1#将temp当中该段有序元素赋值给L待排序列使之部分有序forxinrange(0,k):L[first+x]=temp[x]# 这是分组的函数defmerge_sort(L,first,last,temp):iffirst<last:mid=(int)((first+last)/2)#使左边序列有序merge_sort(L,first,mid,temp)#使右边序列有序merge_sort(L,mid+1,last,temp)#将两个有序序列合并mergearray(L,first,mid,last,temp)# 归并排序的函数defmerge_sort_array(L):#声明一个长度为len(L)的空列表temp=len(L)*[None]#调用归并排序merge_sort(L,0,len(L)-1,temp)

基数排序

算法思想

img

基数排序.gif

基数排序：通过序列中各个元素的值，对排序的N个元素进行若干趟的“分配”与“收集”来实现排序。

分配：我们将L[i]中的元素取出，首先确定其个位上的数字，根据该数字分配到与之序号相同的桶中

收集：当序列中所有的元素都分配到对应的桶中，再按照顺序依次将桶中的元素收集形成新的一个待排序列L[ ]

对新形成的序列L[]重复执行分配和收集元素中的十位、百位...直到分配完该序列中的最高位，则排序结束

根据上述“基数排序”的展示，我们可以清楚的看到整个实现的过程

代码实现

#************************基数排序****************************#确定排序的次数#排序的顺序跟序列中最大数的位数相关defradix_sort_nums(L):maxNum=L[0]#寻找序列中的最大数forxinL:ifmaxNum<x:maxNum=x#确定序列中的最大元素的位数times=0while(maxNum>0):maxNum=(int)(maxNum/10)times=times+1returntimes#找到num从低到高第pos位的数据defget_num_pos(num,pos):return((int)(num/(10**(pos-1))))%10#基数排序defradix_sort(L):count=10*[None]#存放各个桶的数据统计个数bucket=len(L)*[None]#暂时存放排序结果#从低位到高位依次执行循环forposinrange(1,radix_sort_nums(L)+1):#置空各个桶的数据统计forxinrange(0,10):count[x]=0#统计当前该位(个位，十位，百位....)的元素数目forxinrange(0,len(L)):#统计各个桶将要装进去的元素个数j=get_num_pos(int(L[x]),pos)count[j]=count[j]+1#count[i]表示第i个桶的右边界索引forxinrange(1,10):count[x]=count[x]+count[x-1]#将数据依次装入桶中forxinrange(len(L)-1,-1,-1):#求出元素第K位的数字j=get_num_pos(L[x],pos)#放入对应的桶中，count[j]-1是第j个桶的右边界索引bucket[count[j]-1]=L[x]#对应桶的装入数据索引-1count[j]=count[j]-1# 将已分配好的桶中数据再倒出来，此时已是对应当前位数有序的表forxinrange(0,len(L)):L[x]=bucket[x]

后记

写完之后运行了一下时间比较：

1w个数据时：

直接插入排序:11.615608希尔排序:13.012008简单选择排序:3.645136000000001堆排序:0.09587900000000005冒泡排序:6.687218999999999#****************************************************快速排序:9.999999974752427e-07 #快速排序有误：实际上并未执行#RecursionError:maximum recursion depth exceeded in comparison#****************************************************归并排序:0.05638299999999674基数排序:0.08150400000000246

10w个数据时：

直接插入排序:1233.581131希尔排序:1409.8012320000003简单选择排序:466.66974500000015堆排序:1.2036720000000969冒泡排序:751.274449#****************************************************快速排序:1.0000003385357559e-06#快速排序有误：实际上并未执行#RecursionError:maximum recursion depth exceeded in comparison#****************************************************归并排序:0.8262230000000272基数排序:1.1162899999999354

从运行结果上来看，堆排序、归并排序、基数排序真的快。

对于快速排序迭代深度超过的问题，可以将考虑将快排通过非递归的方式进行实现。