基本算法和数据结构回顾

个人感觉，学习算法和数据结构后一段时间，往往会忘掉很多东西，于是我给自己写了这个回顾系列，什么东西想不起来时就翻看一下。

排序

如果存在多个排序码相同的记录，经过排序后，相同排序码记录的相对次序如果保持不变，则称这种排序方法是稳定的，对应Linux系统中sort命令的-s和--stable参数。

插入排序

插入排序的基本方法是，每一步将一个待排序的记录，按其排序码大小，插到前面已经排序的数据中的适当位置，直到全部插入完成为止。

直接插入排序

直接插入排序就是从第二个数据开始，和前面的所有数据比较，使前面的数据都是有序的，时间复杂度最好情况下是O(n)，最坏情况下是O(n^2)。

二分法插入排序

通过二分法比较，平均复杂度为O(n^2)。

Shell排序

首先取一个整数d1 < n，把全部记录分成 d1 个组，所有距离为 d1 的倍数的记录放在一组中，先在各组内排序，然后取d2 < d1重复上述分组和排序工作，直到d1 = 1，即所有记录放在一组中为止。

Shell排序的时间复杂度大约是O(n^1.3)。

一个简单的Shell排序程序如下：

/* shellsort，按递增顺序对v[0]...v[n-1]进行排序 */
void shellsort(int v[], int n) {
    int gap, i, j, temp;
    /* 控制两个被比较元素之间的距离 */
    for (gap = n/2; gap > 0; gap /= 2)
        /* 用于在元素间移动位置，使每一组间隔gap的元素排序 */
        for (i = gap; i < n; i++)
            /* 从最左边开始，每隔gap取一个元素，排序
             * 注意当取到该组的第k个元素时，组内之前的元素已经排好序了
             * 所以之需要找到组内从右向左第一个小于它的元素，并把第k个元素
             * 与这个元素后面的那个元素互换，就能保证这k个元素是排好序的
             */
            for (j=i-gap; j>=0 && v[j]>v[j+gap]; j-=gap) {
                temp = v[j];
                v[j] = v[j+gap];
                v[j+gap] = temp;
            }
}

选择排序

选择排序的基本方法是：每步从待排序的记录中选出排序码最小的记录，顺序放在已经排序的记录序列的后面，直到全部排完。

直接选择排序

就是“选择排序”的最基本语义的定义。时间复杂度为O(n^2)。

堆排序

使用一个堆存放未排序的数据，每次从堆中取出堆顶数据放到已排序数据后面，然后重新调整堆，再取新的堆顶数据，直到堆中元素个数为0。

堆排序的时间复杂度为O(n*log2(n))。

交换排序

交换排序的基本方法是：两两比较待排序记录，如果不满足顺序要求则交换，直到全部满足为止。

冒泡排序

冒泡排序通过相邻记录之间的比较和交换，使较大的逐步向后移动，而较小的向前移动，每一趟冒泡后，最大的元素就会在最后，然后再对之前的数据进行一次冒泡，如果某一趟冒泡中没有发生数据交换，说明数据已经排序好了。

当文件是正序时，显然时间复杂度为O(n)，最坏时间复杂度为O(n^2)。

快速排序

快速排序的基本思想是：在待排序的n个记录中任意取一个记录为分区标准，把所有小于该记录的移动到左边，大于该记录的移动的右边，称之为一趟排序；然后，对前后两个子序列分别重复上述过程。

void swap(int v[], int i, int j) {
    int tmp;
    tmp = v[i];
    v[i] = v[j];
    v[j] = tmp;
}

/* 快速排序，对v[left] ... v[right]进行排序 */
void qsort(int v[], int left, int right) {
    int i, last;
    if (left >= right)
        return;

    /* 取中间一个元素为划分子集的元素, 并且把它和第一个元素交换 */
    swap(v, left, (left + right)/2);
    /* last表示的位置是其左边（包括它自己）的所有元素都小于特定元素 */
    /* 首先把last定位到开头，然后逐个比较元素是否小于特定元素 */
    /* 如果小于的话，就把它和last的下一位交换，同时last增加1 */
    /* 这样仍然满足last以及last之前的所以元素都小于特定元素 */
    last = left;
    /* 由于之前已经把特定元素放到开头了，所以从第二个元素开始和v[left]比较 */
    for (i = left+1; i <= right; i++)
        /* 如果小于的话，就把它和last的下一位交换，同时last增加1 */
        if (v[i] < v[left])
            swap(v, ++last, i);
    /* 注意，一开始的时候我们是把特定元素放到第一项的， 而last表示的是小于 */
    /* 特定元素的最后一项，现在交换它们的位置，也就是把特定元素放到中间 */
    /* 左边的都小于它，右边的都大于它 */
    swap(v, left, last);

    /* 对剩下的两部分进行同样的操作 */
    qsort(v, left, last-1);
    qsort(v, last+1, right);
}

当待排序记录已经排序时，用快速排序算法的执行时间最长。最坏情况下时间复杂度是 O(n^2)，平均是O(n*log2(n))。快速排序是不稳定的。

分配排序

分配排序的思想是把排序码分解成若干部分，然后通过对各个部分排序码的分别排序，最终达到整个排序码的排序。

考虑排序扑克牌，那么可以按照花色先分成4部分，黑-红-梅-方，然后再在各个部分内部排好序。

对于数字，可以先按照个位排序，然后按照十位排序，依次类推。

归并排序

归并排序的主要思想是：把待排序的文件分成若干个子文件，先将每个子文件内的记录排序，再将已排序的子文件合并，得到完全排序的文件。合并时开始只要比较各子文件第一个记录的排序码，排序码最小的记录为排序后的第一个记录，取出该记录，继续比较各子文件的第一个记录，找出排序后的第二个记录，如此反复，经过一次扫描，得到排序结果。

/*
 * 归并排序
 */

/*
 * v[row]到r[m]和r[m+1]到r[high]是存储在同一个数组中且相邻的两个有序的子文件
 * merge函数将这两个子文件合并成一个有序的文件，并存放在v1[low]到v1[high]中
 */
void merge(int v[], int v1[], int low, int m, int high) {
    int i = low;
    int j = m + 1;
    int k = low;
    /* 不断从两个有序文件中的第一个记录中选出最小的记录 */
    while ((i <= m) && (j <= high)) {
        if (v[i] <= v[j])
            v1[k++] = v[i++];
        else
            v1[k++] = v[j++];
    }
    /* 分别复制两个文件的剩余记录，事实上只会有一个文件有记录 */
    while (i <= m)
        v1[k++] = v[i++];
    while (j <= high)
        v1[k++] = v[j++];
}

/*
 * 一趟归并算法，对长度为n的v做一趟归并，结果放在v1中, seg表示子文件的长度
 * 子文件应该是：v[0]~v[seg-1], v[seg]~v[2*seg-1], ...
 * 要注意，最后一个的长度有可能小于seg
 */
void merge_pass(int v[], int v1[], int size, int seg) {
    int i = 0;
    int j = 0;
    /* 两个两个地对文件进行归并 */
    while (i + 2 * seg -1 < size) {
        merge(v, v1, i, i+seg-1, i+2*seg-1);
        i += 2 * seg;
    }

    if (i+seg-1 < size-1)    /* 剩下两个文件，其中一个长度可能小于seg */
        merge(v, v1, i, i+seg-1, size-1);
    else                  /* 只剩下最后一个文件，直接复制即可 */
        for (j=i; j<size; j++)
            v1[j] = v[j];
}

/*
 * 二路归并算法
 * 通过改变seg的大小一边一遍地对数据进行merge_pass
 */
void merge_sort(int v[], int size) {
    int *temp = malloc(size * sizeof(int));
    int seg = 1;
    while (seg < size) {
        /* 把v进行一趟归并，存放到temp中 */
        merge_pass(v, temp, size, seg);
        seg += seg;
        /* 增加seg的值后对temp进行一次归并，存放到v中 */
        merge_pass(temp, v, size, seg);
        seg += seg;
    }
    free(temp);
}

二路归并排序的时间复杂度是O(n*log2(n))。

二叉树

一些概念

节点的层数：根的层数为0，其他节点的层数为其父节点层数加1。

节点的度数：节点的非空子树的个数。

完全二叉树：只有最下面两层节点度数小于2，其余节点度数都为2。对于完全二叉树，如果用数组从上到下，从左到右地表示树的所有节点，则节点i如果有父节点，则父节点是(i-1)/2；如果有左子节点，则为2i+1，如果有右子节点，则为 2i+2。

堆与优先队列

堆的定义

n个元素的序列 K = (k[0], k[1], …, k[n-1])，满足：

(1) { k[i] >= k[2i+1], k[i] >= k[2i+2] } 或者 (2) { k[i] <= k[2i+1], k[i] <= k[2i+2] }

(1)叫做大根堆，(2)叫做小根堆。

可以用完全二叉树表示堆，对于小根堆，就表示每个子二叉树的根都小于其左、右子节点，这种堆叫做二叉堆。

优先队列：就是“最小元素先出”的队列。

二叉堆中实现的优先队列，要取出最小元素，直接把堆顶元素取出即可。取出后，把堆的最后一个元素放到根节点处，此时根节点的左右两个子树都是二叉堆，通过下面的算法可以把整个堆调整为二叉堆：

比较根节点和左右子节点，找出最小的和根节点互换，那么这三个节点满足堆的特性，对于发生互换的那个子树，比较其根节点与左右子节点，取最小的与根互换，依次类推直到最后。

哈夫曼树（最优二叉树）

如果数中的所有节点都有一个权重，那么对“从根节点到各个外部节点的路径长度与相应节点权重的乘积”求和，这个和叫做“带权重的外部路径长度（WPL）”，使这个WPL最小的树，就叫“哈夫曼树”。

构造哈夫曼树的基本思想是：

每个数据构成一颗树（只有根节点）；
从所有数据中找出最小和第二小的两个树，最为左子树和右子树构成二叉树，根节点的权重是两个子节点权重只和；
把根节点作为数据，和剩下的其他数据比较，再选出第一小和第二小的两个树，重复步骤2，知道最后只剩下一颗树。

二叉排序树

二叉排序树又叫二叉搜索树，它的所有子树都满足：左子节点小于根节点，右子节点大于根节点。

二叉排序树的搜索和插入都比较简单直观，我们看一下它的删除。

若p结点为叶子结点，即PL(左子树)和PR(右子树)均为空树。由于删去叶子结点不破坏整棵树的结构，则只需修改其双亲结点的指针即可。
若p结点只有左子树PL或右子树PR，此时只要令PL或PR直接成为其双亲结点f的左子树（当p是左子树）或右子树（当p是右子树）即可，作此修改也不破坏二叉排序树的特性。
若p结点的左子树和右子树均不空。在删去p之后，为保持其它元素之间的相对位置不变，可按中序遍历保持有序进行调整，可以有两种做法：
- 在p的左子树中，找出关键码最大的一个节点r（r处于p的左子树中最右下角的位置，r一定无右子女），将r的右指针指向p的右子女，用p的左子女代替p节点。
- 同上一种方法找到r节点，用r节点代替被删除的节点p，p原来的左右子女不变。并且用原来r的左子女代替原来的r节点。

平衡二叉排序树

二叉排序树容易“一边倒”，这样搜索起来就会很慢，于是有了动态保持平衡的二叉排序树，叫做平衡二叉排序树，或者叫AVL树。这种树的左右子树高度之差的绝对值不超过1。

查找、插入和删除在平均和最坏情况下都是O（log n）。增加和删除可能需要通过一次或多次树旋转来重新平衡这个树。

关于AVL树的调整平衡以及其他操作，可以参考 AVL树

B树和B+树

下面两个图能表达出两种树的意思。

B树

B+树

参考资料：