数组和链表结构(python)_1

本文的最新版本位于:https://github.com/iwhales/algorithms_notes
转载请注明出处://www.greatytc.com/u/5e6f798c903a

参考:《数据结构(Python 语言描述)》- 第4章 数组和链表

在编程语言中,最常用来实现集合(collection)的两种数据结构是数组和链表结构。这两种类型的结构采用不同的方法在计算内存中存储和访问数据。也正是由于这些不同的方法,导致了操作这两种结构的算法存在不同的时间/空间取舍。由此,我们需要了解数据结构,以明白不同的数据结构对算法的影响。

本文内容目录如下,会分拆为两篇笔记,另一则笔记是 "数组和链表结构(python)_2"。

目录.jpg

1. 术语

本节中的一些概念并非特定于 Python,比如 Python 中并没有类似于 C/C++ 中的数组(array)类型,所以在看到这些类型时,请以 C/C++ 的视角进行思考。

"数据结构"和"具体数据类型(CDT)"这两个术语,指的是集合的数据(collection's data)的内部表示——集合是一种抽象数据类型(ADT)。比如对于栈(stack)这种 ADT 集合,在其内部可使用数组或链存储数据,那么此时讨论的"数据结构"和"具体数据类型(CDT)"便是针对数组或链表进行的。另外,随着视角的变换也可将 ADT 集合直接视作"数据结构",比如我们常说栈是一种先进后出的数据结构,便是在思考栈这种"数据结构"的特征,而非是在讨论栈内部数据元素具体采用的"数据结构"。

1.1 数据结构

数据结构(data structure)是一种组织和存储数据的方式,它包含了数据值的集合、数据间的关系,以及可应用于数据之上函数或操作。常见数据结构如:数组、链表、栈、队列。

下图展示了哈希表(hash table)的数据结构:

Hash_table.png

Tips:为什么数组即是数据结构,又是数据类型? 数据结构是一种解决问题的思路,而数据类型是这种思路的具体实现。在讨论"数据结构"时,我们是在研究这种结构的具体特性,比如使用了连续的内存、支持随机访问等;在讨论数据类型时,我们是在讨论这种类型使用方法,比如支持索引操作。

参考:数据结构:数组、链表、栈、队列的理解

1.2 具体数据类型

具体数据类型(Concrete Data Type,CDT)是 ADT 的实际实现方式,比如栈(ADT 类型)可由数组(CDT 类型)实现。数组(array)、链表(linked list)和树(tree) 均属于 CDT,它们都是基本数据结构,通常由计算机语言提供。

参考: Examples of Concrete and Abstract Data Types Concrete data type vs Abstract data type (data structures)

1.3 抽象数据类型

抽象数据类型(Abstract Data Type,ADT)不单纯是一组值的集合,还包括作用在值集上的操作的集合,在"构造数据类型(Structured data types)"的基础上同时增加了对数据的操作,并且类型的表示细节及操作的实现细节对外是不可见得——在 C 语言中,构造数据类型包括 数组(array)、结构体(struct)、联合体 (union)、枚举(enum)。

之所以命名为抽象数据类型,就是因为外部只知道它做什么,而不知道它如何做,更不知道数据的内部表示细节。 这样,即使改变数据的表示和操作的实现,也不会影响程序的其他部分。抽象数据类型可达到更好的信息隐藏效果,因为它使程序不依赖于数据结构的具体实现方法,只要提供相同的操作,换用其他方法实现时,程序无需修改,这个特征对于系统的维护很有利。

同一个数据结构可以实现为 1 或多个抽象数据类型。比如,哈希表这种数据结构,便可能由于哈希函数的不同而产生不同的实现,从而形成多个不同的抽象数据类型。栈(stack)、队列(queue)和堆(heap) 也属于抽象数据结构。

要实现某个 ADT 必须以某个恰当的 CDT 为基础,进行实现。比如,栈和队列可以由数组或链表实现;堆可以由数组或二叉树(binary tree)实现。

2. 数组数据结构

Array Data Structure

由于在许多编程语言中,集合中的实现结构主要是数组,而不是列表。因此,我们需要熟悉用数组的方式来思考问题,本节内容就是在要帮助我们了解如何利用数组实现集合,以及对部分操作进行复杂度分析。

Python 的 array 模块虽提供了 array 类,但该类与其它编程语言中的数组存在很大的区别,其行为更类似于列表,而且仅能存储数值。因此,为了讨论数组数据结构,我们将自定义一个 Array 类(下文中提及的数组都特指该自定义类),具体定义如下:

"""
File: arrays.py

An Array is a restricted list whose clients can use
only [], len, iter, and str.

To instantiate, use

<variable> = array(<capacity>, <optional fill value>)

The fill value is None by default.
"""

class Array(object):
    """Represents an array."""

    def __init__(self, capacity, fillValue = None):
        """Capacity is the static size of the array.
        fillValue is placed at each position."""
        self._items = list()
        for count in range(capacity):
            self._items.append(fillValue)

    def __len__(self):
        """-> The capacity of the array."""
        return len(self._items)

    def __str__(self):
        """-> The string representation of the array."""
        return str(self._items)

    def __iter__(self):
        """Supports iteration over a view of an array."""
        return iter(self._items)

    def __getitem__(self, index):
        """Subscript operator for access at index."""
        return self._items[index]

    def __setitem__(self, index, newItem):
        """Subscript operator for replacement at index."""
        self._items[index] = newItem

2.1 随机访问和连续内存

计算机通过为数组分配一段连续的内存单位,从而支持对数组的随机访问。

索引操作便属于随机访问,其步骤如下:

  1. 获取数组内存块的基本地址——数组第1项的机器地址
  2. 给这个地址加上索引,返回最终结果。

2.2 物理尺寸和逻辑尺寸

物理尺寸:表示数组的最大容量,就是在创建数组时用于指定数组容量的数值。

逻辑尺寸:表示在数组中已填充了多少项。如果逻辑尺寸为了0,则表示数组为空;如果逻辑尺寸不为 0,则最后一项的索引为逻辑尺寸减 1。

在操作数组时,由程序员负责记录数组的逻辑尺寸和物理尺寸。 逻辑尺寸和物理尺寸的比值被称作数组的装载因子(load factor),

2.3 数组的操作

这一节会在数组上实现几种常见操作,这些操作数组的方法应位于包含数组的集合中,集合利用这些方法操作其内部的数组。分析这些常见操作的目的是为了解其运行时间的复杂度,以便在利用不同的数据结构实现集合时,可以有效对比不同数据结构间的优劣。

本节之后的示例中,会假设存在如下初始数据设置:

class ListCollection(object):
    DEFAULT_CAPACITY = 5  # 默认容量

    def __init__(self):
        self.logical_size = 0  # 逻辑尺寸
        self._array = Array(ListCollection.DEFAULT_CAPACITY)
    # --snip--

a. 增加数组的尺寸

当插入新的项时,数组的逻辑尺寸等于物理尺寸,便需要增加数组的尺寸。

    def increase_size(self):
        if self.logical_size == len(self._array):
            temp = Array(len(self._array)+1)
            for i in range(self.logical_size):
                temp[i] = self._array[i]
            self._array = temp
            # 旧数组的内存留给垃圾回收程序处理

采用上述代码增加数组尺寸时,复制操作的次数是线性的 O(n) 。如果需要给数组添加 n 项,那么整体的时间性能是 n(n+1)/2 ,即 O(n^2) 。考虑下述方案,每次将数组大小翻倍,从而将整体时间性能优化为 O(log_2n) ,但这样做会以浪费内存为代价。

    temp = Array(len(a_array)*2)

b. 减少数组的尺寸

当数组的逻辑尺寸小于某个阈值时,就应当缩小其物理尺寸,以避免浪费大量内存。

    def decrease_size(self):
        if self.logical_size <= len(self._array)//4 and \
                len(self._array) >= ListCollection.DEFAULT_CAPACITY*2:
            temp = Array(len(self._array)//2)
            for i in range(self.logical_size):
                temp[i] = self._array[i]
            self._array = temp

c. 在数组中插入一项

    def insert_item(self, target_index, target_item):
        self.increase_size() # 检查是否需要增加数组尺寸
        # 从最后一项开始以逐个向后移动
        for i in range(self.logical_size, target_index, -1):
            self._array[i] = self._array[i-1]
        self._array[target_index] = target_item
        self.logical_size += 1

在插入过程中,移动项的时间性能在平均情况下是线性的,因此,插入操作的时间性能是线性的。

e. 从数组中删除一项

    def remove_item(self, target_index, target_item):
        # 从目标项之后的一项开始,逐个向前移动
        for i in range(target_index, self.logical_size-1):
            self._array[i] = self._array[i+1]
        self.logical_size -= 1
        # 检测是否需要减少物理尺寸
        self.decrease_size()

由于移动一项的事件性能平均是线性的,因此,删除操作的时间性能是线性的。

2.4 复杂度分析

下表给出了数组操作的运行时间:

操作 运行时间
访问第 i 个位置的元素 O(1),最好情况和最坏情况
替换第 i 个位置的元素 O(1),最好情况和最坏情况
从逻辑末尾插入 O(1),平均情况
从逻辑末尾删除 O(1),平均情况
在第 i 个位置插入 O(n),平均情况
从第 i 个位置删除 O(n),平均情况
增加容量 O(n),最好情况和最坏情况
减小容量 O(n),最好情况和最坏情况

可见数组提供了对已经存在的项的快速访问,并且提供了在逻辑末尾位置的快速插入和删除。然而,在任意位置的插入和删除可能会慢上一个量级。调整大小所需时间也是线性阶,但是如果调整每次变化的倍率,则能够优化所需时间。

2.5 完整示例

综合上面的代码,以下是利用数组实现集合的一个完整示例:

class ListCollection(object):
    DEFAULT_CAPACITY = 5  # 默认容量

    def __init__(self):
        self.logical_size = 0  # 逻辑尺寸
        self._array = Array(ListCollection.DEFAULT_CAPACITY)

    def increase_size(self):
        if self.logical_size == len(self._array):
            temp = Array(len(self._array)+1)
            for i in range(self.logical_size):
                temp[i] = self._array[i]
            self._array = temp
            # 旧数组的内存留给垃圾回收程序处理

    def decrease_size(self):
        if self.logical_size <= len(self._array)//4 and \
                len(self._array) >= ListCollection.DEFAULT_CAPACITY*2:
            temp = Array(len(self._array)//2)
            for i in range(self.logical_size):
                temp[i] = self._array[i]
            self._array = temp

    def insert_item(self, target_index, target_item):
        self.increase_size()
        for i in range(self.logical_size, target_index, -1):
            self._array[i] = self._array[i-1]
        self._array[target_index] = target_item
        self.logical_size += 1

    def remove_item(self, target_index):
        # 从目标项之后的一项开始,逐个向前移动
        for i in range(target_index, self.logical_size-1):
            self._array[i] = self._array[i+1]
        self.logical_size -= 1
        # 检测是否需要减少物理尺寸
        self.decrease_size()

    def __len__(self):
        # 逻辑长度
        return self.logical_size

    def __getitem__(self, item):
        if item < self.logical_size:
            return self._array[item]

    def __setitem__(self, key, value):
        self.increase_size()
        self._array[key] = value
        self.logical_size += 1

    def __str__(self):
        return str(self._array[:self.logical_size])

2.6 二维数组

利用之前定义的 Array 类,可以构建出二维数组 Grid 类,代码如下:

"""
File: grid.py

仅能使用 [], str, getHeight 和 getWidth, 不提供迭代器
"""

from 数组数据结构 import Array

class Grid(object):
    """Represents a two-dimensional array."""

    def __init__(self, rows, columns, fillValue=None):
        self._data = Array(rows)
        for row in range(rows):
            self._data[row] = Array(columns, fillValue)

    def getHeight(self):
        """Returns the number of rows."""
        return len(self._data)

    def getWidth(self):
        "Returns the number of columns."""
        return len(self._data[0])

    def __getitem__(self, index):
        """Supports two-dimensional indexing with [][]."""
        return self._data[index]

    def __str__(self):
        """Returns a string representation of the grid."""
        result = ""
        for row in range(self.getHeight()):
            for col in range(self.getWidth()):
                result += str(self._data[row][col]) + " "
            result += "\n"
        return result

def main():
    g = Grid(10, 10, 1)
    print(g)
    # 重置二维列表
    for row in range(g.getHeight()):
        for column in range(g.getWidth()):
            g[row][column] = row*10 + column
    print(g)

if __name__ == "__main__":
    main()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351