14 生成器与迭代器之使用迭代器协议

在前一篇文章中，我们讨论了生成器及其 yield 关键字，了解了如何轻松地创建自定义迭代器。在这一篇中，我们将深入探讨迭代器协议的应用，帮助我们更好地理解如何使用 __iter__() 和 __next__() 方法来实现自定义迭代器。

迭代器协议的基本概念

在 Python 中，迭代器协议是一种用于遍历数据集的标准接口。任何实现了 __iter__() 和 __next__() 方法的对象都被称为迭代器。

迭代器协议的组成

__iter__()：返回迭代器对象自身，通常返回 self。
__next__()：返回集合中的下一个项目。如果没有更多的项目可返回，则抛出 StopIteration 异常。

创建一个自定义迭代器

让我们通过一个简单的示例来实现一个自定义的迭代器。假设我们想要创建一个可以迭代的 Fibonacci 序列的类。

class Fibonacci:
    def __init__(self, max):
        self.max = max
        self.a, self.b = 0, 1
    
    def __iter__(self):
        return self

    def __next__(self):
        if self.a > self.max:
            raise StopIteration
        current = self.a
        self.a, self.b = self.b, self.a + self.b
        return current

在上述代码中，我们实现了一个 Fibonacci 类，该类的构造函数接受最大值 max。在 __iter__() 方法中返回自身，而在 __next__() 方法中返回当前的斐波那契数，随后更新状态。如果当前数超出最大值，则抛出 StopIteration。

使用自定义迭代器

现在，我们可以创建 Fibonacci 类的实例并使用 for 循环进行迭代：

fib = Fibonacci(10)
for num in fib:
    print(num)

这段代码将输出：

如你所见，我们成功地创建了斐波那契数列的迭代器，并可以使用 for 循环来遍历它。

迭代器的优势

使用迭代器有若干显著的优势：

延迟计算：当你迭代一个大型数据集时，迭代器仅在需要时生成项目，而不是一次性将所有项目加载到内存中。
抽象迭代过程：用户只需了解如何使用迭代器，而不必了解其内部实现，使代码更加简洁和可读。

迭代器的实践案例

让我们来看一个更实用的例子，假设我们想要处理大文件中的数据。我们可以创建一个迭代器来逐行读取文件内容，而不必将整个文件都加载到内存中。

class FileIter:
    def __init__(self, file_name):
        self.file_name = file_name
        self.file = None

    def __iter__(self):
        self.file = open(self.file_name, 'r')
        return self

    def __next__(self):
        line = self.file.readline()
        if not line:  # 文件结束
            self.file.close()  # 关闭文件
            raise StopIteration
        return line.strip()  # 返回去除换行符的行

使用方法如下：

for line in FileIter('example.txt'):
    print(line)

在这个例子中，我们创建了一个 FileIter 类，它可以逐行读取指定文件 example.txt 的内容。此迭代器会在每次调用 __next__() 时返回下一行，直到到达文件末尾。

结论

在本篇文章中，我们详细探讨了如何使用迭代器协议创建自定义迭代器。通过实际案例，我们看到迭代器在内存管理和代码抽象方面的优势。在下一篇文章中，我们将进一步探索异步生成器，揭示在处理I/O密集型操作时如何有效利用异步编程。

继续学习可以帮助我们更好理解 Python 的高级特性，特别是在并发编程领域。期待在下一篇文章中与大家再见！