人工智能时代前沿技术社区

首页 > 大数据 > 热点

时间管理很重要:Python代码的优化之道

时间管理可是一门大学问,如何在有限的时间更快地运行代码,并且拥有更优秀的性能,是我们应该去思考的事情。毕竟,成为伟大程序员之路就是要不断超越自己,寻找最优解。本文就将给大家提供一些时间管理的小tips。

作者: | 2020-05-06 21:00:45 | 来源:51cto

1588940981339468.jpeg

时间管理可是一门大学问,如何在有限的时间更快地运行代码,并且拥有更优秀的性能,是我们应该去思考的事情。毕竟,成为伟大程序员之路就是要不断超越自己,寻找最优解。本文就将给大家提供一些时间管理的小tips。

1. 优化代码和算法

首先,要仔细阅读你的代码和算法。通过执行更优算法或添加缓存可以解决很多速度问题。具体的准则能写整本书,但要遵循的一些通用准则是:

  • 测试,不要猜测。测试代码哪些部分的运行耗费最长时间,首先关注这些部分。

  • 减少内存使用量。通常情况下,请尝试减少内存使用量。例如:逐行分析一个大型文件,而不先将其存储到内存中。

  • 执行缓存。如果你从磁盘,网络和数据库中执行许多重复的搜索,那么执行缓存可能是一个很大的优化。

  • 尽可能减少代码中的迭代次数,尤其减少迭代内部操作的次数。

  • 避免(深度)递归。对Python解释器而言,这需要大量内存和内务处理,改用生成器和迭代等。

  • 重用对象,而不是在每次迭代中创建新对象。Python必须清理已经创建的每个对象才能释放内存。这被称作垃圾回收。许多未使用对象的垃圾回收过程会大大降低软件速度。

  • 不要这样做。你真的需要执行该操作吗?它可以被放在之后完成吗?或是该操作可被一次完成,并可以存储其结果而不进行一遍又一遍地计算?

2. 使用PyPy

你可能正在使用Python的参考实现——CPython,它之所以被称作CPython,是因为它由C语言编写而成。很多人都在用它。

但如果确定自己的代码为计算密集型,PyPy会是一个更好的选择。它有可能是一种快速解决方案,且无需更改单行代码。

PyPy声称:它比CPython平均快4.4倍。它通过使用一种叫作即时编译(JIT)的技术加快代码执行速度,其他的JIT还包括Java和.NET框架。而CPython使用解释器执行代码,尽管这提供了很大程度的灵活性,速度却非常慢。

使用JIT,可以在运行程序的同时编译代码。它结合了提前编译(由C和C ++等语言使用)的速度优势和解释器的灵活性。此外,JIT编译器还可以在代码运行时继续将其优化。代码运行时间越长,就越优化。

PyPy在近几年里发展很快,通常可以被用作Python 2和3的直接替代。它也可以与Pipenv等工具完美配合使用。

3. 使用Asyncio

Asyncio是Python中一个相对较新的核心库。它与线程解决了相同的问题:即加速了I/O密集型软件系统,但Asyncio实现方式不同。

笔者其实并不喜欢在Python中使用asyncio。Asyncio相当复杂,特别是对于初学者。而且由于asyncio库在过去的几年中发展了很多,网络上的教程和示例代码通常已经过时。

但这并不意味着它没有用。这是一种强大的范例,可用于许多高性能应用程序。

4. 使用多线程

多数软件系统为I/O密集型,而非计算密集型:

  • I/O密集型 —软件系统通常在等待输入/输出操作完成。从网络或慢速存储器中获取数据时通常是这种情况。

  • 计算密集型 —软件系统使CPU(中央处理器)达到极限。它使用CPU的所有功能来生成所需的结果。

在从网络或磁盘中等待回答时,可以使用多个线程维持其他部分的运行。

线程是独立的执行序列。默认情况下,Python程序具有一个主线程。但可以创建更多线程,并让Python在不同线程之间转换。这种转换发生非常快,显得似乎在同时并排运行。

线程是独立的执行序列,共享相同的存储

不同于其他语言,Python多线程不能同时运行,而是轮流运行,这主要是因为它的全局解释器锁(GIL)的机制。

可见,多线程将对I / O密集型软件系统产生巨大影响,但对计算密集型软件系统而言用途甚微。

为何会这样?很简单。当一个线程等待来自网络的回答时,其他线程能够继续运行。如果执行大量网络请求,使用多线程会大有不同。但如果多线程正在执行大量计算,则它们只是等候自己的轮次再继续执行。线程只会引入更多的开销。

5. 同时使用更多处理器

如果软件系统为计算密集型,则通常可以通过同时使用更多处理器的方式来重写代码。这样,就可以线性扩展执行速度。

这被称做并行性。并非所有算法都可以并行运行。例如,简单地并行化递归算法是不可能的。但是几乎总会有一种替代算法可以很好地进行并行工作。

有两种使用更多处理器的方式:

  • 在同一台计算机上使用多个处理器和/或内核。在Python中,这可以通过使用多处理库来完成。

  • 用计算机网络来使用分布在多台机器上的处理器。我们称其为分布式计算。

不同于线程库,多处理库绕过了Python全局解释器锁。它实际上是通过生成多个Python实例来实现的。因此,使用多线程在一个Python进程中轮流执行,你将拥有多个Python处理器来同时运行代码。

可视化多处理

多处理库又与线程库十分相似。那为什么还要考虑线程化?没错,线程处理“更轻便”。它只需要一个正在运行的Python解释器,所需的内存更少,生成新进程也有其开销。因此,如果代码为I/O密集型,使用线程可能足够了。

使软件系统并行工作后,将分布式计算与诸如Hadoop之类的功能结合使用仅需一小步。通过利用云计算平台,目前可以相对轻松地加快运行速度。例如,可以在云中处理庞大的数据集,并在本地使用结果。使用混合操作方式,可以节省一些现金,要知道,云平台的计算功能可是非常昂贵的。

希望以上这些小技巧能够帮你拥有更快更强的代码。