Danger, danger, high performance: ускоряем Python по максимуму

Разрушаем мифы и рассказываем, как достичь высокой производительности в программах на Python.

Вот уже более десятка лет Python широко используется как разработчиками, так и исследователями. За счёт своей эффективности и простоты он стал популярен в научных вычислениях и машинном обучении. Однако базовые функции Python — однопоточные. То есть программы на Python не могут одновременно использовать множество процессорных ядер. Как же тогда достичь высокой производительности в анализе данных и машинном обучении на Python?

Язык Python изначально предназначался для введения динамической типизации и предсказуемого, потокобезопасного поведения вместо сложного управления статическими типами и потоковыми примитивами. Для этого в нём используется глобальная блокировка интерпретатора (Global Interpreter Lock, GIL), которая ограничивает выполнение операций только одним потоком за раз. За последнее десятилетие было представлено много реализаций параллельных вычислений для Python, но они не обеспечивали настоящий параллелизм. Означает ли это, что Python — непроизводительный язык? Давайте разберёмся.

Фундаментальные конструкции базового языка для циклов и других асинхронных или параллельных вызовов подчиняются однопоточному GIL. Даже такое определение списка — [x*x for x in range(0,10)] — всегда будет однопоточным. Хотя в языке существует библиотека поддержки потоков, которая многих вводит в заблуждение, на самом деле все операции выполняются в рамках GIL. Почему же в таком выразительном языке присутствуют эти правила?

Причина тому — уровень абстракций, принятый языковой концепцией. В рамках самого Python достижима лишь многопроцессность, то есть параллелизм на уровне отдельных рабочих процессов. Тем самым оказываются потеряны некоторые важные преимущества многопоточности, такие как общий доступ к памяти родительского процесса и сниженные накладные расходы на коммуникацию. Обеспечение многопоточности в Python достижимо посредством «склейки» управляющего Python-кода с библиотеками на других языках, например, на Си. Так, интерфейсы вроде ctypes или cffi повсеместно используются в популярных пакетах NumPy и SciPy для подключения внешних производительных библиотек со встроенной многопоточностью или даже с поддержкой GPU (например, CUBLAS).

Существует ряд других техник повышения производительности Python-программ. Например, доступны следующие фреймворки:

— Numba: допускает JIT-компиляцию кода (Just-in-time), а также может запускать Python-совместимый код на основе LLVM (Low Level Virtual Machine).

— Cython: предоставляет Python-подобный синтаксис со скомпилированными модулями, которые могут использовать аппаратную векторизацию при компиляции в C.

— numexpr: позволяет использовать компиляторы и продвинутую векторизацию для символьных вычислений.

Все они избегают GIL-кода различными способами, сохраняя первоначальную концепцию языка.

Рассмотрим общий пример одной из наиболее распространённых конструкций, к которой мы бы хотели применить параллелизм — цикл for. Посмотрим на фрагмент:

def test_func(list_of_items):
    final_list = []
    for items in list_of_items:
        if item < 50:
            final_list.append(item)
    return final_list

Здесь мы проверяем список list_of_items и возвращаем все числа из него, которые меньше 50.

Запуск этого кода даёт следующий результат:

import random
random_list = [random.randint(0,1000000) for x in range(0,1000000)]
%timeit test_func(random_list)
27.4ms ± 331 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

Python обрабатывает список последовательно с помощью одного потока, поскольку код написан на базовом чистом языке. Здесь мы не наблюдаем никакого параллелизма. Такие конструкции — хорошие кандидаты для фреймворка Numba. Он использует декоратор с символом @, чтобы помечать функции для JIT-компиляции:

@jit(nopython=True)
def test_func(list_of_items):
    final_list = []
    for item in list_of_items:
        if item < 50:
            final_list.append(item)
    return final_list

Теперь мы получим:

%timeit test_func(random_list)
15.7ms ± 173 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Видно, что производительность повысилась почти вдвое. Дело в том, что исходный код Python написан в примитивах и типах данных, которые могут быть легко скомпилированы и векторизованы для CPU. И первое, на что стоит обратить внимание — это списки. Они бывают очень «тяжёлыми» из-за слабой типизации и встроенного аллокатора. Но если мы посмотрим на типы данных, содержащиеся в random_list, то увидим, что они все целочисленные. Благодаря этой согласованности типов JIT-компилятор Numba может векторизовать цикл.

Если список содержит разнотипные элементы (например, символы и числа), то выполнение кода завершится ошибкой TypeError. Кроме того, если функция содержит операции для смешанных типов данных, Numba не сможет создать высокопроизводительный JIT-код и обратится к объектному коду Python.

Урок здесь заключается в том, что достижение параллелизма в Python зависит от исходного кода. Чистота типов и использование векторизуемых структур данных позволяют Numba распараллеливать код с помощью простого декоратора. Наиболее осторожно следует обращаться со словарями, поскольку обычно они плохо поддаются векторизации. То же относится к генераторам и списковым включениям. Реорганизация их в списки, множества или массивы может облегчить ситуацию.

Гораздо проще достичь параллелизма в числовой и символьной арифметике. NumPy и SciPy отлично справляются с пересылкой вычислений вне GIL-кода на низкоуровневый код С и среду выполнения CUBLAS. Возьмём, к примеру, символьное выражение NumPy ((2 * a + 3 * b) / b):

import numpy as np
a = np.random.rand(int(1e6))
b = np.random.rand(int(1e6))

%timeit (2*a + 3*b)/b
8.61ms ± 108 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Выражение многократно использует однопоточный интерпретатор Python из-за структуры библиотеки NumPy. Каждый return из Numpy передаётся в C и затем обратно возвращается на уровень Python. Потом объект Python направляется к каждому последовательному вызову для повторной отправки на C. Эти прыжки туда-сюда создают так называемое «узкое место» в вычислениях. Поэтому, если вы хотите посчитать линейную алгебру, которую тяжело или невозможно описать в Numpy или SciPy, лучшим вариантом будет numexpr:

import numexpr as ne
%timeit ne.evaluate('(2*a + 3*b)/b')
2.22ms ± 52.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Как же numexpr достигает почти четырёхкратного ускорения? Он использует символьное представление вычислений для генерации кода, которое работает на уровне функций доступной библиотеки BLAS. В случае BLAS для CPU, код этих функций будет наилучшим образом векторизован; в случае CUBLAS — вычислительную нагрузку примут ядра графического процессора. Так все вычисления остаются в виде низкоуровневого кода до их завершения и возвращения результата обратно на уровень Python. Этот метод также позволяет избежать многократных обращений через интерпретатор Python, сокращая число однопоточных участков кода, а также обеспечивает краткий синтаксис.

Экосистема Python предоставляет много хороших вариантов повышения производительности. Чтобы овладеть ими, важно понимать используемые вами инструменты и ограничения, которые они накладывают. Хотя Python использует GIL для реализации своей языковой концепции, его принципиальную однопоточность легко обойти с помощью правильных методик и эффективного кода.

С оригинальной статьёй можно ознакомиться на сайте techdecoded.intel.io.

Серверы с GPU для оубчения нейросетей

Редакция блога

26 апреля 2019

3516

Как оформить ЛПХ в 2026 году: пошаговое руководство

28 июля, 2026

Вместе с экспертами Destra Legal разбираемся, как оформить ЛПХ в 2026 году — пошагово и без сложных юридических терминов. Будет...

Продвижение локального бренда в городе: топ эффективных приемов и механик

28 июля, 2026

Как локальному бизнесу конкурировать с федеральными сетями, не имея многомиллионных бюджетов и штата маркетологов? Задача кажется нерешаемой, но на практике...

Как заранее узнать о выездной налоговой проверке и подготовиться

28 июля, 2026

Компании и ИП обязаны вовремя платить налоги, сборы и взносы. Чтобы подтвердить честность расчетов, они сдают декларации в налоговую (ФНС)....

Как вывести премиальный туристический сервис в онлайн: от сарафанного радио к сайту-продавцу

23 июля, 2026

Многие предприниматели в сфере услуг уверены: если бизнес построен на личных рекомендациях и многолетней репутации, сайт не нужен. «Меня и...

Как бизнесу работать с трендами: от теории к практике

21 июля, 2026

Тренды заметно влияют на изменение рынка, потребительские запросы и факторы конкуренции. Предпринимателю важно вовремя замечать тенденции и понимать, какие из...

Эмоциональная регуляция: что это такое и как ей научиться

20 июля, 2026

Дедлайны горят, клиенты требуют невозможного, а от новостей иногда хочется спрятаться под одеяло. В таких условиях способность держать себя в...

Продвижение в соцсетях в 2026 году: чего лучше избегать

17 июля, 2026

В третьей, заключительной, части вместе с Ефимом Кузнецовым, бренд-директором Placebo 25 Entertainment, разбираем обратную сторону трендов 2026: что перестало работать,...

Продвижение в соцсетях в 2026 году: как встроить тренды в стратегию

17 июля, 2026

В первой части мы разобрали ключевые тренды соцсетей 2026 года: персонализацию, работу с микро- и наноинфлюенсерами, интерактив, социальную ответственность брендов...

Продвижение в соцсетях: тренды и рабочие инструменты в 2026 году

17 июля, 2026

Соцсети перестали быть просто площадкой для публикаций. Сегодня это полноценная экосистема: алгоритмы ранжируют контент по глубине просмотра, аудитория мгновенно считывает...

СМИ без хаоса: как выстроить системную работу с медиа

16 июля, 2026

Работа со СМИ помогает не только повысить узнаваемость компании, но и укрепить доверие клиентов, привлечь новую аудиторию и усилить экспертный...