Исследователям данных часто приходится работать с достаточно объемными наборами данных, которые трудно обработать компьютеру. Эта проблема не нова и, как и любая другая, не имеет универсального решения. Лучший выход из положения будет зависеть от конкретных данных и задач приложения. И все же попытаемся выделить из три наиболее оптимальных решения.
1. Сокращение используемой памяти путем оптимизации типов данных
При загрузке данных с использованием Pandas типы определяются автоматически (если не указана иная задача). В большинстве случаев этот подход работает отлично, но выводимый тип не обязательно будет оптимизирован. Более того, если числовой столбец содержит отсутствующие значения, то автоматически вычисляемый тип будет float.
Недавно я использовала этот метод для анализа в основном целочисленных типов данных, представляющих годы, месяцы и дни: |