Дата обновления: 05 Февраля 2024
21.12.2022
27974
9 мин
author-avatar
Анна Уженкова

Google Colab — что это и как на нём работать

Многие наверняка слышали о Google Collaboratory, также известном, как Google Colab. Эта платформа тесно связана со сферой искусственного интеллекта, машинного обучения, языка программирования Python и миром IT-технологий в целом. Tutortop разобрался с тем, что это такое, как правильно работать с платформой и чем она может быть полезна.

Многие наверняка слышали о Google Collaboratory, также известном, как Google Colab. Эта платформа тесно связана со сферой искусственного интеллекта, машинного обучения, языка программирования Python и миром IT-технологий в целом. Tutortop разобрался с тем, что это такое, как правильно работать с платформой и чем она может быть полезна.

Кстати, начать карьеру в IT-сфере можно на онлайн-курсах: «Python-разработчик» от Bang Bang Education или «Бекенд-разработчик на Python» от SF Education.

Что такое Google Colab

Google Colaboratory — это бесплатная интерактивная облачная среда для работы с кодом от Google. Сервис нужен, чтобы писать код в jupyter notebook. Он функционирует по принципу облака, что позволяет работать над одним проектом целой командой. При этом сервис бесплатный, но есть одно ограничение — через 12 часов данные удаляются. 

Программа предоставляет доступ к графическим процессорам GPU и TPU, благодаря которым можно развивать приложения на основе нейросетей.

Подробнее о работе с нейросетями можно узнать на курсах «Нейросети: новая реальность с ChatGPT» от Inbox Education и «Нейросети с нуля: ChatGPT, Midjourney и аналоги» от Учебного центра FORWARD.

Кто работает на Google Colab

По сути сервис подходит всем, кто работает с Big Data, аналитикам данных (в Google Colab удобно сортировать данные за долгий период или выстраивать закономерности); исследователям данных (так как с помощью сервиса они могут разрабатывать и тестировать новые модели машинного обучения и составлять прогнозы); а также инженерам данных, которые смогут разрабатывать программное обеспечение (ПО) и системы для хранения больших данных. 

В основе сервиса — блокнот jupyter для работы на языке Python. С помощью «Коллаборатории» пишут код на языке программирования прямо в браузере, на Google-диске, и здесь же этот код выполняется. 

Colab позволяет использовать в одном файле исполняемый код, html-разметку, картинки. Всё будет храниться на гугл-диске. Этими файлами можно делиться: разрешать просматривать, редактировать и оставлять комментарии для совместной работы.

Что такое CPU, GPU и TPU 

GPU и TPU — это графические процессоры, которые являются главной особенностью Google Colab. Они бесплатны и благодаря им можно заниматься не только базовой аналитикой данных, но и более сложными исследованиями в области машинного обучения.

CPU —­ это центральный процессор компьютера, который выполняет операции с данными. Он может использоваться для решения почти всех задач. Настолько универсален, что может использоваться почти для всех задач. 

GPU — графический процессор, он, в свою очередь, обрабатывает данные быстрее, так как задачи выполняет параллельно, а не последовательно, как CPU. Он заточен исключительно под графику, поэтому с его помощью гораздо удобнее заниматься, например, 3D-моделированием или монтажом.

TPU — тензорный процессор, разработка Google. Он предназначен для тренировки нейросетей. Его производительность очень высокая даже при больших объемах вычислительных задач.

Процессоры дорогие, однако Google Colaboratory позволяет пользоваться ими бесплатно на протяжении 12 часов. При этом как только время истечёт, Colab сотрёт все данные и придётся начинать сначала.

Кроме того, сервис отключает блокноты после примерно тридцати минут бездействия, чтобы не перегружать процессоры.

Существует всё же возможность продлить время работы на Google Colab — можно оформить подписку Collab Pro — она стоит $9,99 в месяц. Так вы можете удвоить объем памяти и времени работы, а также получить приоритетный доступ к TPU. Правда, пока Pro-подписка есть только в Канаде и США. 

Разобрать с языками программирования можно на онлайн-курсах: 

Как работать с Google Colab

Для начала убедитесь, что вы вошли в аккаунт, а затем создайте отдельную папку под готовые проекты. После запуска блокнота нажмите «Создать» → «Ещё» → Google Colaboratory. Для переименования блокнота щёлкните на имя файла.

Далее определитесь с процессором. Если будете работать на слишком мощном процессоре, то вы можете вылететь из блокнота. Чтобы попасть в настройки процессора, выберите вкладку «Среда выполнения» и команду «Сменить среду управления». 

В Colab много встроенных библиотек Python: Pandas, NumPy, Scikit-learn. Для просмотра полного списка, введите команду !pip list.

Библиотека Pandas применяется для анализа и обработки табличных данных. То есть она как Excel, но работает с большей мощностью. Pandas позволяет работать с данными объемом в миллионы строк.

Чтобы импортировать сторонние библиотеки, используйте команды: !pip install имя_библиотеки
import имя_библиотеки 

Чтобы очистить строку, щелкните на значок крестика в левой части окна. 

Чтобы подключить сторонние файлы с данными или кодом, нужно импортировать утилиту drive. Она монтирует диск к Colab: 

from google.colab import drive
drive.mount (‘/content/drive’) 

После запуска команды Colab предложит ввести код авторизации. Открыв URL, вы должны предоставить сервису доступ к своему аккаунту. Тогда он выдаст код, который нужно будет вставить в поле, нажать «Ввод», и Google Colab подключится к хранилищу.

Когда выполните этот код выше, подтвердите, что разрешаете использовать диск.

Чтобы импортировать файлы, можно закинуть их на диск напрямую, скачать из интернета либо скачать с Git-репозитория. 

Преимущества работы с Google Colab

Как и Google Документы, Google Colab даёт возможность работать с Python-библиотеками для анализа данных онлайн. У сервиса понятный интерфейс, который делает работу с ним комфортной и позволяет делать все вычисления с большей скоростью. В Google Colab сохраняется доступ к аккаунту с любых устройств. Но если переживаете за свою конфиденциальность, то рациональнее было бы воспользоваться jupyter notebook. Это такая командная оболочка для интерактивных вычислений на Python. 

Другим достоинством Google Colab является его интеграция с разработчиком ПО GitHub. Он открывает доступ к любому хранилищу, если ему предоставить профиль на сервисе.

В Colab можно оставлять комментарии, редакторские заметки. Поэтому при общем доступе к блокноту всё его содержимое будет доступно другим пользователям, а именно — текст, код, комментарии и выходные данные. Последнее можно отключить. Для этого нужно выбрать «Настройки блокнота» в меню «Изменить». В появившемся окне поставить галочку «Исключить выходные данные кодовой ячейки при сохранении блокнота». Тогда в блокноте сохранится только код, а результаты его исполнения будут недоступны.

Недостатки использования Google Colab

Пожалуй, главным и самым существенным недостатком является то, что на сервисе можно использовать только язык программирования Python.

Различия между Colab и Jupyter 

  • Colab — это  размещённый сервис, в то время как Jupyter использует его на вашем компьютере.
  • Colab, хотя и является бесплатным сервисом, требует платную версию в случае, если вам нужна вычислительная мощность. 
  • В Colab вы можете использовать только Python, а в Jupyter вы можете устанавливать все виды ядер, R, Bash, javascript и так далее. 

Облачные среды, которые похожи на Google Colab

Yandex DataSphere —  это платный блокнот, в котором тарифицируется фактическое время вычислений. Когда зарегистрируете аккаунт, в начале пробного периода получите грант 4000 ₽, который действует 60 дней.

Kaggle Kernels — сервис также поддерживает R (помимо Python), интегрируется с Google Cloud Storage, BigQuery и AutoML. Но время пользования процессорами составляет только девять часов, после чего информация не сохраняется. 

Azure Notebooks — также, как и Kaggle Kernels, поддерживает другие языки (R, F#). Сервисы Microsoft Azure также, как и Яндекса, тарифицируются за фактическое время использования.

CoCalc — сервис предлагает и бесплатный, и платный (14 $) периоды. В расширенной версии больше памяти и времени простоя, приоритетный доступ к процессорам и техподдержке.  

Хочу стать программистом!
Для тех, кто видит себя в роли программиста, на нашем сайте есть подходящие онлайн-курсы. Мы собрали подборку обучения от топовых школ и сравнили их по множеству показателей.
Посмотреть подборку