Параллелизация процессов

Цена договорная
02 марта 2021, 21:30 • 2 отклика • 42 просмотра
Есть файл содержащий очень длинный список доменов (domain).

https://storage.googleapis.com/for-ula-images/doma...

Нужно пройти по списку и скачать фавиконы (favicon) в максимальном разрешении. Сохранить картинки в папку и потом перекинуть в корзину (google bucket). Часть ссылок битые, приходится ждать тайм аут. Это очень медленно. Надо распараллелить процесс при помощи Apache Beam.

https://colab.research.google.com/github/apache/beam/blob/master/examples/notebooks/get-started/try-apache-beam-py.ipynb

Ожидаем увидеть хорошо документированный, чистый код на коллабе (google collaboratory).

Для выполнения задачи необходим GCP account.



Отзывы
R50 30904a2a105a653aea3a01872a16ac1a
Заказчик
Работа выполнена как всегда отлично.
Рекомендую.
~ 3 года назад
R50 3a3d7a31606bdae1f0d29e65a945ad67
Фрилансер
 
~ 3 года назад