Создание скрипта для сбора информации о кернелах с Kaggle

1 500 руб. за проект
06 января 2022, 15:05 • 5 откликов • 29 просмотров
Добрый день,
необходимо написать скрипт который сможет собирать информаци о кернелах с kaggle.com
Есть CLI апи которым нужно пользоваться - https://github.com/Kaggle/kaggle-api

Интересует сбор всей статистики по кернелам и представлением ее в табулярном формате - можно в CSV выгружать, можно в pandas датафрейме оставить. Осова то что выдаетя kaggle kernels list + доп толбцы по остальным ручкам. для файлов - имена файлов просто в табличку заносить

Интересуют данные из kaggle kernels ручки - нужна иформация выдваемая листом, сам кернел (pull ручка), аутпуты кернела и статус. Скаченные файлы атпутов, кернел располагать в файловой структуре по названиям кернелов. Сама выгрузка через ручку лист пейджирована

{list,init,push,pull,output,status}
list List available kernels. By default, shows 20 results sorted by hotness
init Initialize metadata file for a kernel
push Push new code to a kernel and run the kernel
pull Pull down code from a kernel
output Get data output from the latest kernel run
status Display the status of the latest kernel run


Для амого скрипта необходимо поддержать
1. Возможность выбора сортировки скачивания - в первую очередь интересует скачивание свежих кернелов
--sort-by SORT_BY Sort list results. Default is 'hotness'. Valid options are 'hotness', 'commentCount', 'dateCreated', 'dateRun', 'relevance', 'scoreAscending', 'scoreDescending', 'viewCount', and 'voteCount'. 'relevance' is only applicable if a search term is specified.

2. Возможность выбора глубины скачивания - например через указание даты далше которой не нужно идти. напрмиер указать 12/10/2021 - и при скачивании по сортировке самых свежих идти от свежих версий вних

3. Поддержать возможность работы со скаченными данными - если кернел не менялся - то его не нужно выкачивать заново

4. у кернелов может быть несколько версий - они вроде напрямую нигде не указаны - поэтому в случае наличия уже скаченного кернела нужна ручка которая скажет - просто переписать данные или сохраняя предыдущую версию (можно двигать в папачку архив или если получится получить информацию о версии кернела то использовать ее в названии)

5. возможность передачи опций в поиск - напрмиер поисх для определенного компетишена или датасета - --competition COMPETITION, --dataset DATASET, --parent PARENT . В этом случае в табличку должны добавиться информация для какого компетишена, датасета или родителя этот кернел.
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Первую версию задачи реализовал и получил часть денег за работу. Получил филдбек и найденые баги а потом пропал...

Ну хотя бы что-то работающее я получил
2 года назад