Создание скрипта для сбора информации о кернелах с Kaggle
1 500 руб. за проект
Добрый день,
необходимо написать скрипт который сможет собирать информаци о кернелах с kaggle.com
Есть CLI апи которым нужно пользоваться - https://github.com/Kaggle/kaggle-api
Интересует сбор всей статистики по кернелам и представлением ее в табулярном формате - можно в CSV выгружать, можно в pandas датафрейме оставить. Осова то что выдаетя kaggle kernels list + доп толбцы по остальным ручкам. для файлов - имена файлов просто в табличку заносить
Интересуют данные из kaggle kernels ручки - нужна иформация выдваемая листом, сам кернел (pull ручка), аутпуты кернела и статус. Скаченные файлы атпутов, кернел располагать в файловой структуре по названиям кернелов. Сама выгрузка через ручку лист пейджирована
{list,init,push,pull,output,status}
list List available kernels. By default, shows 20 results sorted by hotness
init Initialize metadata file for a kernel
push Push new code to a kernel and run the kernel
pull Pull down code from a kernel
output Get data output from the latest kernel run
status Display the status of the latest kernel run
Для амого скрипта необходимо поддержать
1. Возможность выбора сортировки скачивания - в первую очередь интересует скачивание свежих кернелов
--sort-by SORT_BY Sort list results. Default is 'hotness'. Valid options are 'hotness', 'commentCount', 'dateCreated', 'dateRun', 'relevance', 'scoreAscending', 'scoreDescending', 'viewCount', and 'voteCount'. 'relevance' is only applicable if a search term is specified.
2. Возможность выбора глубины скачивания - например через указание даты далше которой не нужно идти. напрмиер указать 12/10/2021 - и при скачивании по сортировке самых свежих идти от свежих версий вних
3. Поддержать возможность работы со скаченными данными - если кернел не менялся - то его не нужно выкачивать заново
4. у кернелов может быть несколько версий - они вроде напрямую нигде не указаны - поэтому в случае наличия уже скаченного кернела нужна ручка которая скажет - просто переписать данные или сохраняя предыдущую версию (можно двигать в папачку архив или если получится получить информацию о версии кернела то использовать ее в названии)
5. возможность передачи опций в поиск - напрмиер поисх для определенного компетишена или датасета - --competition COMPETITION, --dataset DATASET, --parent PARENT . В этом случае в табличку должны добавиться информация для какого компетишена, датасета или родителя этот кернел.
необходимо написать скрипт который сможет собирать информаци о кернелах с kaggle.com
Есть CLI апи которым нужно пользоваться - https://github.com/Kaggle/kaggle-api
Интересует сбор всей статистики по кернелам и представлением ее в табулярном формате - можно в CSV выгружать, можно в pandas датафрейме оставить. Осова то что выдаетя kaggle kernels list + доп толбцы по остальным ручкам. для файлов - имена файлов просто в табличку заносить
Интересуют данные из kaggle kernels ручки - нужна иформация выдваемая листом, сам кернел (pull ручка), аутпуты кернела и статус. Скаченные файлы атпутов, кернел располагать в файловой структуре по названиям кернелов. Сама выгрузка через ручку лист пейджирована
{list,init,push,pull,output,status}
list List available kernels. By default, shows 20 results sorted by hotness
init Initialize metadata file for a kernel
push Push new code to a kernel and run the kernel
pull Pull down code from a kernel
output Get data output from the latest kernel run
status Display the status of the latest kernel run
Для амого скрипта необходимо поддержать
1. Возможность выбора сортировки скачивания - в первую очередь интересует скачивание свежих кернелов
--sort-by SORT_BY Sort list results. Default is 'hotness'. Valid options are 'hotness', 'commentCount', 'dateCreated', 'dateRun', 'relevance', 'scoreAscending', 'scoreDescending', 'viewCount', and 'voteCount'. 'relevance' is only applicable if a search term is specified.
2. Возможность выбора глубины скачивания - например через указание даты далше которой не нужно идти. напрмиер указать 12/10/2021 - и при скачивании по сортировке самых свежих идти от свежих версий вних
3. Поддержать возможность работы со скаченными данными - если кернел не менялся - то его не нужно выкачивать заново
4. у кернелов может быть несколько версий - они вроде напрямую нигде не указаны - поэтому в случае наличия уже скаченного кернела нужна ручка которая скажет - просто переписать данные или сохраняя предыдущую версию (можно двигать в папачку архив или если получится получить информацию о версии кернела то использовать ее в названии)
5. возможность передачи опций в поиск - напрмиер поисх для определенного компетишена или датасета - --competition COMPETITION, --dataset DATASET, --parent PARENT . В этом случае в табличку должны добавиться информация для какого компетишена, датасета или родителя этот кернел.
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.
Ну хотя бы что-то работающее я получил