По PMID получить и скачать статьи в виде pdf и разложить по папкам

5 000 руб. за проект
22 декабря 2021, 22:32 • 2 отклика • 32 просмотра
Нужно загрузить все статьи из DrugAge (https://genomics.senescence.info/drugs/) по всем веществам в формате pdf и разложить их по директориям.
Директорию именуем по названию вещества, в нее загружаем все статьи, которые для этого вещества указаны, для всех организмов. Файл со статьей называем по номеру её PMID, который указан в DrugAge.
примерная структура:

Resveratrol/
16461283.pdf
19264118.pdf
...
Quercetin/
19043800.pdf
22155175.pdf
... Часть статей может дублироваться в разные директории, т. к. в одной и той же публикации будут содержаться данные по разным веществам — это нормально.


В DrugAge статьи указаны по их PMID (последний столбец)

По этому PMID их можно найти в самом PubMed и в Sci-Hub, если публикации нет в открытых источниках.
Для скачивания можно попробовать воспользоваться библиотекой https://github.com/zaytoun/scihub.py


Требования к результату

Результат должен быть загружен в эту папку на Google Drive https://drive.google.com/drive/folders/19J3tarbkgZKiTj1pxQEv-YnZxvi8yr9h?usp=sharing

Код скрипта, скачивающего статьи, нужно оформить пулл-реквестом в директорию scripts в проекте https://github.com/open-genes/open-genes-backend/tree/master/scripts