Разработать парсер сайта egrul.itsoft.ru и обработать данные
Цена договорная
На сайте https://egrul.itsoft.ru/ в открытом доступе через csv, xml, json (API) можно скачать выборку компаний.
На сайте доступно около 2,6 млн юрлиц https://egrul.itsoft.ru/csv/
Нужно из них отсеять только компании с выручкой более 500 млн руб (таких компаний будет 30-40 тыс), и сохранить в БД.
В БД наполнить 3 таблицы:
первая запись:
company_id = 1
data_type = выручка
value = 800 000 000
year = 2022
вторая:
company_id = 1
data_type = выручка
value = 900 000 000
year = 2023
Итоговая структура БД остается на усмотрение исполнителя, но должна быть согласована с заказчиком как промежуточный этап работ.
Для MVP важно единоразово собрать таблицу, endpont для пересборки можно будет добавить потом.
Представить вывод данных вот в такую таблицу по идее должно получиться 300-500 тыс записей.
Итоговую таблицу выгрузить в гугл таблицы по шаблону, указанному выше.
После выполнения задачи необходимо передать как сформированную таблицу, так и исходники скрипта.
Требования:
На сайте доступно около 2,6 млн юрлиц https://egrul.itsoft.ru/csv/
Нужно из них отсеять только компании с выручкой более 500 млн руб (таких компаний будет 30-40 тыс), и сохранить в БД.
В БД наполнить 3 таблицы:
- Компании - справочник всех атрибутов, которые не меняются в динамике от года к году, т.е. если изменится ОКВЭД или наименование юрлица, их надо просто перезаписать в таблицу
- Динамические данные – справочник атрибутов, которые интересны в динамике (выручка, чистая прибыль, кол-во сотрудников по годам), я бы делал просто разные виды данных и значение метрики + год
- Учредители – справочник владельцев компаний, many to many (один учредитель может владеть несколькими компаниями и наоборот у одной компании несколько учредителей) тут важна доля владения
первая запись:
company_id = 1
data_type = выручка
value = 800 000 000
year = 2022
вторая:
company_id = 1
data_type = выручка
value = 900 000 000
year = 2023
Итоговая структура БД остается на усмотрение исполнителя, но должна быть согласована с заказчиком как промежуточный этап работ.
Для MVP важно единоразово собрать таблицу, endpont для пересборки можно будет добавить потом.
Представить вывод данных вот в такую таблицу по идее должно получиться 300-500 тыс записей.
Итоговую таблицу выгрузить в гугл таблицы по шаблону, указанному выше.
После выполнения задачи необходимо передать как сформированную таблицу, так и исходники скрипта.
Требования:
- База данных PostgreSQL
- Бизнес-логика PHP или NodeJS или Python (на выбор исполнителя)
- Интерфейс отсутствует, выводом служит таблица
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.