Веб скрепинг данных Crunchbase Pro по патентам

4 000 руб. за проект
27 февраля 2021, 18:07 • 3 отклика • 31 просмотр
Нужно выгрузить все данные Crunchbase по патентам. Ключевая проблема в том, что на сайте стоит ограничение скачивания в 1,000 строк, а скачать нужно >1 миллиона.

Нужны все колонки, патенты с 01/01/2000:
1. Patents
2. Patent Number
3. First Publication Date
4. Filing office
5. Patent Category
6. Patent title
7. Patent status
8. Issue date
9. Filing Date
10. Class description
11. Abstract
12. Patent owner (название)
13. Patent owner (ссылка)


Я вижу следующий способ:
(Скриншот 1) В Advanced Filters пройтись по всем страничкам (на одной страничке максимум 50 строк), нажимать "Next" и парсить каждую. Но при достижении 1000-ой строки "Next" не кликабельная, поэтому нужно брать дату с последней строки и вставлять ее в фильтр сверху.
Может, можно более по-умному

Посмотреть, как выглядит страничка с фильтром можете по этой ссылке: https://www.crunchbase.com/discover/organization.c...
По патентам будет аналогичная табличка (без пэйволла), Pro аккаунт есть и я им поделюсь.


Формат результата:
В папку гугл драйв залить CSV файл со всеми строками (или несколько, если большой размер)
К задаче приложить код

Дедлайн: 3 марта в 20:00
Файлы