Парсинг с вики

7 000 руб. за проект
10 февраля 2022, 17:17 • 3 отклика • 51 просмотр
1-ая часть

Отобранные ссылки которые нужно спарсить находятся в экселях папки Wikimedia.zip. Там три группы : photo, illustration, icon

Они разделены на 1, 2, 3 - так как у экселя лимит по строкам.


Нужно проделать некоторую работу по дополнительному фильтру с этих ссылок.

1)одну часть контента из джсона photo перенести в джсон illustration .Ищется по признаку Source/Photographer = 'Image: Museum Associates/LACMA'

2)Ещё перед парсингом из экселей нужно отсеять такие ссылки по признаку Source

Пример Source : https://www.flickr.com/photos/biodivlibrary/924832... то есть все ссылки с таким основанием www.flickr.com/photos/biodivlibrary удаляем с экселей

3)Наверно ещё будут ссылки которые скажем какие удалить чуть позже.



После парсинга с Wikimedia, весь контент с инфой из джсона нужно загрузить по нашему апи на сайт. В апи есть разделение по секциям. Джсоны с photo – загружаем в фото. Джсоны с illustration – загружаем в иллюстрации. Джсоны с icon – загружаем в клипарки (не в иконки, там есть своя секция иконки, но в данном случае грузим в секцию клипарки).

2-ая часть Есть отобранные признаки в экселе mega (приложу эксель), нужно соотнести их с базой откуда сортировался контент (база весит 8гб). И сформировать все ссылки на викимедию по этим признакам. Джсон формировать не нужно, только ссылки.

Затем нужно скачать с викимедии (независимо скачивался или закачивался уже этот контент на сайт) .Скаченные файлы загружаем на мегу (mega.nz). Каждый признак - отдельная папка. Папку желательно назвать названием признака , но если названия не будут нормально называться из -за спец символов, то можно по номеру в экселе признаков.