Парсинг CAT SIS

3 комментария • 1525 просмотров • 28 ноября 2023, 13:59

Всем привет. Я занимаюсь парсингом на python. Сейчас работаю над скриптом, который парсит программу CAT SIS. Может кто знаком. Задача оказалась очень не простая, я этим проектом занимаюсь с августа. Программа объемная, занимает 300 ГБ, работает на локальном сервере и только через firefox определенной версии и потребовала у меня неделю только на установку и настройку. Скрипт должен запускать его, проходить авторизацию, находить нужную документацию, парсить ее и создавать текстовый файл с этой самой документацией но в LaTeX разметке. Ну и соответственно он должен качать картинки в отдельную директорию и обрезать их. Все таблицы из документации необходимо конвертировать в png. На все изображения в текстовом файле делаются ссылки. Ещё попутно скрипт должен заменять символы типа # %  & на слова. Т з периодически дополняется из-за  возникающих проблем. Я использовал selenium и bs4 и ещё кучу библиотек. Код состоит из 18 функций на более чем 1000 строк. Я даже примерно не знаю сколько подобная работа может стоить и боюсь сильно продешевил. Прошу опытных разработчиков, имеющих опыт с подобными заказами, сориентировать. Буду благодарен.

Комментарии 3