Разработка десктопного парсера

100 000 руб. за проект
11 ноября 2021, 12:58 • 11 откликов • 163 просмотра
Я мог не усматреть чего то важного и необходимого,Вы как специалисты проведите анализ среди конкурентов,и подскажите,что как и на каком языке,или языках написать парсер.
Необходимо учесть то что в последствии парсер будет выложен на продажу,необходима будет реализовать проверку подписки,либо подлиности ключа на стороне сервера
тоесть в кабинете пользователя,а также проверка по привязанному устройству с которого запучкается программа,в нашем случае компьютер,возможность отвязки и привязки устройств.


1. Сбор ключевых слов - сбор ключевых слов с поисковиков (Yahoo, Bing, Yandex, Gugl, Mail.ru, Rambler)
Также возможность добавления ключевых слов из файла, из бувера обмена, либо добавления в ручную.

2. Парсинг ссылок (url) из собранных ключевых слов

3. Парсинг данных из с парсенных ссылок (url) -Также Возможность добавления ссылок (url) из файла, из бувера обмена, либо добавления в ручную

4. Парсинг определенного сайта (полный обход) по указонной ссылке (url) и сбор данных - полный обход сайта, поиск и сбор необходимых данных (например Taitl, Description) номера телефонов, эл адреса

5. Возможность подключения сервисов разгадывания капчи - capmonster.cloud/ru/ 2captcha.com https://anti-captcha.com/ru zennolab.com/ru/products/capmonster
Возможность разгадывания капчи в ручную

6. Возможность подключения сервисов предоставления прокси - buyproxies.org awmproxy.net proxymania.ru
Возможность добавления прокси в ручную,из файла,из буфера обмена.

7. Фильтр - Возможность фильтровать по данным,по указанным словам, либо элементам (например ?-/=)
Два небольших окна - в одно добавляем то что необходимо скрыть, в другое соответственно то что необходимо оставить
возможность сброса фильтра,кнопка применить фильтр,чтобы изменения вступили в силу,удобно если фильтрация проводилась во время парсинга.

8. Возможность добавлять уже имеющиеся ссылки для парсинга - из файла, в ручную, из буфера обмена. либо в ручную

9. Отсеивание дублей - отсеивание дубликатов эл адресов и телефонов

9. Добавление user agent - из файла,из буфера обмена, либо в ручную

10. Важно чтобы парсер не собирал вместо номеров год дату итп,так же желательно чтобы в пустые поля не подставлялись данные с соседних полей
как это зачастую бывает в парсерах - например указан телефон но не указан эл адрес, соседнее поле название компании, дак вот оно обязательно влезет на место эл адреса.
Лучше пустые поля, заполнять значением NUL, чтобы потом можно было отфильтровать по нему,например убрать NUL,таким образом мы добьемся чистоты и красоты будущего документа
в котором все будет на своем месте.
========================================================================================


НАСТРОЙКИ

Выбор поисковых систем галочками, выборочно, либо все сразу.
Установка количества, и скорости потоков
Задержка между запросами в мс
Максимальное время ожидания ответа в мс
Подключение сервисов - ссылка на тот или иной сервис, ввод ключа appi, глобальное подключение либо отключения галочкой, прокси,либо сервисов капчи.
Выстовление времени через которое будет автоматически проходить резервное сохранение проекта, для возможности востановления в дольнейшем
Возможность ручного сохранения проекта
Возможность открытия сохраненного проекта
Экспорт - выбор формата сохранения по умолчанию (xlsx,CSV,Gugl таблицы)
========================================================================================
ВЕРХНЕЕ ГОРИЗОНТАЛЬНОЕ МЕНЮ

1.Проект
-Новый
-Открыть
-Недавние проекты
-Сохранить
-Сохранить как
-Выход

2.Список ссылок (url)
-Ввести в ручную
-Загрузить из файла
-Вставить из буфера обмена
-Сохранить список ссылок (url) в файл

Удалить
-выбранные результаты
-текущую таблицу
-все ячейки с ошибками
-все результаты

2.Список ключевых слов
-Ввести в ручную
-Загрузить из файла
-Вставить из буфера обмена
-Сохранить список ключевых слов в файл

Удалить
-выбранные результаты
-текущую таблицу
-все результаты

Сбор данных с указанного сайта
добавить url

3.Настройки
-все настройки
-общие
--тема
---светлая
---темная
-Максимальное количество потоков

поисковые системы - выбор поисковых систем
-gugl
-yandex
-rambler
-bing
-mail.ru

сервисы
-сервисы по разгадыванию капчи
--capmonster.cloud/ru/
--2captcha.com
--anti-captcha.com/ru
--zennolab.com/ru/products/capmonster

-сервисы по предоставлению прокси
--buyproxies.org
--awmproxy.net
--proxymania.ru

4.экспорт
-в файл по умолчанию

5.Помощь

6.Видеоуроки
========================================================================================
С последующей тех поддержкой, и доработкой,например клик по кнопки,скроллинг,ручная или автоматическая вставка XPath, CSS, RegExp
Либо до и после необходимого элемента как в Content Downloader.