Пасинг библиотеки
Цена договорная
Требуется помочь ускорить парсинг fb2-книг. База книг занимает больше 450 гигабайт/637 000 книг.
Под парсингом в данном случае подразумевается алгоритм:
1. Прочитать (программно) список архивов на диске
2. В каждом архиве прочитать (программно) список файлов.
3. В каждом файле прочитать (программно) книгу fb2
4. Из книги вытащить текст
5. Разобрать текст на существительные с подсчетом частоты повторений существительных в тексте
6. Максимальный размер архива (одного) - 7.6 Гб. В архиве до 7000 книг
7. Надо вытащить заголовок, автора, язык и сам текст книги. Ну и название архива и файла из архива надо тоже сохранить.
Этот алгоритм уже реализован в коде. Любые варианты ускорения выборки текста из fb2 и подсчет частоты слов с проверкой на существительное уже сделаны.
Варианты решения:
1. Иметь на компе ОЗУ больше 64 Гигабайт. Это позволит увеличить количество параллельных потоков
2. Иметь больше 1.5 терабайт свободного места на диске. Это позволит распаковывать архивы на лету и параллельно парсить больше книг.
3. Иметь большое количество ядер ЦПУ (больше 16)
4. Предложить иные варианты или вычислительные мощности
Под парсингом в данном случае подразумевается алгоритм:
1. Прочитать (программно) список архивов на диске
2. В каждом архиве прочитать (программно) список файлов.
3. В каждом файле прочитать (программно) книгу fb2
4. Из книги вытащить текст
5. Разобрать текст на существительные с подсчетом частоты повторений существительных в тексте
6. Максимальный размер архива (одного) - 7.6 Гб. В архиве до 7000 книг
7. Надо вытащить заголовок, автора, язык и сам текст книги. Ну и название архива и файла из архива надо тоже сохранить.
Этот алгоритм уже реализован в коде. Любые варианты ускорения выборки текста из fb2 и подсчет частоты слов с проверкой на существительное уже сделаны.
Варианты решения:
1. Иметь на компе ОЗУ больше 64 Гигабайт. Это позволит увеличить количество параллельных потоков
2. Иметь больше 1.5 терабайт свободного места на диске. Это позволит распаковывать архивы на лету и параллельно парсить больше книг.
3. Иметь большое количество ядер ЦПУ (больше 16)
4. Предложить иные варианты или вычислительные мощности
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.