Разработать скрипт для быстрой сверки больших текстовых файлов

Цена договорная
23 октября 2020, 16:31 • 13 откликов • 84 просмотра
Есть файл с фамилиями и именами размером в 100 Гб. Требуется разработать скрипт на Python, с помощью которого можно будет удобно и главное быстро сверять основной файл с другими (более мелкими) - от 10 Мб до 1 Гб. Редко - больше. В основном файле фамилии и имена написаны только на латинице и разделяются знаком :
Иногда приходится сверять мелкие списки фамилий с тем, что уже есть в основном файле. И после этой проверки сохранить содержимое проверяемого файла на 2 новых: уникальные фамилии и имена в одном файле, а дубликаты (с точным совпадением имени и фамилии, даже с учетом регистра) - в другом файле. Уникальные фамилии и имена требуется иногда добавлять к основному файлу, чтобы в будущем учитывать их в проверке.

Можно сделать с использованием любой базы данных или с использованием любых библиотек, любых технологий. Но обязательно на Python. Приветствуются любые удобные варианты. Но предпочтение будет отдаваться тому исполнителю, который предложит решение с минимальным набором дополнительных установок программ и у которого будет максимально быстрая сверка файлов.
Скрипт будет работать на Windows.

Для тестирования вашего метода предлагаю создать вам у себя текстовый файл. И проверить ваш способ на нем. Пусть фамилия и имя будут иметь длину по 50 символов. Можно сгенерировать такой файл и посмотреть результаты скорости на нем.

Жду ваших предложений!