Пасинг библиотеки
Требуется помочь ускорить парсинг fb2-книг. База книг занимает больше 450 гигабайт/637 000 книг.
Под парсингом в данном случае подразумевается алгоритм:1. Прочитать (программно) список архивов на диске2. В каждом архиве прочитать (программно) список файлов.3. В каждом файле прочитать (программно) книгу fb24. Из книги вытащить текст5. Разобрать текст на существительные с подсчетом частоты повторений существительных в тексте
Этот алгоритм уже реализован в коде. Любые варианты ускорения выборки текста из fb2 и подсчет частоты слов с проверкой на существительное уже сделаны.
Варианты решения:1. Иметь на компе ОЗУ больше 64 Гигабайт. Это позволит увеличить количество параллельных потоков2. Иметь больше 1.5 терабайт свободного места на диске. Это позволит распаковывать архивы на лету и параллельно парсить больше книг.3. Иметь большое количество ядер ЦПУ (больше 16)4. Предложить иные варианты или вычислительные мощности
Под парсингом в данном случае подразумевается алгоритм:1. Прочитать (программно) список архивов на диске2. В каждом архиве прочитать (программно) список файлов.3. В каждом файле прочитать (программно) книгу fb24. Из книги вытащить текст5. Разобрать текст на существительные с подсчетом частоты повторений существительных в тексте
Этот алгоритм уже реализован в коде. Любые варианты ускорения выборки текста из fb2 и подсчет частоты слов с проверкой на существительное уже сделаны.
Варианты решения:1. Иметь на компе ОЗУ больше 64 Гигабайт. Это позволит увеличить количество параллельных потоков2. Иметь больше 1.5 терабайт свободного места на диске. Это позволит распаковывать архивы на лету и параллельно парсить больше книг.3. Иметь большое количество ядер ЦПУ (больше 16)4. Предложить иные варианты или вычислительные мощности