Существуют более эффективные реализации TFHE, чем та, которую вы цитируете.
В частности, компания Зама имеет реализацию, которую они называют Конкретный, который включает в себя
Есть некоторые бенчмарки кода Rust от ~ 2 лет назад, где они требуют ~ 30 мс для умножения.
К сожалению, из этого документа мне не совсем ясно, сколько битов сообщения они требуют для эталона. Я считаю, что это $\geq 5$, а может быть только $5$. В любом случае, это, конечно, намного быстрее, чем ~ 0,9 с для 4-битного умножения.
Обратите внимание, что вы все равно потеряете качества SIMD-типа BFV.
Несмотря на это, вы можете оказаться (практически) быстрее, поскольку похоже, что Concrete имеет бэкэнд с ускорением на GPU (вышеупомянутые тесты были до того, как этот бэкэнд появился), поэтому можно было бы получить аналогичную степень параллелизма, обратившись к этому.
Тем не менее, при условии, что я правильно интерпретирую тесты, это > 30-кратное ускорение по сравнению с тем, что вы цитируете (до того, как делать что-либо, связанное с графическим процессором, что теперь возможно), поэтому, вероятно, представляет интерес.
Что касается начальной загрузки BFV, криптосистема BGV имеет схожие характеристики с BFV (они обе представляют собой схемы «быстрой арифметики с SIMD + медленная начальная загрузка») и Тесты HElib содержат пример кода для начальной загрузки BGV, который может вас заинтересовать.