Рейтинг:1

Есть ли способ использовать подключаемый модуль загрузки вложений с Elastic App Search?

флаг bv

Я работаю над порталом, на котором размещены различные типы документации (HTML, PDF, PPTx, DocX) и все они доступны для поиска в одном месте.

Мы могли бы добиться этого, используя «стандартный» из коробки ElasticSearch и плагин Ingest Attachment, но я не специалист по данным и очень мало знаю о написании запросов Elastic, поэтому результаты нашего поиска невелики.

Мне рекомендовали использовать корпоративный поиск приложений вместо того, чтобы пытаться настроить мои основные запросы, но, похоже, я не могу использовать с ним подключаемый модуль загрузки вложений? В результате я не могу использовать простую отправку содержимого в кодировке base64 в API документов и ожидать, что содержимое будет проиндексировано.

Есть ли способ обойти это? Или я не смогу использовать для этого поиск приложений??

Рейтинг:0
флаг bv

Ответом на этот вопрос является извлечение содержимого вложения либо путем использования конвейера вложений, как это предлагается в этом сообщении в блоге или, если у вас есть бэкенд на Java, как у меня, вы можете использовать Апач Тика самостоятельно извлекать содержимое из вложений.

Я реализовал Tika для извлечения содержимого HTML (на самом деле это очень просто)

static String getContent (String htmlContent) выдает TikaException, SAXException, IOException {
    InputStream input = новый ByteArrayInputStream(htmlContent.getBytes());
    Обработчик ContentHandler = new BodyContentHandler();
    Метаданные метаданных = новые метаданные();
    новый HtmlParser().parse(ввод, обработчик, метаданные, новый ParseContext());
    обработчик возврата.toString();
}

Для файлов PDF я уже использовал Apache PdfBox для извлечения некоторых других свойств, поэтому текст был получен «бесплатно».То же самое для файлов Office, но для этого требуется Apache Poi.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.