CODEDZEN.RU - Страница 2 из 6 - Про код и не только

Elasticsearch — Урок 6.1 Типы запросов

Опубликовано 12.08.2018

Запросы Elasticsearch выполняются с помощью Search API. Как и все остальное в Elasticsearch, запрос и ответ представлены в виде JSON.

Продолжить чтение

Elasticsearch Уроки

Elasticsearch — Урок 5 Массовые операции и многое другое

Опубликовано 05.12.2017

В этом уроке вы узнаете, как управлять индексами в Elasticsearch. До этого мы узнали как работать с одним документом. В этом уроке вы узнаете о различных API, которые Elasticsearch предлагает для поддержки массовых операций. Они могут быть очень эффективными, когда надо перестроить весь индекс или выполнить операцию сразу над несколькими документами за один раз. Из-за способа хранения данных в Elasticsearch, количество осколков или маппинг полей не может быть изменен после создания индекса. Вы узнаете о Reindex API, с помощью него можно перестроить индекс с правильными настройками. Использование Elasticsearch для данных, основанных на времени, является очень распространенным шаблоном использования. Мы обсудим различные способы управления временными индексами. В этом уроке мы рассмотрим следующее:

Elasticsearch

Elasticsearch — Урок 5.5 Shrink API

Опубликовано 05.12.2017

Shrink API используется для сжатия существующего индекса в новый индекс с меньшим количеством осколков. Если данные в индексе больше не изменяются, индекс может быть оптимизирован в плане используемых вычислительных ресурсов при поиске и агрегации за счет уменьшения количества осколков. Количество осколков в индексе назначения должно быть фактором исходного индекса. Например, индекс с 6 первичными осколками может быть сжат в 3, 2 или 1 осколок. При работе с чувствительными к времени данными, такими как журналы, данные индексируются только в текущие индексы, а старые индексы в основном читаются. API-интерфейс Shrink не переиндексирует документ; он просто переводит индексные сегменты в новый индекс.

Продолжить чтение

Elasticsearch

Elasticsearch — Урок 5.4 Организация данных

Опубликовано 05.12.2017

В этом разделе мы обсудим, как разделить ваши данные на несколько индексов. Elasticsearch предоставляет псевдонимы индексов, которые позволяют легко запросить сразу несколько индексов. Он также поддерживает шаблоны индексов для настройки автоматического создания индекса. Мы также обсудим, как обрабатывать временные данные, такие как журналы, которые являются обычным примером использования Elasticsearch.

Продолжить чтение

Elasticsearch

Elasticsearch — Урок 5.3 Ingest Node

Опубликовано 05.12.2017

Традиционно Logstash используется для предварительной обработки ваших данных перед индексированием в Elasticsearch. Используя Logstash, вы можете определить конвейеры для извлечения, преобразования и индексации ваших данных в Elasticsearch.

В Elasticsearch 5.0 был введен узел ingest. Используя узел ingest, можно определить конвейеры для изменения документов до индексирования. Конвейер — это серия процессоров, каждый из которых работает с одним или несколькими полями в документе. Наиболее часто используемые фильтры Logstash доступны как обработчики. Например, используя grok фильтр для извлечения данных из файла журнала Apache в документ, извлечение полей из JSON, изменение формата даты, вычисление геоданных из местоположения и т. д. Возможности безграничны. Elasticsearch поддерживает множество обработчиков из коробки. Вы также можете разрабатывать свои собственные процессоры с использованием любых JVM-языков.

Продолжить чтение

Elasticsearch Уроки

Elasticsearch — Урок 5.2 Reindex API

Опубликовано 03.12.2017

До Elasticsearch 5.0, чтобы изменить параметры индекса или изменить отображение индекса, приходилось создавать новый индекс и переиндексировать данные. Переиндексация большого индекса, как правило не простая задача, которая включает в себя чтение данных из источника, таких как база данных SQL, преобразование данных в документы и загрузка в Elasticsearch. При очень больших объемах данных используют процессоры пакетной обработки, такие как Hadoop. В зависимости от того, насколько большой индекс или насколько сложным является процесс ETL (Extract, Transform, Load), reindex может быть очень дорогостоящим. Чтобы решить эту проблему, был введен Reindex API. Оригинальный документ JSON, используемый для индексирования, хранится в поле _source, которое можно использовать в Reindex API для переиндексации документов.

Продолжить чтение

Elasticsearch

Elasticsearch — Урок 5.1 Массовые операции

Опубликовано 01.12.2017

_bulk API

_bulk API идеально подходит для индексирования или удаления больших наборов данных. Поддерживаются операции создания, индексирования, обновления и удаления. Для каждого запроса должны быть предоставлены метаданные, такие как имя индекса, тип, уникальный идентификатор и маршрутизация. Каждый запрос разделяется новой строкой. Объемный запрос может быть смесью запросов создания, индексации, обновления и удаления. Узел, получающий массовый запрос (также известный как координационный узел), группирует запросы с по осколкам, к котором они принадлежат, и выполняет их параллельно (параллельная обработка зависит от количества cpu). Пулы потоков, которые выполняют одиночные и массовые запросы, независимы.

Продолжить чтение

Elasticsearch

Elasticsearch — Урок 4 Индексирование и обновление данных

Опубликовано 02.10.2017

В этом уроке мы обсудим, как индексировать и обновлять данные. Elasticsearch — это система, которая работает в почти реальном времени, то есть данные, которые вы индексируете, доступны для поиска только после небольшой задержки. Мы обсудим причину этой задержки и то, как мы можем ее контролировать. Также разберем различные способы обновления ваших данных, и мы обсудим, что происходит, когда вы обновляете документ и почему обновления так дороги.

В этой уроке мы рассмотрим следующее:

Elasticsearch

Elasticsearch — Урок 4.5 Синхронизация между первичным осколком и репликой

Опубликовано 02.10.2017

Как вы знаете, данные в индексе разделены на один или несколько осколков. Разделив ваши данные на несколько осколков, Elasticsearch может масштабироваться за пределы того, что может сделать одна машина. Elasticsearch — это распределенная система, и системные сбои обязательно произойдут. Поскольку каждый осколок является независимым индексом Lucene, который может жить на любом узле кластера, Elasticsearch обеспечивает способ сохранения копии первичного осколка в другом узле кластера. Если узел, содержащий первичный осколок, терпит неудачу, то осколок реплики (копия), который существует в другом узле, продвигается до первичного.

Продолжить чтение

Elasticsearch

Elasticsearch — Урок 4.4 Translog и зачем он нужен

Опубликовано 02.10.2017

В прошлых уроках мы узнали, что при индексировании документов создается новый сегмент. Поскольку запись сегмента на диск при каждом обновлении очень дорога, сегмент записывается только в оперативную память. Когда выполняются определенные условия, процесс, известный как Lucene commit, записывает все файлы (сегменты) из памяти на диск.

Продолжить чтение