Подготовка данных
это самый важный этап создания любой модели машинного обучения, и встраиваемые (edge) ML-проекты не исключение. Edge Impulse (EI) предоставляет мощный и удобный инструментарий для этого процесса. Его можно разделить на несколько ключевых шагов.
image alt
Урок на Яндекс.Дзен
Видеоурок на RUTUBE
Сбор данных (Data Acquisition)

Это первый шаг — получение "сырых" данных с вашего устройства (микроконтроллера, датчика, камеры).

Как это происходит:

Прямой захват с устройства: Используя веб-браузер или мобильное приложение, вы можете подключиться к вашему устройству и записывать данные прямо в студию Edge Impulse (EI).

Для датчиков (акселерометр, гироскоп, микрофон и т.д.): Вы указываете частоту дискретизации, длительность записи и начинаете захват. Данные передаются в реальном времени.

Для камер: Вы делаете снимки или короткие видео.

Загрузка готовых датсетов: Если данные у вас уже есть (например, CSV-файлы с показаниями датчиков или папка с изображениями), вы можете загрузить их через веб-интерфейс или с помощью CLI-инструмента Edge Impulse.

Использование открытых датсетов: EI имеет встроенную интеграцию с платформами вроде Roboflow (для компьютерного зрения), что упрощает импорт публичных датсетов.

Ключевой момент: При сборе данных важно соблюдать баланс классов. Например, если вы создаете классификатор жестов, у вас должно быть примерно одинаковое количество примеров для каждого жеста ("вверх", "вниз", "круг").
Разметка данных (Data Labeling)
После сбора данные нужно разметить — то есть указать модели, что именно на них изображено или записано.

Подход в Edge Impulse:

Разметка на уровне сегмента (для данных временных рядов): Это одна из самых сильных сторон EI. Представьте, что у вас есть 2-минутная запись акселерометра, и вам нужно найти в ней 3 отдельных жеста. В студии EI вы видите график сигнала, выделяете мышью участок, где находится жест, и присваиваете ему метку (например, wave).

Разметка на уровне файла (для изображений и аудио): Каждому загруженному изображению или аудиофайлу присваивается одна метка. Например, все изображения кошек получают метку cat.

Автоматизация: EI предлагает инструменты для ускорения разметки:

Кластерный просмотр: Алгоритм автоматически группирует похожие сегменты данных, что позволяет быстро разметить целую группу одной меткой.

Авторазмещение: Вы можете написать небольшой скрипт, который автоматически присвоит метки файлам на основе их имен или структуры папок.
Создание датасета: Train/Test Split
После разметки Edge Impulse автоматически разделяет ваши данные на две группы:

Обучающий набор (Training Set): Используется для непосредственного обучения модели. Обычно это 80% данных.

Тестовый набор (Test Set): Используется для независимой проверки качества обученной модели на данных, которые она не видела во время обучения. Это оставшиеся 20%.

Это разделение критически важно для оценки реальной производительности модели и предотвращения переобучения.
Craftum Сайт создан на Craftum