Блог РСВ

Датасет: почему аналитику данных не обойтись без этого инструмента

Задача аналитика — искать закономерности, но есть данные неопределенные и неструктурированные, которые нельзя обработать инструментами анализа и с их помощью невозможно обучать нейронные сети. По этой причине специалисту требуются подготовленные данные — датасет.

Что означает датасет и как он помогает в анализе

Датасет — это структурированная информация в табличном виде, где у каждого объекта прописаны определенные свойства: характеристики, связи или конкретные места. Этот механизм применяют для построения гипотез, анализа результатов или обучения нейросети на основе данных.

Приведем пример: представьте набор карточек с рисунками разных собак. Эти карточки по отдельности — просто необработанные данные, их нельзя использовать для анализа или машинного обучения. Для того чтобы из этого набора сделать датасет, нужно прописать, какие именно собаки нарисованы на карточках и какое между ними отличие.

Из каких компонентов состоит датасет:

Как правило, свойства объекта описываются не фразами, а числами. Например, необходимо указать пол пользователя. Отмечать будут не привычными буквами «М» и «Ж», а обозначать каждый признак цифрами «Мужской» — 0, «Женский» — 1.

Пройдите онлайн-курсы бесплатно и откройте для себя новые возможности Начать изучение

Какие виды датасетов бывают

  1. Простая запись

Это таблица, в строках которой размещены объекты, а в колонках — свойства. Конкретных связей между данными нет, признаки просто совпадают с определенными объектами. Обычно многие датасеты строятся именно таким образом.

  1. Граф

Данные и их связи сгруппированы в виде схемы, объекты которой соединены стрелками. Граф бывает разных видов: структурированный и неструктурированный. У структурированных объекты соотносятся между собой. У неструктурированных эти связи направленные — например, один объект соотносится со вторым, а у второго с первым уже нет связи. Кроме того, у таких соотношений может быть еще и разный вес.

  1. Упорядоченные записи

Здесь соотношение объектов не так важно, главное — какое конкретное место объект занимает в таблице с данными.

Если вы интересуетесь AI, ML, Big Data или Data Science и хотите пройти обучение, а также поучаствовать в создании продуктов с искусственным интеллектом вместе с другими разработчиками, то вам точно нужно подать заявку в наш проекте «Цифровой прорыв. Сезон: искусственный интеллект».

Exit mobile version