Big Data — ключевой компонент интернета вещей

Про концепцию интернета вещей говорят много. Мы, например, недавно публиковали обзорную статью. Однако, несмотря на это остается ряд вопросов даже по самым общим моментам. Например, что является основным для интернета вещей? Рассмотрим это …

Бесспорно технический прогресс за последнее время позволил реализовать ряд функций и устройств, о которых ранее можно было только мечтать. В значительной степени это связано со снижением габаритов, энергопотребления и стоимости как компонентов, так и конечного устройства, как следствие.
Однако, огромное количество устройств было подключено к сети уже давно. Почему же говорить про интернет вещей стали только последнее время (с начала 2012). Ответ на это вопрос лежит относительно на поверхности, но в то же время не очевиден для многих. В интернете вещей общение должно происходить между вещами (без участия человека). Практически все существующие системы до этого предполагали непосредственное участие человека в процессе или же на первоначальном этапе задания жёстких алгоритмов функционирования систем. Человек был создателем и в большинстве случаев прямым участником процесса.
Что же поменялось с тех пор и как мы к этому пришли? Устройства стали умнее =). Во многих случаях более не требуется вмешательство человека в процесс функционирования систем. Как бы не было забавно, но это произошло из-за того, что устройства стали больше знать об окружающем их мире. Они накопили значительный объём данных обо всём, что могли и/или считали полезным. Это и есть та самая Big Data (Большие Данные). Однако, объём данных сам по себе не является большой ценностью, пока нет возможности его обработать. И тут мы подходим ко второй составляющей концепции Big Data. Данные нужно уметь и иметь возможность не только накапливать данные, но и соответствующим образом их обрабатывать.

Отсюда появляется задача «научить» устройства интернета вещей выполнять полезную работу. При этом традиционные алгоритмы, как обработки данных, так и управления системами, абсолютно не эффективны на Больших Данных, т.к. эти данные зачастую могут быть не структурированы, не полными, а, что наиболее важно в большинстве случаев, не подходить под заранее известные закономерности. Поэтому возникает задача получения нового более эффективного алгоритма управления из Больших данных, который в дальнейшем может эффективно использовать на конечных устройствах со значительно меньшими затратами. см. пример ниже.  Именно этими устройствами, как правило, и выступают устройства интернета вещей. Тут мы подходим к вопросу машинного обучения. Однако, это тема настолько обширна и глубока, что мы оставим её за рамками данной статьи и рассмотрим этот вопрос отдельно.
Второй немаловажной составляющей Больших Данных является перенос и хранение их в облаках. Это нужно для того, чтобы вещи интернета могли получить доступ к общей базе знаний, а также для того, чтобы локализовать ресурсозатратные задачи в облачных сервисах, где вопрос энергопотребления и доступных ресурсов уже решён или же стоит не так остро, оставив себе лишь простые, энергоэффективные функции и задачи.

Стоит сделать небольшое отступление и привести небольшой пример для пояснения сути. Теория эксперимента рассматривает такие задачи, как поиск оптимальных условий, построении интерполяционных формул, выбор значимых факторов, оценку и уточнении констант теоретических моделей. В момент появления теории эксперимента её основная цель была в снижении затрат на проведение экспериментов (сбор данных) и получении наилучших результатов из имеющих данных. С приходом Big Data ситуация в значительной мере изменилась, т.к. теперь данных много и они получаются со значительно меньшими затратами, зачастую практически бесплатно (включены в накладные расходы). Однако вопрос выявления закономерностей остался.

Рассмотрим на примере небольшого объёма данных. Полный пример приведён в Wikipedia с детальными пояснениями согласно теории эксперимента. Допустим у нас есть 4 измерения с различными входными данными и результатом (таблица слева). Добавив к ним постоянную составляющую a0 и можно составить систему уравнений (по центру) и соответствующую ей матрицу.

Собственно вопрос заключается в вычислении коэффициентов ax (решении системы уравнений). В результате получается простое выражение, которое уже можно использовать в устройствах интернета вещей.

exp_result

Алгоритмы обработки Больших Данных выполняют по сути эту же задачу, но со значительно большим объёмом данных, как по количеству параметров, так и измерений.

Пионерами в области обработки Больших Данных были, и до сих пор остаются на лидирующих позициях, компании, которые по роду своей деятельности генерировали и обрабатывали огромные потоки данных. Среди них, конечно, можно выделить Google, Amazon, Facebook, Yahoo, IBM, Dell. Среди отечественных компаний стоит отметить же поисковые сервисы Яндекс и Mail.ru group. Последние в значительной степени повторяют наработки иностранных компаний. Однако, находят и практическое применение в бизнесе самого различного плана, как IT, так и промышленности: металлургии и добыче полезных ископаемых.

Применение традиционных подходов для обработки Больших Данных не только не эффективно, но и зачастую просто невозможно. Проблема заключается не столько в гигантских вычислительных ресурсах требующихся для этого, сколько в сложности взаимосвязей внутри самих данных. Эмпирический метод потерял свою актуальность из-за невозможности обработки огромного числа параметров и длительности фиксации каждого параметра в отдельности.

В тоже время компьютеры идеально подходят для выполнения этой задачи. Они могут сравнивать огромное количество данных между собой на различных уровнях и выборках для выявления закономерностей. Кроме того такие задачи из-за своей природы отлично разделяется на параллельные потоки. Что также хорошо идёт на пользу современным многоядерным процессорам и распределённым облачным платформам. Конечная эффективность такой работы достаточно низка (результат приносят лишь тысячные доли процента), но результат может оправдать все ожидания, т.к. его зачастую невозможно или крайне маловероятно получить другим путём. С этой точки зрения процесс можно сравнить с добычей золота (или добычей биткоинов :)). Необходимо обработать тонны руды, чтобы получить несколько грамм драгоценного металла. Важной особенностью же работы с Большими Данными на компьютерах заключается в том, что практически ничего не требуется для работы, кроме непосредственно стандартного аппаратного обеспечения (процессоров, памяти, накопителей и сети) и электричества. А это всё на текущей стадии развития науки и техники дешевеет с каждым годом. Поэтому данная область приобретает всю большую популярность и ближайшие пару десятилетий будет в тренде.

Отличным примером грамотного использования Больших Данных для создания качественно новых продуктов является усовершенствование переводчика Google. Имея огромный массив данных Google научила свой переводчик делать перевод зачастую очень близкий к человеческому и даже художественному. Вы можете попробовать и удивиться. Именно на эту реакцию они и рассчитывали =)

Google сделал крайне важный шаг для своего бизнеса — они создали возможность для использования их сервисами людьми, которые знают только один язык, причём не английский. Таких людей реально много — 50% интернета написано на английском, а говорит на этом языке всего 20% населения Земли. При помощи же высококачественного переводчика количество их потенциальных клиентов вырастает многократно. По факту они убрали один из важнейших барьеров для роста своей компании. Стоит отметить, что в настоящий момент добавляется по 8 языковых пар в месяц, к моменту выхода статьи ситуация может измениться, т.к. процесс ускоряется.

Реализовав функционал и предоставив доступ к нему через глобальную сеть Google значительно усовершенствовала возможности устройств интернета вещей. Например, конечное устройство может распознать Ваш голос, перевести команду на известный ему язык и выполнить требуемое действие. Вещи интернета вещей становятся реально умнее. Умный дом более не является просто красивым маркетинговым выражением.

В качестве заключения могу отметить следующие моменты:

  • Большие Данные — это не только сами данные в огромных объёмах, но и способы их обработки,
  • для обработки Больших Данных требуются специальные алгоритмы, в большинстве своём построенные на машинном обучении,
  • на основе Больших Данных можно выработать алгоритмы управления для интернета вещей,
  • Разделение задач и функций на группы для устройств интернета вещей и облачных сервисов позволяет решать задачи наиболее эффективно:
    • устройства интернета вещей выполняют простые задачи сбора данных и управления конечными устройствами,
    • облака предоставляют возможности по накоплению и обработке больших объёмов данных

Таким образом Большие Данные позволяют провести революцию в технике, и умах людей.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s