Методы Big Data

i

К концу XXI века объем информации превысит 4,22 йоттабайт (или 4,22*1024 степени). А объем интернет-трафика перешел уже отметку в один зеттабайт и через пару лет составит несколько зетттабайт.

Если количество данных возрастает в геометрической прогрессии, то количество выдаваемых пользователю данных пропорционально уменьшается. Большинство современных российских учреждений работают с объемом не более 100 терабайт, и только 13% из них апеллируют объемами информации выше 500 терабайт.

Сейчас методами Big Data обрабатывается чуть меньше 3% из 23% от всей полезной информации мира. К ним относят анализ с помощью искусственных нейронных сетей, data meaning, машинное обучение (machine learning), пространственный анализ, аналитика прогнозов, моделирование, интеграция данных из различных источников и т.д.

В качестве базового принципа обработки данных указывается горизонтальная масштабируемость, когда данные распределяются на сотни и тысячи вычислительных узлов. Применяются средства NoSQL, MapReduce, Hadoop, язык программирования R для статической обработки данных и работы с ними, Business Intelligence – обработка информации в осмысленную форму и ряд других аппаратных решений.

Сегодня один из самых интересных методов анализа данных является искусственная нейронная сеть. Она организуется по принципу нейронных клеток живого организма. Иерархическая сеть нейронов объединяет работу нейронов высокого уровня с нейронами низкого порядка. Каждый нейрон получает информацию, производит над ней простые вычисления и передает ее дальше. Сигналы или значения, которые передаются на уровень выше усиливаются или изменяются в зависимости от весов, которые приписываются межнейронным связям. После завершения одной эпохи вычисляется единственная усредненная оценка и сеть модифицируется в соответствии с этой ошибкой. Для примера мы можем использовать такие нейросетевые системы, как NeuroShell (Ward Systems Group), BrainMaker (CSS) и OWL (HyperLogic). В них пользователь может задать данные в числовом, символьном виде и в виде изображения.

Другой интересный метод — Data Mining. Это процесс, который обнаруживает неизвестные знания в сырых и необработанных данных. С помощь этого метода разрабатываются программные обеспечения для постановки медицинских диагнозов, обнаружение закономерностей в молекулярной генетике и генной инженерии (такие коды могут содержать сотни, тысячи и более связанных элементов), методы Data Mining находят широкое применение в прикладной химии (неорганической и органической). Можно привести еще много примеров различных областей знания, где методы Data Mining играют ведущую роль. Особенность этих областей заключается в их сложной системной организации. Данные в указанных областях неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью. Примеры программ c методом data meaning: rapid miner, weka, knime, NLTK – это программы с открытым исходным кодом и распространяются с помощью лицензий AGPL или GNU.

В денежном выражение в России в 2017 году ожидаются расходы на анализ больших данных в районе 1,1 млрд $ США (по показателям 2016 года это на 0,3 млрд $ США больше). Среди компаний, которые используют технологии Big data: телекоммуникационные компании, ритейл, банки, госсектор, нефтяные компании, энергетические компании. Для этих компаний важно поведение пользователей-клиентов, ведение отчетности, мониторинг работ, создание интеллектуальных систем, мониторинг этих систем и их прогнозирование. С каждым годом количество компаний, использующих технологии и методы Big data увеличиваются. Активно внедряется анализ данных в медицине, молекулярной генетике и генной инженерии, прикладной химии. Большинство специалистов считают «Большие Данные» необходимыми для развития конкурентоспособной стратегии продвижения компании. По статистике Hadoop, после внедрения технологии Больших Данных прибыль в торговых организациях вырастает на 7-10%. Специалисты М.Видео говорят об улучшении логистического планирования после внедрения SAP HANA, также, в результате ее внедрения, подготовка годовой отчетности сократилась с 10 дней до 3, скорость ежедневной загрузки данных сократилась с 3 часов до 30 минут.

 

Тезис опубликован http://www.mai.ru/science/gagarin/