» » » » Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики


Авторские права

Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Здесь можно купить и скачать "Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики" в формате fb2, epub, txt, doc, pdf. Жанр: Управление, подбор персонала, издательство МаннИвановФерберc6375fab-68f1-102b-94c2-fc330996d25d, год 2014. Так же Вы можете читать ознакомительный отрывок из книги на сайте LibFox.Ru (ЛибФокс) или прочесть описание и ознакомиться с отзывами.
Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Рейтинг:
Название:
Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Автор:
Издательство:
неизвестно
Год:
2014
ISBN:
978-5-00057-146-0
Вы автор?
Книга распространяется на условиях партнёрской программы.
Все авторские права соблюдены. Напишите нам, если Вы не согласны.

Как получить книгу?
Оплатили, но не знаете что делать дальше? Инструкция.

Описание книги "Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики"

Описание и краткое содержание "Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики" читать бесплатно онлайн.



По убеждению Билла Фрэнкса, ведущего аналитика всемирно известной компании Teradata, уже сейчас наступила эпоха совершенно новых подходов в аналитической сфере и в использовании больших объемов данных. Что такое большие данные, каково их значение, каковы методы, технологии и принципы новейшей аналитики и как это повлияет на последующее развитие бизнеса – в этой книге вы найдете подробную, четко структурированную, изложенную простым языком и наиболее полную информацию об этом явлении.






Логи, собираемые в журнальных файлах, – прекрасный пример полуструктурированных данных. Они выглядят довольно уродливо, однако каждый фрагмент информации служит определенной цели. Служит ли любой из фрагментов журнала именно вашей цели – это совсем другой вопрос. На рис. 1.1 изображен пример необработанных данных интернет-журнала.


Рис. 1.1. Пример необработанных данных интернет-журнала

Какую структуру имеют ваши большие данные?

Многие источники больших данных на самом деле являются полуструктурированными или мультиструктурированными, а не совсем неструктурированными. Такие данные подразумевают логическую схему, которая позволяет извлечь информацию для анализа. С ними просто сложнее работать, чем с традиционными источниками структурированных данных. Использование полуструктурированных данных требует дополнительного времени и усилий для того, чтобы определить наилучший способ их обработки.

Хотя на первый взгляд может показаться иначе, данные интернет-журнала подчинены определенной логике. В них присутствуют поля, разделители и значения, как и в структурированном источнике. При этом они не согласованы друг с другом и не представляют собой набор. Текст журнала, сгенерированный только что щелчком кнопкой мыши на сайте, может быть длиннее или короче, чем текст, сгенерированный щелчком кнопкой мыши на другой странице минуту назад. И все-таки необходимо понять, что полуструктурированные данные не лишены логики. Вполне возможно найти взаимосвязь между различными их фрагментами – просто это потребует больше усилий, чем в случае со структурированными данными.

Профессиональных аналитиков больше тревожат неструктурированные данные, чем полуструктурированные. Возможно, им придется побороться с полуструктурированными данными, чтобы подчинить их своей воле, но они это сделают. Они смогут привести полуструктурированные данные в хорошо структурированную форму и включить в свои аналитические процессы. По-настоящему неструктурированные данные приручить гораздо сложнее, и это будет оставаться головной болью для организаций по мере того, как они будут учиться справляться с полуструктурированными данными.

Исследование больших данных

Начать работу с большими данными несложно. Просто соберите их и поручите команде аналитиков вашей организации разобраться в том, чем они могут быть вам полезны. Для начала не понадобится обеспечивать постоянный поток данных. Все, что вам нужно, – это позволить аналитической команде применить свои инструменты и подходы к некоторому набору данных, чтобы они могли начать процесс исследования. Это именно то, чем занимаются аналитики и ученые в области науки о данных.

Существует старое правило: 70–80 % времени уходит на сбор и подготовку данных и только 20–30 % – на их анализ. В начале работы с большими данными можно ожидать более низких значений. Вероятно, в самом начале аналитики будут тратить 95 %, если не все 100 %, времени только на то, чтобы разобраться в источнике данных, прежде чем они смогут решить, как его следует анализировать.

Важно понимать, что это нормально. Выяснение того, что собой представляет источник данных, – важная часть процесса анализа. Это, может быть, и скучновато, однако итеративная загрузка данных[4], изучение того, как они выглядят, а также настройка процесса загрузки с целью более точного извлечения нужных данных критически важны. Без выполнения этих действий невозможно перейти к самому процессу анализа.

Приносите пользу по ходу дела

Чтобы решить, как использовать источник больших данных на благо своего бизнеса, придется потратить немало усилий. Аналитики и их работодатели должны подумать, как обеспечить небольшие быстрые достижения. Это продемонстрирует организации прогресс и обеспечит поддержку дальнейших действий. Такие достижения могут генерировать солидную отдачу от инвестиций.

Процесс выявления ценных фрагментов больших данных и определение наилучшего способа их извлечения имеют решающее значение. Будьте готовы к тому, что на это понадобится время, и не расстраивайтесь, если его потребуется больше, чем вы ожидали. По мере изучения новых источников больших данных специалисты и их работодатели должны искать способы достижения небольших и быстрых побед. Если вы обнаружите хоть что-то ценное, это поддержит заинтересованность людей и продемонстрирует прогресс. Например, кросс-функциональная команда не может приступить к делу, а год спустя утверждает, что по-прежнему не может ничего сделать с большими данными. Необходимо придумать хоть что-то, и сделать это нужно быстро.

Вот отличный пример. Европейский розничный магазин. Компания решила начать использовать подробные данные интернет-журналов. При создании сложных долгосрочных процессов сбора данных они сначала наладили несколько простых процессов для определения того, какие товары просматривает каждый посетитель. Информация о просмотренных страницах была использована в качестве основы для последующей кампании, в рамках которой каждому посетителю, покинувшему сайт без совершения покупки, высылалось электронное письмо. Это простое действие принесло организации значительную прибыль.

Далее компания наладила долгосрочный процесс сбора и загрузки веб-данных. Важно то, что они даже не начинали работу со всем потоком данных. Представьте, какую прибыль они получат в будущем, когда приступят к более глубокому анализу этих данных! Сотрудники организации, с самого начала увидев реальные достижения, сохраняют высокую мотивацию, поскольку они уже оценили мощь даже самого простого использования данных. А главное, дальнейшие усилия уже оплачены!

Большая часть больших данных не имеет значения

Дело в том, что большая часть больших данных вообще не имеет значения. Неожиданно, не так ли? Однако так быть не должно. Мы уже упоминали, что поток больших данных подразумевает большой объем, скорость передачи, разнообразие и сложность. Большая часть содержимого потока данных не будет отвечать поставленным целям, а некоторая его часть вообще не будет иметь какого-либо значения. Укрощение больших данных похоже не на закачку воды в бассейн, а скорее на питье воды из шланга: вы отхлебываете только то, что вам нужно, а остальному позволяете течь мимо.

В потоке больших данных есть информация, которая имеет долгосрочное стратегическое значение; некоторые данные пригодны только для немедленного и тактического использования, а часть данных вообще бесполезна. Самое главное в процессе укрощения больших данных – определить, какие фрагменты относятся к той или иной категории.

Примером могут служить метки радиочастотной идентификации (RFID), речь о которых пойдет в главе 3. Они размещаются на палетах с товарами в процессе их перевозки; если это дорогие товары, метками помечают каждый из них. Со временем станет правилом помечать метками отдельные товары. Сегодня в большинстве случаев это связано с большими затратами, поэтому метки ставятся на каждой палете. Такие метки упрощают процесс отслеживания местоположения палет, позволяют определить, где они загружаются, разгружаются и хранятся.

Представьте себе склад с десятками тысяч палет. На каждом из них находится RFID-метка. Каждые 10 секунд считывающие устройства опрашивают склад: «Кто здесь?» Каждая палета отвечает: «Я здесь». Посмотрим, как в этом случае можно использовать большие данные.

Палета прибывает сегодня и сообщает: «Это палета 123456789. Я здесь». Каждые 10 секунд в течение следующих трех недель, пока находится на складе, палета будет снова и снова сообщать: «Я здесь. Я здесь. Я здесь». По завершении каждого опроса следует проанализировать все ответы на предмет изменения статуса палеты. Таким образом, можно подтвердить то, что изменения были ожидаемыми, и принять меры, если палета неожиданно изменила статус.

После того как палета покинула склад, она больше не отвечает на запрос считывающего устройства. После подтверждения того, что отбытие палеты было ожидаемым, все промежуточные записи с ответом «я здесь» не имеют значения. По-настоящему важны только дата и время появления палеты на складе, а также дата и время ее отбытия. Если между этими датами прошло три недели, то имеет смысл сохранить только две временные метки, связанные с прибытием и отбытием палеты. Ответы, полученные с интервалом в 10 секунд, говорящие: «Я здесь. Я здесь. Я здесь», не имеют какой-либо долгосрочной ценности, однако собрать их было необходимо. Необходимо было проанализировать каждый ответ в момент его создания, однако долгосрочной ценности они не имеют, поэтому их спокойно можно удалить после отбытия палеты.

Будьте готовы отбросить данные

Одна из главных задач при укрощении больших данных – определить фрагменты, которые имеют ценность. Большие данные содержат информацию, пригодную для долгосрочного стратегического применения; данные, которые могут использоваться в краткосрочной перспективе, а также данные, которые вообще ничего не значат. Удаление множества данных может показаться странным, однако при работе с большими данными это в порядке вещей. Вам потребуется время, чтобы к этому привыкнуть.


На Facebook В Твиттере В Instagram В Одноклассниках Мы Вконтакте
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!

Похожие книги на "Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики"

Книги похожие на "Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики" читать онлайн или скачать бесплатно полные версии.


Понравилась книга? Оставьте Ваш комментарий, поделитесь впечатлениями или расскажите друзьям

Все книги автора Билл Фрэнкс

Билл Фрэнкс - все книги автора в одном месте на сайте онлайн библиотеки LibFox.

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Отзывы о "Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики"

Отзывы читателей о книге "Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики", комментарии и мнения людей о произведении.

А что Вы думаете о книге? Оставьте Ваш отзыв.