Кирилл Еременко - Работа с данными в любой сфере
Все авторские права соблюдены. Напишите нам, если Вы не согласны.
Описание книги "Работа с данными в любой сфере"
Описание и краткое содержание "Работа с данными в любой сфере" читать бесплатно онлайн.
Ни один из этих источников информации не был случайным. Звезды не просто сошлись для вас и фильма в нужный момент. Оставим идеалистические совпадения неожиданным экранным встречам. То, что привело вас в кино, было в меньшей степени желанием увидеть фильм и в гораздо большей – мощной смесью основанных на данных признаков, которые выделили вас в качестве вероятного зрителя, прежде чем вы сами поняли, что хотите посмотреть фильм.
Когда вы взаимодействовали с каждым из этих источников информации, вы оставили немного сведений о себе. Мы называем их выхлопными данными. Этот процесс не ограничивается вашим присутствием в онлайне и важен не только для создания социальных сетей. Независимо от того, используете ли вы социальные медиаплатформы, нравится вам это или нет, вы делитесь своими данными.
Так было всегда – мы просто научились лучше записывать и собирать их. Любое количество ваших ежедневных взаимодействий может способствовать этому «выхлопу». По дороге в лондонское метро вас запечатлевают камеры видеонаблюдения. Сев на поезд, вы добавляете информацию в базу «Транспорт» статистических данных Лондона об использовании метро в час пик. Когда вы делаете закладки или выделяете страницы романа на своем устройстве для чтения Kindle, вы помогаете дистрибьюторам понять, что особенно понравилось читателю, и что они могли бы разместить в будущих маркетинговых материалах, и как глубоко читатели склонны погрузиться в роман, прежде чем остановиться.
Если вы наконец решите отказаться от испытаний в общественном транспорте и вместо этого поедете в супермаркет на автомобиле, выбранная вами скорость поможет GPS-сервисам показывать своим пользователям в режиме реального времени, насколько напряженный трафик в районе, и также позволит вашему автомобилю оценить, сколько еще времени остается, прежде чем вам стоит искать автозаправочную станцию.
И сегодня, когда вы выходите из этих точек соприкосновения, оставленные вами данные уже собраны и добавлены в «проект» о вас, который детализирует ваши интересы, действия и желания.
Но это только начало истории данных. Я расскажу вам о том, насколько действительно распространены данные. Вы узнаете основные понятия, которые пригодятся на пути к овладению наукой о данных, а также ключевые определения, инструменты и методы – они позволят вам применить навыки работы с данными к своей собственной деятельности. Эта книга расширит ваши горизонты, показывая, как наука о данных может использоваться в разных областях такими способами, которые прежде казались вам невозможными. Я опишу, как умение работать с данными может дать толчок вашей карьере и изменить ваш бизнес – будь то посредством идей, которыми вы впечатлите топ-менеджеров, или даже благодаря запуску стартапа.
Данные повсеместны
Прежде чем двигаться дальше, нужно уточнить, что подразумевается под данными. Когда люди размышляют о данных, они думают о том, как те активно собираются, хранятся в базах данных на непостижимых корпоративных серверах и направляются на исследования. Но это устаревший взгляд. Сегодня данные гораздо более вездесущи[1].
Все весьма просто: данные – это любая единица информации. Это побочный продукт любых действий, пронизывающих каждую часть нашей жизни не только в сфере интернета, но также в истории, географии и культуре. Наскальные изображения – данные. Музыкальный аккорд – данные. Скорость автомобиля, билет на футбольный матч, ответ на вопрос анкеты – все это данные. Книга – это тоже данные, как и глава в этой книге, как слово в главе, а также буква в слове. Им не нужно быть собранными, чтобы считаться данными. Их не нужно хранить в архиве организации, чтобы они считались данными. Значительная часть данных в мире, вероятно, пока не объединены в какой-либо базе данных.
Предположим, что в этом определении данных как единицы информации данные являются осязаемым прошлым. Весьма мудро, если задуматься. Данные – это прошлое, а прошлое – это данные. Запись всего, что можно отнести к данным, называется базой данных. И аналитики данных могут использовать их для лучшего понимания наших нынешних и будущих действий. Они применяют тот же принцип, что веками использовали историки: мы можем учиться на опыте истории. Мы можем учиться на наших успехах – и на наших ошибках, чтобы улучшить настоящее и будущее.
Единственный аспект данных, который в последние годы резко изменился, – наша способность собирать, организовывать, анализировать и визуализировать их в контекстах, которые ограничены только нашим воображением. Куда бы мы ни пошли, что бы мы ни покупали, какими бы ни были наши интересы, все эти данные собираются и систематизируются в тренды, которые помогают рекламодателям и маркетологам продвигать свои продукты к тем, кто в них заинтересован; которые показывают политические предпочтения членов правительства в соответствии с их происхождением или возрастом и которые помогают ученым создавать искусственный интеллект (ИИ), реагирующий не только на простые запросы, но и на сложные эмоции, этику и идеологию.
С учетом всех обстоятельств вы можете спросить: «Каковы же ограничения: что мы называем данными, а что – нет? Считаются ли фактические сведения о цикле цветения растения (количественные данные) такими же данными, как фиксация ученым культурного обычая, связанного с передачей умирающему родственнику букета цветов из родной страны (качественные данные)?» Ответ – да. Данные не дискриминируются. Не имеет значения, является ли рассматриваемая единица информации количественной или качественной. Качественные данные, возможно, были менее полезными в прошлом, когда не была достаточно сложной технология их обработки, но благодаря достижениям в алгоритмах, способных обрабатывать такие данные, этот недостаток быстро уходит в прошлое.
Говоря об ограничениях понятия «данные», еще раз вспомните, что данные – это прошлое. Вы не можете получать данные из будущего, если только вам не удалось создать машину времени. Но в то время как данные нельзя получить из будущего, с их помощью можно получить представление о грядущем и прогнозировать его. И именно способность данных восполнить пробелы в наших знаниях делает их настолько увлекательными.
Большие данные прекрасны
Теперь, когда мы разобрались, что такое данные, нужно по-другому взглянуть на то, где и как они фактически хранятся. Мы уже продемонстрировали наш широкомасштабный потенциал создания данных (это «выхлопные данные») и пояснили, что, трактуя их как единицу информации, мы создаем очень широкую концепцию того, что понимается под данными. Итак, если они где-то рядом, где все это происходит?
К настоящему времени вам, вероятно, доводилось слышать термин «большие данные». Проще говоря, большие данные – это название, присвоенное массивам данных со столбцами и строками, которых настолько много, что они не могут быть обработаны обычным аппаратным и программным обеспечением в течение разумного промежутка времени. По этой причине сам термин является динамичным – то, что расценивалось как большие данные в 2015 г., уже не будет считаться большими данными в 2020-м, поскольку к тому времени будут разработаны технологии, легко справляющиеся с подобными объемами.
Три VЧтобы можно было считать массив данных большими данными, должно быть выполнено хотя бы одно из трех условий:
1. Объем данных – то есть размер массива данных (например, количество строк) – должен исчисляться миллиардами.
2. Скорость, то есть то, как быстро собираются данные (например, потоковое видео в интернете), предполагает, что скорость генерируемых данных слишком высока для адекватной обработки с использованием обычных методов.
3. Разнообразие. Это подразумевает либо разнородность типов информации, содержащейся в массиве данных, таком как текст, видео, аудио или файлы изображений (известные как неструктурированные данные), либо таблицы, содержащие значительное количество столбцов, которые представляют разные свойства данных.
Мы пользуемся большими данными в течение многих лет для всех видов дисциплин и гораздо дольше, чем вы могли бы ожидать, – просто до 1990-х гг. не было термина для их обозначения. Так что я вас шокирую: большие данные – это не большая новость. Это, конечно, не новая концепция. Многие, если не все, крупнейшие корпорации располагают огромными хранилищами данных об их клиентах, продуктах и услугах, которые собирались в течение длительного времени. Правительства хранят данные о людях, полученные в результате переписей и регистрации по месту проживания. Музеи хранят культурные данные – от артефактов и сведений о коллекционере до выставочных архивов. Даже наши собственные тела хранят большие данные в виде генома (подробнее об этом в главе 3 «Мышление, необходимое для эффективного анализа данных»).
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!
Похожие книги на "Работа с данными в любой сфере"
Книги похожие на "Работа с данными в любой сфере" читать онлайн или скачать бесплатно полные версии.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Отзывы о "Кирилл Еременко - Работа с данными в любой сфере"
Отзывы читателей о книге "Работа с данными в любой сфере", комментарии и мнения людей о произведении.