» » » » Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры


Авторские права

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь можно купить и скачать "Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" в формате fb2, epub, txt, doc, pdf. Жанр: Научная Фантастика, издательство АСТ, год 2016. Так же Вы можете читать ознакомительный отрывок из книги на сайте LibFox.Ru (ЛибФокс) или прочесть описание и ознакомиться с отзывами.
Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Рейтинг:
Название:
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Издательство:
неизвестно
Год:
2016
ISBN:
978-5-17-088935-8
Вы автор?
Книга распространяется на условиях партнёрской программы.
Все авторские права соблюдены. Напишите нам, если Вы не согласны.

Как получить книгу?
Оплатили, но не знаете что делать дальше? Инструкция.

Описание книги "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"

Описание и краткое содержание "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" читать бесплатно онлайн.



Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.






Перспективный подход превращает вопрос о том, почему мы говорим drove, а не drived, в научный поиск тех сил, которые определяют эволюцию человеческой культуры. В течение длительного периода времени мы совершенно не представляли себе, как подступиться к этим силам. Все, что у нас было, это «детский» вопрос.

Охотники на динозавров

Мы как ученые должны заниматься сбором данных – холодных, четких фактов и точных результатов измерений. Мы должны формулировать однозначные гипотезы, а затем пытаться изменить или скорректировать их с помощью точных экспериментов и анализа. С этой точки зрения культура – вещь, которую сложно определить и еще сложнее измерить, – может оказаться довольно твердым орешком. Именно это и делает столь непростой научную работу в областях вроде антропологии. Отчасти именно по этой причине в 2010 году Американская антропологическая ассоциация приняла довольно противоречивое решение об исключении слова «наука» из формулировки своей задачи (стоит отметить, что позднее это слово было вновь возвращено в текст) [44].

Мы решили начать с достаточно узкого аспекта культуры, который довольно просто определить и измерить, – языка. Язык представляет собой своеобразный микрокосм для изучения культуры в целом. Это – основное средство распространения человеческой культуры. Он меняется, и это легко заметит любой человек, читающий пьесы Шекспира. И наконец, язык часто имеет письменную форму и именно в этой форме превращается в массив данных, удобный для научного анализа. В конечном счете письменный язык может считаться одним из самых ранних предшественников больших данных.

Каким же образом следует подходить к вопросу изучения эволюции языка? Если взять биологию, то лучший способ понять пути развития эволюции состоит в изучении окаменелостей. Однако находить ископаемые довольно сложно. Для этого требуется сочетать тщательное планирование и хорошую стратегию. С точки зрения успешного поиска окаменелостей мало кто может сравниться с Натаном Мирвольдом, возможно, величайшим охотником на динозавров в своем поколении (этот человек множества талантов также стал одним из основателей Microsoft Research и написал книгу о современной кухне) [45]. И дело вовсе не в том, что Мирвольду везет больше, чем другим, и что каждый беловатый камень, который он в своих экспедициях берет в руки, оказывается черепом динозавра Tyrannosaurus rex. Мирвольд и его команда используют подробные геологические карты, спутниковые фотографии и свою собственную программу экологического анализа. Все это помогает им понять, где заниматься поисками и где белые камни действительно имеют шансы оказаться окаменелостями. В результате, начиная с 1999 года, им удалось обнаружить десять скелетов тираннозавров – при том что за 90 предшествовавших лет было найдено всего 18 таких скелетов. Выражаясь словами самого Мирвольда, «мы господствуем на рынке T. rex».

Мы решили господствовать на рынке лингвистических окаменелостей. Подобно тому, как окаменелости эпохи динозавров рассказывают нам о биологической эволюции, лингвистические окаменелости помогают нам понять, как развивается язык. Однако для того, чтобы повысить шансы на успех в поиске таких окаменелостей, нам был необходим некий руководящий принцип, помогающий понять, где именно копать. И оказалось, что нужный нам инструмент был создан 80 лет назад человеком, который, как и мы сами, искренне любил считать.

1937: Одиссея данных

Джордж Кингсли Ципф работал в Гарварде в 1930-е и 1940-е годы, возглавляя отделение германской литературы. У него имелась комбинация довольно редких навыков – с одной стороны, он был гуманитарием, а с другой – разбирался в количественных измерениях.

Будучи филологом, Ципф проводил кучу времени в размышлениях о словах. Ему казалось вполне очевидным, что не все слова созданы равными. Определенный артикль the используется в английском языке постоянно, но мы редко слышим слово quiescence («неподвижность»). Ципф счел этот дисбаланс довольно странным и захотел понять, в чем дело.

Понять суть проблемы можно вот как. Представьте себе, что английский язык – это страна, в которой каждое слово является гражданином. А еще представьте, что высота каждого слова-гражданина пропорциональна частоте его употребления – the будет гигантом, а quiescence – карликом[46]. Каково было бы жить среди людей со столь странным ростом? Именно такой «детский» вопрос и заинтересовал Ципфа.

Чтобы представить такой мир наглядно, Ципфу пришлось бы провести перепись всех слов и посчитать, сколько раз использовалось каждое из них. В наши дни это легко и просто сделать с помощью компьютера (программы из одной строки) [47]. Именно поэтому для написания концептуальной книги Legendary, Lexical, Loquacious Love не требовались десятилетия. Но в 1937 году таких возможностей не было. Современные компьютеры просто не существовали, а словом computer («компьютер») обозначался человек, занимавшийся арифметическими вычислениями[48].

Для подсчета слов Ципфу пришлось бы пойти проверенным путем – вручную записывать каждый случай появления того или иного слова в тексте. Разумеется, это была бы невероятно скучная работа.

Думается, что он испытал восторг, узнав о работе Майлса Л. Хенли[49]. Хенли, большой поклонник «Улисса», опубликовал результат кропотливой и героической работы, которой дал довольно скучное название Word Index to James Joyce’s Ulysses («Индекс слов в книге Джеймса Джойса „Улисс“»). Эта книга (представлявшая собой то, что ученые называют «конкорданс») предлагала исследователям «Улисса» и прочим энтузиастам список всех слов книги. Мало какая другая книга вызвала бы у Ципфа больший интерес. Теперь для того, чтобы разобраться со своей первоначальной задачей, ему нужно было взять индекс Хенли и посчитать, какова длина каждой из статей[50]. Работа стала на порядок проще.

Обратите внимание, что Ципф намного опередил свое время в понимании того, что только начинают понимать ученые наших дней, – как логически анализировать информацию. Ципф умело переформулировал важные для себя вопросы в свете доступных ему данных. Вместо того чтобы заняться неразрешимой проблемой подсчета всех слов, он сфокусировался на вполне решаемой проблеме подсчета слов в книге «Улисс». И если бы он был жив в наши дни, то оказался бы у дверей Google в тот же самый момент, когда компания объявила о своем проекте по оцифровке книг.

Вооружившись индексом Хенли, Ципф проранжировал слова в «Улиссе» по частоте употребления[51]. Первое место занял определенный артикль the, использованный 14 877 раз – то есть он представлял собой каждое восемнадцатое слово. Десятым по частоте оказалось слово I («я») с 2653 случаями употреблений. Слово say, встречавшееся в книге 265 раз, оказалось на сотой позиции. Слово step с 26 случаями употреблений заняло в рейтинге Ципфа тысячное место. А чтобы оказаться на десятитысячной позиции, слову indisputable («бесспорный») было достаточно появиться в тексте всего два раза.

Изучая получившийся список, Ципф заметил кое-что любопытное – а именно обратную связь между позицией слова и частотой его использования. Если номер позиции слова был в 10 раз выше – пятисотое место вместо пятидесятого, – то оно встречалось в 10 раз реже. Таким образом his («его»), оказавшееся на восьмом месте с 3326 упоминаниями, встречается в 10 раз чаще, чем слово eyes («глаза») (восьмидесятая позиция, 330 случаев употреблений). Иными словами, можно было сказать, что редких слов гораздо больше, чем можно было ожидать. В «Улиссе» лишь 100 слов используется более 2653 раз. Однако в книге есть сто слов, использующихся более 265 раз, тысяча слов, использующихся более 26 раз, и так далее.

Кроме того, как вскоре обнаружил Ципф, это было характерно не только для слов в «Улиссе» Джойса. Такая же закономерность проявлялась в словах из газет, текстов, написанных на китайском языке и латыни, и практически во всех остальных информационных источниках, к которым он обращался. Это открытие, называемое в наши дни законом Ципфа, оказалось универсальным организующим принципом для всех известных языков[52].

Мир глазами Ципфа

До Ципфа ученые полагали, что большинство вещей, поддающихся измерению, ведут себя подобно человеческому росту.



Рост человека не очень сильно варьируется. Рост 90% жителей США составляет от 155 см до 185 см. Разумеется, рост некоторых особенно высоких баскетболистов достигает 220 см и выше, а рост самого низкого взрослого человека в мире составляет менее 62 см. Однако подобные случаи встречаются крайне редко. Но даже с учетом этих крайностей самые высокие люди всего в 4–5 раз выше самых низкорослых[53]. У математиков имеется особый термин для описания распределения такого рода, при котором значения настолько тесно группируются вокруг среднего значения. Подобное часто встречающееся распределение называется «нормальным». До Ципфа люди считали, что мы живем в нормальном мире, где нормальным оказывалось бы все окружающее.


На Facebook В Твиттере В Instagram В Одноклассниках Мы Вконтакте
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!

Похожие книги на "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"

Книги похожие на "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" читать онлайн или скачать бесплатно полные версии.


Понравилась книга? Оставьте Ваш комментарий, поделитесь впечатлениями или расскажите друзьям

Все книги автора Жан-Батист Мишель

Жан-Батист Мишель - все книги автора в одном месте на сайте онлайн библиотеки LibFox.

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Отзывы о "Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"

Отзывы читателей о книге "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры", комментарии и мнения людей о произведении.

А что Вы думаете о книге? Оставьте Ваш отзыв.