» » » » Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры


Авторские права

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь можно купить и скачать "Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" в формате fb2, epub, txt, doc, pdf. Жанр: Научная Фантастика, издательство АСТ, год 2016. Так же Вы можете читать ознакомительный отрывок из книги на сайте LibFox.Ru (ЛибФокс) или прочесть описание и ознакомиться с отзывами.
Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Рейтинг:
Название:
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Издательство:
неизвестно
Год:
2016
ISBN:
978-5-17-088935-8
Вы автор?
Книга распространяется на условиях партнёрской программы.
Все авторские права соблюдены. Напишите нам, если Вы не согласны.

Как получить книгу?
Оплатили, но не знаете что делать дальше? Инструкция.

Описание книги "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"

Описание и краткое содержание "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" читать бесплатно онлайн.



Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.






Давайте предположим, что мы пытаемся найти кое-что более загадочное, вроде снежного человека, известного в английском языке под именем Sasquatch[77]. Пугливый Sasquatch появляется в английских текстах примерно один раз на каждые 10 миллионов слов, или примерно один раз на каждую сотню книг. Выслеживать Sasquatch гораздо сложнее, чем любой привычный неправильный глагол.

Тем не менее найти Sasquatch не очень сложно. Куда реже нам встречается Loch Ness monster («Лох-несское чудовище») – лишь одно появление на каждые 200 книг. Но если вы действительно хотите протестировать, насколько ловко отыскиваете загадочных созданий, попробуйте найти Chupacabra («чупакабру») [78]. Этого кровососа впервые заметили в 1995 году в Пуэрто-Рико. О нем неизвестно практически ничего. Но мы можем сказать, что Chupacabra встречается значительно реже Sasquatch. Ее можно встретить лишь один раз на каждые 150 миллионов слов (или около 1500 книг). Невероятно начитанный человек может встретить слово Chupacabra всего один раз за всю свою жизнь. Так что вот вам еще одно упоминание – Chupacabra. Цените этот момент.



Для отслеживания столь редких слов нам нужно было получить доступ к большим данным – к миллионам книг. И для этого мы могли отправиться лишь в одно место.

Психология 29-летнего миллиардера

В 2002 году дела в компании Google шли отлично, и у одного из ее основателей, Ларри Пейджа, появилось немного свободного времени. Что было делать? В конечном счете миссия Google состояла в том, чтобы «упорядочить всю имеющуюся в мире информацию», и Пейдж знал, что в книгах информации содержится очень много.

Он задумался: насколько сложно превратить физическую библиотеку в цифровую, способную храниться в киберпространстве? Ответа на этот вопрос не знал никто. Поэтому Пейдж и Марисса Майер (работавшая тогда продукт-менеджером в Google, а в 2013 году бывшая исполнительным директором компании Yahoo!) решили провести эксперимент. Вооружившись метрономом, они принялись переворачивать страницы 300-страничной книги в определенном темпе. На это ушло 40 минут. При таком темпе на простое переворачивание страниц всех книг в библиотеке с семью миллионами томов (например, в библиотеке альма-матер Пейджа, Университета штата Мичиган) ушло бы около 500 лет. И, разумеется, в Университете Мичигана хранились далеко не все книги мира. Например, перелистывание страниц всех книг мира для цифрового сканирования и перевода содержимого в читаемую машиной форму заняло бы тысячелетия. Это казалось невозможным.

Но, разумеется, вы мыслите не как 29-летний миллиардер. Для этого гиганта эпохи интернет-бизнеса, детище которого совсем скоро должно было войти в рейтинг крупнейших мировых компаний Fortune 500, человекотысячелетие представляет собой обычный товар, который можно купить.

Поэтому когда президент Университета штата Мичиган Мэри Сью Коулман сказала Пейджу, что полная оцифровка книг университета потребует тысячи лет, он предложил в ответ услуги Google и заявил, что для решения этой задачи ему понадобится всего шесть лет[79].

И вот так Google начала проект по оцифровке каждой из когда-либо написанных книг – для того, чтобы собрать воедино всю мировую библиотеку и загрузить ее на жесткий диск компьютера.

Страницы Пейджа

Перед тем как Google смогла заняться покупкой и сканированием всех книг, компания нуждалась в списке, позволявшем понять, какие книги ей потребуются, а какие уже отсканированы. Поэтому Google собрала информацию о книжных каталогах из сотен библиотек и компаний, а затем объединила эти каталоги для создания списка, содержащего информацию о каждой из когда-либо написанных книг (или, точнее, о каждой книге, дожившей до наших дней. К примеру, в этот список не вошли книги, утраченные при пожаре в Александрийской библиотеке). Итоговый список включил 130 миллионов книг[80].

Затем компании нужно было приобрести и отсканировать каждую книгу. В некоторых случаях издатели отправляли компании книги сразу же после печати. Это позволяло Google сканировать книгу «с разрушением» – сотрудники разделяли книги на отдельные страницы, а затем очень быстро сканировали их одну за другой, сохраняя все изображения в цифровом формате, который можно было легко просматривать на компьютере. В случае всех остальных книг компания обратилась в библиотеки всего мира, проверяя полку за полкой и отдел за отделом. Как обычно, когда дело доходит до библиотек, книги нужно было вовремя вернуть – даже такая компания, как Google, не могла позволить себе платить штрафы за несвоевременный возврат. Поэтому Google разработала неразрушающую технологию. Она наняла на работу небольшую армию переворачивателей страниц, которые, наподобие Пейджа и Майер, целый день переворачивали страницы, в то время как мощные камеры фотографировали их содержимое[81]. За прошлое десятилетие этот эскадрон бесконечного сканирования перевернул примерно миллиард страниц. Время от времени на изображениях можно заметить след от пальца.

Наконец благодаря «оптическому распознаванию текста» (при котором компьютерная программа находит и распознает в изображении буквы и цифры) оцифрованные образы превращаются в сырой текст. В результате появляется текстовый файл (похожий на то, что вы создаете при печати в текстовом редакторе), содержащий всю книгу.

Усилия Google по оцифровке оказались невероятно успешными, и это был подлинный триумф логики 29-летнего миллиардера. Через 10 лет после того, как Пейдж перевернул первые страницы книги с Мариссой Майер, и через 9 лет после его публичного объявления о проекте Google оцифровала свыше 30 миллионов книг[82].

Проанализировать столь гигантскую коллекцию текстов было по силам лишь компьютеру. Если бы ее попытался прочитать один человек, то при умеренном темпе чтения в 200 слов в минуту, без перерыва на еду и сон, ему потребовалось бы не менее 20 000 лет[83].

Эти данные можно представить себе как выборку из общей популяции когда-либо опубликованных книг. Чтобы понять, насколько велика эта выборка, представьте себе, что количество когда-либо изданных книг (130 миллионов) примерно равно количеству избирателей, зарегистрированных в Соединенных Штатах (137 миллионов). В ходе опроса Института Гэллапа, опубликованного за пять дней до президентских выборов 2012 года, было опрошено 2700 потенциальных избирателей, то есть примерно 1 из 50 000[84]. База книг, собранная Google, включает в себя 30 миллионов книг, то есть около 1 из 4. И этот процесс продолжается – и формирует беспрецедентный список культурного наследия человечества.

Психология 29-летнего выпускника университета

Поскольку мы, очевидно, не имели достаточно времени для завершения задачи своими силами, было ясно, что нужно объединить усилия с Google. Но как?

Возможность для этого представилась, когда в 2007 году жену Эреца Авиву Эйден пригласили в Googleplex – штаб-квартиру Google – для вручения награды как одной из женщин, занимающихся компьютерными науками. Эрец отправился с ней и умудрился попасть в кабинет Питера Норвига, знаменитого директора по исследованиям в Google[85].

Норвиг – пионер в области искусственного интеллекта. Он написал классический учебник по этому вопросу. А когда он говорит, люди его слушают. Например, осенью 2011 года Норвиг и Себастьян Тран организовали первый в мире массовый открытый учебный курс в сети Интернет. Этот курс по вопросам искусственного интеллекта, созданный вместе со Стэнфордским университетом, оказался невероятно популярен – на него записалось свыше 160 000 слушателей. И благодаря ему началась подлинная революция в области высшего образования.

И при всем этом у Норвига довольно неожиданный подход к собраниям и встречам. Он не любит много говорить. По сути, распознать, что скрывается за непроницаемым лицом Норвига, слушающего собеседника, даже сложнее, чем прочитать всю коллекцию книг, отсканированных Google. Затем, через некоторое время, он обычно говорит нечто либо очень глубокомысленное, либо совершенно не связанное с ходом вашего повествования. И только тогда вы понимаете, удалось ли вам его убедить.

Выслушав почти часовую презентацию Эреца, Норвиг наконец раскрыл свои карты. «Все это звучит прекрасно, но как мы сможем это реализовать, не нарушая закона об авторских правах?»

Психология юридического отдела компании из рейтинга Fortune 500

После того как Google в 2004 году публично заявила о своем намерении оцифровать все книги в мире, книгоиздательская отрасль начала – по вполне понятным причинам – нервничать. Что значит для нее, если по изданным книгам можно будет осуществлять поиск в сети Интернет? Каким именно содержимым Google хотела поделиться с аудиторией? И даже если она собиралась соблюдать закон об авторском праве, то как она могла понять, кому именно принадлежат права на ту или иную книгу? Может быть, Google просто поставит с ног на голову всю отрасль, как это сделала Apple с iTunes в области музыки?


На Facebook В Твиттере В Instagram В Одноклассниках Мы Вконтакте
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!

Похожие книги на "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"

Книги похожие на "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" читать онлайн или скачать бесплатно полные версии.


Понравилась книга? Оставьте Ваш комментарий, поделитесь впечатлениями или расскажите друзьям

Все книги автора Жан-Батист Мишель

Жан-Батист Мишель - все книги автора в одном месте на сайте онлайн библиотеки LibFox.

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Отзывы о "Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"

Отзывы читателей о книге "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры", комментарии и мнения людей о произведении.

А что Вы думаете о книге? Оставьте Ваш отзыв.