Научный семинар ?Большие данные и информация при крупномасштабной распределенной обработке данных?
11 ноября с 15:00 - 16:20 по московскому времени
В случае проблем с большими данными данные обычно собираются на многих сайтах, имеют огромный объем, и постоянно появляются новые наборы данных. Зачастую невозможно собрать все данные, необходимые для осуществления научно-исследовательского проекта, на одном компьютере. Поэтому многие подходы направлены на адаптацию классических алгоритмов обработки данных для распределенной вычислительной среды. В идеале такой модифицированный алгоритм должен, работая параллельно на многих компьютерах, извлекать некоторую промежуточную компактную "информацию" из каждого набора первичных данных, постепенно объединять и обновлять ее и, наконец, использовать накопленную информацию для получения результата. Когда появляются новые данные, он должен извлекать из них информацию, добавлять ее к накопленной информации и в конечном итоге обновлять результат. Мы рассмотрим несколько примеров подходящего преобразования алгоритмов обработки; обсудим специфические особенности новых форм представления информации, в частности их алгебраические свойства; и посмотреть, как результирующие алгоритмы подходят для системы MapReduce для параллельной обработки огромного количества данных по крупным кластерам. Кроме того, мы увидим, как определенная формализация самого понятия информации и ее алгебраических свойств может возникнуть просто от принятия методов обработки к большим запросам данных.
Докладчик
Голубцов Петр Викторович, доктор физико-математических наук, профессор, МГУ имени М.В. Ломоносова.
.