Задание на проверку следующих навыков:
• анализ больших объемов данных;
• визуализация разультатов;
• умение читать мануал.
Вот сами задания
1. (Барышников) В повести А.С. Пушкина "Капитанская дочка" посчитать частотность употребления частей речи, результат распределить по следующим пяти категориям:
• процент существительных;
• процент прилагательных;
• процент глаголов;
• процент всех прочих частей речи (каких именно?);
• процент слов, принадлежность которых к определённой части речи выявить не удалось (не более 50% от общего числа).
2. (Зелик) Исследовать распределение длины предложения в романе Л.Н. Толстого "Анна Каренина". Результат представить в виде диаграммы.
3. (Абросиимов) На основании данных Центробанка РФ о курсах валют в виде Excel-таблиц построить на одном графике курсы доллара США и японской иены за любой наперёд заданный год.
4. (Хегай) В Википедии искать людей, родившихся в 1890 году, находить умерших, выбирать случайным образом 100 (200, 500 — в зависимости от скорости доступа) человек и строить диаграмму продолжительности жизни.
5. (Брусницына) В Википедии найти всех лауреатов Нобелевской премии по литературе (экономике, физике — любую по выбору) и построить диаграммы распределения лауреатов по:
1) национальности
2) полу
3) возрасту на момент получения премии
6. (Захаров) На основании данных регистра министерства культуры РФ построить диаграмму числа зарегистрированных художественных фильмов по годам с 1925 по 2005 годы.
7. (Гладышев) На основании данных Центробанка РФ построить график значения денежной массы за период с 1997 по 2010 годы (см. "Показатели денежно-кредитной и финансовой статистики").
8. (Нормухаметова) Путём запросов в гугле выяснить, частоту упоминания фамилий студентов группы 136 в рунете. Построить круговую диаграмму количества упоминаний каждой фамилии.
В качестве результата работы нужно предоставить ваши диаграммы и код на питоне. Разумеется, я оставляю за собой право задавать дополнительные вопросы: скорее всего, я попрошу вас немного изменить код где-нибудь и объяснить полученный результат.
Не присутствовавшие на паре смогут получить задание во время одной из следующих пар.
Крайний срок получения заданий — 30 ноября 2010.
Вопросы можно задать комментарием к этой записи или по электропочте.
27 сент. 2010 г.
Подписаться на:
Комментарии к сообщению (Atom)
2 комментария:
Здравствуйте, Юрий Владимирович. У меня возникли проблемы с установкой библиотеки matplotlib для python 2.7. В интернете не где нет, незнаю где взять. Брусницына Дарья
Можно взять, например, вот тут:
http://www.lfd.uci.edu/~gohlke/pythonlibs/
Отправить комментарий