Pages

Saturday, October 20, 2012

Как я вспоминал статистику с Coursera

Начну с того, что статистику и её сестру биометрию я проходил (именно проходил) очень давно. С тех пор я успеил основательно забыть даже то, чему меня в свое время научили. В повседневной практике всем достаточно старого доброго t-теста Стьюдента, но времена, похоже, меняются и биологу в скором времени (да, и сейчас) тоже неплохо разбираться в статистическом анализе. В этом плане мне показалось, что курс Statistics One с профессором Andrew Conway из Принстонского университета пришелся как нельзя кстати.



Прежде, чем приступить к детальному описанию курса, хочу отметить, что его уникальность состоит в том, что одновременно с основами статистики вы учитесь основам статистического языка программирования R. Что имеет свою плюсы и минусы, о которых упомяну ниже.

На кого рассчитан курс?

Несмотря на то, что в описании курса говорится, что никаких знаний в этой области для осовоения предмета не требуется, сам лектор многократно повторяет "надеюсь, что эта часть для вас повторение пройденного". На деле получается, что некоторые рудиментарные знания статистики и временами линейной алгебры будут очень даже кстати. Но если это вдруг не ваш случай, то не повод не записаваться на Statistics One. Кстати, опыт программирования тоже весьма полезен, потому так гораздо проще разобраться с R.

Общая структура курса: длительность, темы, экзаменационные вопросы

Курс длился 6 недель, и охватывал основы описательной статистистики, а также статистический вывод и проверку гипотез. Каждую неделю в понедельник на сайте появлялись новые материалы: две лекции теоритического материала (обычно разбитые на 2-3 части) + одна лекция (обычно из двух частей) практического характера, в которой описывается, как делать рассчеты в R.
Каждый подраздел видеолекции заканчивался несколькими вопросами, которые не влияют на вашу итоговую оценку, но помогают и вам и  профессору понять, насколько хорошо усвоен материал.
В середине недели на сайте выкладывали тест и домашнюю работу. С тестом все понятно: вопрос - ответ из списка. А вот с домашней работой было сложнее (особенно поначалу), надо было скачивать файл с данным, которые потом надо было проанализировать в R. Для этого, естественно, надо было написать код. И уже при помощи полученных данных ответить на вопросы теста. Как показала моя  практика, анализ данных можно осилить, не зная ничего о программировании и R, следуя шаблону, рассмотренному в третьей (практической) лекции соответсвующей недели. В первые недели очень выручали форумы, где собирались опытные пользователи R.
Но и это не все! После 4 недели был промежуточный зачет (midterm exam), а в конце - экзамен (final exam). По сути дела, это те же самые тесты, которые охватывали большее количество материала и, соответсвенно, включали больше вопросов.

Сложно? Тут можно ответить двояко: теория - нет, практическая часть (для непрограммистов, как я ) - поначалу, да.

Проблемы и "шероховатости"

Как и у любого курса, запускающегося на Coursera в первый раз, поначалу были небольшие сбои: неразбериха с дедлайнами, только одна попытка на итоговых тестах недели, отсутсвие результатов тестов и дрмашних заданий на первой неделе.
Еще в первые недели меня расстраивал явно выраженный америкоцентричный подход профессора.
"У меня тут единицы измерения в Фаренгейтах, но я в Америке, мне так привычнее, переводите сами."
Или объяснения пары тем на примере бейсбола (!), нет, я понимаю, что бейсбол и статистика вещи почти неразделимые, но когда с трудом понимаешь о чем идет речь в примере, то всякий смысл оного просто-напросто утрачивается.
Ну и тот факт, что в расписании указано, что курс заканчивается 15 октября, хотя экзаменационные вопросы выложили только 18-го. Может это и незначительный момент, для многих, но для меня это стало сюрпризом.

Итог, или чему можно научиться за 6 недель

Несмотря на все мое брюзжание выше, курс оказался для меня полезным, особенно вторая часть (все-таки я занимаюсь экспериментальной наукой). Я наконец-то смог отойти от традиционого t-теста  и воспользоваться ANOVA  для некоторых экспериментов, а потом еще и осознанно выбрать Post-Hoc  анализ. И это не считая, изрядно посвежевших знаний корреляций и множественных регрессий.
Плюс к этому, я думаю, что теперь могу написать какой-нибудь простенький код на R, которого может вполне хватить для моих скромных потребностей.
Чуть не забыл. Никаких сертификатов выдавать с самого начала не обещали, профессор объянил это тем, что он хотел, чтобы студентов двигала только жажда знаний.

No comments:

Post a Comment