РАЗДЕЛЫ

Архив

Шум статистики

≡ | мнения | 31.07.2006 01:22

Сотни сообщений о приросте Интернета Сибирью, о походе Рунета в отпуск во II квартале, и об аномальном исходе Северо-Запада из Интернета, всё это - информационный шум, и ничего более.

Посмотреть статью полностью

01.08.2006 09:45 | пишет Леонид Делицын | ссылка

>Ну а то что по центральным ТВ-каналам ежедневно такая пурга льется тоннами - только не про инет а про все на свете - это автора не возмущает и не трогает.

Никто, gold, не занимается всеми проблемами сразу. По крайней мере никто не занимается ими плодотворно. Б.Н. Стругацкий учил: "Писать должно либо о том, что ты знаешь очень хорошо, либо о том, что не знает никто".
Соответственно, я хотел бы ограничить свой сочинительский пыл кругом вопросов, в котором я разбираюсь лучше. Абсолютно согласен, что на центральных ТВ-каналах происходит всякая интересная и уморительная всячина, но это, наверное, должны обсуждать эксперты.

01.08.2006 17:23 | пишет Alex | ссылка

Если звезды на небе зажигают, значит это кому - то нужн. Кому нужен этот шум?

01.08.2006 18:29 | пишет Roman | ссылка

Если этот шум везде, то это не проблема интернета, а проблема человечества :), а интернет это один из каналов по которому распространяется шум.

02.08.2006 13:44 | пишет Леонид Делицын | ссылка

Алексей, график лезет в ворота!

Я отнюдь не пытался проводить тренд через эти точки. Это было бы безрассудное, неблагодарное занятие. Я смирился с тем, что сделать это нельзя, поэтому взял готовые данные и прогноз Минсвязи (которые для Сибири умножил на 15%).

Смотрите, что у меня написано:

"Прежде всего нам придётся пожертвовать частью свобод и предположить, что мы в общих чертах представляем себе, как поведут себя данные. Например, позаимствовать одну из известных моделей динамики российского Интернета. В частности, я беру прогноз Мининформсвязи развития Интернета в России"

Таким образом, я не пытаюсь проводить через наблюдения тренд. Я беру уже готовый тренд от Минсвязи, и проверяю, похожи на него данные ROMIR? В общем - да. Хорошо, тогда я окончательно отказываюсь от попыток провести тренд, пользуясь этими данными, а предполагаю, что тренд Минсвязи - это объективная истина.

Я формулирую гипотезу: социологи путём опросов пытаются измерить эти величины.

Далее я рассчитываю ту ошибку, которая свойственна выборочным измерениям. И рисую границы, куда должны попасть 95% результатов измерений (в идеальном эксперименте). Эти границы оказываются довольно широки. И измерения в них попадают.

Теперь я формулирую следующую гипотезу: пользователи из Сибирского федерального округа составляют 15% от российских пользователей Интернета. Затем я провожу численный эксперимент: умножаю российский тренд на 15% и снова вычисляю ошибку, которая ДОЛЖНА проявиться в выборочном измерении. Рисуем доверительные интервалы. Видим, что они весьма широки, и все колебания числа пользователей Интернета в Сибири туда укладываются.

Остаётся вопрос: что, если взят грубо неверный тренд?
Дело в том, что ошибка выборки (при т.н. "повторной" выборке) пропорциональна квадратному корню из числа измерений. Таким образом, если ошибка в тренде велика, и реальное значение - не 300, а 400, то, вычисляя ошибки будут равны приблизительно 15,5 и 17,8.
Таким образом, в тренде можно ошибиться грубо, а ошибка всё равно будет рассчитана верно.
Соответственно, ответ на этот вопрос: тренд может быть неверным, на ошибку выборки это повлияет слабо.

31.07.2006 02:15 | пишет nosound | ссылка

в тему
http://blog.moikrug.ru/?p=28

31.07.2006 01:56 | пишет sound | ссылка

Замечательная статья! Все так и есть, но каков выход. Либо самому производить "правду", то очень тяжело по понятным причинам (сеть корреспондентов). Либо другой вариант - накладывать на шум "согласованный фильтр". Кто знает то поймет (привет радиолюбителям) :)

31.07.2006 12:33 | пишет gold | ссылка

Нифига себе как нас про Интеренет обманывают! Вот ведь гады какие.

Ну а то что по центральным ТВ-каналам ежедневно такая пурга льется тоннами - только не про инет а про все на свете - это автора не возмущает и не трогает.

Выхватил из глобального медиа-гонива знакомые слова и преподносит как - "смотрите что я знаю" :))

31.07.2006 12:48 | пишет абракадабр | ссылка

о! вот такого типа статьи хотелось бы получать и в будущем.

31.07.2006 12:49 | пишет mih | ссылка

2 gold
Эй, полегче там на поворотах. Что там льется на "центральных ТВ" - не нашего ума дело, не для нас работают.
А вот интерпретация данных применительно к интернету - очень даже в тему. Особенно, если Леонид не остановится на этом, а продолжит тему про другие способы генерирования шума - он могёт, я знаю. ;)

31.07.2006 12:58 | пишет 26fwgopqidbjqqby | ссылка

осилил только 1/3. статья сильно шуманая.

31.07.2006 13:48 | пишет ermolife | ссылка

супер, спасибо!

31.07.2006 14:09 | пишет lastmile | ссылка

"Ответ, скорее всего, кроется в оптимизации стоимости биологического компонента человеко-машинного множительно-копировального комплекса средств массовой информации".

Отличная фраза, респект.

А так, да - главным для потребителя информации является ее развлекательная функция, так что для того, чтобы остаться на плаву, СМИ постоянно и целенаправленно изменяют эмоциональные и фактические составляющие новостей - конечно, не в сторону большей достоверности.

31.07.2006 14:37 | пишет i | ссылка

Отменное разоблачение, Леня!
А как же позитив? Что на самом деле-то происходит?

31.07.2006 16:51 | пишет alcanoid | ссылка

>(Оставим без обсуждения интереснейшие результаты интернет-издания “Вебпланета”, где полагают, что уменьшение с 40 до 28 есть уменьшение на 4%).

Фраза порадовала.
А вообще статья интересная.

31.07.2006 17:19 | пишет Фалько | ссылка

Не понял я из-за чего весь сыр-бор или как поэтично определяет эту бодягу Леонид, - "шум"?
Да просто зимой интернет-уральцы линяют в Сибирь, а весною возвращаются в родные пенаты. Чего ругаться? Я и слов-то таких не знаю: експонента, доверительный интервал, Карлфридрихгаусс.

31.07.2006 17:22 | пишет geraxe | ссылка

Толково. Грамотно написано. Хорошая статья.

Хотя факты давно известны и думаю мало кто с высшим техническим образованием смотрит на эти "шумные" отчеты без кривой усмешки.

31.07.2006 17:26 | пишет Чернышевский | ссылка

рунет растет в 95%-й доверительном интервале

31.07.2006 17:40 | пишет Треднек | ссылка

Не знаю, может кому и высшее техническое нужно, а мне про доверительные интервалы и прочие коэффициенты стьюдента еще в школе рассказывали.

Только я про них уже забыл. Напомнили, спасибо.

31.07.2006 18:44 | пишет geraxe | ссылка

Ну я так написал кому стыдно "вестись".
А так в принципе и от своей ненаглядной (еще даже вуз не закончила. Гуманитарий.) слышал фразы. "Да фигня это полная! Оценка не состоятельна!" на какое то похожее чтиво.

31.07.2006 18:55 | пишет Roman | ссылка

Нормальная статья. по идее все статьи должны быть такими. только то что перечисляет автор "Рунет прирос Сибирью", "рунет ушел в отпуск" это просто новости, а он собрал матерьял по теме, собрал статистику, проанализировал ее и у него получилась статья (небольшой аналитический материал).

31.07.2006 02:51 | пишет Гость | ссылка

Задолбали тупым пиаром Моегокруга.

31.07.2006 11:48 | пишет Jack | ссылка

to vvvdx

"Интерпретация данных благодатная нива для манипуляции фактами, просто хлебом не корми." - на этом ни то что на хлеб, а ещё и на масло с икрой можно заработать:-)

31.07.2006 20:20 | пишет Леонид Делицын | ссылка

>Рунет прирос Сибирью", "рунет ушел в отпуск" это просто новости

Да новости ли это?

Это были бы новости, если бы само событие имело место.

Возьмём колоду карт, и вытянем из неё 10. Сосчитаем число красных карт. Их окажется, например, 4. Выпустим сообщение "в карточной колоде 40% составляют красные карты".

Через квартал снова вытянем 10 карт из колоды. Допустим, их окажется 6. Выпустим релиз: "число красных карт в колоде выросло в полтора раза".

Подождём ещё квартал. Снова вытянем 10 карт. Из них красных окажется, например, 5. Выпустим релиз "Число красных карт снизилось на 17%".

Но новости ли это? Ведь число красных карт в колоде остаётся прежним.
Новостей тут две:

1. По итогам новых выборочных экспериментов 4, 6 и 5 карт из десяти оказались красными.

2. Исследователи доверяют результатам таких экспериментов и предлагают обществу согласиться, что красные карты составляют 40%, 60%, 50% колоды.

Почему ни один новостной сайт не опубликует новость о том, что сперва в колоде оказалось 40% красных карт, а потом их число уменьшилось в 1,5 раза? Потому что число красных карт в колоде уже известно и журналисту, и редактору. Потому что такое сообщение несовместимо со знанием, которое уже есть у журналиста и редактора. Сообщение о том, что в колоде только 40% карт оказались красными - это мощный возмущающий сигнал, который переворачивает традиционные представления.

Шум гораздо коварнее. Его амплитуда невелика, он ничему особенно не противоречит (мы ведь не знаем точно, каково проникновение Интернета в том или ином регионе), он выглядит правдоподобно, и может вполне сойти за новость. Но вот является ли он новостью в том смысле в котором хотелось бы понимать новости?

31.07.2006 11:55 | пишет Sniff | ссылка

> Рассмотрим теперь кейс.

Лояльное позиционирование, Леонид. Скай из зэ лимит :)

31.07.2006 20:27 | пишет Лесной | ссылка

Отличная статья!

31.07.2006 21:25 | пишет Леонид Делицын | ссылка

>По моему глубокому пессимистическому убеждению, те, кто "ведётся", и читать подобную аналитику не станут

Дайте им шанс! :)

31.07.2006 20:46 | пишет Фалько | ссылка

Это к Вам ворос, господин Делицын, Вашей же цитатой. Касательно Вашей собственной статьи.
То есть, а для кого она есть новостью, по-Вашему?

По моему глубокому пессимистическому убеждению, те, кто "ведётся", и читать подобную аналитику не станут, а для "особо грамотных" тут никаких откровений нет:

> факты давно известны и думаю мало кто с высшим техническим образованием смотрит на эти "шумные" отчеты без кривой усмешки... от своей ненаглядной (еще даже вуз не закончила. Гуманитарий.) слышал фразы. "Да фигня это полная! Оценка не состоятельна!" на какое то похожее чтиво. (Geraxe)

То есть, что получается - тоже шумим, братцы, шумим? Хоть и из лучших побуждений. Не?

31.07.2006 11:09 | пишет vvvdx | ссылка

на мой взгляд надо смотреть на детали исследования, и самое первое на размер выборки, хотя это и не панацея, я всегда с удивлением читаю исследования американских ученых, изучивших 40000 случаев и нашедших зависимость между, например, поеданием шоколада и количеством пожаров. Интерпретация данных благодатная нива для манипуляции фактами, просто хлебом не корми.

01.08.2006 23:16 | пишет Meniam | ссылка

>>(Оставим без обсуждения интереснейшие результаты >интернет-издания “Вебпланета”, где полагают, что >уменьшение с 40 до 28 есть уменьшение на 4%).

>Фраза порадовала.

Анек вспоминатеся,

Встречаются два друга, отличник и двоешник.
Бедный отличник спрашивает у преуспевающего двоешника - "расскажи чем живешь?".
Двоечник отвечает - "Да все просто, еду в Германию покупаю авто за $2000 призжаю в Россию и продаю его за $6000, вот на эти 3% и живу"

02.08.2006 13:57 | пишет Леонид Делицын | ссылка

>Конечно, все точки попадают в доверительный интервал - вы же сами его так выбрали

Подчеркну: то, что нарисовано - это не доверительный интервал для регрессии. Я не строил регрессию через эти данные. Я предположил, что мне заранее известно (от Мининформсвязи), каковы должны быть эти данные. Затем для этих модельных данных рассчитана ошибка выборки. Это совсем не среднее квадратическое отклонение точек от проведённой через них регрессионной модели! Это другая ошибка.

Это ошибка метода выборочных исследований (в идеальном случае). Для т.н. "повторной выборки" (когда респондента не уничтожают, как продегустированную конфету, а могут опросить снова, если попадётся под руку), эта ошибка вычисляется по простой формуле: SQRT[p(1-p)N], где N=1600, а p = доля интернетчиков среди пользователей.

Например, если p = 20%, то ошибка выборки равна в точности 16.

Именно в этом заключалась цель: вычислить ошибку МЕТОДА и показать, что с помощью выборочного метода при выборке в 1600 нельзя было бы надёжно различить те флуктуации, которые пытаются найти и описать авторы исследования (даже если бы эти флуктуации объективно существовали, инструмент для их обнаружения слишком груб). Слишком мала выборка.

02.08.2006 12:45 | пишет Алексей | ссылка

Леонид, ваш график числа интернет-пользователей Сибири не лезет ни в какие ворота. На таких точках тренд можно провести и вверх, и вниз, и наискосок. Конечно, все точки попадают в доверительный интервал - вы же сами его так выбрали (" осталось задать 95%-й доверительный интервал"). Вы ведь наверное знакомы с критериями проверки гипотез?
Простой подсчет в Excel дает R^2=0.5 - очень далеко от единицы.

02.08.2006 15:04 | пишет Алексей | ссылка

Леонид, ваши комментарии все прояснили, спасибо.

Насчет доверительного интервала - меня смутила ваша фраза в статье

>После этого я вычисляю ошибку по формуле стандартного отклонения так, как это делают социологи при расчёте ошибки выборки. Наконец, осталось задать 95%-й доверительный интервал

Кстати, если не ошибаюсь, стандартное отклонение пропорционально корню из размера выборки, значит, значения отклонения для всех интернетчиков и для сибирских должны быть согласованы между собой?

02.08.2006 15:37 | пишет Леонид Делицын | ссылка

>стандартное отклонение пропорционально корню из размера выборки

Для биномиального распределения стандартное отклонение вычисляется как квадратный корень
stderr=SQRT[N p(1-p)]

где N = размер выборки, а p = вероятность изучаемого нами события.

> значит, значения отклонения для всех нтернетчиков и для сибирских должны быть согласованы между собой?

Я не понял вопрос, но попробую ответить :)))

ПРИМЕР 1.
Интернет в целом. N=1600, p=20%

stderr=16

ПРИМЕР 2.
Сибирские пользователи Интернета: N=1600 (по-прежнему), но
p = 20% * 15% = 3%
(среди россиян только 3% составляют "пользователи Интернета, проживающие в Сибирском ФО").

stderr=SQRT(48)=6,9

Вообще же, поскольку полное число интернетчиков есть сумма численности интернетчиков в разных регионах, а эти величины независимы, то дисперсия полного числа интернетчиков должна складываться из дисперский численности интернетчиков в регионах.

Таким образом, стандартная ошибка числа интернетчиков в России есть корень квадратный из сумм квадратов стандартных ошибок в регионах.
То есть общее 16 = SQRT( 6,9^2 + ... )

В этом смысле отклонения согласованы: сильное отклонение в одном из регионов может возмутить и общее число интернетчиков.