Помогите дизайнеру решить статистическую задачу

Автор темы Shatun 
ОбъявленияПоследний пост
ОбъявлениеРаботодателям и кадровым агентствам: Размещение вакансий26.03.2008 03:07
ОбъявлениеКниги по математике и экономике в добрые руки!06.03.2022 17:45
ОбъявлениеГранты для студентов и аспирантов мехмата и физфака МГУ на обучение в магистратуре Кембриджа 2023/202428.11.2022 13:56
12.12.2003 17:15
Shatun
Помогите дизайнеру решить статистическую задачу
Здравствуйте
я ни черта не понимаю в статистике. У меня есть дизайнерский сайт (www.designclub.com.ua),
на котором есть дизайнерские работы.
Нужно вычислить более или менее объективно рейтинг работы.
Проблемма такая:
если вычислить тупо среднее арифметичское рейтинга работы, то может возникнуть
такая картина - хорошая работа за которую проголосовало 1000 чел. имеет скажем средний
рейтинг 4,5, а средненькая, за которую проголосовал всего один чел. и поставил 5
- имеет рейтинг 5.
Мы считаем это неправльным. Нужна более объективная оценка.

вот какие данные мы можем дать:

'А' - количество людей проголосовавших
'Б' - средний балл (сумма всех балов /А)
'В' - количество просмотревших эту работу
'Г' - количество просмотревших все работы
'Д' - количество всех работ
'Е' - количество проголосовавших за все работы
'Ж' - количество комментариев к этой работе
'З' - количество комментариев ко всем работам
'И' - количество работ у автора

не обязательно учитывать все переменные
баллы ставятся по 5-ти бальной системе: 1, 2, 3, 4, 5
еще

необходима формула расчета рейтинга работы (и рейтинга автора, если это возможно
на основе этих данных). должна получится цифра от 1 до 5 (с десятыми)
еще рейтинг члена клуба можно давать голосованием и этот рейтинг учитывать при
голосовании. Т.е. типа голос человека с большим рейтингом весит больше.
Короче я толком не знаю какие данные из этих нужны при вычислении, а какие нет.
Думаю люди которые занимаются статистикой должны знать такую формулу.

помогите пожалуйста ламеру в статистике:)
12.12.2003 18:07
ish
проще всего
Дабы на страдать от проблемы которую вы описали, проще всего начинать вести рейтинг работы когда за нее проголосовало, скажем, 10 человек или более. Или когда доверительный интервал для среднего, расчитанный на основе дисперсии, становится достаточно маленький, скажем длинны 1. Ну а до тех пор пусть работа себе лежит в разделе "ждут вашей оценки" или типа того.

Возможны и более сложные решения, это просто первое что приходит в голову.
12.12.2003 18:29
Shatun
так не пойдет
если даже за работу проголовал 1 чел. она уже должна иметь рейтинг (конкретную цифру)
потому что дальше включаются механизмы выборки лучшая рабта недели, дня и т.д.
и еще нужно брать во внимание самолюбие авторов - Как это за мою работу проголосовали а рейтинга нет?!

и потом фраза "доверительный интервал для среднего, расчитанный на основе дисперсии" ставит меня в тупик. Я же говорю что не понимаю в этом ничего.
просто посмотрел на всяких ресурсах с рейтингом и понял, что у них вычисляется просто среднее арифметическое.
Я просто хочу сделать правильно, поэтому обратился за помощью к специалистам.
Думал, что есть уже готовое решение такой задачи
12.12.2003 19:22
ish
два соображения
Все зависит от того насколько вас волнует общее качество полученного рейтинга. Всвязи с этим два соображения:

1) В идеале, по психологическим соображениям, голосование должно быть закрытым с открытием результатов только в конце периода голосования. Это не мешает вам проводить голосования на лучшую работу недели, месяца и т.п.. Ваше право, конечно, делать голосование открытым, но это создает нежелательный эффект толпы

2) Если вы делаете голосование открытым, то рейтинг любой новой работы первое время будет неустойчивым и посему недостоверным, как вы правильно ощущаете. Никакой серьезный рейтинг не рассчитывается по 1 или 2-ум наблюдениям. Это называется "нерепрезентативная выборка" :) и статистика тут не работает. Так что либо начинать вести рейтинг с некоторым запаздыванием либо смириться с тем что он будет довольно неустойчив первые 10 голосов.
13.12.2003 19:25
Anonim
Попробуй навскидку что-нибудь придумать.
К сожалению, я не знаю, как оценивать рейтинг по небольшому количеству оценок: наверное, никак.
Зато можно его поначалу уменьшить:
R = (SrArif - 3) * max(numvoices / 5; 5) / 5 + 3
Первые 25 голосов оценка будет ближе к тройке.
14.12.2003 01:27
Ошибочка вышла!
Цитата

R = (SrArif - 3) * max(numvoices / 5; 5) / 5 + 3

Наверное, всё-таки минимум, а не максимум?;)
14.12.2003 12:21
Anonim
Конечно (-)
14.12.2003 16:10
Shatun
уточните пожалуйста
Сапсибо всем огромное за помощь
я так понимаю, что это как раз та формула что мне нужна

R = (SrArif - 3) * max(numvoices / 5; 5) / 5 + 3

вопрос (может дурацкий с ваше точки зрения:)):
SrArif - это как я понял -среднее арифметическое
max(numvoices / 5; 5) - что это, не понял совершенно, расшифруйте пожалуйста. и почему после "5" стоит ";" ?
14.12.2003 16:36
Пожалуйста!
Да, SrArif - это среднее арифметическое.
max [(numvoices/5), 5] - там на самом деле не максимум, а минимум из двух чисел: пяти и количества голосов, делённого на 5. То есть пока количество голосов меньше 25, подставляете это количество, делённое на 5, а когда больше 25 - подставляете число 5 (и получаете в точности среднее арифметическое).

Надеюсь, что не запутал ещё больше, а, наоборот, объяснил. Будут вопросы - обращайтесь.
14.12.2003 18:57
По-тупому
Да среднее арифметическое не очень объективно при малом числе просмотров, хотя и довольно хороший индикатор настроений.
Еще довольно хороша оценка "А"/"В" - доля человек, которых данная работа хоть как-то зацепила.
Самый тупой способ объединить эти оценки - АБ/В.
При такой оценке, указанная средненькая работа будет иметь не очень высокий рейтинг (если, конечно ее видело много человек).

А насчет
Цитата

Думаю люди которые занимаются статистикой должны знать такую формулу.
то не все так просто, математика (пусть даже и статистика) занимается все-таки далекими от практики вещами
18.12.2003 19:49
hyh
Сливая это воедино))
И добавляя свое)))
Пусть Рейтинг сайта(РС) = к-во проголосовавших хоть за 1 работу /
к-во просмотревших хоть 1 работу

Рейтинг работы (РР) = А/В
Учитывая рейтинги(хорошая работа на плохом сайте должна получать
больше, чем на хорошем; плохая меньше на хорошем чем на плохом)
и добавляя балансировку получаем формулу вида
( (РР/РС)*Б - 3 )*(0.2)*min(A/5,5) + 3
Один рейтинг не слишком хорош тк всегда меньше 1 и надо как-то подбирать еще коэффициент перед ним
Вот так :P
06.01.2004 17:44
hyh
Еще более правильно
(РР/РС)*(Б-3)*(0.2)*min(A/5,5) + 3
16.01.2004 00:49
ИСН
Все гораздо проще: используйте аналогии
По сути, задача в том, чтобы учесть влияние двух основных переменных - А и Б (остальные носят явно второстепенный характер).
Вот давайте порассуждаем вслух:

1. Если у двух участников равный средний балл, но разное количество проголосовавших, то понятно, что участник с большим числом проголосовавших должен иметь больший рейтинг.

2. Однако, также является очевидным, что если за первого проголосовало вдвое больше людей, то его рейтинг не должен быть вдвое выше, чем у второго. Зависимость прироста рейтинга от числа проголосовавших должна быть более медленной.

3. Задача очень смахивает на построение рейтинга при инвестиционных операциях. Предприятие 1 имеет вдвое большую рентабельность, чем предприятие 2. Но зато предприятие 2 впятеро крупнее, а стало быть, и устойчивее. Так куда лучше вкладывать деньги (бедному крестьянину податься)? Очень просто: берем и волевым решение постулируем, что 1 единица разницы в рентабельности равняется 10 единицам разницы в уставном капитале. То есть, если размер предприятия 2 в 10 раз больше, чем размер предприятия 1, то оно имеет одинаковый с ним рейтинг.

4. Формула в этом случае: Р = Б*log(А+1),

где:

Р - рейтинг Вашего участника

А - количество людей проголосовавших

Б - средний балл

log(x) - десятичный логарифм (это Вы должны помнить из школы)

А+1 берется для того, чтобы при А=1 рейтинг не обращался в ноль.

5. Если считаете, что пропорция 1:10 слишком круто, а справедливее будет, скажем, 1:5, то берите логарифм по основанию 5. Вот и все. Очень прозрачно и наглядно.
16.01.2004 01:00
ИСН
Да, и еще
Чтобы исключить (если захотите) "артефакты", состоящие в том, что средний балл у участника низкий, а число проголосовавших огромно, можете ввести правило, согласно которому эта формула действует, например, только при А<100, а дальше при расчетах А принимается равным 100, независимо от того, насколько оно превышает 100 (не нравится 100, берите любое другое число).

Хотя, может быть на Ваш взгляд, большое число проголосовавших может свидетельствовать о том, что работа не оставила равнодушными большое количество посетителей Вашего сайта, что косвенно говорит в пользу автора. В этом случае предыдущий абзац работать не должен.

В общем, все на Ваше усмотрение.
16.01.2004 07:35
ish
Интерсная аналогия, однако...
Интерсная аналогия, однако не полная, на мой взгляд. В вашем примере с инвестициями, видимо, есть прямой бонус от размера, однако в оценке предметов искусства массовость не всегда необходимый положительний признак, если только ето не массовое "искусство" :). Формула индекса тут в идеале не должна давать преимущества картинам (или о чием там мы) за которые проголосовало много народу просто из-за размеров толпы. Формула должна давать преимущество только тем у которых точнось среднего достаточно велика и потому лиубая оценка основанная на среднем достоверна. Точность среднего действительно зависит от размеров толпы но не у всех одинаково - зависит как известно от дисперсии. Поетому дисперсия должна быть так или иначе в формуле.

Видимо можно попытаться каким-то образом дисконтировать дисперсию из среднего. Брать в качестве оценки, допустим, левую границу 90% (например) доверительного интервала для среднего. В етом случае наша оценка будет среднее дисконтированное на нашу неуверенность в етом среднем. Или если 90% интервал слишком широкий, то можно брать любой другой (50%). Важно то что дисконт тут будет вычислен разумно, исходя из ЦПТ. Он будет брать во внимание и количесто проголосовавших и степень их единодушия.
16.01.2004 12:57
dewel
Нарушаете условия задачи
Shatun же написал, что в математике ничего не понимает (к чему все эти слова про доверительный интервал и, о ужас, дисконтирование?). Все формулы должны быть рассчитаны на ученика 10-го класса средней школы.

К тому же он, похоже, сюда больше не заглядывает.

ЗЫЖ По сути Вашего поста. ИМХО неправильно. Если в картинной галерее у одной из картин постоянно толпится народ, пусть даже и высказывая диаметрально противоположные оценки (со средним равным нулю), а к другой подошли всего два человека за все время выставки, то очевидно, что рейтинг первой картины куда выше, чем второй. Независимо от выставленных ей оценок.
16.01.2004 14:21
Надо отметить,
что вышеупомянутый ИСН и я - это два разных человека. Или больше. Хотя я и согласен с высказанным там суждением.
Да, и ещё. Говоря о доверительных интервалах, имело бы смысл их прямо указывать в оценке:
-------1----2----3----4----5---
A-----------[XXXXXXX]--------
B-----------------------[XX]----
C-----[XXXX]-------------------
16.01.2004 15:46
Anonim
"дизайнерский" метод
Если вы - дизайнер, то вы можете решить задачу "дизайнерским" методом.
Например, делать изображение оценки довольно блёклым при небольшом количестве голосов.
То есть, брать на отрезке [ цвет фона , цвет шрифта ] точку, делящую в отношении, скажем, x^n / (x^n + a), где n и a - параметры, a > 0. Например, при n = 1, a = 9 получится, что "насыщенность" при одном голосе - 10%, при двух - 18%, при трёх - 25%, при десяти - 52%, при ста - 91%.
16.01.2004 20:00
ish
Спорно, пример
>Если в картинной галерее у одной из картин постоянно толпится народ, пусть даже и высказывая >диаметрально противоположные оценки (со средним равным нулю), а к другой подошли всего два человека за >все время выставки, то очевидно, что рейтинг первой картины куда выше, чем второй. Независимо от >выставленных ей >оценок.


Спорно. Популярность произведения сама по себе не говорит ничего о его качестве. Какую ценность имеет "Титаник" как произведение искусства. Куда меньше чем многие малобюджетные фильмы европы, скажем. Популярность часто просто отражает удачную игру на основных инстинктах людей.
16.01.2004 22:45
ИСН
Мне просто было интересно
проверить, регулярно ли читает ИСН все темы форума.
:-)))
Извините, только зарегистрированные пользователи могут публиковать сообщения в этом форуме.

Кликните здесь, чтобы войти