привет, вопрос по статистике(? а может и нет)

подскажите чего почитать про вычисление групповых рейтингов?
Например, типовая задача: есть два музыкальных альбома. В одном проиграли 1 композицию 200 раз, в другом — 3 композиции по 100, 70, и 30 раз соответственно. Какой из альбомов популярнее?

Просто посчитать сумму проигрываний и поделить на число элементов в группе будет неправильно, ведь правда?

GD Star Rating
loading...

16 Responses to Что почитать про вычисление групповых рейтингов?

  1. Hempa:

    наприме, неплохо было бы указать количество треков в каждом альбоме.

  2. Sbalr:

    а имеет ли это значение в данном случае? Допустим, в первом 9 треков, во втором 11.

    есть мнение, что число треков здесь не очень интересно, зато интересно также число «уникальных» людей, прослушавших эти треки. Допустим, если для первого альбома, исполнитель которого Малежик, все 200 раз накрутил сам Малежик — это не значит, что альбом офигительно популярен.

  3. Hempa:

    о треках заговорили вы сами.
    вы говорите о альбомах. а в альбомах есть треки.
    например в одном альбоме 1 трек и его послушали 100 раз. а в другом 3 трека и там послушали только 1 трек 100 раз.

    в первом случае 1 трек =100%
    во втором случае 1 трек = 33,3%

    Сравниваем: 1*100 и 0,333*100 очевидно 100 > 33,3.

    теперь с вашими 9 и 11 треками:
    Дано:
    а) I альбом 9 треков
    и проиграли 1 композицию 200 раз
    б) II альбом 11 треков
    проиграли 3 композиции в сумме 200 раз. что соответствует проигрышу 1 композиции 200 раз, т.к. мы ищем рейтинг для альбома.

    итак:
    I 1 трек = 11,1%
    II 1 трек = 9,1%
    сравниваем:
    0,111*200 и 0,091*200, ясно,что первый альбом сильнее.

    Хотя, наверняка, можно еще разные придумать системы рейтинга.

  4. Hempa:

    проще говоря формула выглядит так:
    (сумма всех скачиваний из данного альбома)/(количество треков в альбоме)

  5. Sbalr:

    вот как раз эта формула мне и кажется неправильной, ибо простое среднеарифметическое. по–моему еще веса какие–то должны быть.

  6. Hempa:

    веса? какие например?:) вес исполнителя? и самое главное для чего? зачем что–то усложнять?

  7. Hempa:

    здесь % и является весом. ведь вы изначально не учитывали количество треков в альбоме.

  8. Hempa:

    т.е. вес одного трека

  9. Sbalr:

    как минимум, отношение проигранных треков к общему числу в альбоме — некая «удачность» альбома.

    в общем, где–то я читал, что нельзя при таких оценках средним арифметическим пользоваться, но сейчас не могу найти, где.

    а может и правда усложняю все.

  10. Dr4:

    а если так:
    сперва ранжируем песни в альбоме по популярности
    дальше считаем количество скачиваний первой (самой популярной) песни на количество песен в альбоме
    плюс количество скачиваний второй на (количество песен–1)
    плюс количество скачиваний третей на (количество песен–2)

    плюс количество скачиваний последней

    так менее популярные песни будут добавлять рейтинг альбому

    хотя, возможно, с весами и проще будет

  11. Hempa:

    ну вообще–то:
    Музыкальный альбом — набор музыкальных композиций, выпущенных вместе, в стандартном формате, доступном для воспроизведения на популярных проигрывающих устройствах.

    Это означает, что в принципе невозможно послушать песню, не имея альбома.
    Если кто–либо хочет послушать какую–то песню из альбома, он должен приобрести альбом.
    И популярность альбома можно считать только по продажам альбома.

    Если речь идет о mp3, где нет в принципе привязки к альбому, а есть конкретная точка — сама композиция, то нужно считать рейтинг только этой песни. Так как человек, который слушает эту песню скорее всего даже не в курсе какие еще песни есть в альбоме.

    И если всё–таки нужно делать рейтинг альбома по количеству прослушанных mp3, мне кажется предложенный мною вариант самый простой и правильный.

  12. Sbalr:

    ну вот имеем входные параметры:
    — куча треков из кучи альбомов
    — куча пользователей

    Рейтинг треков считаем просто по числу прослушиваний (хотя надо бы еще учитывать уникальность пользователей, а то Малежик опять всю картину испортит). Теперь надо из этих рейтингов посчитать рейтинг альбомов.

    Можно сложить прослушивания треков и поделить на число треков в альбоме. Тогда, если прослушан всего один трек с каждого альбома, популярнее будет тот у которого треков меньше. То есть в идеале вообще сингл. Это выглядит противоестественно, хотя как оценка альбома — «из 20 треков нормальный оказался всего один» выглядит близко к истине.

    Можно сложить прослушивания и поделить на число прослушанных треков. Допустим, альбом1 и альбом2, соответственно трек11 — 100 прослушиваний, трек21 — 160 и трек22 — 20. В таком случае альбом2, содержащий более рейтинговый трек21, окажется менее популярным чем альбом1 — и это выглядит опять же не очень адекватно.

    видимо со своим обывательским подходом к вычислениям я далеко не продвинусь.

  13. Sbalr:

    вот, патентик нашел. «For example, if a user rates album tracks on an album, the album will receive a rating based on the average of the ratings of all the user–rated album tracks. Thus, in this embodiment, the ratings of media assets without user–ratings are not considered in the calculation.»

    То есть по второму сценарию считать предлагается.

  14. Tunoidar:

    Таким образом плохо сравнивать альбомы между собой. Пример альбом из 15 треков, где слушают 100 только одну песню будет весить куда больше альбома из 4 треков, где 100 раз слушали только 1 трек. Так что надо взвешивать. Как взвешивать? — Зависит от цели.

    Если говорить о проблеме с точки зрения здравого смысла, то при выборе из наборов A{200,0,0..0} и B{100,70,30,0…0} при прочих равных разумно, считать набор B более популярным как альбом. (Точнее сказать неразумно считать более популярным альбом, где популярен всего один трек).

    Произведением искусства может являться как отдельный трек, так и альбом. То есть имеет смысл выводить по популярности и треки и альбомы. Тогда альбом B будет более популярен, но самый популярный трек будет из альбома А.

    Какие различия в статистических терминах между этими альбомами? При прочих равных (одинаковое кол–во треков и т.д.) У выборок одинаковое среднее значение, но разная дисперсия. (в наборе «B» она меньше). То есть чем меньше дисперсия, тем более целостный и продуманный альбом.

    Это все очень легко считается. Так как музыкальные предпочтения субъективны, то веса или метод сравнения дисперсий и средних выбираются/разрабатываются на ваш вкус.

    Удачи.

  15. Sbalr:

    про дисперсию очень в тему, спасибо.

  16. Peels:

    По науке клево было бы конечно так:

    1) Собираешь данные по прослушиваниям треков и альбомов.
    2) Нормируешь их (чтобы они не зависели от общего количества прослушиваний), возможно также придется нормировать относительно даты выпуска.
    3) Собираешь данные по продажам (или радио–рейтингам) альбомов или песен.
    4) Считаешь модель, оценивающую продажи по количеству прослушиваний (например, можешь напрямую сравнить предложенные тут варианты с банальным «сколько пользователей прослушали», или там с учетом дисперсии и прочей лажи).
    5) Выгода!

Добавить комментарий