Перейти к содержанию
Форум на Кинопоиске

Персональные рекомендации: Алгоритмы, формулы, и т.д...

Рекомендуемые сообщения

А периодически бывает вот это

Кто объяснит полный ноль близости?

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1471267
Поделиться на другие сайты

  • Ответов 213
  • Создана
  • Последний ответ

Топ авторов темы

Топ авторов темы

Изображения в теме

А периодически бывает вот это

Кто объяснит полный ноль близости?

 

Все просто, близость оценок с разнице более, чем в три балла, является отрицательной, поэтому возможна итоговая отрицательная близость, которую здесь обнуляют. Но это по Пирсону, а как здесь я не уверен.

 

А вообще (это больше к программистам кинопоиска, особенно к Deflo), я не понимаю, честно говоря, Вашей политики. Была предложена отличная альтернативная формула, аналог которой успешно используется на одном очень уважаемом сайте (за исключением некоторых поправок, взятых, опять же, с Кинопоиска), Вы же уже второй месяц гоняете призраков (или делаете вид, что гоняете), пытаясь исправить старый вариант. Складывается впечатление, что либо в изначальном алгоритме была заложена ошибка, но тогда странно, что ее не обнаружили Вы сами при тестах, либо что-то меняли, не подумав, совсем недавно, либо сама формула неправильная, тогда ее лучше заменить.

 

Я конечно, скорее всего, просто туплю, не понимаю чего-то, но это от недостатка инфы. Непонятно Ваше мнение по поводу предложенной формулы, я даже подозреваю, что ее не принимают из-за того, что устанавливаемый минимум общих фильмов влияет на результат. Напишите хотя бы коротко, да или нет. И непонятно также, как дела обстоят сейчас?

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1474107
Поделиться на другие сайты

Была предложена отличная альтернативная формула, аналог которой успешно используется на одном очень уважаемом сайте (за исключением некоторых поправок, взятых, опять же, с Кинопоиска)

 

Какая именно отличная альтернативная формула была предложена?

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1475864
Поделиться на другие сайты

Какая именно отличная альтернативная формула была предложена?

 

Вот эта. На авторство не претендую, так как первая часть придумана Zilenium-ом, а вторая взята из топа кинопоиска, а в целом, похожая формула действительно уже используется на другом сайте.

 

Далее было сделано это замечание. Замечание правильное. Я уточнил, на том сайте, где используют похожую формулу, этой проблемы нет. Здесь же эту проблему можно решить одним из способов:

 

1. сделать возможность менять минимум общих фильмов (мОФ) в настройках пользователя, и подсчет близости проводить раз в сутки, ночью, а на странице рекомендаций оставить возможность менять минимум общих фильмов только как фильтр из уже подсчитанных ночью.

 

2. Вообще зафиксировать мОФ в формуле, например, мОФ=20, а на странице рекомендаций оставить все тот же фильтр из подсчитанных ранее.

 

Я конечно не особо соображаю в HTML программировании, программирую только в дельфи и матлабе, поэтому не могу предугадать возможных проблем с ее внедрением, однако сама по себе формула вполне объективна, это я понял не только при тестах на компьютере, а еще раньше, при обстреле ее "на бумаге", хотя опять же похвастаться ученой степенью по терверу не могу.

 

Просто, не зная достоверно, что там в ней не так, мы продолжаем надеяться на какую-то реакцию с Вашей стороны, а получается, что Вы эти предложения даже не заметили :sad:, раз спрашиваете. Я бы рад был бы даже здоровой критике, типа "формула ваша - г...но, здесь ее никак не приштопать по техническим причинам", и все, совсем отвязался бы, значит чего-то не понимаю.

Изменено 20.03.2010 23:00 пользователем Dogmat-igwt
Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1476199
Поделиться на другие сайты

Dogmat-igwt, спасибо за энтузиазм, ваш и других участников обсуждения темы. Рекомендации действительно ухудшаются с ростом количества оценок.

Я не могу все свои замечания описать математически, но опишу их по субъективным впечатлениям.

 

Вводные наблюдения:

1) Рекомендации становятся очень размытыми с ростом количества оценок (более 1000).

2) Предлагаются чаще всего фильмы из топ 250 и классика вроде Чаплина.

3) Я часто вижу пользователей с невысоким процентом общей близости, но близость укладывается в общую жанровую группу.

 

Мои интуитивные размышления:

Формула хорошо работает если пользователь имеет узкие жанровые предпочтения - французские комедии или азиатские экшены. Если же у меня значительное количество фильмов в обоих группах, то естественно людей с высоким процентом схожести будет мало и мне предложат посмотреть что-то третье. Т.е. те фильмы которым поставили высокие оценки и фанаты фр-х комедий и аз-х экшенов, но это будут ни комедии, ни экшены, а фильмы из топ 250 или Чаплин. :)

 

Мое предложение:

Возможно стоит определить некий рубеж, допустим в 1000 фильмов, после которого в формуле включался бы и жанровый аспект, а минимальная степень близости уменьшалась. Ведь понятно, что в этой тысяче фильмов не будет 800 экшенов или комедий. Далее, формула выделяла тех пользователей у которых близость пусть и не большая, но укладывается в одну жанровую группу. И выдавала в рекомендациях фильмы от данного пользователя из данной жанровой группы.

Таким образом:

Я получил бы рекомендации по французским комедиям от тех, с кем мои вкусы пересекаются только по ним. И так же получил бы рекомендации по азиатским экшенам от тех кто их любит, несмотря на низкие оценки французским комедиям с их стороны.

 

Резюме:

1) На мой взгляд формула должна учитывать общее количество оценок пользователя.

2) С ростом количества оценок должно уменьшаться значение процента близости.

3) Формула должна учитывать жанры, страны (или регионы), годы фильмов.

 

Политика сайта в этом вопросе мне кажется понятной, но огорчающей: :)

Во-первых, качество сервиса рекомендаций никак не влияет на прибыльность сайта.

А во-вторых, лучшее - враг хорошего. Работает средне и ладно.

Этим сервисом они возможно займуться только если введут платную подписку на сервисы. Однако за сервис рекомендаций в текущем виде я платить бы не стал.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479161
Поделиться на другие сайты

7 и 8 = 0,88

4 и 3 = 0,75

1 и 2 = 0,50

Так этож вообще бред, почему близость 1 и 2 считается безотносительно десятке? Во всех случаях разница должна быть в 1/10

Изменено 22.03.2010 18:32 пользователем ANdRiaNo
Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479386
Поделиться на другие сайты

Так этож вообще бред, почему близость 1 и 2 считается безотносительно десятке? Во всех случаях разница должна быть в 1/10

 

Вроде как такой подход позволяет увеличивает вес схожести именно положительных оценок для того чтобы найти именно то, что нравиться обоим.

 

Хотя в таком случае, те кто высокими оценками не разбрасывается и средний бал оценок имеет меньше 7 получают очень низкий уровень близости со всеми.

 

Вот пример: ваш и мой. У обоих больше 1000 оценок и строгий подход к раздаче 10.

У вас всего 21, а у меня 47.

 

Близость 34 % при том что есть общие друзья и из 558 общих - 311 фильмов имеют либо одинаковую оценку либо разницу в 1 балл.

Схожесть наших оценок нивелируется из-за невысокого среднего балла! Система считает, что хотя оценки похожи, но похожи они не в части любимых фильмов. А дело ведь просто в том, что наши 8-ки это сравнимы с десятками тех, кто шлепает их как-попало!

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479484
Поделиться на другие сайты

То есть чем больше я ставлю низких оценок тем больше я уменьшаю близость вообще со всеми?

У меня вверху списка по близости человек с 66.9%.

Это у меня почти 1400 оценок, и только 20% ниже 6-ти балов.

То есть если я удалю низкие оценки то рекомендации улучшаться чтоли?

Или легче новый акк завести и продублировать только оценки выше 5.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479540
Поделиться на другие сайты

То есть чем больше я ставлю низких оценок тем больше я уменьшаю близость вообще со всеми?

Получается так.

У меня вверху списка по близости человек с 66.9%.

У вас мало общих высоких оценок (9 и 10), а значит, по мнению алгоритма, и мало общности во вкусах.

 

То есть если я удалю низкие оценки то рекомендации улучшаться чтоли?

Вес общих высоких оценок увеличиться. Я заметил что у всех пользователей со средним балом ниже 7 близость друзей редко поднимается выше 70%.

 

Или легче новый акк завести и продублировать только оценки выше 5.

 

Давайте попробуем! И сравним. Я готов поучаствовать в эксперименте.

 

 

Я себе еще один эталон для сравнения нашел - The Good

Близость у нас 59%. Но я давно заметил что этот пользователь большой поклонник старых французских "поляров" и комедий и вообще европейского кино 70-80.

Наши оценки часто отличаются на 2 балла, т.к. The Good активно ставит десятки и девятки таким фильмам, а я восьмерки. И несмотря на то что большинство наших общих фильмов объеденены общим жанром, страной происхождения и временным периодом - алгоритм этого не воспринимает!

 

В тоже время у этого пользователя приходится 60% оценок на 10 и 9, а 15% на 1 и 2, и рекомендации и друзья у вполне адекватные его вкусам с Близостью под 85%.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479645
Поделиться на другие сайты

Или легче новый акк завести и продублировать только оценки выше 5.

 

Новые акк-и, не удаляя старых, заводить не надо! :!:

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479678
Поделиться на другие сайты

Новые акк-и, не удаляя старых, заводить не надо! :!:

Мы из благих побуждений, а не с целью накрутки.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479709
Поделиться на другие сайты

Новые акк-и, не удаляя старых, заводить не надо! :!:

Почему? Я ведь только для тестирования, а потом удалю тестовый.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479754
Поделиться на другие сайты

Ну, вот.

Перенес 10,9,8. Промежуточные итоги следующие.

Сравниваю с упомянутым ранее The Good:

Из 61 фильма - 52 предстваляют либо полное совпадение либо отклонение на 1-2 балла, но это все 10,9,8. Фильмы почти однородные - французские комедии и поляры 60-80-х.

При этом система, внимание, считает что наша близость - 0% или возможно отрицательная. И все это из-за больших различий в оценке десятка фильмов других жанров! Если бы, The Good ставил оценки только фильмам которые по его вкусу заслуживают более 5 баллов, то общими у нас были бы только любимые нами обоими французскими комедии и высокая близость вкусов. А так мне не видать его рекомендаций как своих ушей.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479849
Поделиться на другие сайты

Вводные наблюдения:

1) Рекомендации становятся очень размытыми с ростом количества оценок (более 1000).

2) Предлагаются чаще всего фильмы из топ 250 и классика вроде Чаплина.

3) Я часто вижу пользователей с невысоким процентом общей близости, но близость укладывается в общую жанровую группу.

 

1 пункт я тоже давно заметил, мои оценки перевалили за 2000. Решал проблему тем, что удалял свои сомнительные оценки, всяким там сериалам, индийским фильмам... Помогло мало. Математически эту проблему не решить, о возможном решении напишу далее.

2 пункт естественен, так как фильмы из топа имеют высокий балл вообще и у Ваших друзей в частности, поэтому превалирует в рекомендациях. Проблему решил тем, что пересмотрел весь топ :), ну если честно, то шкала варьирует от 240/250 до 247/250... пока...

 

Резюме:

1) На мой взгляд формула должна учитывать общее количество оценок пользователя.

2) С ростом количества оценок должно уменьшаться значение процента близости.

3) Формула должна учитывать жанры, страны (или регионы), годы фильмов.

 

пункт 1 и 2, если Вы за то, чтобы с ростом количества оценок уменьшался % близости, то сейчас так оно и есть по естественным причинам уменьшения % совпадений с ростом количества испытаний.

А по пункту 3 так: чтобы учитывать жанры, сайт будет вынужден переходить на теговую систему рекомендаций. Примером может послужить известный многим Last.fm. Это очень трудоемко. За теги на Кинопоиске отвечает сервис "Ключевые слова", который сам по себе, ИМХО, паршивенький, но Вы можете найти там именно то, что нужно Вам с привязкой к жанрам, сценическим приемам и т. д.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1480096
Поделиться на другие сайты

А по пункту 3 так: чтобы учитывать жанры, сайт будет вынужден переходить на теговую систему рекомендаций. Примером может послужить известный многим Last.fm. Это очень трудоемко. За теги на Кинопоиске отвечает сервис "Ключевые слова", который сам по себе, ИМХО, паршивенький, но Вы можете найти там именно то, что нужно Вам с привязкой к жанрам, сценическим приемам и т. д.

 

Вот-вот! Last.fm должен быть ориентиром. Постройка рекомендаций на основе близости оценок подсказывает фильмы которым поставили высокие оценки люди с похожими вкусами, но это необязательно будут фильмы похожие на наши любимые фильмы. Ну нет обратного соответствия, вот что я хочу сказать. Все зайцы любят морковку, но не все кто любит морковку - зайцы. правильные рекомендации для зайца - это то, что еще любят зайцы (капуста например), а мне система предлагает овес, потому как лошади тоже любят морковку.

 

Мне кажеться аналог Last.fm будет не сложно реализовать.

В качестве тегов можно использовать уже прописаные жанры, режиссеров, актеро, годы, страны с разной степенью веса.

 

А вот выставленные пользователем оценки учитывать по анологии с количеством прослушиваний. Т.е. обращать внимание не на схожесть, а на то каким тегам выставлены наиболее высокие оценки, не важно 8, 9 или 10. Просто самые высокие. Кстати, в таком варианте проблема разной системы координат при оценке фильма исчезает!

 

А дальше определение общих кластеров из фильмов и построение рекомендаций на их основе.

 

К сожалению, не могу все это описать математически. :(

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1480130
Поделиться на другие сайты

К сожалению, не могу все это описать математически. :(

 

Это и не потребуется, потому как подобные полномасштабные изменения проводиться не будут, не формат. Рекомендательный сервис при сайте не основной, для этого есть имхонет, но там пока, на мой вкус, все еще очень сыро. Я собственно и не против такой системы, есть еще с десяток способов выбрать что смотреть на уик-энд. А по рекомендациям помимо проблемы с формулами, давно уже просил сделать экспорт друзей по интересам в эксель, пока жду, можно было бы грамотно подбирать друзей в оффлайне тем, кому это интересно.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1481103
Поделиться на другие сайты

Это и не потребуется, потому как подобные полномасштабные изменения проводиться не будут, не формат. Рекомендательный сервис при сайте не основной.

 

Вынужден согласиться. :(

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1482049
Поделиться на другие сайты

Вообщем, эксперименты с тестовым профилем только все для меня еще больше запутали.

Если мой основной профиль отображается в друзьях у тестового со 100% близостью, то вот для основного система не видит тестовый вообще.

Рекомендации те же самые, хотя список близких друзей совершенно иной.

 

Ну, а проверка друзей у тестового профиля вообще в ступор ввела, смотрите скрин.

051c38904021.png

 

И такой глюк у всех друзей.

 

Тестовый профиль удаляю, больше тратить время на это не буду.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1482222
Поделиться на другие сайты

И такой глюк у всех друзей.

 

Тестовый профиль удаляю, больше тратить время на это не буду.

 

глюком больше, глюком меньше... ;)

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1483016
Поделиться на другие сайты

Если у вас более 100 оценок, то блок в правой части обновляется 1 раз в сутки по ночам.

 

А то, что вы видите сверху 30.25%, обновляется в режиме реального времени.

 

Поэтому если активно тестировать, то может быть расхождение 0 и 100%.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1487594
Поделиться на другие сайты

Да, лучше, конечно перейти на систему тегирования как на Ласте. Там рекомендательная система развита идеально. Возможно, сопоставлять музыкальные вкусы легче. Но на КиноПоиске система рекомендаций абсолютно бесполезна.

 

Во-первых, первые три страницы рекомендаций - это фильмы из 250 лучших. Значит, вместо рекомендательного списка можно просто зайти в рейтинги.

 

Во-вторых, зачастую не понятна логика рекомендаций. У меня большая часть жанров - триллеры и ужасы, а мне выдает советские комедии, Шерлока Холмса всего предложили) Похоже на иронию: дескать, хватит ужасов, оцени Гайдая!

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1498961
Поделиться на другие сайты

Да, лучше, конечно перейти на систему тегирования как на Ласте. Там рекомендательная система развита идеально. Возможно, сопоставлять музыкальные вкусы легче. Но на КиноПоиске система рекомендаций абсолютно бесполезна.

 

Во-первых, первые три страницы рекомендаций - это фильмы из 250 лучших. Значит, вместо рекомендательного списка можно просто зайти в рейтинги.

 

Во-вторых, зачастую не понятна логика рекомендаций. У меня большая часть жанров - триллеры и ужасы, а мне выдает советские комедии, Шерлока Холмса всего предложили) Похоже на иронию: дескать, хватит ужасов, оцени Гайдая!

Так почему бы не оценить Топ 250 и Гайдая? Кстати, фильтр по жанру в рекомендациях есть.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1498984
Поделиться на другие сайты

Так почему бы не оценить Топ 250 и Гайдая? Кстати, фильтр по жанру в рекомендациях есть.

 

Оцениваю. Но это просто "через тернии к звездам". Но тут тоже есть подвох, оценю я все советские комедии на 10 и 9 (они действительно этого достойны), и в моих рекомендациях останутся только они. А комедии я не очень люблю.

 

Про вторую функцию не знал, извиняюсь. Сами рекомендации только сегодня обнаружил.

 

ПС воспользовался выборкой по жанрам. Из 21 фильма большая часть ужасы, снятые с 1920 по 1980 года. Очень специфические рекомендации.

 

Вот еще одна особенность. Все фильмы с коэффициентом больше 8. Но мне очень нравится, к примеру, Легион, получивший очень низкие балы. Гипотетически, приемлемый для меня фильм в рекомендации не попадет, так как у него низкий рейтинг.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1498989
Поделиться на другие сайты

оценю я все советские комедии на 10 и 9 (они действительно этого достойны)

Что значит достойны? Оценку нужно ставить субъективно. Допустим, хотел бы сам лично тратить время на пересмотр фильма - ставишь ему больше 7, например. Вот тогда и рекомендации будут поадекватней.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1500071
Поделиться на другие сайты

Что значит достойны? Оценку нужно ставить субъективно. Допустим, хотел бы сам лично тратить время на пересмотр фильма - ставишь ему больше 7, например. Вот тогда и рекомендации будут поадекватней.

 

поддерживаю. А те, кто ставит псевдообъективные оценки, - полнейшие неадекваты. Для меня 10 - это фильм, от которого мурашки по коже, который душу выворачивает или чему-то важному учит, и плевал я на все его заслуги и недостатки, подмеченные критиками и обществом. Только так и надо оценки ставить.

Ссылка на комментарий
https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1500332
Поделиться на другие сайты

Гость
Эта тема закрыта для публикации ответов.
  • Сейчас на странице   0 пользователей онлайн

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
×
×
  • Создать...