Stalk-74 17 марта, 2010 ID: 76 Поделиться 17 марта, 2010 А периодически бывает вот это Кто объяснит полный ноль близости? Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1471267 Поделиться на другие сайты Поделиться
Dogmat-igwt 19 марта, 2010 ID: 77 Поделиться 19 марта, 2010 А периодически бывает вот это Кто объяснит полный ноль близости? Все просто, близость оценок с разнице более, чем в три балла, является отрицательной, поэтому возможна итоговая отрицательная близость, которую здесь обнуляют. Но это по Пирсону, а как здесь я не уверен. А вообще (это больше к программистам кинопоиска, особенно к Deflo), я не понимаю, честно говоря, Вашей политики. Была предложена отличная альтернативная формула, аналог которой успешно используется на одном очень уважаемом сайте (за исключением некоторых поправок, взятых, опять же, с Кинопоиска), Вы же уже второй месяц гоняете призраков (или делаете вид, что гоняете), пытаясь исправить старый вариант. Складывается впечатление, что либо в изначальном алгоритме была заложена ошибка, но тогда странно, что ее не обнаружили Вы сами при тестах, либо что-то меняли, не подумав, совсем недавно, либо сама формула неправильная, тогда ее лучше заменить. Я конечно, скорее всего, просто туплю, не понимаю чего-то, но это от недостатка инфы. Непонятно Ваше мнение по поводу предложенной формулы, я даже подозреваю, что ее не принимают из-за того, что устанавливаемый минимум общих фильмов влияет на результат. Напишите хотя бы коротко, да или нет. И непонятно также, как дела обстоят сейчас? Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1474107 Поделиться на другие сайты Поделиться
John Doe 20 марта, 2010 ID: 78 Поделиться 20 марта, 2010 Была предложена отличная альтернативная формула, аналог которой успешно используется на одном очень уважаемом сайте (за исключением некоторых поправок, взятых, опять же, с Кинопоиска) Какая именно отличная альтернативная формула была предложена? Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1475864 Поделиться на другие сайты Поделиться
Dogmat-igwt 20 марта, 2010 ID: 79 Поделиться 20 марта, 2010 (изменено) Какая именно отличная альтернативная формула была предложена? Вот эта. На авторство не претендую, так как первая часть придумана Zilenium-ом, а вторая взята из топа кинопоиска, а в целом, похожая формула действительно уже используется на другом сайте. Далее было сделано это замечание. Замечание правильное. Я уточнил, на том сайте, где используют похожую формулу, этой проблемы нет. Здесь же эту проблему можно решить одним из способов: 1. сделать возможность менять минимум общих фильмов (мОФ) в настройках пользователя, и подсчет близости проводить раз в сутки, ночью, а на странице рекомендаций оставить возможность менять минимум общих фильмов только как фильтр из уже подсчитанных ночью. 2. Вообще зафиксировать мОФ в формуле, например, мОФ=20, а на странице рекомендаций оставить все тот же фильтр из подсчитанных ранее. Я конечно не особо соображаю в HTML программировании, программирую только в дельфи и матлабе, поэтому не могу предугадать возможных проблем с ее внедрением, однако сама по себе формула вполне объективна, это я понял не только при тестах на компьютере, а еще раньше, при обстреле ее "на бумаге", хотя опять же похвастаться ученой степенью по терверу не могу. Просто, не зная достоверно, что там в ней не так, мы продолжаем надеяться на какую-то реакцию с Вашей стороны, а получается, что Вы эти предложения даже не заметили , раз спрашиваете. Я бы рад был бы даже здоровой критике, типа "формула ваша - г...но, здесь ее никак не приштопать по техническим причинам", и все, совсем отвязался бы, значит чего-то не понимаю. Изменено 20.03.2010 23:00 пользователем Dogmat-igwt Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1476199 Поделиться на другие сайты Поделиться
Karmacoma 22 марта, 2010 ID: 80 Поделиться 22 марта, 2010 Dogmat-igwt, спасибо за энтузиазм, ваш и других участников обсуждения темы. Рекомендации действительно ухудшаются с ростом количества оценок. Я не могу все свои замечания описать математически, но опишу их по субъективным впечатлениям. Вводные наблюдения: 1) Рекомендации становятся очень размытыми с ростом количества оценок (более 1000). 2) Предлагаются чаще всего фильмы из топ 250 и классика вроде Чаплина. 3) Я часто вижу пользователей с невысоким процентом общей близости, но близость укладывается в общую жанровую группу. Мои интуитивные размышления: Формула хорошо работает если пользователь имеет узкие жанровые предпочтения - французские комедии или азиатские экшены. Если же у меня значительное количество фильмов в обоих группах, то естественно людей с высоким процентом схожести будет мало и мне предложат посмотреть что-то третье. Т.е. те фильмы которым поставили высокие оценки и фанаты фр-х комедий и аз-х экшенов, но это будут ни комедии, ни экшены, а фильмы из топ 250 или Чаплин. Мое предложение: Возможно стоит определить некий рубеж, допустим в 1000 фильмов, после которого в формуле включался бы и жанровый аспект, а минимальная степень близости уменьшалась. Ведь понятно, что в этой тысяче фильмов не будет 800 экшенов или комедий. Далее, формула выделяла тех пользователей у которых близость пусть и не большая, но укладывается в одну жанровую группу. И выдавала в рекомендациях фильмы от данного пользователя из данной жанровой группы. Таким образом: Я получил бы рекомендации по французским комедиям от тех, с кем мои вкусы пересекаются только по ним. И так же получил бы рекомендации по азиатским экшенам от тех кто их любит, несмотря на низкие оценки французским комедиям с их стороны. Резюме: 1) На мой взгляд формула должна учитывать общее количество оценок пользователя. 2) С ростом количества оценок должно уменьшаться значение процента близости. 3) Формула должна учитывать жанры, страны (или регионы), годы фильмов. Политика сайта в этом вопросе мне кажется понятной, но огорчающей: Во-первых, качество сервиса рекомендаций никак не влияет на прибыльность сайта. А во-вторых, лучшее - враг хорошего. Работает средне и ладно. Этим сервисом они возможно займуться только если введут платную подписку на сервисы. Однако за сервис рекомендаций в текущем виде я платить бы не стал. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479161 Поделиться на другие сайты Поделиться
ANdRiaNo 22 марта, 2010 ID: 81 Поделиться 22 марта, 2010 (изменено) 7 и 8 = 0,88 4 и 3 = 0,75 1 и 2 = 0,50 Так этож вообще бред, почему близость 1 и 2 считается безотносительно десятке? Во всех случаях разница должна быть в 1/10 Изменено 22.03.2010 18:32 пользователем ANdRiaNo Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479386 Поделиться на другие сайты Поделиться
Karmacoma 22 марта, 2010 ID: 82 Поделиться 22 марта, 2010 Так этож вообще бред, почему близость 1 и 2 считается безотносительно десятке? Во всех случаях разница должна быть в 1/10 Вроде как такой подход позволяет увеличивает вес схожести именно положительных оценок для того чтобы найти именно то, что нравиться обоим. Хотя в таком случае, те кто высокими оценками не разбрасывается и средний бал оценок имеет меньше 7 получают очень низкий уровень близости со всеми. Вот пример: ваш и мой. У обоих больше 1000 оценок и строгий подход к раздаче 10. У вас всего 21, а у меня 47. Близость 34 % при том что есть общие друзья и из 558 общих - 311 фильмов имеют либо одинаковую оценку либо разницу в 1 балл. Схожесть наших оценок нивелируется из-за невысокого среднего балла! Система считает, что хотя оценки похожи, но похожи они не в части любимых фильмов. А дело ведь просто в том, что наши 8-ки это сравнимы с десятками тех, кто шлепает их как-попало! Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479484 Поделиться на другие сайты Поделиться
ANdRiaNo 22 марта, 2010 ID: 83 Поделиться 22 марта, 2010 То есть чем больше я ставлю низких оценок тем больше я уменьшаю близость вообще со всеми? У меня вверху списка по близости человек с 66.9%. Это у меня почти 1400 оценок, и только 20% ниже 6-ти балов. То есть если я удалю низкие оценки то рекомендации улучшаться чтоли? Или легче новый акк завести и продублировать только оценки выше 5. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479540 Поделиться на другие сайты Поделиться
Karmacoma 22 марта, 2010 ID: 84 Поделиться 22 марта, 2010 То есть чем больше я ставлю низких оценок тем больше я уменьшаю близость вообще со всеми? Получается так. У меня вверху списка по близости человек с 66.9%. У вас мало общих высоких оценок (9 и 10), а значит, по мнению алгоритма, и мало общности во вкусах. То есть если я удалю низкие оценки то рекомендации улучшаться чтоли? Вес общих высоких оценок увеличиться. Я заметил что у всех пользователей со средним балом ниже 7 близость друзей редко поднимается выше 70%. Или легче новый акк завести и продублировать только оценки выше 5. Давайте попробуем! И сравним. Я готов поучаствовать в эксперименте. Я себе еще один эталон для сравнения нашел - The Good Близость у нас 59%. Но я давно заметил что этот пользователь большой поклонник старых французских "поляров" и комедий и вообще европейского кино 70-80. Наши оценки часто отличаются на 2 балла, т.к. The Good активно ставит десятки и девятки таким фильмам, а я восьмерки. И несмотря на то что большинство наших общих фильмов объеденены общим жанром, страной происхождения и временным периодом - алгоритм этого не воспринимает! В тоже время у этого пользователя приходится 60% оценок на 10 и 9, а 15% на 1 и 2, и рекомендации и друзья у вполне адекватные его вкусам с Близостью под 85%. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479645 Поделиться на другие сайты Поделиться
ugar 22 марта, 2010 ID: 85 Поделиться 22 марта, 2010 Или легче новый акк завести и продублировать только оценки выше 5. Новые акк-и, не удаляя старых, заводить не надо! Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479678 Поделиться на другие сайты Поделиться
ANdRiaNo 22 марта, 2010 ID: 86 Поделиться 22 марта, 2010 Новые акк-и, не удаляя старых, заводить не надо! Мы из благих побуждений, а не с целью накрутки. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479709 Поделиться на другие сайты Поделиться
Karmacoma 22 марта, 2010 ID: 87 Поделиться 22 марта, 2010 Новые акк-и, не удаляя старых, заводить не надо! Почему? Я ведь только для тестирования, а потом удалю тестовый. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479754 Поделиться на другие сайты Поделиться
Karmacoma 22 марта, 2010 ID: 88 Поделиться 22 марта, 2010 Ну, вот. Перенес 10,9,8. Промежуточные итоги следующие. Сравниваю с упомянутым ранее The Good: Из 61 фильма - 52 предстваляют либо полное совпадение либо отклонение на 1-2 балла, но это все 10,9,8. Фильмы почти однородные - французские комедии и поляры 60-80-х. При этом система, внимание, считает что наша близость - 0% или возможно отрицательная. И все это из-за больших различий в оценке десятка фильмов других жанров! Если бы, The Good ставил оценки только фильмам которые по его вкусу заслуживают более 5 баллов, то общими у нас были бы только любимые нами обоими французскими комедии и высокая близость вкусов. А так мне не видать его рекомендаций как своих ушей. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1479849 Поделиться на другие сайты Поделиться
Dogmat-igwt 23 марта, 2010 ID: 89 Поделиться 23 марта, 2010 Вводные наблюдения: 1) Рекомендации становятся очень размытыми с ростом количества оценок (более 1000). 2) Предлагаются чаще всего фильмы из топ 250 и классика вроде Чаплина. 3) Я часто вижу пользователей с невысоким процентом общей близости, но близость укладывается в общую жанровую группу. 1 пункт я тоже давно заметил, мои оценки перевалили за 2000. Решал проблему тем, что удалял свои сомнительные оценки, всяким там сериалам, индийским фильмам... Помогло мало. Математически эту проблему не решить, о возможном решении напишу далее. 2 пункт естественен, так как фильмы из топа имеют высокий балл вообще и у Ваших друзей в частности, поэтому превалирует в рекомендациях. Проблему решил тем, что пересмотрел весь топ , ну если честно, то шкала варьирует от 240/250 до 247/250... пока... Резюме: 1) На мой взгляд формула должна учитывать общее количество оценок пользователя. 2) С ростом количества оценок должно уменьшаться значение процента близости. 3) Формула должна учитывать жанры, страны (или регионы), годы фильмов. пункт 1 и 2, если Вы за то, чтобы с ростом количества оценок уменьшался % близости, то сейчас так оно и есть по естественным причинам уменьшения % совпадений с ростом количества испытаний. А по пункту 3 так: чтобы учитывать жанры, сайт будет вынужден переходить на теговую систему рекомендаций. Примером может послужить известный многим Last.fm. Это очень трудоемко. За теги на Кинопоиске отвечает сервис "Ключевые слова", который сам по себе, ИМХО, паршивенький, но Вы можете найти там именно то, что нужно Вам с привязкой к жанрам, сценическим приемам и т. д. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1480096 Поделиться на другие сайты Поделиться
Karmacoma 23 марта, 2010 ID: 90 Поделиться 23 марта, 2010 А по пункту 3 так: чтобы учитывать жанры, сайт будет вынужден переходить на теговую систему рекомендаций. Примером может послужить известный многим Last.fm. Это очень трудоемко. За теги на Кинопоиске отвечает сервис "Ключевые слова", который сам по себе, ИМХО, паршивенький, но Вы можете найти там именно то, что нужно Вам с привязкой к жанрам, сценическим приемам и т. д. Вот-вот! Last.fm должен быть ориентиром. Постройка рекомендаций на основе близости оценок подсказывает фильмы которым поставили высокие оценки люди с похожими вкусами, но это необязательно будут фильмы похожие на наши любимые фильмы. Ну нет обратного соответствия, вот что я хочу сказать. Все зайцы любят морковку, но не все кто любит морковку - зайцы. правильные рекомендации для зайца - это то, что еще любят зайцы (капуста например), а мне система предлагает овес, потому как лошади тоже любят морковку. Мне кажеться аналог Last.fm будет не сложно реализовать. В качестве тегов можно использовать уже прописаные жанры, режиссеров, актеро, годы, страны с разной степенью веса. А вот выставленные пользователем оценки учитывать по анологии с количеством прослушиваний. Т.е. обращать внимание не на схожесть, а на то каким тегам выставлены наиболее высокие оценки, не важно 8, 9 или 10. Просто самые высокие. Кстати, в таком варианте проблема разной системы координат при оценке фильма исчезает! А дальше определение общих кластеров из фильмов и построение рекомендаций на их основе. К сожалению, не могу все это описать математически. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1480130 Поделиться на другие сайты Поделиться
Dogmat-igwt 23 марта, 2010 ID: 91 Поделиться 23 марта, 2010 К сожалению, не могу все это описать математически. Это и не потребуется, потому как подобные полномасштабные изменения проводиться не будут, не формат. Рекомендательный сервис при сайте не основной, для этого есть имхонет, но там пока, на мой вкус, все еще очень сыро. Я собственно и не против такой системы, есть еще с десяток способов выбрать что смотреть на уик-энд. А по рекомендациям помимо проблемы с формулами, давно уже просил сделать экспорт друзей по интересам в эксель, пока жду, можно было бы грамотно подбирать друзей в оффлайне тем, кому это интересно. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1481103 Поделиться на другие сайты Поделиться
Karmacoma 23 марта, 2010 ID: 92 Поделиться 23 марта, 2010 Это и не потребуется, потому как подобные полномасштабные изменения проводиться не будут, не формат. Рекомендательный сервис при сайте не основной. Вынужден согласиться. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1482049 Поделиться на другие сайты Поделиться
Karmacoma 24 марта, 2010 ID: 93 Поделиться 24 марта, 2010 Вообщем, эксперименты с тестовым профилем только все для меня еще больше запутали. Если мой основной профиль отображается в друзьях у тестового со 100% близостью, то вот для основного система не видит тестовый вообще. Рекомендации те же самые, хотя список близких друзей совершенно иной. Ну, а проверка друзей у тестового профиля вообще в ступор ввела, смотрите скрин. И такой глюк у всех друзей. Тестовый профиль удаляю, больше тратить время на это не буду. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1482222 Поделиться на другие сайты Поделиться
Dogmat-igwt 24 марта, 2010 ID: 94 Поделиться 24 марта, 2010 И такой глюк у всех друзей. Тестовый профиль удаляю, больше тратить время на это не буду. глюком больше, глюком меньше... Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1483016 Поделиться на другие сайты Поделиться
John Doe 27 марта, 2010 ID: 95 Поделиться 27 марта, 2010 Если у вас более 100 оценок, то блок в правой части обновляется 1 раз в сутки по ночам. А то, что вы видите сверху 30.25%, обновляется в режиме реального времени. Поэтому если активно тестировать, то может быть расхождение 0 и 100%. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1487594 Поделиться на другие сайты Поделиться
Grechka 3 апреля, 2010 ID: 96 Поделиться 3 апреля, 2010 Да, лучше, конечно перейти на систему тегирования как на Ласте. Там рекомендательная система развита идеально. Возможно, сопоставлять музыкальные вкусы легче. Но на КиноПоиске система рекомендаций абсолютно бесполезна. Во-первых, первые три страницы рекомендаций - это фильмы из 250 лучших. Значит, вместо рекомендательного списка можно просто зайти в рейтинги. Во-вторых, зачастую не понятна логика рекомендаций. У меня большая часть жанров - триллеры и ужасы, а мне выдает советские комедии, Шерлока Холмса всего предложили) Похоже на иронию: дескать, хватит ужасов, оцени Гайдая! Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1498961 Поделиться на другие сайты Поделиться
Putnik777 3 апреля, 2010 ID: 97 Поделиться 3 апреля, 2010 Да, лучше, конечно перейти на систему тегирования как на Ласте. Там рекомендательная система развита идеально. Возможно, сопоставлять музыкальные вкусы легче. Но на КиноПоиске система рекомендаций абсолютно бесполезна. Во-первых, первые три страницы рекомендаций - это фильмы из 250 лучших. Значит, вместо рекомендательного списка можно просто зайти в рейтинги. Во-вторых, зачастую не понятна логика рекомендаций. У меня большая часть жанров - триллеры и ужасы, а мне выдает советские комедии, Шерлока Холмса всего предложили) Похоже на иронию: дескать, хватит ужасов, оцени Гайдая! Так почему бы не оценить Топ 250 и Гайдая? Кстати, фильтр по жанру в рекомендациях есть. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1498984 Поделиться на другие сайты Поделиться
Grechka 3 апреля, 2010 ID: 98 Поделиться 3 апреля, 2010 Так почему бы не оценить Топ 250 и Гайдая? Кстати, фильтр по жанру в рекомендациях есть. Оцениваю. Но это просто "через тернии к звездам". Но тут тоже есть подвох, оценю я все советские комедии на 10 и 9 (они действительно этого достойны), и в моих рекомендациях останутся только они. А комедии я не очень люблю. Про вторую функцию не знал, извиняюсь. Сами рекомендации только сегодня обнаружил. ПС воспользовался выборкой по жанрам. Из 21 фильма большая часть ужасы, снятые с 1920 по 1980 года. Очень специфические рекомендации. Вот еще одна особенность. Все фильмы с коэффициентом больше 8. Но мне очень нравится, к примеру, Легион, получивший очень низкие балы. Гипотетически, приемлемый для меня фильм в рекомендации не попадет, так как у него низкий рейтинг. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1498989 Поделиться на другие сайты Поделиться
Zulenium 4 апреля, 2010 ID: 99 Поделиться 4 апреля, 2010 оценю я все советские комедии на 10 и 9 (они действительно этого достойны) Что значит достойны? Оценку нужно ставить субъективно. Допустим, хотел бы сам лично тратить время на пересмотр фильма - ставишь ему больше 7, например. Вот тогда и рекомендации будут поадекватней. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1500071 Поделиться на другие сайты Поделиться
Dogmat-igwt 4 апреля, 2010 ID: 100 Поделиться 4 апреля, 2010 Что значит достойны? Оценку нужно ставить субъективно. Допустим, хотел бы сам лично тратить время на пересмотр фильма - ставишь ему больше 7, например. Вот тогда и рекомендации будут поадекватней. поддерживаю. А те, кто ставит псевдообъективные оценки, - полнейшие неадекваты. Для меня 10 - это фильм, от которого мурашки по коже, который душу выворачивает или чему-то важному учит, и плевал я на все его заслуги и недостатки, подмеченные критиками и обществом. Только так и надо оценки ставить. Ссылка на комментарий https://forumkinopoisk.ru/topic/26451-personalnye-rekomendatsii-algoritmy-formuly-i-td/page/4/#findComment-1500332 Поделиться на другие сайты Поделиться
Рекомендуемые сообщения