А может 1,11 маловато будет. Ведь разница в 1 балл - это почти ничего. У каждого пользователя оценки могут прыгать вверх-вниз на 1 б. Предлагаю хотя бы 1,15, и смещенность будет меньше влиять на близость.
В этой формуле
100 - 11*S - 100/К
близость уменьшается, если количество общих фильмов <100. Но если всех оценок пользователя < 100, то это бессмысленно. Поэтому предлагал привязать число в формуле к количеству оценок каждого пользователя. Кч означает часть оценок, которой, как предполагается, достаточно для получения коэффициента близости с высокой вероятностью. Например, треть оцененных фильмов. После этого числа близость будет расти за счет количества общих фильмов.
В формуле
(100-11,11*S)*(1+(Ко/Кч)/100)
Кч утратила свое первоначальное назначение и служит инструментом для регулирования влияния количества общих фильмов на коэффициент близости.
Кч=Квсе_оценки_пользователя*%
Чем <%, тем больше количество общих фильмов увеличивает близость
Интересное предложение, но не все так просто.
При мОФ=300, оБИ=50%, ОФ=20 и
- противоположных оценках близость 46,88%
- одинаковых оценках близость 53,13%
При СР=0-49,9% близость почему-то уменьшается при уменьшении ОФ
А при СР=50% ОФ вообще не влияет на близость