Nikita V. Youshchenko wrote:
Следовательно, любой текст, содержащий букву A, имеет один и тот же хэш? А дальше - так как для любой пары букв, одна из которых - A, декст должен иметь именно этот хэш, получаем, что единственная функция, удовлетворяющая требованиям - константа.
О, ошибка. Значит, остаётся только требование минимальности расстояния между хешами для близких строк.
А тогда встаёт вопрос, какие строки считаются близкими. Например, арифметическая сумма кодов всех символов строки может удовлетворять требуемому свойству при некоторых определениях близости.
В этом как раз один из вопросов. Насколько я понял, разные функции похожести текстов используют разные определения этой самой похожести. Близкое определение похожести к тому, что мне нужно, использует определение расстояний по n-граммам, когда смотрят число общих подстрок фиксированной длины. Но там, опять же, считают сразу расстояние, без проекции исходных текстов.