Re: [LVK Tech] Функции похожести текстов

2 Дек 2005


      Nikita V. Youshchenko wrote:
...
...
...
Следовательно, любой текст, содержащий букву A, имеет один и тот же
хэш? А дальше - так как для любой пары букв, одна из которых - A,
декст должен иметь именно этот хэш, получаем, что единственная
функция, удовлетворяющая требованиям - константа.
О, ошибка. Значит, остаётся только требование минимальности расстояния
между хешами для близких строк.
А тогда встаёт вопрос, какие строки считаются близкими.
Например, арифметическая сумма кодов всех символов строки может 
удовлетворять требуемому свойству при некоторых определениях близости.
В этом как раз один из вопросов. Насколько я понял, разные функции
похожести текстов используют разные определения этой самой похожести.
Близкое определение похожести к тому, что мне нужно, использует
определение расстояний по n-граммам, когда смотрят число общих подстрок
фиксированной длины. Но там, опять же, считают сразу расстояние, без
проекции исходных текстов.

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

Re: [LVK Tech] Функции похожести текстов