tech Декабрь 2005

tech@asvk.cs.msu.ru

6 участники
2 обсуждения

New simulation monitor
by Vladimir Prus 13 Дек '05

13 Дек '05

Господа, как некоторые из вас возможно знают, для проекта "NM Model" имеется план написать новый монитор событийного моделирования. В приложении -- первые наброски схему его работы. Комментарии были бы очень полезны. - Volodya

3 3

Функции похожести текстов
by Dennis Gamayunov 02 Дек '05

02 Дек '05

Не знаю, насколько вопрос по теме рассылки, но всё же поинтересуюсь. Всем вам хорошо известно, что есть такие штуки как хэш-функции. Всякий хороший хэш имеет несколько полезных качеств: - фиксированный размер хеша; - необратимость, которая мне сейчас не очень интересна; - перемешивание, которое обеспечивает то, что если два набора данных отличаются в одном байте, то значения хэша для них будут сильно разнесены в пространстве значений хэш-функции. Возникает вопрос: а нет ли известных функций, аналогичных хэшам, которые обладают обратными свойствами в части перемешивания: - фиксированный размер хэша; - гладкость, которая означает, что два набора данных будут иметь тем более близкие значения функции в пространстве значений, чем меньше они отличаются; Причем если один текст является подстрокой другого, то значения функции для них совпадают. Задача - сравнение двух наборов данных на похожесть. Те, кто занимался текстовым поиском и базами данных, наверняка сталкивался с этой задачей. Методы, которые я находил (расстояние редактирования, n-граммы, расстояния Левенштейна и Левенштейна-Дамерау), оперируют с функциями двух аргументов, то есть применимы только для сравнения двух текстов (строк). А нет ли среди них таких методов, которые работают с абсолютными, а не относительными мерами? То есть сначала проецируют текст в некоторое пространство, а уже в этом пространстве оценивают расстояние между векторами. Денис Гамаюнов.

4 8

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

tech Декабрь 2005