продолженте темы: Идея. Усовершенствование поисковой машины
Частотный словарь термин пример Тезаурус термин пример
Как автоматически составить комбинаторно-частотно-тезаурусный словарь
Список слов (или понятий, словосочетаний), которые могут быть темами для других слов, на первый
взгляд, не должен быть слишком большим, можно ограничит его 3-5 тысячами слов. Если это не так,
можно составлять отдельные словари по темам. Напимер, "медицина", "космические исследования" и
- поехали!
Вот подтверждение моих слов - пример ручного составления тезауруса
02 февраля 2004г.
Чтобы автоматически набрать такой словарь (как его назовём? комбинаторно-тезаурусный?) можно
предложить несколько подходов:
и составить частотный словрь всех встретившихся слов. Наиболее часто встретившиеся слова объявить
подтемами, вручную проверить подтемы и определить подтемы, которые описываются не словами, а фразами.
Далее для каждого слова из референтной подборки посчитать частоту его встречаемости в теме и
подтемах и поделить на частоту встречаемости слова из общего частотного словаря. Величины, большие
единицы зафиксировать в нашем комбинаторно-тезаурусном словаре, остальные отбросить.
Специалисты, разумеется, всё
делают добровольно, руководствуясь желанием облегчить себе жизнь при дальнейшем поиске
материалов по своей теме. Им присваивается рейтинг по степени соответсвия их оценок
усреднённой оценке, наиболее активным и успешным по желанию администрации поисковой
системы могут через WebMoney выплачиваться бонусы за работу.
Другие идеи
(с) Можаровский С.Г. // mailto:mozharovskys@mail.ru // swHome page