"Лаборатория Касперского" сообщила о патентовании новой технологии в области борьбы со спамом. Большинство методов выявления текста в изображениях основаны на машинном распознавании графических образов. Однако качественное машинное распознавание требует единообразия размеров, стилей и расположения считываемых символов.
Данное ограничение используется спамерами, которые намеренно искажают и зашумливают изображения в целях затруднения и замедления процесса детектирования текстов.
В основе технологии "Касперского" лежит так называемый "вероятностно-статистический" метод, согласно которому решение о том, содержит ли изображение текст, принимается на основании характера расположения вероятных графических образов слов и строк, а также содержания в них выявленных образов букв и слов.
Наличие специальных фильтров обеспечивает устойчивость системы к шумовым элементам и разбиению текста рамками и линиями, а использование особого способа выявления строк – к таким встречающимся в графическом спаме искажениям, как повороты текста и написание его волной.
Кроме детектирования текста в изображениях, система способна определять, является ли обнаруженный текст спамом, сравнивая его сигнатуру с шаблонами спама, хранящимися в базе данных. "Это очень значимое изобретение для антиспам-индустрии", – заявили в "Лаборатории Касперского".
Комментарии
1