
Шингл (от англ. shingle — черепица) — короткая последовательность из нескольких подряд идущих слов в тексте, используемая в алгоритмах антиплагиата для проверки уникальности контента и поиска дубликатов.
Что такое шингл в SEO и сервисах антиплагиата — единица сравнения текстов, на которой построена технология проверки уникальности контента: длинный текст разбивается на пересекающиеся «черепицы» из 3–10 слов, и каждая проверяется на наличие в других источниках.
Концепция шингла предложена в 1997 году исследователями Андреем Бродером и его коллегами из компании DEC (Digital Equipment Corporation) в работе «Syntactic Clustering of the Web». Изначально алгоритм создавался для дедупликации страниц в поисковом индексе AltaVista, но быстро стал стандартом всей индустрии антиплагиата.
В современных сервисах антиплагиата (Text.ru, Advego Plagiatus, Content-Watch, Copyscape, eTXT) шингл (shingle) — базовая единица анализа. Стандартный размер — 4 слова. Изменение размера шингла кардинально меняет результат проверки: шингл из 2 слов даёт ложные совпадения, из 10 — пропускает реальный плагиат. Каждый шингл преобразуется в короткий хэш (hash) для быстрого сравнения миллионов фрагментов.
Что такое шингл
Шингл — фрагмент текста фиксированной длины, состоящий из подряд идущих слов. Текст «оптимизация сайта для поисковых систем» при шингле длины 3 даёт три шингла: «оптимизация сайта для», «сайта для поисковых», «для поисковых систем». Шинглы пересекаются, перекрывая друг друга на N-1 слов.
Метафора «черепицы» точно описывает принцип работы: подобно тому как кровельная черепица укладывается с перекрытием для герметичности, шинглы покрывают текст с перекрытием, не оставляя «слепых зон». Если плагиатор поменяет местами всего одно слово, шингл с этим словом не найдёт совпадения — но соседние шинглы найдут.
В математической статистике метод шинглов относится к классу n-граммных моделей. N-грамма — это последовательность из N элементов (слов, букв, символов). Шингл — частный случай n-граммы для слов. В разных дисциплинах используются аналогичные термины: n-gram в обработке естественного языка, k-mer в биоинформатике (для последовательностей ДНК).
Как работает метод шинглов
Полный алгоритм проверки уникальности текста через шинглы:
- Предобработка текста. Удаление знаков препинания, приведение всех слов к нижнему регистру, удаление лишних пробелов. Опционально — приведение слов к начальной форме (лемматизация) для русского языка.
- Удаление стоп-слов. Из текста убираются часто встречающиеся слова без смысловой нагрузки: предлоги (в, на, под), частицы (же, ведь, ли), артикли в английском. Это снижает количество шинглов и ускоряет проверку.
- Разбивка на шинглы. Текст разделяется на последовательность шинглов длины N. Для текста из 1000 слов при шингле 4 получается примерно 997 шинглов.
- Хеширование шинглов. Каждый шингл преобразуется в короткий числовой код (хеш) — обычно через алгоритмы Rabin-Karp, MD5, SHA-1. Это ускоряет сравнение и экономит память.
- Сравнение с базой. Хеши шинглов проверяемого текста сравниваются с хешами шинглов из открытого интернета. База хешей сервиса антиплагиата обычно охватывает миллионы проиндексированных страниц.
- Подсчёт совпадений. Считается доля шинглов, найденных в других источниках. Уникальность = 100% − процент совпавших шинглов.
- Подсветка совпадений. В интерфейсе сервиса найденные совпадения выделяются цветом с указанием URL источника. Пользователь видит, какие именно фразы найдены в других текстах.
Время полной проверки текста на 1000–3000 слов через современные сервисы — от 15 секунд до 3 минут в зависимости от загруженности и глубины анализа.
Размер шингла — влияние на результат
| Размер шингла | Поведение | Когда используется |
|---|---|---|
| 2 слова (биграммы) | Слишком жёсткая проверка. Ложные совпадения на устойчивых сочетаниях «и/или», «такой как», «как правило» | Редко, академические работы с высокими требованиями |
| 3 слова | Жёсткая проверка. Часть совпадений — на общеупотребительных фразах | Content-Watch по умолчанию, eTXT расширенная проверка |
| 4 слова | Оптимальный баланс — отлавливает плагиат, минимум ложных срабатываний | Text.ru, Advego Plagiatus по умолчанию, индустриальный стандарт |
| 5 слов | Мягкая проверка. Пропускает плагиат с перестановками слов | Некоторые специализированные академические системы |
| 6–8 слов | Очень мягкая проверка. Находит только дословное копирование больших фрагментов | Copyscape (английский, шингл 7–10), быстрые проверки |
| 10+ слов | Поверхностная проверка. Подходит только для выявления грубого копипаста | Внутренние системы поисковиков для первичной фильтрации |
Эксперимент: один и тот же 1000-словный текст с уникальностью 92% при шингле 4 покажет 78–85% при шингле 3 и 96–98% при шингле 6. Это объясняет различия в результатах разных сервисов на одном тексте — нужно сравнивать только при одинаковых настройках шингла.
Алгоритм переработки и хеширования
Технические детали реализации метода шинглов:
- Хеш-функции. Алгоритм Rabin-Karp — самый распространённый для шинглов из-за свойства «скользящего окна»: при сдвиге шингла на одно слово хеш пересчитывается за O(1), без полного пересчёта. Это даёт скорость работы в десятки раз выше, чем MD5 или SHA.
- MinHash. Для огромных баз (миллиарды документов) используется техника MinHash — сжатие набора шинглов до короткой сигнатуры. Сравнение сигнатур быстрее полного сравнения шинглов на 2–3 порядка.
- LSH (Locality-Sensitive Hashing). Метод, позволяющий за константное время находить «похожие» документы из миллиардов. Применяется в больших поисковых системах для дедупликации.
- Нормализация текста. Перед разбивкой на шинглы применяется стемминг или лемматизация — приведение слов к корневой форме. Это позволяет распознавать плагиат с заменой окончаний.
- Игнорирование пунктуации. Точки, запятые, тире удаляются перед разбивкой. «Текст,текст» и «Текст текст» воспринимаются одинаково.
Современные коммерческие сервисы антиплагиата используют не только метод шинглов, но и дополнительные алгоритмы: TF-IDF (поиск редких сочетаний слов), word2vec (семантическое сравнение значений), нейросетевые модели (BERT-подобные для глубокого анализа смысла). Шинглы остаются базовой технологией, к которой добавляются более точные методы.
Шинглы в различных сервисах антиплагиата
Сравнение настроек шинглов в популярных сервисах:
| Сервис | Шингл по умолчанию | Настраиваемость |
|---|---|---|
| Text.ru | 4 слова | Нет публичной настройки |
| Advego Plagiatus | 4 слова | От 2 до 10, через настройки |
| Content-Watch | 3–5 слов (адаптивный) | Через тарифы Premium |
| eTXT Антиплагиат | 4 слова (стандарт), 3 (глубокая) | Выбор режима проверки |
| Copyscape | 7–10 слов | Адаптивный, без настройки |
| Главный комплекс белорусских вузов | 4 слова | Закрытая система |
| Антиплагиат.ВУЗ | 4 слова | Через настройки института |
Различия в результатах одного и того же текста между сервисами — норма. 90% уникальности по Text.ru может равняться 76% по Advego с шинглом 3 и 95% по Copyscape с шинглом 8. Для финальной оценки уникальности рекомендуется кросс-проверка в двух сервисах с одинаковыми настройками шингла.
Как повысить уникальность с учётом шинглов
Понимание принципа работы шинглов позволяет эффективно повышать уникальность текста:
- Перестановка слов в предложении. «Поисковая оптимизация требует времени и опыта» → «Опыт и время требуются для поисковой оптимизации». Каждый шингл из 4 слов меняется, формальная уникальность растёт. Минус — это машинный рерайт, выявляемый семантическими алгоритмами Google и Яндекса.
- Замена синонимами. «Большой» → «крупный», «начать» → «приступить», «достичь» → «получить». Меняет шинглы, сохраняя смысл. Лимит — переспам синонимами делает текст неестественным.
- Развёрнутые формулировки. Вместо «современные поисковые системы» — «современные алгоритмы поисковых систем Google и Яндекс». Дополнительные слова разбивают шинглы и одновременно делают текст содержательнее.
- Добавление собственных деталей. Цифры, примеры, кейсы, цитаты экспертов — это уникальный контент, который не может совпасть с другими источниками по определению.
- Глубокая переработка структуры. Не переписывание абзаца, а полное переосмысление: новые акценты, новый порядок аргументов, собственные выводы. Это и формально, и семантически уникальный текст.
- Использование редких сочетаний. Авторская лексика, профессиональный жаргон, региональные особенности (специфические для Беларуси термины — ЕРИП, ЕГР, BYN) — таких сочетаний шинглов почти нет в чужих текстах.
Главное правило: формальная высокая уникальность не равна качеству контента. Google с 2022 года (Helpful Content System) и Яндекс с 2017 (Баден-Баден) распознают семантический плагиат — пересказы чужих статей даже при 100% уникальности по шинглам.
Часто задаваемые вопросы
Какой размер шингла наиболее объективен для оценки уникальности?
4 слова — индустриальный стандарт. Достаточно жёсткий для отлова реального плагиата, не реагирует на случайные совпадения коротких фраз. Большинство сервисов используют именно эту настройку. Шингл 3 завышает плагиат, шингл 5+ занижает.
Можно ли обмануть метод шинглов простой перестановкой слов?
Технически да — каждый изменённый шингл «спасается» от обнаружения. На практике рекурсивная перестановка делает текст неестественным, легко распознаётся как машинный рерайт. Современные семантические алгоритмы Google и Яндекса (BERT, YATI) видят такой обман на уровне смысла.
Сколько шинглов в среднем тексте на 1000 слов?
Около 997 шинглов при шингле 4 (формула: длина текста минус N плюс 1). После удаления стоп-слов остаётся 600–800 «значащих» шинглов. Именно они и проверяются на наличие в других текстах.
Используют ли Google и Яндекс метод шинглов для оценки контента?
Используют, но не как основной критерий. Шинглы применяются для технической дедупликации (выявления полностью одинаковых страниц на сайте) и для первичной фильтрации. Семантическая оценка контента — через нейросетевые модели BERT, MUM в Google и YATI в Яндексе.
Влияет ли длина текста на точность проверки шинглами?
Очень короткие тексты (менее 200 слов) проверяются менее точно — мало шинглов для статистически значимого вывода. Тексты 500+ слов проверяются достоверно. Тексты 5000+ слов могут давать ложно завышенную уникальность — длинная статья содержит много «своих» формулировок просто из-за объёма.
Что происходит, если в проверяемом тексте встречаются цитаты с другого сайта?
Шинглы в цитате найдут совпадения, уникальность снизится. Решение — оформление цитат через теги <blockquote> с указанием источника. Некоторые сервисы (Advego, eTXT) умеют распознавать оформленные цитаты и не учитывать их в подсчёте уникальности.



