Програмування → Антиплагіат модуль
Десь з місяць назад в мене замовили скрипт антиплагіат модуля. Спочатку я зробив його по алгоритму схожому на текстброкерівський. Але через кілька днів замовник знайшов програму Advego Plagiatus і захотів такий алгоритм як там…
Як я зрозумів вона працює наступним чином:
- Розбиває весь тест на невеликі словосполучення
- Шукає їх в гуглі, використовуючи “точноє совпадєніє”
- Збирає в массив урли з видачі гугля і потім сканує окремо кожну сторінку, щоб визначити відсоткове співвідношення схожого тексту
Ніби нічого складного, от тільки це десктопна аплікуха, а не скрипт :). Довелось трохи погратися… В результаті вийшов скрипт, який:
- Шукає використовуючи Yandex XML (всі проксі треба реєструвати у Яндексі) та Google JSON Search API
- Підтримує HTTP/HTTPS, SOCKS4, SOCKS5 PROXY (щоб обійти обмеження на кількість запитів з одного IP)
- Аля багатопоточний (використав мульти curl, можна було сокетами)
Сам модуль оформлений, як окремий клас. Всі налаштування зберігаються в .ini файлі. Для зміни налаштувань зробив простеньку веб-морду:

Ось приклад результату роботи скрипта. Я закинув у пошук статтю з свого блоґу, як видно поки що її ніхто не скопіпастив:

Що ще розказати? Працює доволі швидко. Основне навантаження йде на регулярки, які вирізають з сторінок (тих на яких шукається відсоткове співвідношення схожого тексту) html теги і вилучають зайві символи. Ніби все
Cхожі записи:
Кометарів немає »
Коментарів поки що немає.
RSS-канал коментарів цієї статті. URI повідомлення (трекбек)











