ПрограмуванняАнтиплагіат модуль

Антиплагіат модульДесь з місяць назад в мене замовили скрипт антиплагіат модуля. Спочатку я зробив його по алгоритму схожому на текстброкерівський. Але через кілька днів замовник знайшов програму Advego Plagiatus і захотів такий алгоритм як там…

Як я зрозумів вона працює наступним чином:

  • Розбиває весь тест на невеликі словосполучення
  • Шукає їх в гуглі, використовуючи “точноє совпадєніє”
  • Збирає в массив урли з видачі гугля і потім сканує окремо кожну сторінку, щоб визначити відсоткове співвідношення схожого тексту

Ніби нічого складного, от тільки це десктопна аплікуха, а не скрипт :). Довелось трохи погратися… В результаті вийшов скрипт, який:

  • Шукає використовуючи Yandex XML (всі проксі треба реєструвати у Яндексі) та Google JSON Search API
  • Підтримує HTTP/HTTPS, SOCKS4, SOCKS5 PROXY (щоб обійти обмеження на кількість запитів з одного IP)
  • Аля багатопоточний (використав мульти curl, можна було сокетами)

Сам модуль оформлений, як окремий клас. Всі налаштування зберігаються в .ini файлі. Для зміни налаштувань зробив простеньку веб-морду:
Налаштування

Ось приклад результату роботи скрипта. Я закинув у пошук статтю з свого блоґу, як видно поки що її ніхто не скопіпастив:
Результат роботи скрипта

Що ще розказати? Працює доволі швидко. Основне навантаження йде на регулярки, які вирізають з сторінок (тих на яких шукається відсоткове співвідношення схожого тексту) html теги і вилучають зайві символи. Ніби все :)

Зашарити запис:

  • Print this article!
  • E-mail this story to a friend!
  • Digg
  • del.icio.us
  • Google Bookmarks
  • TwitThis
  • Facebook
  • MySpace
  • LinkedIn
  • BobrDobr
  • Memori.ru
  • Moemesto

Cхожі записи:

Кометарів немає »

Коментарів поки що немає.

RSS-канал коментарів цієї статті. URI повідомлення (трекбек)

Залишити коментар