↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
ReFeRy Онлайн
25 сентября 2015
Aa Aa
#фанфик_в_файл #СамИздат

Начал тестировать функцию "слежения за продами", то есть автоматической проверки наличия обновлений на СамИздате. Пока что нет никаких оповещений. Просто скрипт каждую минуту запрашивает следующий по определенному порядку текст, проверяет наличие обновлений, если текст обновился, скачивает его и обновляет. Посмотрю на работу скрипта некоторое время. Если все будет хорошо, допилю уведомления/новости.

Проверяются обновления только тех произведений, на которые подписан хотя бы один пользователь. Штатная задержка между проверками - сутки. Делать максимально оперативное информирование об обновлении я не собираюсь, кого возможная задержка в сутки не устраивает, тот имеет полное право пользоваться другими средствами. Но это все пока примерно, ибо на данный момент в базе всего около 600 произведений с СИ, у которых есть подписчики.

P.S. Тест был остановлен в связи с тем, что у СИ наконец-то появился лог-файл, а я и не знал.
25 сентября 2015
20 комментариев из 26
ReFeRy Онлайн
Но новый кусок текста, на который никто не оставил ни единого комментария, останется на 100% не найденным?
Ластро
Можете проанализировать статистику на своём сайте, основные вспышки комментариев происходят когда обновляется текст. Я не говорю что это единственная причина, но достаточно значимая.
Ластро
ReFeRy, да такие тексты так не найти, кроме того так нельзя увидеть текст отключённый от бороды.
Ластро
А как можно проверить обновление текста не скачивая сам текст?
ReFeRy Онлайн
Al Lastor
Это вопрос по СИ или по ФвФ?
Ластро
По, СИ. Вы сказали, что проверяется обновление обновление, если оно происходит, скачиваете текст. Я пытаюсь понять, как можно узнать о изменении тексты не скачивая его.
ReFeRy Онлайн
Текст скачивается в любом случае. Если текст изменялся, тогда только он парсится весь и обновляется в БД и архивах Фанфикса.
Ластро
А всё понял. Я надеялся, что СИ разрешает не скачивать текст :(
ReFeRy Онлайн
Я видел предложения скачивать страницу всех работ автора и смотреть на объем текста в килобайтах. Эта страница обычно меньше по размеру, чем любое произведение, и нагрузка на СИ получается меньше. Плюс, можно за раз проверять все тексты автора, если их в базе несколько. Но там же приводились и недостатки такого способа, но что-то не могу их вспомнить.
Ластро
ReFeRy, не пробовал так, не знаю, честно.
Ластро
О чём знаю, о том говорю. Своим методом с 08.16 перелопатил 16k произведений, это есть. Не очень много, но и не так уж мало.
Ох, забанят.
Нельзя так интенсивно с одного IP к СамИздату обращаться. Для Мошкова это уже вопрос принципа.
Надо копировать механизм работы Базатарановского сервиса, а не в лоб файлы или странички авторов качать.

И, на мой взгляд, куда актуальнее система оповещений. Когда кто-то вручную удачно обновил подписанный ФвФ текст - сервис обязан этим поделиться...
ReFeRy Онлайн
Где-то есть описание механизма этого самого Базатарановского сервиса?
Вообще, парсить надо в первую очередь вот это - логи специально созданы для автоматических систем.
Есть правда нюанс - тот IP, который регулярно запрашивает логи, не должен лазить по остальному СамИздату.
ReFeRy Онлайн
Опа. Лог это было бы чудесно! Но ограничение на данный момент хреновое.

А ссылочку на описание лога или упоминание этого ограничение для IP не найдете?
ReFeRy Онлайн
Ага, нашел описание. Про ограничение, правда, там не сказано. Лог появился в июне этого года, ясно почему я про него не слышал еще.
Это здесь, включая обсуждения.
Запущено API для обнаружения новинок. С раскладкой по дням
http://samlib.ru/logs/2015/06-30.log

имя файла|тег oперации|таймштамп-MySQL|title|author |type|janr|annot|date|img_cnt|update-unixtime|size kb


Тег операции:
EDT - редактирование атрибутов
TXT - textedit
DEL
NEW
RPL - поверх старого
REN - переименование файла, в скобках новое имя REN(444-2)
UNK - операция не определилась

Ограничение для IP - это из ленты техкомментов. Впрочем, оно пока заявлено как "ручное" - т. е. Мошков лично следит за активностью по фильтрам. И в техкомментах оповещает о претензиях...

PS
Каждое слово должно быть не длиннее 50 символов - крайне раздражает. Тег [code] необходим. Хотя бы специальным флагом для определённых тредов подключаемый...
ReFeRy Онлайн
Так. Ясно. Отключу я пока скрипт, переделаю на парсер логов.
ReFeRy Онлайн
Сделал обновление через логфайл. Потестирую такой вариант.
ПОИСК
ФАНФИКОВ









Закрыть
Закрыть
Закрыть