↓
 ↑
Регистрация
Имя/email

Пароль

 
Войти при помощи
Жопожуй Конидзэ
27 ноября 2018
Aa Aa
#боль

Ненавижу PDF.
27 ноября 2018
20 комментариев из 55 (показать все)
Жопожуй Конидзэ
Изначальная цель пдф - жёстко зафиксировать печатный вид документа с некоторой защитой от дурака. Чтобы отредактировать его, надо захотеть это сделать, а не просто случайно удалить строку/абзац и прочее. Но в целом это единый и удобный формат, легко конвертируемый в любой другой.

У тебя же как я поняла, проблема с отсканированной книгой. А это иная проблема. Книга с тем же успехом могла быть в tiff и jpg - стандартные форматы для сканов. Создавать сканы с распознанным текстом могут очень немногие программы и те из них, с которыми я знакома, довольны ущербны. Потому что потом все равно надо весь файл вычитывать.
Desmоnd,

>Судя по тому, что речь шла о сканах книг, то как раз использовался по назначению

Я не знаю, отсканировали его или нет, во-первых. Не уверен, что отсканированные PDF умеют в выделение текста. Энивей, его же все равно создали для того, чтобы дать возможность кому-то это прочесть, разве нет? И как это читать, если оно захардкожено специально под мазохистов?

>Потому что ты можешь сделать документ в любой программе и конечный получатель увидит именно в том виде, что ты задумал.

Но, Карл, это не решение, это проблема. Есть довольно много людей, у которых, например, от обилия белого болят глаза. Делаем так, чтобы они не смогли прочесть твое говно - профит. Кто-то тупо не сможет прочесть, что ты там набубенил, потому что ты прихерачил какой-то жесточайший шрифт, а если даже ты бы адекватен в выборе шрифта, часть твоей ЦА все равно тебя проклянет, потому что воспринимает текст не так, как ты, и шрифты твои ей не подходят. Вставь картинок и хуеграмм в html, в чем проблема? Если кому-то реально будет нужно нарушить невъебенность твоего контента своими правками, он разберет этот сраный PDF на текст, а потом соберет новый сраный PDF со своими пикчами и покажет твоей собаке. А вот те, кому это не нужно, будут трахаться с твоими драгоценными шрифтами и молча тебя ненавидеть.

>Он позволяет распечатать в том же виде, а это минус огромная ебля с головной болью. Жаль, что ты не встречал все анальные кары, которые раньше сопровождали передачу в типографию вёрстки.

Ладно, аргумент, наверное. С печатью никогда не сталкивался, но если ваять PDF чисто для печати, то как бы и похуй на редактируемость, кек.

>Если, напомню, заниматься таким трудоёмким и неблагодарным делом, как распознавание и повторное форматирование распознанного, никто не хочет.

Тогда я не очень понимаю, зачем выкладывать книги в PDF в сеть, если тебе лень сделать их доступными для чтения. Это же как хуярить вполсилы заведомое говно из желания сотворить что-то шедевральное и поделиться этим с другими.
Показать полностью
Desmоnd, вообще не ебу. Качнул что-то из гуглплея в свое время.
LilyofValley,

>а не просто случайно удалить строку/абзац и прочее

От какого дурака такая защита? Кем надо быть, чтобы ставить такой хардкор против случайного удаления текста? Текст восстановить как бы можно, не?

>легко конвертируемый в любой другой

Лол, сколько ни конвертировал PDF-ки в html, всегда получал лапшу на выходе. Не верю.
Жопожуй Конидзэ
От какого дурака такая защита?

LilyofValley неправильно выразилась. Защита - приблизительно в том же смысле, как "защита текста на распечатанной бумажке". Ты на распечатке может тоже поебаться, но текст изменить. Где-то так.

Случайно удалить ничего не получится, потому что это, блядь, транспортный формат документа.

Ещё пдф можно запаролить, запретив печать или копирование текста, вот это уже защита.

---
Чувак, ещё раз. Формат не для того, чтобы кто-то там что-то там делал с удобствами. Он для того, чтобы, блядь, передать документ в абсолютно том виде, как задумано автором. То, что его используют не по-назначению - ну это их проблемы.

Никто не будет ебаться с вёрсткой HTML, если есть в твоей любимой программке вёрстки уже готовое печатное решение. Пдф - это раз, и готово. Сделать html - устроить себе еблю ради того, чтобы какому-то дятлу на том конце провода (заметь, неспособному в читалке настроить тёмный фон) было удобней.

Чтобы получить что-то в удобном именно для тебя формате - заплати специальному человеку, чтобы он с этим ебался. По-другому не бывает.
Показать полностью
>Никто не будет ебаться с вёрсткой HTML, если есть в твоей любимой программке вёрстки уже готовое печатное решение. Пдф - это раз, и готово.

Ну, кхм, .doc - это раз, и готово.

>передать документ в абсолютно том виде, как задумано автором

Авторы, создавая подобные документы для чего-то, кроме печати, задумывают, что это кто-то будет читать?

>чтобы какому-то дятлу на том конце провода (заметь, неспособному в читалке настроить тёмный фон)

Да ты задолбал. Ну не нашел я этой хуйни в какой-то сраной читалке, с которой столкнулся впервые в жизни, скачанной с гуглплея, с которым тогда столкнулся впервые в жизни, когда хотел с комфортом зачесть книгу в формате, с которым столкнулся впервые в жизни, на смартфоне, к которому настолько не привык, что, можно считать, что и с ним я тогда столкнулся впервые в жизни. Я привык к тому, чтобы все было легко настраиваемым и не ориентированным на гламурное свистоперделово, а приложуха была именно свистопердящей и умеющей в "какие-то свайпы". И да, даже тогда было верно правило, что если я чего-то не нашел в настройках, значит, этого в настройках нет, потому что я сраный бог задротства в настроечки и мелкие шрифты. Хорош на пустом месте выдумывать анекдоты и их же выдавать за аргументы.

>Чтобы получить что-то в удобном именно для тебя формате - заплати специальному человеку, чтобы он с этим ебался.

Меня не возмущает отсутствие людей, готовых пахать на мои нужды за "бесплатно". Меня бомбит с тех, кто считает PDF удобным для чтения форматом и потому его и использует.
Показать полностью
Жопожуй Конидзэ
...Так что вам мешает конвертировать пдф в док?
Я конвертировал в .txt. Такой пиздец на выходе.
Жопожуй Конидзэ
Нет. Док - это "раз и готово" если ты изначально делал в ворде. В иных случаях - масса ебли.
Кстати, для тебя будет сюрпрайзом, но сложный вордовский документ при чтении на устройстве тебе доставит проблем раз в восемь больше пдфа. Если голый текстик - тогда канешна.

Авторы, создавая подобные документы для чего-то, кроме печати, задумывают, что это кто-то будет читать?

Именно для этого сохранение всего оформления. Не можешь прочитать в том виде? Ну, твои проблемы забавляют.

Ну не нашел я этой хуйни в какой-то сраной читалке, с которой столкнулся впервые в жизни, скачанной с гуглплея

Если бы ты бугуртил, что нашёл не ту читалку, проблем бы не было. Но у тебя охуительные выводы: фб2 говно, потому что я не смог поменять фончик. Над этим можно только поржать. Те же проблемы сопровождают любой формат, от вордовского, до хтмл, епаба и даже обычного тхт. Потому что фончик меняется одинаково. Программой-читалкой.

Меня бомбит с тех, кто считает PDF удобным для чтения форматом и потому его и использует.

Потому что ПДФ - действительно удобный для чтения формат с сохранением форматирования, иллюстраций, графиков и прочего. Если нужно "читать и только текст, на куче устройств" - тот тут нужен другой формат электронных публикаций, к примеру, моби, епаб, фб2 или тому подобное. Которые ущербны и уступают пдф в плане отображения графики, зато заточены под специфический способ просмотра.
Показать полностью
Жопожуй Конидзэ
Ну вот пример разных пдф файлов
https://cloud.mail.ru/public/KxtP/gGFZTGm8k
Но распознавание сканированного текста - всегда очень приблизительное, особенно, если там есть много особых слов, надстрочных шрифтов и т.д.
А ну и еще один способ понять какой пдф перед тобой. Если поиск по тексту работает, то пдф конвертируемый. Если не работает, то отсканированный.)))

Если у создателя файла изначально есть только бумажная версия, то для превращения ее в распознаваемую читаемую версию надо затратить как минимум пару дней, в зависимости от объема книги, не считая времени на сканирование.

В общем создателям сканов учебников я все-таки всегда говорю спасибо, потому что хоть так, чем разыскивать учебники по каталогам библиотек, а потом заниматься копированием+перепечатыванием, а в самых ужасных случаях даже переписыванием.))
Худший формат в мире
LilyofValley
Тут как и с дежа вю есть возможность херануть в некоторых прогах автоматический-полуавтоматический ocr layer. То есть пользователю показывают отсканированную страничку, но есть распознанный текстовый слой, по которому можно вести поиск.

Вон чуваки из Абби очень подробно расписали, с картинками.
https://www.abbyy.com/ru-ru/finereader/pdf-types/

Дежа Вю, кстати, тоже очень годный формат для сканов книг по соотношению размер-качество. Но он занял узкую полупиратскую нишу сканированных книг, несмотря на весь потенциал.

О, слушай, а чем ты просматриваешь пдфы на компе? Могу нарекомендовать просто бомбезный супербыстрый просмотрщик pdf, djvu и ещё кучи форматов, включая ебуки типа epub и mobi. Я о Sumatra PDF - творении одного польского гения. Ещё оно комикбуки типа cbr-cbz умеет. Просто потрясающий комбайн.

Хего Дамаск
В слове "лучший" две ошибки.
Desmоnd
У меня акробат проф стоит для пдф файлов. Он в принципе распознает текст, но всё равно немного косячит и поиск не всегда идеально срабатывает.
LilyofValley
Ну так акробат проф - он сцуко тяжеловатый комбайн. У меня тоже стоит, мне по работе нужно, в основном для конвертации в pptx. А для просмотра - Суматра. Очень быстрая штука.
Desmоnd
Ага, вечером Суматру посмотрю.)
Desmоnd,

>Док - это "раз и готово" если ты изначально делал в ворде.

PDF - это "раз и готово", если ты изначально делал в PDF. Не? Я не понимаю, почему PDF - это проще, чем DOC, если для этой простоты ты изначально должен готовить документ в соответствующем формате и чуть затрахаться с форматированием всяких штук. Чем создание PDF проще создания DOC, когда речь не о печати документов?

>Именно для этого сохранение всего оформления. Не можешь прочитать в том виде? Ну, твои проблемы забавляют.

Чувак, еще раз. Возможность редактировать документ для удобства чтения - это не прочто какая-то особенная фича для задротов, которые не могут в твои шрифты - это базовая маст-хэв фича для читателей каких угодно документов. Это принцип информации, которая засчет своей редактируемости доступна для чьего угодно восприятия, а не какая-то задротская частность, к которой ты пытаешься свести все, что не дружит с нередактируемым PDF-форматом. Потому мне и непонятен смысл PDF как формата для чтения, тогда как лучшим форматом для чтения является тот, который позволяет всем прочесть что угодно в каком угодно виде, невзирая на различия в восприятии. А следовательно, мне непонятна и позиция тех, кто использует PDF как формат для расшара той или иной информации широкой публике - ведь сама цель такого расшара в том, чтобы это кто-то без проблем зачел.

>Но у тебя охуительные выводы: фб2 говно, потому что я не смог поменять фончик.

Лол, што. Можешь указать, где я такое говорил? Потому что я лично помню, что на вопрос "как ты относишься к fb2?" ответил в стиле "все эти ваши ебаные форматы для меня одинаково мутные, попробовал с fb2 как-то и быстро положил болт". Как бы сам ответ в стиле "я попробовал чо-то и забил" подразумевает, что я понимаю, что формат может оказаться и годным, просто я забил раньше, чем выяснил наверняка. Откуда что берете? :/

>ПДФ - действительно удобный для чтения формат с сохранением форматирования, иллюстраций, графиков и прочего

Еще раз. Если PDF не дает читателю отобразить содержимое документа так, чтобы читателю было легко воспринимать это содержимое, но зато железно фиксирует форматирование, графики и прочее, то этот формат идеален не для чтения, а для захардкоженного представления информации. Не для читателя, а для того, кому нужно отобразить все эти ваши диаграммы только так и не иначе. И я до сих пор не понял, кому в здравом уме такое может понадобиться, если речь не о печати документов.
Показать полностью
>Тут как и с дежа вю есть возможность херануть в некоторых прогах автоматический-полуавтоматический ocr layer. То есть пользователю показывают отсканированную страничку, но есть распознанный текстовый слой, по которому можно вести поиск.

... если я правильно понял, то это мой случай. Нашел, откуда скачивал - указано, что книга отсканирована. Но поиск по тексту работает.
Жопожуй Конидзэ
тогда как лучшим форматом для чтения является тот, который позволяет всем прочесть что угодно в каком угодно виде, невзирая на различия в восприятии.


А какой это формат? :)
Жопожуй Конидзэ
PDF - это "раз и готово", если ты изначально делал в PDF.

"Изначально в пдф" - это где такое? Не бывает "изначального пдф". Только в Адоби Иллюстратор, да и то, это костыль в виде "к пдф прикрепляем весь иллюстраторовский файл".

Чувак, еще раз. Возможность редактировать документ для удобства чтения - это не прочто какая-то особенная фича для задротов, которые не могут в твои шрифты - это базовая маст-хэв фича для читателей каких угодно документов.

Отредактируй текст на скане или на картинке. Это жы ж базовая мастхэв фича. Любых документов. А?
Все документы электронной дистрибуции не предполагают редактирования. Даже хтмл. Можно, с некоторым напрягом, и всё, если подобрать соответствующий редактор.

Если PDF не дает читателю отобразить содержимое документа так, чтобы читателю было легко воспринимать это содержимое

Предоставляет, но это, сурпрайз, должен быть специально подготовленный pdf. который, опять-таки сюрпрайз, никто для тебя, вбухивая хуеву тучу человекочасов, делать не будет. Если ты будешь покупать сразу готовый ебук в пдф, то в твоей любимой читалочке сможешь смотреть в удобненьком виде.
Точно так же, как ворд, хтмл и т.д. могут передать fixed layout, но это тоже работа. Которой никто не занимается просто так от нечего делать.

Если вычленить из твоего бугурта конструктив, то выходит не формат - гад, а то, что тебе, дав книгу нахаляву, ещё и не сопроводили рюшечками.
Показать полностью
LilyofValley
Полагаю TXT, но там цвет фона так просто в некоторых читалках не сменишь, лил.
ПОИСК
ФАНФИКОВ









Закрыть
Закрыть
Закрыть