Что делать с книгами, в которых нет текстового слоя
Опубликовано чт, 17/12/2009 - 21:38 пользователем Zadd
Forums: Ситуация такая: есть книги в форматах DJVU и PDF, картинок нет, только текст, НО этот текст закодирован в виде картинок
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 2 дня
Isais RE:DNS 1 неделя Саша из Киева RE:Приключения белочки Рыжки 1 неделя alex-from RE:Оплатил два раза, но абонемента нет 1 неделя sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя Kiesza RE:На 78-м году жизни скончался советский и российский... 2 недели Paul von Sokolovski RE:Бушков умер. 3 недели lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 3 недели mig2009 RE:Багрепорт - 2 3 недели Isais RE:Издательство "Медуза" 4 недели babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 1 месяц Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 месяц sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц Isais RE:Игорь Северянин - Том 2. Поэзоантракт 1 месяц sem14 RE:Современная корейская литература. Книжная серия... 1 месяц sem14 RE:Семейственность в литературе 2 дня Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц Саша из Киева RE:Подводное течение 2 месяца Впечатления о книгах
Belomor.canal про Сэнсом: Камни вместо сердец [litres] [Heartstone ru] (Исторический детектив, Триллер)
16 11 Вполне на общем уровне серии книга. Как ни странно присутствует современная проблематика и мерин Метью имеет самую оригинальную кличку из всех данными ему переводчиками! Оценка: отлично!
Belomor.canal про Сэнсом: Соверен [Sovereign ru] (Исторический детектив)
16 11 Одна из лучших книг серии! Здесь ещё мерин Мэтью имеет кличку Предок, но в следующей книге будет по другому. Как именно? Читайте и узнаете! Оценка: отлично!
Belomor.canal про Сэнсом: Мертвая земля [litres] [Tombland ru] (Исторический детектив, Детективы: прочее)
16 11 Прочитав все семь "сезонов" очень не хочется расставаться с полюбившейся компанией Тамзин Ридбурн, Джек Барак, Гай Малтон и конечно наш Мэтью. Так и хочется проехать до станции метро Holborn и пойти в Линкольнс-Инн к сержанту ……… Оценка: отлично!
Lan2292 про Бобров: Чужак. Том 1, том 2 [СИ] (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
16 11 начинала три раза,дошла до второго тома, не нравится, скучно Оценка: плохо
udrees про Саркисянц: Английские корни Третьего Рейха. От британской к австро-баварской «расе господ» [Adolf Hitlers englische Vorbilder: Vom britischen zum ostmärkisch-bajuwarischen Herrenmenschentum [Vorlesungen[,] gehalten an der Heidelberger Universität.] ru] (История, Политика, Публицистика)
15 11 Поначалу интересно было читать, но потом книга кажется скатилась в один повтор, как все в Англии восхищались Гитлером и помогали ему начать войну. Первая половина книги ничего, описывается как Британия правила в колониях, ……… Оценка: неплохо
udrees про Мантикор: Город, которого нет 4 [СИ] (Фэнтези, Самиздат, сетевая литература)
15 11 По сравнению с предыдущими тремя книгами серии больше занимает поиск героем истины, своего пути. Боевых сцен достаточно немного, они есть и тоже имеют свою специфику, но идут не так непрерывно как в первых книгах. В целом ……… Оценка: хорошо
Belomor.canal про Юзефович: Зимняя дорога. Генерал А. Н. Пепеляев и анархист И. Я. Строд в Якутии. 1922–1923 (Историческая проза, Биографии и Мемуары, Документальная литература)
14 11 Чем эта "Зимняя дорога" (/b/805592) изданная в 2015 г отличается от уже залитой /b/564252 ???? Оценка: плохо
nevskaya25 про Муляр: Мать велела герань не поливать [сборник litres] (Современная проза)
14 11 Я не в курсе, кто эта Таша Муляр, чему она посвятила свою жизнь, кроме "писательства". Явно одно: автору за это дело браться не стоило, повар - вари борщи, экономист -цифры в столбик складывай. Но писать не надо. Это сложно, ……… Оценка: нечитаемо
nevskaya25 про Муляр: Рожденная быть второй [litres] (Современная проза, Современные любовные романы)
14 11 Начала читать, бросила, вернулась снова, поскольку есть привычка дочитывать начатое. Дочитала таки. Это не слабо, это очень слабо. Ощущение, что автор кроме газет ничего не читала в жизни. Хотела всяких цитат набросать, ……… Оценка: нечитаемо
Дей про Император Пограничья
14 11 Читать можно, но нужно учесть некоторые особенности. Все вокруг или подлые, или несчастные. Несчастных ГГ защищает, с подлыми воюет. Наивность, пафос и идеализм зашкаливают. На данный момент серия насчитывает 14 томов ………
Олег Макаров. про Мажор [Останин, Викторов]
13 11 Достаточно хорошо написано, чтобы я дочитал до конца и хотел прочитать продолжение. Мент из нашего времени попадает в сына князя в типа параллельный, магический мир когда тот умирает от наркоты. И по сложным , но реалистичным ………
Олег Макаров. про Кас: Оживший камень (Городское фэнтези, Самиздат, сетевая литература)
13 11 Вроде бы даже интересно. Но как-то занудно. Возможно, дело в том что очень медленно развивается сюжет. Прочитал 87% книги и бросил |
Отв: Что делать с книгами, в которых нет текстового слоя
?
Отв: Что делать с книгами, в которых нет текстового слоя
А списочек книжек (желательно со ссылками на файлообменники и т.п.) можно? А то ведь может кто (в том числе и я) заинтересуется и OCR-ить поможет?
Отв: Что делать с книгами, в которых нет текстового слоя
http://depositfiles.com/files/kon5m6qr1
http://depositfiles.com/files/t5np6gf08
моя Опера на эти ссылки показывает,будто они неправильные, но переходит по ним нормально.
Я в этих ссылках применил технологию для быстрого скачивания с депозита и летитбита:
если слева от ссылки в браузере на файл депозита или летитбита приставить "sfrom.net/" то файл будет скачан на полной скорости.
Такие ссылки я и написал сначала, но не учел, что ссылки расположены не в командной строке браузера, а на сервере Либрусека, соответственно sfrom.net тоже искался на Либрусеке. Тогда я приставил к адресам ещё один начальный http и все заработало!
Ссылки теперь ведут на быструю скачку файлов с депозита на полной скорости через sfrom.net(видимо у них есть Голд-аккаунты на депозите и летитбите, а вот на Рапиде нету)
Отв: Что делать с книгами, в которых нет текстового слоя
Перевести в джипеги и сделать OCR.
Отв: Что делать с книгами, в которых нет текстового слоя
Технологию процесса - в студию !!!
Отв: Что делать с книгами, в которых нет текстового слоя
"Переконвертить" нельзя. Нужно распознать текст так, как мы распознаем отсканированные картинки.
Нет, не поможет. Поможет только OCR. Переводить в джипеги не нужно, Файнридер (по крайней мере, последние его версии) прекрасно понимает pdf.
Отв: Что делать с книгами, в которых нет текстового слоя
И дежавю тоже ФР понимает. С 9 версии.
Вообще, забавный товарищ.
Как он себе представляет, книги (в виде текстов) в сеть попадают?
Тетеньки машинистки перепечатывают? )))
Отв: Что делать с книгами, в которых нет текстового слоя
Мой девятый не распознаёт. Приходится переводить в PDF.
Отв: Что делать с книгами, в которых нет текстового слоя
Это странно, потому что должен.
http://www.abbyy.ru/support/finereader/90/product_info/FF
Кроме Home Edition. (Но у Вас же не хоум, потому что хоум и pdf не понимает).
Отв: Что делать с книгами, в которых нет текстового слоя
Вообще-то где-то есть файл, который надо положить в специальную папочку, и тогда ФР9 научается распознавать и djvu. Но я что-то не могу его найти. :(
Попробуйте посмотреть здесь. Там внизу есть ещё пара линков.
Отв: Что делать с книгами, в которых нет текстового слоя
UPD
И правда всемогущество! Написала этот пост я, Tanja45. Но вот сайт уверяет меня, что я вовсе даже и не Tanja45, а совсем даже напротив - JuliaVS. Но я пока ему не верю, я точно знаю, что я не JuliaVS.
Отв: Что делать с книгами, в которых нет текстового слоя
На самом деле это представление справедливо для многих видов деят-ти, обычно связанных с компом.
Я называю это "знание о волшебной кнопке". Или программе.
Которая делает все сама. Моментально, красиво и с учетом любых тараканов-пожеланий в мозгу этого знающего.
Отв: Что делать с книгами, в которых нет текстового слоя
А нам? А книжникам? А мы тоже хотим! Это нечестно!
Отв: Что делать с книгами, в которых нет текстового слоя
O, в каком-то фантастическом сериале видела инопланетный девайс для сканирования книг: проводишь им по корешку и через несколько секунд вся книга отсканирована.
UPD Вот, нашла: http://www.youtube.com/watch?v=9CSPW-VUQis Начиная с 8:25 :)
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
Это обо мне что ли?
я например как увижу где в сети текстик txt, html, doc так сразу этот текстик ручками перенабираю в "блокноте" весь текст целиком. добавляю туда тегов
с редакторами FB2 совершенно не знаком
Отв: Что делать с книгами, в которых нет текстового слоя
Уточнение - с билда 724.
Отв: Что делать с книгами, в которых нет текстового слоя
вообще-то "виртуальный принтер"- это такая программа, которая конвертит любые файлы в PDF. Для конвертации нужно эту программу поставить "принтером по умолчанию" и из любой другой программы(из Ворда,Пэйнта,браузера, Блокнота и т.п.) отправить что-то на печать, как это "что-то" конвертится в PDF.
Вот я и подумал, что может есть такой виртуальный принтер, который картинку в PDF переведет в текст в PDF.
Отв: Что делать с книгами, в которых нет текстового слоя
Я в курсе, что такое виртуальный принтер.
Вы поймите, что есть только один способ перевести картинку в текст: ocr (распознавание). Ну, можно еще набрать текст вручную :))
Отв: Что делать с книгами, в которых нет текстового слоя
Вообще-то "виртуальный принтер" - это программа, которая переводит файл на язык, понятный принтеру. Как реальному, так и виртуальному. Её цель именно в этом - что бы принтер понял, как печатать файл. И для целей принтера совершенно не нужен распознанный файл. Его цель - понять, как печатать то, что есть (подгружать шрифты, или печатать их растром; с каким разрешением печатать; цветное или черно-белое, и т.д.). Выходной файл виртуального принтера - .prn или .ps
То, о чем Вы говорите - "конвертит любые файлы в PDF" - это делает программа Acrobat Distiller. Её цель - преобразовать файл .ps в файл .pdf, что бы можно было увидеть глазами то, что мы увидим на печати.
То, что из прикладных программ это делается в один этап, а не в два, не означает, что процесс один. Это просто видимость, результат работы встроенного дистиллера.
В этом и загвоздка - не нужно принтеру, для того, что бы печатать - распознавать. Да и язык Postscript не позволяет (насколько я знаю).
То, что Вы хотите - это не виртуальный принтер, а виртуальный OCR. Что бы программа типа файнридера сделала всю работу, но Вы бы этого даже не заметили, а потом ещё и результат OCR заново записала в pdf. Чисто технически это наверное возможно реализовать. Только зачем?
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
Это подстановка одних шрифтов вместо других. Процесс более простой, чем OCR.
Функция "печатать шрифт как растр" действительно существует. Но это очень простая операция. А вот "растр как текст" - это уже OCR. Процесс сложный и не нужный для целей принтера.
На самом деле я очарован вашей идеей. Действительно, почему нет автоматического аналога этого процесса.
Ведь что мы делаем в Finereader:
1. Открываем изображения.
2. Анализируем текст (рисуем области).
3. Распознаем текст.
4. Сохраняем во внешнее приложение.
Почему же нельзя это автоматизировать, сделать одним процессом. Где мы просто укажем - входной файл - распознать - выходной файл.
Наверное потому, что это не очень нужно - ведь результат получится грязный. Потому что файнридер позволяет на каждом этапе своих процессов контролировать и поправлять результат.
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
niksi, спасибо за подробное разъяснение.
Отв: Что делать с книгами, в которых нет текстового слоя
в комменте http://lib.rus.ec/node/198011#comment-123124 указал ссылки на 2 книжки Малколма Гладуэлла(на Либрусеке есть на англ., а эти на русском)
"Озарение" и "Переломный момент"
Отв: Что делать с книгами, в которых нет текстового слоя
FR Portable 9 распознает без всяких лишних манипуляций )
Отв: Что делать с книгами, в которых нет текстового слоя
А у меня и не Portable, и тоже распознает без всяких манипуляций. Как установился, так и стал распознавать. Но у меня ХР. А у Вас, Игорёк, Vista?