Что делать с книгами, в которых нет текстового слоя
Опубликовано чт, 17/12/2009 - 21:38 пользователем Zadd
Forums: Ситуация такая: есть книги в форматах DJVU и PDF, картинок нет, только текст, НО этот текст закодирован в виде картинок
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Подайте бедному копеечку на книжку с литреса... 23 часа
sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 2 дня sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 недели larin RE:Пропал абонемент 3 недели Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 дня larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 2 месяца MrMansur RE:<НРЗБ> 2 месяца Stager RE:Беженцы с Флибусты 2 месяца Впечатления о книгах
Isais про Голотвина: Домашний учитель для чудовища [СИ] (Боевая фантастика, Социальная фантастика, Самиздат, сетевая литература)
08 03 «Домашний учитель для чудовища» — то же, что и «Педагогическая баллада» этих же авторов, сюжет и фабула совпадают. Но за счет добавления деталей, их переакцентировки, более прописанного социального фона именно этот вариант ……… Оценка: хорошо
Barbud про Смолин: Ван Ван из Чайны 4 (Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
08 03 Первые три части были более-менее читабельны, на четвертой я сломался. Смрадным потоком попёрло политиканство, рассуждения о патриотизме, охаивание тех, кто не разделяет идеи этого самого китайского патриотизма и т.д. Читать дальше не вижу смысла. Оценка: нечитаемо
Isais про Аренев: Порох из драконьих костей (Детская фантастика, Городское фэнтези, Самиздат, сетевая литература)
08 03 Просто поражает, как в 2015-м году писатель точно, хоть и метафорично, но в деталях описал весь бытовой уклад, который сложился в России 2024-2026 гг., многое, что происходит в сегодняшней России и что, по прогнозам, еще будет ……… Оценка: хорошо
udrees про Володин: Газлайтер. Том 8 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
08 03 Продолжение бандитской жизни в бандитской стране – какой-то России будущего, где всеми заправляют феодалы-дворяне в стране. Любые проблемы решают чисто по-гангстерски, Чикаго 30-х годов отдыхает, и 90-е годы в России тоже. ……… Оценка: неплохо
udrees про Володин: Похождения египетского бога в типично фэнтезийном мире [СИ] (Фэнтези, Эротика, Самиздат, сетевая литература)
08 03 Порнографический опус, ценности почти никакой, написано примитивно, все разговоры такие же простые, практически на каждой странице описания сцен секса, в том числе извращенных, все женщины любят анальный секс и минет, вот ……… Оценка: плохо
udrees про Некрасов: Cut Shot 18+ [СИ] (Эротика, Юмор: прочее, Самиздат, сетевая литература)
08 03 Порнографический высер озабоченного подростка. Никакого сюжета, описаний мало-мальски серьезных, разумных разговоров – просто безостановочный трах на каждой странице, по любому поводу, с любой особой женского пола, в любую ……… Оценка: плохо
udrees про Вальтер: Браконьер 1 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
08 03 Параллельная книга-история по вселенной Жажды, про войну вампиров и людей. Еще одна история выживальщика в новом мире, начиная с самого начала катастрофы. Описания хорошие, даром что герой не супермен, а обычный автослесарь, ……… Оценка: хорошо
mysevra про Шацкая: Настольная книга стервы (Психология)
06 03 О, это нечто, товарищи. Хотя я лично знакома с барышней неопределенного возраста, для которой эта книга, а ещё «Как влюбить в себя любого» Лаундес и биография принцессы Дианы являются действительно настольными, и всё у неё ……… Оценка: неплохо
mysevra про Лондон: Время-не-ждет [= День пламенеет] [Burning Daylight ru] (Приключения: прочее, Классическая проза ХX века)
06 03 У этого автора все работы замечательные, но некоторые особо выделяются на общем фоне. Эта книга – одна из таких, её не забудешь и ни с чем не спутаешь. Оценка: отлично!
mysevra про Эстес: Бегущая с волками. Женский архетип в мифах и сказаниях [Women Who Run with the Wolves. Myths and Stories of the Wild Woman Archetype ru] (Мифы. Легенды. Эпос, Психология, Самосовершенствование)
06 03 Кто-то очень метко высказался: «Женская энергия – это не про соответствие каким-то шаблонам. Не про жертвенность, не про покорность и уж точно не про вечную улыбку. Это про способность быть мягкой без слабости, гибкой без ……… Оценка: отлично!
Chernovol про Ефимович: Майя Плисецкая (Биографии и Мемуары)
05 03 Хорошая книга, но ни одной иллюстрации-фотографии. Оценка: хорошо
nightrunner про Пехов: Птицелов (Фэнтези, Самиздат, сетевая литература)
03 03 Хуже предыдущей. Опять поди с бабой своей писал Оценка: неплохо |
Отв: Что делать с книгами, в которых нет текстового слоя
?
Отв: Что делать с книгами, в которых нет текстового слоя
А списочек книжек (желательно со ссылками на файлообменники и т.п.) можно? А то ведь может кто (в том числе и я) заинтересуется и OCR-ить поможет?
Отв: Что делать с книгами, в которых нет текстового слоя
http://depositfiles.com/files/kon5m6qr1
http://depositfiles.com/files/t5np6gf08
моя Опера на эти ссылки показывает,будто они неправильные, но переходит по ним нормально.
Я в этих ссылках применил технологию для быстрого скачивания с депозита и летитбита:
если слева от ссылки в браузере на файл депозита или летитбита приставить "sfrom.net/" то файл будет скачан на полной скорости.
Такие ссылки я и написал сначала, но не учел, что ссылки расположены не в командной строке браузера, а на сервере Либрусека, соответственно sfrom.net тоже искался на Либрусеке. Тогда я приставил к адресам ещё один начальный http и все заработало!
Ссылки теперь ведут на быструю скачку файлов с депозита на полной скорости через sfrom.net(видимо у них есть Голд-аккаунты на депозите и летитбите, а вот на Рапиде нету)
Отв: Что делать с книгами, в которых нет текстового слоя
Перевести в джипеги и сделать OCR.
Отв: Что делать с книгами, в которых нет текстового слоя
Технологию процесса - в студию !!!
Отв: Что делать с книгами, в которых нет текстового слоя
"Переконвертить" нельзя. Нужно распознать текст так, как мы распознаем отсканированные картинки.
Нет, не поможет. Поможет только OCR. Переводить в джипеги не нужно, Файнридер (по крайней мере, последние его версии) прекрасно понимает pdf.
Отв: Что делать с книгами, в которых нет текстового слоя
И дежавю тоже ФР понимает. С 9 версии.
Вообще, забавный товарищ.
Как он себе представляет, книги (в виде текстов) в сеть попадают?
Тетеньки машинистки перепечатывают? )))
Отв: Что делать с книгами, в которых нет текстового слоя
Мой девятый не распознаёт. Приходится переводить в PDF.
Отв: Что делать с книгами, в которых нет текстового слоя
Это странно, потому что должен.
http://www.abbyy.ru/support/finereader/90/product_info/FF
Кроме Home Edition. (Но у Вас же не хоум, потому что хоум и pdf не понимает).
Отв: Что делать с книгами, в которых нет текстового слоя
Вообще-то где-то есть файл, который надо положить в специальную папочку, и тогда ФР9 научается распознавать и djvu. Но я что-то не могу его найти. :(
Попробуйте посмотреть здесь. Там внизу есть ещё пара линков.
Отв: Что делать с книгами, в которых нет текстового слоя
UPD
И правда всемогущество! Написала этот пост я, Tanja45. Но вот сайт уверяет меня, что я вовсе даже и не Tanja45, а совсем даже напротив - JuliaVS. Но я пока ему не верю, я точно знаю, что я не JuliaVS.
Отв: Что делать с книгами, в которых нет текстового слоя
На самом деле это представление справедливо для многих видов деят-ти, обычно связанных с компом.
Я называю это "знание о волшебной кнопке". Или программе.
Которая делает все сама. Моментально, красиво и с учетом любых тараканов-пожеланий в мозгу этого знающего.
Отв: Что делать с книгами, в которых нет текстового слоя
А нам? А книжникам? А мы тоже хотим! Это нечестно!
Отв: Что делать с книгами, в которых нет текстового слоя
O, в каком-то фантастическом сериале видела инопланетный девайс для сканирования книг: проводишь им по корешку и через несколько секунд вся книга отсканирована.
UPD Вот, нашла: http://www.youtube.com/watch?v=9CSPW-VUQis Начиная с 8:25 :)
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
Это обо мне что ли?
я например как увижу где в сети текстик txt, html, doc так сразу этот текстик ручками перенабираю в "блокноте" весь текст целиком. добавляю туда тегов
с редакторами FB2 совершенно не знаком
Отв: Что делать с книгами, в которых нет текстового слоя
Уточнение - с билда 724.
Отв: Что делать с книгами, в которых нет текстового слоя
вообще-то "виртуальный принтер"- это такая программа, которая конвертит любые файлы в PDF. Для конвертации нужно эту программу поставить "принтером по умолчанию" и из любой другой программы(из Ворда,Пэйнта,браузера, Блокнота и т.п.) отправить что-то на печать, как это "что-то" конвертится в PDF.
Вот я и подумал, что может есть такой виртуальный принтер, который картинку в PDF переведет в текст в PDF.
Отв: Что делать с книгами, в которых нет текстового слоя
Я в курсе, что такое виртуальный принтер.
Вы поймите, что есть только один способ перевести картинку в текст: ocr (распознавание). Ну, можно еще набрать текст вручную :))
Отв: Что делать с книгами, в которых нет текстового слоя
Вообще-то "виртуальный принтер" - это программа, которая переводит файл на язык, понятный принтеру. Как реальному, так и виртуальному. Её цель именно в этом - что бы принтер понял, как печатать файл. И для целей принтера совершенно не нужен распознанный файл. Его цель - понять, как печатать то, что есть (подгружать шрифты, или печатать их растром; с каким разрешением печатать; цветное или черно-белое, и т.д.). Выходной файл виртуального принтера - .prn или .ps
То, о чем Вы говорите - "конвертит любые файлы в PDF" - это делает программа Acrobat Distiller. Её цель - преобразовать файл .ps в файл .pdf, что бы можно было увидеть глазами то, что мы увидим на печати.
То, что из прикладных программ это делается в один этап, а не в два, не означает, что процесс один. Это просто видимость, результат работы встроенного дистиллера.
В этом и загвоздка - не нужно принтеру, для того, что бы печатать - распознавать. Да и язык Postscript не позволяет (насколько я знаю).
То, что Вы хотите - это не виртуальный принтер, а виртуальный OCR. Что бы программа типа файнридера сделала всю работу, но Вы бы этого даже не заметили, а потом ещё и результат OCR заново записала в pdf. Чисто технически это наверное возможно реализовать. Только зачем?
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
Это подстановка одних шрифтов вместо других. Процесс более простой, чем OCR.
Функция "печатать шрифт как растр" действительно существует. Но это очень простая операция. А вот "растр как текст" - это уже OCR. Процесс сложный и не нужный для целей принтера.
На самом деле я очарован вашей идеей. Действительно, почему нет автоматического аналога этого процесса.
Ведь что мы делаем в Finereader:
1. Открываем изображения.
2. Анализируем текст (рисуем области).
3. Распознаем текст.
4. Сохраняем во внешнее приложение.
Почему же нельзя это автоматизировать, сделать одним процессом. Где мы просто укажем - входной файл - распознать - выходной файл.
Наверное потому, что это не очень нужно - ведь результат получится грязный. Потому что файнридер позволяет на каждом этапе своих процессов контролировать и поправлять результат.
Отв: Что делать с книгами, в которых нет текстового слоя
Отв: Что делать с книгами, в которых нет текстового слоя
niksi, спасибо за подробное разъяснение.
Отв: Что делать с книгами, в которых нет текстового слоя
в комменте http://lib.rus.ec/node/198011#comment-123124 указал ссылки на 2 книжки Малколма Гладуэлла(на Либрусеке есть на англ., а эти на русском)
"Озарение" и "Переломный момент"
Отв: Что делать с книгами, в которых нет текстового слоя
FR Portable 9 распознает без всяких лишних манипуляций )
Отв: Что делать с книгами, в которых нет текстового слоя
А у меня и не Portable, и тоже распознает без всяких манипуляций. Как установился, так и стал распознавать. Но у меня ХР. А у Вас, Игорёк, Vista?