Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Подайте бедному копеечку на книжку с литреса... 21 час
sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 2 дня sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 недели larin RE:Пропал абонемент 3 недели Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 дня larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 2 месяца MrMansur RE:<НРЗБ> 2 месяца Stager RE:Беженцы с Флибусты 2 месяца Впечатления о книгах
Isais про Голотвина: Домашний учитель для чудовища [СИ] (Боевая фантастика, Социальная фантастика, Самиздат, сетевая литература)
08 03 «Домашний учитель для чудовища» — то же, что и «Педагогическая баллада» этих же авторов, сюжет и фабула совпадают. Но за счет добавления деталей, их переакцентировки, более прописанного социального фона именно этот вариант ……… Оценка: хорошо
Barbud про Смолин: Ван Ван из Чайны 4 (Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
08 03 Первые три части были более-менее читабельны, на четвертой я сломался. Смрадным потоком попёрло политиканство, рассуждения о патриотизме, охаивание тех, кто не разделяет идеи этого самого китайского патриотизма и т.д. Читать дальше не вижу смысла. Оценка: нечитаемо
Isais про Аренев: Порох из драконьих костей (Детская фантастика, Городское фэнтези, Самиздат, сетевая литература)
08 03 Просто поражает, как в 2015-м году писатель точно, хоть и метафорично, но в деталях описал весь бытовой уклад, который сложился в России 2024-2026 гг., многое, что происходит в сегодняшней России и что, по прогнозам, еще будет ……… Оценка: хорошо
udrees про Володин: Газлайтер. Том 8 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
08 03 Продолжение бандитской жизни в бандитской стране – какой-то России будущего, где всеми заправляют феодалы-дворяне в стране. Любые проблемы решают чисто по-гангстерски, Чикаго 30-х годов отдыхает, и 90-е годы в России тоже. ……… Оценка: неплохо
udrees про Володин: Похождения египетского бога в типично фэнтезийном мире [СИ] (Фэнтези, Эротика, Самиздат, сетевая литература)
08 03 Порнографический опус, ценности почти никакой, написано примитивно, все разговоры такие же простые, практически на каждой странице описания сцен секса, в том числе извращенных, все женщины любят анальный секс и минет, вот ……… Оценка: плохо
udrees про Некрасов: Cut Shot 18+ [СИ] (Эротика, Юмор: прочее, Самиздат, сетевая литература)
08 03 Порнографический высер озабоченного подростка. Никакого сюжета, описаний мало-мальски серьезных, разумных разговоров – просто безостановочный трах на каждой странице, по любому поводу, с любой особой женского пола, в любую ……… Оценка: плохо
udrees про Вальтер: Браконьер 1 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
08 03 Параллельная книга-история по вселенной Жажды, про войну вампиров и людей. Еще одна история выживальщика в новом мире, начиная с самого начала катастрофы. Описания хорошие, даром что герой не супермен, а обычный автослесарь, ……… Оценка: хорошо
mysevra про Шацкая: Настольная книга стервы (Психология)
06 03 О, это нечто, товарищи. Хотя я лично знакома с барышней неопределенного возраста, для которой эта книга, а ещё «Как влюбить в себя любого» Лаундес и биография принцессы Дианы являются действительно настольными, и всё у неё ……… Оценка: неплохо
mysevra про Лондон: Время-не-ждет [= День пламенеет] [Burning Daylight ru] (Приключения: прочее, Классическая проза ХX века)
06 03 У этого автора все работы замечательные, но некоторые особо выделяются на общем фоне. Эта книга – одна из таких, её не забудешь и ни с чем не спутаешь. Оценка: отлично!
mysevra про Эстес: Бегущая с волками. Женский архетип в мифах и сказаниях [Women Who Run with the Wolves. Myths and Stories of the Wild Woman Archetype ru] (Мифы. Легенды. Эпос, Психология, Самосовершенствование)
06 03 Кто-то очень метко высказался: «Женская энергия – это не про соответствие каким-то шаблонам. Не про жертвенность, не про покорность и уж точно не про вечную улыбку. Это про способность быть мягкой без слабости, гибкой без ……… Оценка: отлично!
Chernovol про Ефимович: Майя Плисецкая (Биографии и Мемуары)
05 03 Хорошая книга, но ни одной иллюстрации-фотографии. Оценка: хорошо
nightrunner про Пехов: Птицелов (Фэнтези, Самиздат, сетевая литература)
03 03 Хуже предыдущей. Опять поди с бабой своей писал Оценка: неплохо |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?