Главная| Трекер| Поиск| Правила| FAQ| Группы| Пользователи| |
[Работа с DVD. Урок 2] Конвертация IDX/SUB --> SRT. Распознавани
|
![]() |
Список форумов brodim.com » Кино, Видео и ТВ - правила, помощь и предложения по разделу |
|
Автор | Сообщение
|
---|---|
DarthNihilus ® Пол: Стаж: 9 лет 3 месяца Сообщений: 993 Репутация: 166 [+] [-] Откуда: Антарктида |
Конвертация IDX/SUB --> SRT. Распознавание русских субтитров из IDX/SUB и SUP (DVD, BD)Автор: germanm2000В раздачах DVDRip иногда встречаются внешние субтитры в формате IDX/SUB. Это графические субтитры, извлеченные из DVD с помощью специальных программ. Они могут быть подключены к видео с помощью DirectShow-фильтра VSFilter (прежнее название VobSub). По разным причинам бывает нужно конвертиртировать их в текстовый формат SRT. Конвертация в данном случае подразумевает оптическое распознавание символов (OCR), т.е. перевод изображений в последовательность кодов, использующихся для представления в текстовом редакторе.
Автоматических "распознавалок" для русских субтитров, насколько я знаю, не существует. Из программ, использующих ручное распознавание, многим известна SubRip, но с IDX/SUB она, к сожалению, не всегда хорошо справляется. При таком раскладе предлагаю воспользоваться программой IdxSub2Srt из комплекта AVIAddXSub. IdxSub2Srt может работать практически с любыми IDX/SUB, включая русские. Скорость обработки зависит как от активности пользователя (т.к. распознавание идет в ручном режиме), так и от качества самих IDX/SUB. Программа довольно простая, но со своими нюансами, о которых и будет рассказано ниже. КРАТКИЙ ОБЗОРIdxSub2Srt - бесплатная программа для конвертирования IDX/SUB файлов в текстовый формат SRT. Файлы IDX/SUB генерируются в основном из DVD дисков и фактически представляют собой субтитровое содержимое этих DVD. Файлы IDX/SUB содержат субтитры в виде битмапов (картинок), поэтому для конвертирования их в текстовый формат SRT необходима функция оптического распознавания символов (Optical Character Recognition, OCR). Способ, которым эта функция реализована в IdxSub2Srt, делает, как я думаю, весь процесс конвертирования простым и удобным, поэтому пользователь, приложив не так уж много усилий, имеет возможность за приблизительно 10 минут конвертировать какие-либо субтитры, содержащиеся в IDX/SUB, в их текстовый эквивалент в SRT формате.Используемая в программе функция OCR это просто сопоставление букв изображениям символов, и все усилия пользователя сводятся к тому, чтобы обучить программу, что текст (обычно одиночная буква) соответствует определенному символу в субтитровых битмапах. После того, как программа обучена всему используемому алфавиту и прочим символам (цифрам, например, и т.п.), все субтитры с легкостью могут быть преобразованы в текст. IdxSub2Srt делает весь обучающий процесс удобным и быстрым, насколько это возможно, и, думаю, весьма преуспевает в этом аспекте. Есть возможность сохранения базы данных OCR, поэтому каждый новый проанализированный IDX/SUB может быть проверен по этой базе, и если там уже есть известные символы, то пользователю остается распознать только недостающие. В настоящий момент IdxSub2Srt способен работать с английскими субтитрами и теми, которым соответствуют набор символов по умолчанию, настроенный в вашем компьютере под управлением Windows. Например, если на вашем компьютере установлен (через Панель управления/Язык и региональные стандарты/Дополнительно) русский язык как набор символов по умолчанию для не-Юникод текста, то программа сможет обрабатывать английские и русские субтитры, конвертируя их в текст. Причин для конвертирования IDX/SUB в SRT может быть много. Например, с целью пересоздания имеющегося файла IDX/SUB со шрифтом, размером шрифта и положением на экране по выбору пользователя. Как например, в случае с моим WDTV медиа-плеером, который очень хорошо поддерживает субтитры IDX/SUB. Обычно информация о позиционировании в оригинальных IDX/SUB не подходит для данного медиа-плеера (не говоря уже о качестве и размере шрифта), поэтому я конвертирую IDX/SUB в SRT, а затем обратно в IDX/SUB с помощью AVIAddXSubs (находится в одном архиве с IdxSub2Srt), но теперь уже с подходящим для WDTV позиционированием на экране и гораздо лучше выглядящими буквами, большими по размеру. Другая полезность конвертации заключается в том, что переводчики получают оригинальные субтитры в виде текста и могут перевести их потом на другой язык. Файл SRT - более универсальный формат хранения ваших субтитров вместе с соответствующими видеофайлами. К тому же субтитры в таком виде занимают намного меньше места. ОПИСАНИЕ ПРОГРАММЫ
ПОРЯДОК РАБОТЫСначала выберите язык для извлечения из IDX/SUB. См. п.1.Затем загрузите IDX/SUB (2). Программа извлечет относящиеся к выбранному языку картинки (битмапы). Битмапы будут проанализированы и все отдельные символы будут внесены в список. Далее программа проверит эти символы по имеющейся базе данных OCR. Если обнаружится OCR файл, имеющий в списке 10 таких же символов, что и в загруженном IDX/SUB, то этот OCR файл будет использован. Теперь пользователь должен обучить программу введением каких-то новых символов. Процесс анализа IDX/SUB файла происходит только один раз. Когда вы сохраняете свою работу вручную кнопкой "Save" (3) или автоматически при каждом выходе из программы, создается файл PRJ в той же папке, что и IDX/SUB. В нем содержится вся информация анализа и использованного OCR файла. В следующий раз, когда IDX/SUB файл перезагружен, а соответствующий PRJ файл находится в той же папке, то вся необходимая информация анализа загружается из этого PRJ. В самый первый раз, когда IDX/SUB загружен и проанализирован (файла PRJ пока нет), появившееся окно предложит пользователю помочь программе определить наилучшее отображение текста на картинках. Выберите цвет, дающий наиболее цельный и нежирный вид букв первого субтитра из IDX/SUB, который отображается в поле 6 главного окна. Программа предложит лучший цвет по ее мнению, но, возможно, вы сможете сделать лучший выбор. В общем, если предложенные цвета дают цельный и нежирный вид букв, то сохраните их (внутренняя часть букв/основной цвет). Избегайте цветов, представляющих собой контуры букв. Пожалуйста, обратите внимание, что данные обучения OCR не сохраняются в PRJ файлах (для каждого загруженного IDX/SUB создается свой PRJ файл). Ваша работа хранится в базе данных OCR, которая представляет собой папку "OCR" в том же каталоге, откуда был запущен IdxSub2Srt. В базе данных OCR находятся парные файлы OCR*.txt/OCR*.bin, в которых в действительности сохраняется вся ваша работа. Однако, в файлах PRJ содержится некоторая другая информация, такая как текст, введенный при отмеченной опции "Use my edited text" (10) и информация о субтитрах, которые следует пропустить при генерации SRT (17). За исключением перечисленной информации все остальные данные анализа могут быть восстановлены в случае, если PRJ файл будет удален. Программа загрузит соответствующий OCR файл и в конечном итоге будет создан новый PRJ файл. Обратите внимание, что если вы по какой-либо причине удалите базу данных OCR, то все PRJ файлы тоже должны быть удалены. Теперь начинается реальное обучение OCR. В каждом из субтитров, которые можно пролистывать кнопками 5, имеется определенное количество символов, извлеченных посредством анализа. Ваша работа состоит в замене символа #, присваиваемого автоматически и означающего "неизвестный символ", каким-либо другим текстом, на самом деле соответствующим выделенному символу. Этот символ может встретиться несколько раз в одном субтитре и, конечно, во многих других субтитрах. Например, на приведенном выше скриншоте главного окна программы выделено изображение русской буквы "н". Она показана красным цветом в поле 8 и в нескольких местах субтитровой картинки в поле 6. То есть буква "Н" найдена в текущем изображении субтитра 4 раза. Каждый раз, когда соответствующий текст вводится в поле 9, генерируется текст субтитров, который можно видеть в поле 14. Постепенно все значки # заменяются текстом, введенным пользователем. Для ускорения работы отметьте опцию "Only Unknown letters" (13). Это поможет сконцентрировать усилия только на нераспознанных субтитрах и символах. Отметив эту опцию, вы сможете пролистывать субтитры только вперед и только если введете текст для текущего символа, т.е. распознаете его. Когда вы переходите к следующему нераспознанному символу, в поле 11 вы можете видеть число субтитров, которые еще не полностью распознаны. Если вы ошиблись и хотели бы вернуться, чтобы исправить текст, введенный для символа в текущем субтитре, то просто снимите галочку 13, перейдите к нужному символу, сделайте исправления и снова поставьте галочку 13, чтобы продолжить работу. Один из аспектов, который следует принять во внимание, - то, как программа вставляет пробелы, организуя текст в слова. Расстояние между символами сверяется с двумя числами ("AVRG Normal" и "AVRG Italics" - см. п.12). Первое число влияет на обычный текст, второе - на курсивный. Когда расстояние между любыми двумя последовательными символами меньше, чем число AVRG, то тогда они рассматриваются принадлежащими к одному слову. Если расстояние больше, чем это число, то тогда между ними вставляется пробел. Эти два числа определены путем некоторых статистических вычислений, но пользователь может их настроить и посмотрев результат (14) решить, какое значение AVRG дает лучшее "словоразделение". Когда все символы распознаны, вы можете нажать кнопку "Generate Srt" (4) для генерации файла SRT. Он будет создан в том же каталоге, что и загруженный IDX/SUB. Дополнительно: распознавание субтитров SUP (DVD, BD)Кроме IDX/SUB могут попасться графические субтитры в формате SUP (DVD или BD), извлеченные, соответственно, из DVD и Blu-ray дисков. Для конвертации их в текстовой формат так же необходимо оптическое распознавание.Предлагаю самые простые, на мой взгляд, способы. Русские субтитры распознаются вручную с помощью IdxSub2Srt, английские - автоматически в DVDSubEdit. -Софт: - IDX/SUB Английские:
SUP(DVD) Русские:
SUP(BD) Русские:
_________________ [Нет сидов - включите DHT] |
[Торрент-статистика]
|
![]() |
Список форумов brodim.com » Кино, Видео и ТВ - правила, помощь и предложения по разделу |
Текущее время: Сегодня 18:44
Часовой пояс: GMT + 4
Вы не можете начинать темы
Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах Вы не можете прикреплять файлы к сообщениям Вы не можете скачивать файлы |