txt2html
>>> Вероятно, имеется ввиду, что не работает с русским текстом?
>>> >> > В мане об опции -8 написано.
>> >> Разумеется. Но требование явного указания опции, чтобы отключить
>> >> некоторые неработающие умолчания настораживает.
> > Можно поподробнее о неработающих умолчаниях? Ибо беспредметно как-то
> > оные "наезды" пока выглядят.
--eight_bit_clean | -8 disable Latin-1 character entity naming (default: false)
По умолчанию текст на входе предполагается в кодировке Latin-1 (независимо
от локали) и на выводе преобразовывается в entities.
>>> >> > apt-cache policy txt2html
>>> >> > txt2html:
>>> >> > Installed: 2.51-1
>> >> У меня в этче 2.44-4.
> > Что мешает обновить версию? Сильно подозреваю, что пакет из lenny
> > встанет на etch безо всяких дополнительных телодвижений
> > (в зависимостях там perl >= 5.6).
Разбор всяких багов txt2html, поиск и портирование версии, где они
исправлены, поддержка этого — это и есть дополнительные телодвижения.
Скрипт на полдюжину строк делает всё, что мне нужно от txt2html, а на
дюжину — решает мою задачу полностью.
#!/bin/sed -f s/&/\&/g s/\/\>/g s/ \+$// s/\(^\| \) \+/\1/g s/\(^\| \)"/\1«/g s/"\([ ,.!?]\|$\)/»\1/g s/^\(-\{1,3\}\|–\|—\) /— / s/ \(-\{1,3\}\|–\|—\)\( \|$\)/ —\2/g s/^.*$/&<\/p>/