Plain text to (x)html
Создано: 19-02-2009 19:36:33 изменено: 26-06-2009 07:45:07  Метки: sed
from debian-russian@l.d.o
txt2html

>>> Вероятно, имеется ввиду, что не работает с русским текстом?
>>> >> > В мане об опции -8 написано.
>> >> Разумеется. Но требование явного указания опции, чтобы отключить
>> >> некоторые неработающие умолчания настораживает.
> > Можно поподробнее о неработающих умолчаниях? Ибо беспредметно как-то
> > оные "наезды" пока выглядят.
       --eight_bit_clean | -8
           disable Latin-1 character entity naming (default: false)

По умолчанию текст на входе предполагается в кодировке Latin-1 (независимо
от локали) и на выводе преобразовывается в entities.

>>> >> > apt-cache policy txt2html
>>> >> > txt2html:
>>> >> > Installed: 2.51-1
>> >> У меня в этче 2.44-4.
> > Что мешает обновить версию? Сильно подозреваю, что пакет из lenny
> > встанет на etch безо всяких дополнительных телодвижений
> > (в зависимостях там perl >= 5.6).
Разбор всяких багов txt2html, поиск и портирование версии, где они
исправлены, поддержка этого — это и есть дополнительные телодвижения.

Скрипт на полдюжину строк делает всё, что мне нужно от txt2html, а на
дюжину — решает мою задачу полностью.



#!/bin/sed -f
s/&/\&/g
s//\>/g
s/ \+$//
s/\(^\| \) \+/\1/g
s/\(^\| \)"/\1«/g
s/"\([ ,.!?]\|$\)/»\1/g
s/^\(-\{1,3\}\|–\|—\) /— /
s/ \(-\{1,3\}\|–\|—\)\( \|$\)/ —\2/g
s/^.*$/

&<\/p>/


1161 просмотров комментировать