------------------------------------------------------------------------------- HTML -> TEXT変換フィルタ HtoX32c Ver.1.72 取扱説明書 Copyright(C)1998-2004 by T-Matsuo ------------------------------------------------------------------------------- ■概要■  HtoX32cは、HTMLで書かれたファイルからテキストファイルを生成するフィルタソフト です。タグ情報をもとに整形も行います。JIS,EUC,シフトJIS,Unicode,UTF-8の各文字 コードを自動判別して、シフトJISに変換して出力します。 ■改編履歴■ 2004/08/08 Ver.1.72 ・「〜外は変換しない」オプションを廃止 ・タグがネストしている時に「テーブルの常に左寄せ」オプションが効かなく なるバグを修正 ・文中に半角カタカナを含むと、2バイト文字が改行で分断されることがあるバグを修正 ・強制改行後は一時的に左寄せするように修正 ・タグをsrc属性の文字列に置換できる機能を追加(BBS6223) 1999/6/21 Ver.1.71 ・希に、、を誤判定することがあるバグを修正 1999/5/30 Ver.1.70 ・HTML4.0の全ての文字実体参照(Å 等)、数値文字参照(å 等)に対応。 ただし、シフトJIS全角で表現できない文字は"??"で置換する。 ・
タグの挙動を改善
・タグに対応
・入力可能文字コードにUnicode,UTF-8を追加
・中間出力ファイルを環境変数 TMP か TEMP で指定されたディレクトリに作成する
ように改良

1998/11/21 Ver.1.61
・改行コードで分断されたタグを処理できるように改良

1998/11/09 Ver.1.60
・HtoX Ver.1.60 for DOS からの移植


■動作環境■

 Windows95/98/Me/NT4.0/2000/XP


■アーカイブの内容■

HtoX32c .txt  取扱説明書(this text)
HtoX32c .exe  実行ファイル


■使用方法■

書式 : HtoX32c {options} [InputFile1] [InputFile2] [InputFile3] ...

 引数に変換したいhtmlファイルを指定すると、拡張子を.txtに変更したテキストファ
イルを作成します。複数ファイルの指定及びワイルドカードによる一括変換も可能です
。出力ファイル名を明示的に指定したい場合は、">"記号を使用してリダイレクトして
ください。

    (例1: index.htm をテキストファイルindex.txtに変換したい)
    c:\>HtoX32c index.htm

    (例2: index.htm をテキストファイルoutput.txtに変換したい)
    c:\>HtoX32c index.htm > output.txt

    (例3: カレントディレクトリの拡張子 .htm のファイルをテキストファイル
    に変換したい)
    c:\>HtoX32c *.htm

    (例4: index.htm と index2.htm をテキストファイルに変換したい)
    c:\>HtoX32c index.htm index2.htm

    (例5: カレントディレクトリの拡張子 *.htm のファイルを output.txt に変換
    したい)
    c:\>HtoX32c *.htm > output.txt

    (例5: index.htm の内容を閲覧したい)
    c:\>HtoX32c index.htm | more

    オプションは以下のように使用します

    c:\>HtoX32c /t0 /m0 input.htm

    使い方は、以下の通りです

    /H            : 簡単なヘルプを表示して終了します.
    /Cn           : 行揃えを行う時の想定桁数を指定します. [n:1-255]
    /T{0|1}       : <TITLE>〜</TITLE>タグでタイトルを挿入 [0:しない,1:する].
    /I{a|j|s|e|u|8|p} : 漢字コード変換を行うため,入力漢字コードを指定します.
	    [a:(自動),j:JIS,s:shiftJIS,e:EUC,u:Unicode,8:UTF-8,p:無変換]
    /S{0|1}       : 連続するスペースを削除 [0:しない,1:する].
    /L{0|1}       : 行頭行末スペースを削除 [0:しない,1:する].
    /E{0|1}       : 文中のEOFコード(0x1a)を除去 [0:しない,1:する].
    /F{0|1}       : 文末が改行コードでないときは改行コードを付加
                                               [0:しない,1:する]
    /O{0|1}       : 出力ファイルの上書き確認を [0:しない,1:する]
    /G{0|1|2|3|4"ユーザ定義文字列" (%s=代替テキスト)}: <IMG>タグの置換
            [0:(しない),1:"[Image]",2:"[(src=)]",3:"[(alt=)]",4:USER定義]
    /D{0|1|2}     : テーブルの区切り文字 [0:半角スペース,1:カンマ、2:TAB]
    /Q{0|1}       : 「行揃えの想定桁数」で強制改行 [0:(しない),1:する]
    /A{0|1}       : テーブルを常に左寄せ [0:(しない),1:する]
    /U{0-7}       : リンク先のパスを挿入
                        [0:(しない),1:する,+2:(前後で改行),+4:(外部リンクのみ)]

    オプションを指定しなかった場合、以下のオプションが指定されたと見なします

                 /C79 /T1 /Ia /S1 /L1 /M0 /E1 /F1 /O1 /G0 /D0 /Q0 /A0 /U0

    オプションは次のように環境変数に登録することができます。

    set HTOX=/Q1 /T0

    優先順位は コマンドライン引数>環境変数>デフォルト です


■処理内容■

【タグの置換】
__________________________________________________
<A HREF="★">(新設:Ver.1.50〜)
	「★=リンク先パス(URL等)」
	リンク先パスに置換する
__________________________________________________
<IMG SRC="○" ALT="★">(変更:Ver.1.60/Ver.1.72)
	"[Image]","[(src=)]","[(alt=)]"またはユーザ定義文字列に置換する。
__________________________________________________
<PRE>〜</PRE>
<XMP>〜(追加:Ver.1.70〜)
	改行、半角スペース、タブコードを保存。
	(CR   =>CRLF)
	(LF   =>CRLF)
	(CRLF =>CRLF)
	タグで囲まれたテキストの前後に段落を設定する。
__________________________________________________

	出力テキストの先頭に挿入。
__________________________________________________
〜
	このタグの外は処理しない。
	(デフォルトでは無効)
__________________________________________________

「☆=線の長さ(ピクセル単位の指定はすべて100%とみなす)」 「★=LEFT(左揃え) or CENTER(中揃え) or RIGHT(右揃え)」 改行して、横罫線を"-"で再現する。 __________________________________________________
強制改行する。 __________________________________________________
指定桁内でセンタリングする。 (指定桁数をあふれた場合はそのまま出力) __________________________________________________
タグで囲まれたテキストの前後に段落を設定する。 __________________________________________________

「☆=LEFT(左揃え) or CENTER(中揃え) or RIGHT(右揃え)」 ALIGN属性にしたがって行揃えをする。 タグで囲まれたテキストの前後に段落を設定する。 「連続指定は無視、直前が改行のときは一行開けるだけ」 __________________________________________________

段落を設定する。 __________________________________________________ 「☆=1〜6 (数値による表現の相違は無し)」 「★=LEFT(左揃え) or CENTER(中揃え) or RIGHT(右揃え)」 ALIGN属性にしたがって行揃えをする。 タグで囲まれたテキストの前後に段落を設定する。 __________________________________________________

「☆=LEFT(左揃え) or CENTER(中揃え) or RIGHT(右揃え)」 ALIGN属性にしたがって行揃えをする。 ALIGN属性を省略したときはLEFTが指定されたとみなす。 タグで囲まれたテキストの前後で改行する。 __________________________________________________
タグで囲まれたテキストの前後に段落を設定する。 __________________________________________________
改行して、半角スペース2個でインデント。 __________________________________________________
改行する。 __________________________________________________
タグで囲まれたテキストを半角スペース2個でインデント。 タグで囲まれたテキストの前後に段落を設定する。 (ネスティング可) __________________________________________________
  • 改行する。 (
    の中では番号順リストを作成。) __________________________________________________
  • 改行する。 __________________________________________________ 削除する。 __________________________________________________ 【特殊フォントの置換】 (追加:Ver.1.70〜) HTML4.0の全ての文字実体参照(Å 等)、数値文字参照(å 等)に対応。 ただし、シフトJIS全角で表現できない文字は"??"で置換する。 __________________________________________________ 【漢字コードの変換】 (追加:Ver.1.70〜) EUC、JIS、シフトJIS、Unicode、UTF-8を自動判別してシフトJISに変換して出力。 文字コードの分布を根拠に判断します。 __________________________________________________ 【改行コード】 半角スペースに置換(
    を除く) (連続する半角スペースは1つにまとめる) __________________________________________________ 【その他】 全角スペースはそのまま 連続する半角スペース及びタブコードは1つにまとめる 行頭行末の空白を削除 文中のEOFコード(0x1a)を除去 文末が改行コードでないときは改行コードを付加 ■制限■ タグの最大長 10000バイト(とは無制限) 入出力ファイルの制限 2Gバイトまで(DOSの仕様)  中間出力ファイルを作成するので、出力ファイルと中間出力ファイルをあわせたサイ ズの空きディスクスペースが必要です。  中間出力ファイルは環境変数 TMP か TEMP で指定されたディレクトリ、または カレントディレクトリに作成され、1つのファイルを処理するたびに自動的に削除 されます。 処理するHTMLファイルは英語か日本語もしくは英日混合であることを想定しています。 それ以外の言語の場合どうなるかはわかりません(^^; それで変な動きをしたら、「漢字コード変換」のチェックを外してみてください。 ■Win32(GUI)版HtoX32について■ 以下のURLでWindowsで動作するHtoX32を公開しています。 http://www.win32lab.com/ GUIベースのプログラムですが処理内容は同じです。 ■16ビット版HtoXについて■  以下のURLでMS-DOSで動作する16ビット版のHtoXを公開してい ます。 http://www.win32lab.com/ ■使用条件等■ ・このソフトウェアは無料ですが、無保証です。 ■一次配付先■ http://www.win32lab.com/ -------------------------------------------------------------------------------
    テーブルデータでのセルの区切り文字を挿入。 (半角スペース or カンマ or TAB) __________________________________________________