2026年4月11日土曜日

あちゃぁ~の notepad.exe Dafult Encoding

日本語は PC が苦手です。
其れは エンコーディング Encoding の違いが幾つかあるから。
此の前も、 プログラムから開く で バイナリ の文字部分を見ようとして、
文字化けの嵐!。


先ず、お断りして置きたいのは、
当方の PC は 直前では Windows 10 からデータ移行したもの。
まっさら! な Windows 11 では無いので、
ひょっとしたら、違うケースがあるかも? です。

さて、
Windows 11 の メモ帳 notepad.exe を頻繁に使います。
ちょっとしたメモだの、投稿の執筆だの、テキストファイルの閲覧だの。
時折、
強引に、バイナリファイル の文字部分を覗く事もあります。

そんな時に嵌る事。
そう、 文字化け!。


通常使っている分には、概ね、問題は起きません。
エンコーディング Encoding の違い は 自動判別機能 が吸収するから。
テキストファイルの場合は、 です。


新規作成文書等は UTF-8 が基本だった(基本になった)筈。
多くの分野で UTF-8 が採用される事が多くなっている筈なのですが、
大昔は ANSI でした。
日本語版 Windows では Shift_JIS ≒ ANSI でしたね。
はい、 別名  CP932 等と呼ばれる 奴 。


過去のものをサポートする為(?)か、
プログラムから開く で notepad.exe を選択し、
バイナリファイルを覗けば、
どうやら、 ANSI 扱い の様です。

元々、バイナリ! ですから、
意味不明な文字列が ずらぁ~っと! ですが、
日本語が混ざる部分が 文字化け します。

自動検出は バイナリ では機能しません。
当たり前と言えば当たり前の事です、ね。  当然。

思うに、検出 が働か無い場合の 既定 Default は ANSI なのだろう、 と。


面倒ですが、
本当に、 面倒ですが、
以下の手順を踏む事で、
バイナリファイルの中の UTF-8 文字列 を覗く事が可能になります。

1.メモ帳 notepad.exe オープン
2.メニュバー から ファイル > 開く と辿る
3.テキストドキュメント(*.txt) を すべてのファイル(*.*) に変更
4.エンコード を 自動検出 から UTF-8 に変更
5.目的のファイルを探して、 OK を。

別のファイルを開いたり、メモ帳を起動し直したりすると、
既定の設定! に戻るので、
其の都度の手順繰り返し! が必要で、煩わしく厄介ですが、
止むを得無いですね。
本来の使い方では無いのですから。


文字化けの状況を図示して置きますか。
左が標準的な状態、右が上の手順を踏んだもの。



あれぇ、Macintosh (CR) なんて使って無いのに、
バイナリを UTF-8 指定して開いただけ。
そう、改行なんてありません。
但し、文字列終端を何か (0x00 0x0D 0x0A etc.) で示す必要がありますし、
画像データ部分が偶然、0x0D の並びになったとか、
其れで、CR として認識しているのかな?。
  実際にバイナリエディタでざっと見ると 0x0A はありますが ... 。
  あっ! ありますね、0x0D も。
表示の Linux (LF) は良く目にしますが ... 。
因みに、既定は Windows (CRLF) でしたね。



0 件のコメント:

コメントを投稿