doku 發表於 2011-11-22 20:10:37

解字板(解讀亂碼) v4.0 繁體中文版

本文章最後由 doku 於 2011-11-22 20:15 編輯

◆軟體名稱:解字板(解讀亂碼) V4.0
◆軟體作者:指知數(阿翔) [email protected]
◆界面語言:繁體中文
◆授權方式:免費軟體
◆軟體類型:應用軟體 / 轉換翻譯 / 普通軟體
◆軟體大小:590 KB
◆運行環境:Windows 98/ME/2000/XP/2003/Vista
◆軟體位置:
◆安裝說明:綠色、免安裝,這是用『UltraEdit-32-14.20-繁中』處理簡翻繁~~成功了95%,還有一些亂碼無法處理~~
◆軟體圖片:


◆軟體簡介:
  解字板(解讀亂碼) V4.0綠色版,用來解讀亂碼的小工具。
可解讀:HTM--U,QP,URL,Base64,UTF7,HZ
可轉換:GB--Big5,GB--UTF8,英文--GB,GB--日文,GB--韓文 等
可解決:錯失「半個漢字」造成的亂碼
每種亂碼的特徵都列在操作菜單上,供用戶對號入座。
打鉤的是常見種類。
能夠「撤消」「重做」,支持右鍵菜單,限制鍵盤編輯,保護原始文本。
只要「粘貼作原始」,即可作為原始文本得到保護。
本軟體不用安裝,可直接運行「JZB.exe」使用。
運行環境要求:
◇ 作業系統:簡體中文版 MS Windows。
◇ 最好已經安裝 MS Office 軟體,或 WPS Windows 版。
----------------------
◇ 必需的文件:只有一個,「JZB.exe」。
◇ 文件「解字板說明.txt」
◇ 文件「FM20.DLL」和「FM20CHS.DLL」,對沒有安裝 MS Office 的用戶可能有用。
◇ 文件夾「JZB_TXT」,用來給用戶存放自己的文件。
在這文件夾裡,已存有幾個典型的亂碼例子和一些參考資料:
「表1:語文區號和名稱.txt」「表2:代碼頁和字符集.txt」「表3:簡體繁體.txt」
----------------------
使用提示:
◇ 經過複製、粘貼,文本可能會有損失。比較理想的是,直接打開原文件。
當用IE看網頁,或用OutLook看郵件,出現全篇的亂碼,首先要嘗試更改「查看/編碼」的選擇。
同樣,當用記事本打開文件後,看見全篇的亂碼,首先要嘗試更改「打開/編碼」的選擇。
解字板的操作菜單所列的亂碼特徵,可供參考。
◇ 如果同一文本中存在不同種類的亂碼,建議用"文件/新窗口"多開一個窗口,
把單一種亂碼複製出來解讀。
◇ 有時需要多次嘗試,解讀才能成功。
如果確定某次嘗試是不成功的,應該先撤消這次操作,甚至退到原始文本,再進行另一種嘗試。
◇ 要用盡量少的操作次數來解讀,以減少信息的損失。
例如,解「Base64--UTF8」,相當於解「Base64--GB」然後解「GB--UTF8」,從命名可以看出來。
具體的做法:打開文件「舉例:Base64--UTF8.txt」,
嘗試解「Base64--GB」後,出現「GB--UTF8」的特徵,然後嘗試解「GB--UTF8」,解讀出來了。
這時,應該退回到原始文本,執行解「Base64--UTF8」。
(撤消和重做的每一步,窗口左上角都有提示信息)
◇ 有時需要多種解讀操作配合使用。
例如,某些簡體中文版的網頁的亂碼,有可能已經被統一「轉簡體」。對此要做如下處理:
分別複製到兩個解字板窗口,其中一個全文轉正體字,然後解讀;另一個窗口不轉,直接解讀。
往往兩個窗口各自能解讀出一些,需要我們將兩者可以綜合在一起。
◇ 解字板上的文本,不能像「記事本」或「MS Word」那樣可以直接用鍵盤編輯。
鎖住了:字母鍵、數字鍵、回車鍵、空格鍵。
可以用:箭頭鍵,Home,End,PageUp,PageDown,以及各菜單上相應的快捷鍵。例如是回車。
鼠標右鍵菜單,等同於「編輯」菜單。
◇ 例如,輸入「Hello!」:先把光標移到文本插入點,點擊「編輯/插入」,
或者按鍵(或寫),然後在對話框中輸入「Hello!」,確定。
又例如,把文本中所有的「MS」都替換為「微軟」:先在文本中選取「MS」,點擊「編輯/字串替換」,
或者按鍵,然後在對話框中輸入「微軟」,確定。
◇ 解字板的能力,僅限於操作菜單上所列的亂碼種類。
◇ 若有重要的資料用解字板解讀,請用戶事先對原始文本進行備份保存,以防萬一。
◇ 字符內碼轉換,常用的起止方式有:
(1)從字符到字符 (2)從文件到文件
到目前為止,解字板只提供「從字符到字符」方式。
用「見字操作」來解讀亂碼比較好。
---------------------
亂碼的命名及理由:
◇ 凡是不能直接閱讀的字符串,都可以稱之為亂碼。
亂碼情況繁多,下面只討論常見的一些類型。
◇ 字符串「經驗及體會」,用Big5編碼,用GB解碼,變成了「奇噴砰檳」。
這個編解的過程,編碼和解碼不匹配,叫「錯解」。
(相對而言,編碼和解碼是匹配的,叫「對解」)
需要做一次反方向的錯解:用GB編碼,用Big5解碼,還原為「經驗及體會」。
「奇噴砰檳」這種亂碼,就命名為「GB--Big5」。
◇ 有意地用某種規則而做成的編碼文本,也當作亂碼來命名。
「經驗及體會」經過UTF8編碼,Base64編碼,變成「57aT6amX5Y+K6auU5pyD」。
需要用反方向操作來解讀:Base64解碼,UTF8解碼,還原為「經驗及體會」。
「57aT6amX5Y+K6auU5pyD」這種「亂碼」,就命名為「Base64--UTF8」。
◇ 有意的亂碼因為有嚴密的規則,一般能精確地還原。
無意的亂碼,信息會有不同程度的損失。
例如,「UTF8--GB」亂碼和「UTF8--Big5」亂碼,失真太多,解字板不能解讀。
◇ 有的亂碼,是由於局部的字節移位造成的。如「GB+半字」。
GB用2個字節表達一個漢字,1個字節就是所謂「半字」。
當丟失或增加了1個字節時,引起隨後的一串字節移位,結果若干個漢字變為亂碼。
如「經驗及體會」,變成「涷灱綁w會」。
需要在亂碼的開始處插入或刪除1個字節,以抵消移位。名稱「GB+半字」由此而來。
加上原來丟失的1個字節,總共損失1個漢字,解讀結果是「 驗及體會」。
◇Unicode LE (簡稱U),Unicode BE (UBE),UTF-8 (UTF8),這3種編碼格式,
能編碼所有字符。保存為文件時,一般在文件開頭加上一個BOM(字序標記)。
有BOM,使現今多數的字符處理軟體都能正確識別並解碼。
例如,文件夾「JZB_TXT」裡面的亂碼舉例的文件,都用UTF8編碼保存。
解字板打開文件時,會根據BOM自動採用UTF8解碼。
UTF8--UTF8是「對解」,編碼和解碼相互抵消,文件的存取就不影響亂碼舉例。
◇ 編碼格式的名稱,本來應當以字符集名稱為準。
但是,解字板為了簡便和直觀,有些編碼格式以語文名稱來稱呼。
例如,語文名稱「日文」就是指:日文的默認字符集「日文(Shift-JIS)」。
詳情請參看資料「表1:語文區號和名稱.txt」的附錄部分。
---------------------
版本記錄:
從3.4更新到4.0(2011年5-7月)
◇ 優化大部分字符串函數的參數和調用。
◇ 增加 LCID 和 CP 的種類。
◇ 調整幾個菜單項的位置和快捷鍵。
◇ 調整在存取文件時,編碼格式的名稱。
從3.3更新到3.4(2010年9月)
◇ 增加「編寫亂碼」的種類。
◇ 改善幾處糾錯語句。
從3.2更新到3.3(2010年3月)
◇ 增加「打開/保存」的編碼格式,優化自動識別功能。
◇ 改進「打開/保存」對話框。
從3.1更新到3.2(2010年3月)
◇ Base64解碼,不再探測邊界,改為允許局部選取,更可靠。
◇ 盡量用字串不用數組,使邏輯統一簡化。
從3.0更新到3.1(2010年3月)
◇ 優化「解讀亂碼(1)」各函數的字串運算。
◇ 增加「逆向查找」功能。
◇ 小調整:按紐、快捷鍵。
從2.5更新到3.0(2010年2-3月)
◇ 增加代碼頁和字符集的輸入選擇。
◇ 改進語文區號和名稱的輸入選擇。
◇ 增加HTML轉義字符的解讀。
◇ 增加「Esc+ISO2022」的解讀。
◇ 改進:繁簡轉換,查找,GB+半字,UTF8解碼,讀文件的格式判斷。
◇ 優化字符串運算;調整亂碼命名。
◇ 改正2.5版裡Base64解碼的一個錯誤:若兩空行開頭則死循環。
----------------------

moh_yu 發表於 2012-7-15 08:14:43

感謝大大分享,好用....但是否有WIN7可執行版本?:D
頁: [1]
檢視完整版本: 解字板(解讀亂碼) v4.0 繁體中文版