JAVA 变长UTF-8 编码转为 UNICODE_JAVA

您所在的位置：程序员俱乐部 > 编程开发 > JAVA > JAVA 变长UTF-8 编码转为 UNICODE

JAVA 变长UTF-8 编码转为 UNICODE

2013/8/9 13:20:54 ljq0310 程序员俱乐部我要评论(0)

摘要：/***UTF编码转为UNICODE*@paramb*@return*/privatebyte[]UTF8_TO_UNICODE(byte[]b){byte[]BUF=newbyte[b.length];intj=0;for(inti=0;i<b.length;i++){bytetempBuf=b[i];//intcode=(b[i]&0xFF)|((b[i+1]&0xFF));(没有用，之前是用来做ifelse判断的，现在直接用编码第一个字节做判断)if
标签：Java 为编码

class="java">
 /**
     * UTF编码转为 UNICODE
     * @param b
     * @return
     */
	private byte[] UTF8_TO_UNICODE(byte[] b){
		byte[] BUF=new byte[b.length];
		int j=0;
		
		for (int i = 0; i < b.length; i++) {
			byte tempBuf=b[i];
			//int code=(b[i] & 0xFF) | ((b[i + 1] & 0xFF) );(  没有用 ，之前是用来做if else 判断的，现在直接用编码 第一个字节做判断)
			if(tempBuf==34)  // 引号直接跳过
				continue;
			int size=i+1;
			if(size<b.length && tempBuf==0 && b[size]==32){   //由于84, 21, 92, 92, 17, 92, 92, 113,  此类由于解析协议不晓得，将可能出现乱码，所以以空格为间隔符，让缓存BYTE转为偶数位，以便后面的身份证不会乱码
				//Log.e("空格","i="+i+"  tempBuf="+tempBuf+"  j="+j);
				if(j%2!=0){
					j++;
				}
			}
			if(tempBuf<=127 && tempBuf>=0){   //第一类 单字节
				BUF[j++]=tempBuf;
				continue;
			}else if(tempBuf<=-33 ){			 //第二类(2个字节)
				byte[] buf=new byte[2];
				buf[0]=(byte) ((b[i] ^ MASK2BYTES));
				buf[0]=(byte) (buf[0]<<6);
				buf[1]=(byte) (b[i+1] ^ MASKBYTE);
				byte result=(byte) (buf[0] ^ buf[1]);
				//zhuan(new byte[result]);
				Log.e("---",String.format("%02x", result));
				BUF[j++]=result;
				i++;			
			}
			else if(tempBuf <= -17){  //第三类情况(3个字节),此类算法最终需要得到的是两个字节的编码，每个字节为一个十六进制的unicode编码，所以要涉及到把一个short拆分成连个byte
				short[] buf=new short[3];
				buf[0] = (byte)(b[i] ^ MASK3BYTES);  
				buf[0]=(short) (buf[0]<<12);
				buf[1] = (byte) (b[i+1] ^ MASKBYTE  );  
				buf[1]=(short) (buf[1]<<6);
				buf[2] = (byte) (b[i+2] ^ MASKBYTE);  
				//... 没解析完。。。。没有TF卡，不知道怎么解析恶劣
				short buf1 = (short) (buf[0]^buf[1]);
				BUF[j++]=(byte)(buf1>>8);
				short buf2= (short)(buf[0]^buf[2]);
				BUF[j++]=(byte)buf2;
				i=i+2;   //由于 循环 最后还会执行一个 i++,所以这里i只能+2 
			}	
			//理论上 UTF-8组成的编码可以最长到6个字节，实际上 中文一般会只用到3个字节的UTF-8，4-6个字节的解码算法待续
			
		}
		
		//需要对已经转换的BYTE[]进行重组，BUF[]的后面一些是空的，会解析成乱码,而转换出来的编码长度，应该是j
		byte[] resultBuf=new byte[j];
		for (int i = 0; i < resultBuf.length; i++) {
			resultBuf[i]=BUF[i];
		}
		return resultBuf;
	}

上一篇： java获取resultset返回行下一篇：苹果应将廉价 iPhone 策略应用到 iPad 上