21世纪商业评论电子版:php解析网页字符编码问题

来源:百度文库 编辑:杭州交通信息网 时间:2024/04/29 20:10:04
各位老哥,小弟处理网页时遇到些难处,想用php把utf-8编码类型的网页中所有的双字节字符提取出来,另行处理(所有的双字节型,不仅仅汉字),请问该如何实现?望各位大哥给以明鉴。谢谢。
呵呵,从网上直接读到的html代码,一切由程序处理。

function replace_str( $subject ) {
$tStr = '';
$tStr2 = '';
$sSta = 0;
$tDot = '';
for ( $i = 0; $i < strlen( $subject ); $i++ ) {
if ( $sSta ) {
$tStr2 .= htmlentities( $tStr ) . $tDot;
$tDot = '';
$tStr = '';
$sSta = 0;
}
switch ( $subject[$i] ) {
case '<':
case '>':
case '=':
case '"':
case '\'':
case '/':
case '&':
case ' ':
$tDot = $subject[$i];
$sSta++;
break;
default:
$tStr .= $subject[$i];
break;
}
}
$tStr2 .= htmlentities( $tStr ) . $tDot;
return $tStr2;
}

用dreamveaver打开,再改页面字符集