真石漆喷枪使用方法:有关C和html语言的问题

来源:百度文库 编辑:杭州交通信息网 时间:2024/05/02 04:52:12
我想编一个C程序把网页文件可显示的文本都在屏幕显示出来
但却不知道怎么屏闭掉那些非可显示的内容(如<html><head>
<title>这些)
初步想法是用文本操作获得网页的源代码
然后屏闭< >里的内容,但是却发现有很多非可显示
字符并不在< >中,而且有时可显示字符也会包含在< >中
不知要如何处理这些情况
请高手指点一下
或者有其它更好的处理方法请说一下

用尖括号括起来的叫标签“tag“。标签内的东西只起语法作用,不是文本内容。单滤掉标签不难。问题是有些标签外的东西也只起语法作用,例如
<style...>something here</style>,
<script...>something there</script>
也要滤掉。

想编这样的C程序并不难,但是你要懂各个HTML标签的作用,才知道什么要滤掉,什么不要滤。

另外,要翻译换行不换行。CR,LF在<PRE>...</PRE>之间的要留着,不在<PRE>...</PRE>之间的要滤掉。

还有,要翻译一些特殊的HTML字符,例如空白号大于小于号,版权号等。(这里拍不进来,百度知道会滤掉 &-n-b-s-p-;)

使用dom来实现
dom是文档对象模型
把每个标签(<html></html><body></body>这些是标签)作为节点一一读取,而通过节点的值,属性等就可以提出网页的内容
dom的内容很多
最好在网上搜索相关教程