文本数据(Textual Data)
目录 |
文本数据是指不能参与算术运算的任何字符,也称为字符型数据。如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。
文本数据不同于传统数据库中的数据,它具有自己的特点。
1、半结构化
文本数据既不是完全无结构的也不是完全结构化的。例如文本可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量的非结构化的数据,如摘要和内容。
2、高维
文本向量的维数一般都可以高达上万维,一般的数据挖掘、数据检索的方法由于计算量过大或代价高昂而不具有可行性。
3、高数据量
一般的文本库中都会存在最少数千个文本样本,对这些文本进行预处理、编码、挖掘等处理的工作量是非常庞大的,因而手工方法一般是不可行的。
4、语义性
文本数据中存在着一词多义、多词一义,在时间和空间上的上下文相关等情况。
1、Char(字符)
Char类型的数据用来表示单个符号,它以0~65535之间的数的形式存储。为了解决世界上各种语言文字的计算机存储问题而不单单是存储英文字母,人们采用一些标准的方式给这些字符提供标准值,其中常用的就是国际标准码Unicode。Unicode克服了不同编码系统存在的问题,它与语言、平台以及程序无关。
当给Char型的变量赋值时应按下面的格式进行。在双引号的后面要用C来表示这是一个Char数据,而不是String数据。例如:
Dim Mychar as Char
Mychar=“B”C 实际存储的是“B”字符的ASCII码66
2、String(字符串)
String类型用于表示字符串数据,它存储的是一个字符序列。在程序代码中,使用一对用英文双引号括起来的一串字符或汉字来表示一个字符串。1个字符占1个字节,1个汉字占2个字节。字符串的最大长度可达20亿个。例如,下列都是合法的字符串。
“How do you do!”
“百尺竿头,更进一步”