好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

Office文件的奥秘

Office文件的奥秘

Office文件的奥秘——.NET平台下不借助Office实现Word、Powerpoint等文件的解析(1)

【题外话】

这是2010年参加比赛时候做的研究,当时为了实现对Word、Excel、PowerPoint文件文字内容的抽取研究了很久,由于Java有POI库,可以轻松的抽取各种Office文档,而.NET虽然有移植的NPOI,但是只实现了最核心的Excel文件的读写,所以之后查了很多资料才实现了Word和PowerPoint文件文字的抽取。之后忙于各种事情一直没时间整理,后来虽然想写成文章但由于时间太久也记不清很多细节,现在重新查找资料并整理如下,希望对大家有用。

【文章索引】

.NET下读取Office文件的方式 Windows复合二进制文件及其Header 我们从Directory开始 DocumentSummaryInformation和SummaryInformation 相关链接

【一、.NET下读取Office文件的方式】

10年的时候参加比赛要做一个文件检索的系统,要包含Word、PowerPoint等文件格式的全文检索。由于之前用过.NET并且考虑到这些是微软的格式,可能使用.NET读取会更容易些,但没想到.NET这边查到的资料只有Interop的方式读取Office文件。后来接触了Java的POI,发现.NET也有移植的NPOI,但是只移植了核心的Excel读写,并没有Word、PowerPoint等文件的读写,所以最后没有办法只能硬着头皮自己去做Word和PowerPoint文件的解析。

那么Interop是什么?Interop的全称是“Interoperability”,即微软希望托管的.NET能与非托管的COM进行互相调用的一种方式。通过Interop读写Office即调用安装在计算机上的Office软件来实现Office的读写,其优点显而易见,文件还是由Office生成或读取的,所以与自己打开Office是没有任何区别的;但缺点也非常明显,即运行程序的计算机上必须安装有 对应 版本的Office软件,同时操作Office文件时实际上是打开了对应的Office组件,所以运行效率低、耗内存大并且还可能产生内存泄露的问题。关于Interop方式读写Office文件的例子网上有很多,有兴趣的可以自行查阅,这里就不再多讲了。

那么,有没有方式不借助Office软件实现Office文件的读写呢?答案肯定是肯定的,就像Java中的POI及.NET中的NPOI实现的那样,即通过程序自己读写文件来实现Office文件的读写。不过由于Office文件结构非常复杂,这里只提供文件摘要信息和文件文本内容的解析。不过即使如此,对于全文检索什么的还是足够的。

【二、Windows复合二进制文件以及Header】

前几年,微软开放了一些私有格式的规范,使得所有人都可以对其文件进行解析,而不需要支付任何费用,这也使得我们编写解析文件的程序成为可能,相关链接在文章最后可以找到。对于一个Microsoft Office文件,其实质是一个Windows复合二进制文件(Windows Compound Binary File),文件的头Header是 固定的512字节 ,Header记录文件最重要的参数。Header之后可以分为不同的Sector,Sector的种类有FAT、Mini-FAT(属于Mini-Sector)、Directory、DIF、Stroage等五种。为了方便称呼,我们规定每个Sector都有一个SectorID, Header后的Sector为第一个Sector ,其SectorID为0。

我们先来说Header,一个Header的部分截图及包含的信息如下,比较重要的用粗体表示。

Header的前8字节Byte[],也就是整个文件的前8字节,都是固定的0xD0 0xCF 0x11 0xE0 0xA1 0xB1 0x1A 0xE1,如果不是则说明不是复合文件。 从008H到017H的16字节,是Class Id,不过很多文件都置的0。 从018H到019H的2字节UInt16,是文件格式的次要版本。 从01AH到01BH的2字节UInt16,是文件格式的主要版本。 从01CH到01DH的2字节UInt16,是固定为0xFE 0xFF,表示文档使用的是 Little Endian (低位在前,高位在后)。 从01EH到01FH的2字节 UInt16 ,是Sector大小的幂,默认为9(0x09 0x00),即每个Sector为512字节。 从020H到021H的2字节 UInt16 ,是Mini-Sector大小的幂,默认为6(0x06 0x00),即每个Mini-Sector为64字节。 从022H到023H的2字节UInt16,是预留的,必须置0。 从024H到027H的4字节UInt32,是预留的,必须置0。 从028H到02BH的4字节UInt32,是预留的,必须置0。 从02CH到02FH的4字节UInt32,是FAT的数量。 从030H到033H的4字节 UInt32 ,是Directory开始的SectorID。 从034H到037H的4字节UInt32,是用于事务的,必须置0。 从038H到03BH的4字节UInt32,是最小串(Stream)的最大大小,默认为4096(0x00 0x10 0x00 0x10)。 从03CH到03FH的4字节 UInt32 ,是Mini-FAT开始 的SectorID 。 从040H到043H的4字节 UInt32 ,是Mini-FAT的数量。 从044H到047H的4字节 UInt32 ,是DIF开始 的SectorID 。 从048H到04BH的4字节 UInt32 ,是DIF的数量。 从04CH到1FFH的436字节UInt32[],是FAT的前109块。

那么我们可以写如下的代码将Header中重要的内容解析出来。

View Code

 1   #region  字段
  2   private   FileStream m_stream;
   3   private   BinaryReader m_reader;
   4   private   Int64 m_length;
   5   private   DirectoryEntry m_dirRootEntry;
   6  
  7   #region  头部信息
  8   private  UInt32 m_sectorSize; //  Sector大小 
  9   private  UInt32 m_miniSectorSize; //  Mini-Sector大小 
 10   private  UInt32 m_fatCount; //  FAT数量 
 11   private  UInt32 m_dirStartSectorID; //  Directory开始的SectorID 
 12   private  UInt32 m_miniFatStartSectorID; //  Mini-FAT开始的SectorID 
 13   private  UInt32 m_miniFatCount; //  Mini-FAT数量 
 14   private  UInt32 m_difStartSectorID; //  DIF开始的SectorID 
 15   private  UInt32 m_difCount; //  DIF数量 
 16   #endregion 
 17   #endregion 
 18  
 19   #region  读取头部信息
 20   private   void   ReadHeader()
  21   {
  22       if  ( this .m_reader ==  null  )
  23       {
  24           return  ;
  25       }
  26  
 27       //  先判断是否是Office文件格式 
 28      Byte[] sig = ( this .m_length >  512  ?  this .m_reader.ReadBytes( 8 ) :  null  );
  29       if  (sig ==  null  ||
 30          sig[ 0 ] !=  0xD0  || sig[ 1 ] !=  0xCF  || sig[ 2 ] !=  0x11  || sig[ 3 ] !=  0xE0  ||
 31          sig[ 4 ] !=  0xA1  || sig[ 5 ] !=  0xB1  || sig[ 6 ] !=  0x1A  || sig[ 7 ] !=  0xE1  )
  32       {
  33           throw   new  Exception( "  该文件不是Office文件!  "  );
  34       }
  35  
 36       //  读取头部信息 
 37       this .m_stream.Seek( 22  , SeekOrigin.Current);
  38       this .m_sectorSize = (UInt32)Math.Pow( 2 ,  this  .m_reader.ReadUInt16());
  39       this .m_miniSectorSize = (UInt32)Math.Pow( 2 ,  this  .m_reader.ReadUInt16());
  40  
 41       this .m_stream.Seek( 10  , SeekOrigin.Current);
  42       this .m_fatCount =  this  .m_reader.ReadUInt32();
  43       this .m_dirStartSectorID =  this  .m_reader.ReadUInt32();
  44  
 45       this .m_stream.Seek( 8  , SeekOrigin.Current);
  46       this .m_miniFatStartSectorID =  this  .m_reader.ReadUInt32();
  47       this .m_miniFatCount =  this  .m_reader.ReadUInt32();
  48       this .m_difStartSectorID =  this  .m_reader.ReadUInt32();
  49       this .m_difCount =  this  .m_reader.ReadUInt32();
  50   }
  51   #endregion 

说个比较有意思的,.NET中的BinaryReader有很多读取的方法,比如ReadUInt16、ReadInt32之类的,只有ReadUInt16的Summary写着“使用 Little-Endian 编码...”(见下图),其实不仅仅是ReadUInt16,所有ReadIntX、ReadUIntX、ReadSingle、ReadDouble都是使用Little-Endian编码方式从流中读的,大家可以放心使用,而不需要一个字节一个字节的读再反转数组,我在10年的时候就走过弯路。解释在MSDN各个方法中的 备注 里: http://msdn.microsoft.com/zh-cn/library/vstudio/system.io.binaryreader_methods.aspx

【三、我们从Directory开始】

复合文档中其实存放着很多内容,这么多内容需要有个目录,那么Directory就是这个目录。从Header中我们可以读取出Directory开始的SectorID,我们可以Seek到这个位置(0x200 + sectorSize * dirStartSectorID)。Directory中每个DirectoryEntry 固定为128字节 ,其主要结构如下:

从000H到040H的64字节,是存储DirectoryEntry名称的,并且是以Unicode存储的,即每个字符占2个字节,其实可以看做是UInt16。 从041H到042H的2字节UInt16,是DirectoryEntry名称的长度(包括最后的“\0”)。 从042H到042H的1字节Byte,是DirectoryEntry的类型。(主要的有:1为目录,2为节点,5为根节点) 从044H到047H的4字节UInt32,是该DirectoryEntry左兄弟的EntryID(第一个DirectoryEntry的EntryID为0,下同)。 从048H到04BH的4字节UInt32,是该DirectoryEntry右兄弟的EntryID。 从04CH到04FH的4字节UInt32,是该DirectoryEntry一个孩子的EntryID。 从074H到077H的4字节UInt32,是该DirectoryEntry开始的SectorID。 从078H到07BH的4字节UInt32,是该DirectoryEntry存储的所有字节长度。

显然,Directory其实是一个树形的结构,我们只要从第一个Entry(Root Entry)开始递归搜索就可以了。

为了方便开发,我们创建一个DirectoryEntry的类

View Code

 1   public   enum  DirectoryEntryType :  byte 
   2   {
    3      Invalid =  0  ,
    4      Storage =  1  ,
    5      Stream =  2  ,
    6      LockBytes =  3  ,
    7      Property =  4  ,
    8      Root =  5 
   9   }
   10  
  11   public   class   DirectoryEntry
   12   {
   13       #region  字段
  14       private   UInt32 m_entryID;
   15       private   String m_entryName;
   16       private   DirectoryEntryType m_entryType;
   17       private   UInt32 m_sectorID;
   18       private   UInt32 m_length;
   19  
  20       private   DirectoryEntry m_parent;
   21       private  List<DirectoryEntry>  m_children;
   22       #endregion 
  23  
  24       #region  属性
  25       ///   <summary> 
  26       ///   获取DirectoryEntry的EntryID
   27       ///   </summary> 
  28       public   UInt32 EntryID
   29       {
   30           get  {  return   this  .m_entryID; }
   31       }
   32  
  33       ///   <summary> 
  34       ///   获取DirectoryEntry名称
   35       ///   </summary> 
  36       public   String EntryName
   37       {
   38           get  {  return   this  .m_entryName; }
   39       }
   40  
  41       ///   <summary> 
  42       ///   获取DirectoryEntry类型
   43       ///   </summary> 
  44       public   DirectoryEntryType EntryType
   45       {
   46           get  {  return   this  .m_entryType; }
   47       }
   48  
  49       ///   <summary> 
  50       ///   获取DirectoryEntry的SectorID
   51       ///   </summary> 
  52       public   UInt32 SectorID
   53       {
   54           get  {  return   this  .m_sectorID; }
   55       }
   56  
  57       ///   <summary> 
  58       ///   获取DirectoryEntry的内容大小
   59       ///   </summary> 
  60       public   UInt32 Length
   61       {
   62           get  {  return   this  .m_length; }
   63       }
   64  
  65       ///   <summary> 
  66       ///   获取DirectoryEntry的父节点
   67       ///   </summary> 
  68       public   DirectoryEntry Parent
   69       {
   70           get  {  return   this  .m_parent; }
   71       }
   72  
  73       ///   <summary> 
  74       ///   获取DirectoryEntry的子节点
   75       ///   </summary> 
  76       public  List<DirectoryEntry>  Children
   77       {
   78           get  {  return   this  .m_children; }
   79       }
   80       #endregion 
  81  
  82       #region  构造函数
  83       ///   <summary> 
  84       ///   初始化新的DirectoryEntry
   85       ///   </summary> 
  86       ///   <param name="parent">  父节点  </param> 
  87       ///   <param name="entryID">  DirectoryEntryID  </param> 
  88       ///   <param name="entryName">  DirectoryEntry名称  </param> 
  89       ///   <param name="entryType">  DirectoryEntry类型  </param> 
  90       ///   <param name="sectorID">  SectorID  </param> 
  91       ///   <param name="length">  内容大小  </param> 
  92       public   DirectoryEntry(DirectoryEntry parent, UInt32 entryID, String entryName, DirectoryEntryType entryType, UInt32 sectorID, UInt32 length)
   93       {
   94           this .m_entryID =  entryID;
   95           this .m_entryName =  entryName;
   96           this .m_entryType =  entryType;
   97           this .m_sectorID =  sectorID;
   98           this .m_length =  length;
   99           this .m_parent =  parent;
  100  
 101           if  (entryType == DirectoryEntryType.Root || entryType ==  DirectoryEntryType.Storage)
  102           {
  103               this .m_children =  new  List<DirectoryEntry> ();
  104           }
  105       }
  106       #endregion 
 107  
 108       #region  方法
 109       public   void   AddChild(DirectoryEntry entry)
  110       {
  111           if  ( this .m_children ==  null  )
  112           {
  113               this .m_children =  new  List<DirectoryEntry> ();
  114           }
  115  
 116           this  .m_children.Add(entry);
  117       }
  118  
 119       public   DirectoryEntry GetChild(String entryName)
  120       {
  121           for  (Int32 i =  0 ; i <  this .m_children.Count; i++ )
  122           {
  123               if  (String.Equals( this  .m_children[i].EntryName, entryName))
  124               {
  125                   return   this  .m_children[i];
  126               }
  127           }
  128  
 129           return   null  ;
  130       }
  131       #endregion 
 132  }

然后我们递归搜索就可以了

View Code

 1   #region  常量
  2   private   const  UInt32 HeaderSize =  0x200 ; //  512字节 
  3   private   const  UInt32 DirectoryEntrySize =  0x80 ; //  128字节 
  4   #endregion 
  5  
  6   #region  读取目录信息
  7   private   void   ReadDirectory()
   8   {
   9       if  ( this .m_reader ==  null  )
  10       {
  11           return  ;
  12       }
  13  
 14       UInt32 leftSiblingEntryID, rightSiblingEntryID, childEntryID;
  15       this .m_dirRootEntry = GetDirectoryEntry( 0 ,  null ,  out  leftSiblingEntryID,  out  rightSiblingEntryID,  out   childEntryID);
  16       this .ReadDirectoryEntry( this  .m_dirRootEntry, childEntryID);
  17   }
  18  
 19   private   void   ReadDirectoryEntry(DirectoryEntry rootEntry, UInt32 entryID)
  20   {
  21       UInt32 leftSiblingEntryID, rightSiblingEntryID, childEntryID;
  22      DirectoryEntry entry = GetDirectoryEntry(entryID, rootEntry,  out  leftSiblingEntryID,  out  rightSiblingEntryID,  out   childEntryID);
  23  
 24       if  (entry ==  null  || entry.EntryType ==  DirectoryEntryType.Invalid)
  25       {
  26           return  ;
  27       }
  28      
 29       rootEntry.AddChild(entry);
  30  
 31       if  (leftSiblingEntryID < UInt32.MaxValue) //  有左兄弟节点 
 32       {
  33           this  .ReadDirectoryEntry(rootEntry, leftSiblingEntryID);
  34       }
  35  
 36       if  (rightSiblingEntryID < UInt32.MaxValue) //  有右兄弟节点 
 37       {
  38           this  .ReadDirectoryEntry(rootEntry, rightSiblingEntryID);
  39       }
  40  
 41       if  (childEntryID < UInt32.MaxValue) //  有孩子节点 
 42       {
  43           this  .ReadDirectoryEntry(entry, childEntryID);
  44       }
  45   }
  46  
 47   private  DirectoryEntry GetDirectoryEntry(UInt32 entryID, DirectoryEntry parentEntry,  out  UInt32 leftSiblingEntryID,  out  UInt32 rightSiblingEntryID,  out   UInt32 childEntryID)
  48   {
  49      leftSiblingEntryID =  UInt16.MaxValue;
  50      rightSiblingEntryID =  UInt16.MaxValue;
  51      childEntryID =  UInt16.MaxValue;
  52  
 53       this  .m_stream.Seek(GetDirectoryEntryOffset(entryID), SeekOrigin.Begin);
  54  
 55       if  ( this .m_stream.Position >=  this  .m_length)
  56       {
  57           return   null  ;
  58       }
  59  
 60      StringBuilder temp =  new   StringBuilder();
  61       for  (Int32 i =  0 ; i <  32 ; i++ )
  62       {
  63          temp.Append((Char) this  .m_reader.ReadUInt16());
  64       }
  65  
 66      UInt16 nameLen =  this  .m_reader.ReadUInt16();
  67      String name = (temp.ToString( 0 , (temp.Length < (nameLen /  2  -  1 ) ? temp.Length : nameLen /  2  -  1  )));
  68      Byte type =  this  .m_reader.ReadByte();
  69  
 70       if  (type >  5  )
  71       {
  72           return   null  ;
  73       }
  74  
 75       this .m_stream.Seek( 1  , SeekOrigin.Current);
  76      leftSiblingEntryID =  this  .m_reader.ReadUInt32();
  77      rightSiblingEntryID =  this  .m_reader.ReadUInt32();
  78      childEntryID =  this  .m_reader.ReadUInt32();
  79  
 80       this .m_stream.Seek( 36  , SeekOrigin.Current);
  81      UInt32 sectorID =  this  .m_reader.ReadUInt32();
  82      UInt32 length =  this  .m_reader.ReadUInt32();
  83  
 84       return   new   DirectoryEntry(parentEntry, entryID, name, (DirectoryEntryType)type, sectorID, length);
  85   }
  86   #endregion 
 87  
 88   #region  辅助方法
 89   private   Int64 GetSectorOffset(UInt32 sectorID)
  90   {
  91       return  HeaderSize +  this .m_sectorSize *  sectorID;
  92   }
  93  
 94   private   Int64 GetDirectoryEntryOffset(UInt32 sectorID)
  95   {
  96       return  HeaderSize +  this .m_sectorSize *  this .m_dirStartSectorID + DirectoryEntrySize *  sectorID;
  97   }
  98   #endregion 

【四、DocumentSummaryInformation和 SummaryInformation 】

Office文档包含很多摘要信息,比如标题、作者、编辑时间等等,如下图。

摘要信息又分为两类,一类是DocumentSummaryInformation,另一类是SummaryInformation,分别包含不同种类的摘要信息。通过上述的代码应该能获取到Root Entry下有一个叫“\005DocumentSummaryInformation”的Entry和一个叫“\005SummaryInformation”的Entry。

对于DocumentSummaryInformation,其结构如下

从018H到01BH的4字节UInt32,是存储属性组的个数。 从01CH开始的每20字节,是属性组的信息: 对于前16字节Byte[],如果是0x02 0xD5 0xCD 0xD5 0x9C 0x2E 0x1B 0x10 0x93 0x97 0x08 0x00 0x2B 0x2C 0xF9 0xAE,则表示是DocumentSummaryInformation;如果是0x05 0xD5 0xCD 0xD5 0x9C 0x2E 0x1B 0x10 0x93 0x97 0x08 0x00 0x2B 0x2C 0xF9 0xAE,则表示是UserDefinedProperties。 对于后4字节UInt32,则是该属性组相对于Entry的偏移。

对于每个属性组,其结构如下:

从000H到003H的4字节UInt32,是属性组大小。 从004H到007H的4字节UInt32,是属性组中属性的个数。 从008H开始的每8字节,是属性的信息: 对于前4字节UInt32,是属性编号,表示属性的种类。 对于后4字节UInt32,是属性内容相对于属性组的偏移。

常见的属性编号有以下这些:

View Code

 1   public   enum  DocumentSummaryInformationType :  uint 
  2   {
   3      Unknown                 =  0x00  ,
   4      CodePage                =  0x01  ,
   5      Category                =  0x02  ,
   6      PresentationTarget      =  0x03  ,
   7      Bytes                   =  0x04  ,
   8      LineCount               =  0x05  ,
   9      ParagraphCount          =  0x06  ,
  10      Slides                  =  0x07  ,
  11      Notes                   =  0x08  ,
  12      HiddenSlides            =  0x09  ,
  13      MMClips                 =  0x0A  ,
  14      Scale                   =  0x0B  ,
  15      HeadingPairs            =  0x0C  ,
  16      DocumentParts           =  0x0D  ,
  17      Manager                 =  0x0E  ,
  18      Company                 =  0x0F  ,
  19      LinksDirty              =  0x10  ,
  20      CountCharsWithSpaces    =  0x11  ,
  21      SharedDoc               =  0x13  ,
  22      HyperLinksChanged       =  0x16  ,
  23      Version                 =  0x17  ,
  24      ContentStatus           =  0x1B 
 25  }

对于每个属性,其结构如下:

从000H到003H的4字节UInt32,是属性内容的类型。 类型为0x02时为UInt16。 类型为0x03时为UInt32。 类型为0x0B时为Boolean。 类型为0x1E时为String。 剩余的字节为属性的内容。 除了类型是String时为不定长,其余三种均为4位字节(多余字节置0)。 类型是String时前4字节是字符串的长度(包括“\0”),所以没法使用BinaryReader的ReadString读取。之后长度为字符串内容,字符串是使用单字节编码进行存储的,可以使用Encoding中的GetString获取字符串内容。

为了方便开发,我们创建一个DocumentSummary的类:

View Code

 1   public   class   DocumentSummaryInformation
   2   {
   3       #region  字段
  4       private   DocumentSummaryInformationType m_propertyID;
   5       private   Object m_data;
   6       #endregion 
  7  
  8       #region  属性
  9       ///   <summary> 
 10       ///   获取属性类型
  11       ///   </summary> 
 12       public   DocumentSummaryInformationType Type
  13       {
  14           get  {  return   this  .m_propertyID; }
  15       }
  16  
 17       ///   <summary> 
 18       ///   获取属性数据
  19       ///   </summary> 
 20       public   Object Data
  21       {
  22           get  {  return   this  .m_data; }
  23       }
  24       #endregion 
 25  
 26       #region  构造函数
 27       ///   <summary> 
 28       ///   初始化新的非字符串型DocumentSummaryInformation
  29       ///   </summary> 
 30       ///   <param name="propertyID">  属性ID  </param> 
 31       ///   <param name="propertyType">  属性数据类型  </param> 
 32       ///   <param name="data">  属性数据  </param> 
 33       public   DocumentSummaryInformation(UInt32 propertyID, UInt32 propertyType, Byte[] data)
  34       {
  35           this .m_propertyID =  (DocumentSummaryInformationType)propertyID;
  36           if  (propertyType ==  0x02 )  this .m_data = BitConverter.ToUInt16(data,  0  );
  37           else   if  (propertyType ==  0x03 )  this .m_data = BitConverter.ToUInt32(data,  0  );
  38           else   if  (propertyType ==  0x0B )  this .m_data = BitConverter.ToBoolean(data,  0  );
  39       }
  40  
 41       ///   <summary> 
 42       ///   初始化新的字符串型DocumentSummaryInformation
  43       ///   </summary> 
 44       ///   <param name="propertyID">  属性ID  </param> 
 45       ///   <param name="propertyType">  属性数据类型  </param> 
 46       ///   <param name="codePage">  代码页标识符  </param> 
 47       ///   <param name="data">  属性数据  </param> 
 48       public   DocumentSummaryInformation(UInt32 propertyID, UInt32 propertyType, Int32 codePage, Byte[] data)
  49       {
  50           this .m_propertyID =  (DocumentSummaryInformationType)propertyID;
  51           if  (propertyType ==  0x1E )  this .m_data = Encoding.GetEncoding(codePage).GetString(data).Replace( "  \0  " ,  ""  );
  52       }
  53       #endregion 
 54  }

然后我们进行读取就可以了:

View Code

  1   private  List<DocumentSummaryInformation>  m_documentSummaryInformation;
   2  
  3   #region  读取DocumentSummaryInformation
  4   private   void   ReadDocumentSummaryInformation()
   5   {
   6      DirectoryEntry entry =  this .m_dirRootEntry.GetChild( '  \x05  '  +  "  DocumentSummaryInformation  "  );
   7  
  8       if  (entry ==  null  )
   9       {
  10           return  ;
  11       }
  12  
 13      Int64 entryStart =  this  .GetSectorOffset(entry.SectorID);
  14  
 15       this .m_stream.Seek(entryStart +  24  , SeekOrigin.Begin);
  16      UInt32 propertysCount =  this  .m_reader.ReadUInt32();
  17      UInt32 docSumamryStart =  0  ;
  18  
 19       for  (Int32 i =  0 ; i < propertysCount; i++ )
  20       {
  21          Byte[] clsid =  this .m_reader.ReadBytes( 16  );
  22           if  (clsid[ 0 ] ==  0x02  && clsid[ 1 ] ==  0xD5  && clsid[ 2 ] ==  0xCD  && clsid[ 3 ] ==  0xD5  &&
 23              clsid[ 4 ] ==  0x9C  && clsid[ 5 ] ==  0x2E  && clsid[ 6 ] ==  0x1B  && clsid[ 7 ] ==  0x10  &&
 24              clsid[ 8 ] ==  0x93  && clsid[ 9 ] ==  0x97  && clsid[ 10 ] ==  0x08  && clsid[ 11 ] ==  0x00  &&
 25              clsid[ 12 ] ==  0x2B  && clsid[ 13 ] ==  0x2C  && clsid[ 14 ] ==  0xF9  && clsid[ 15 ] ==  0xAE ) //  如果是DocumentSummaryInformation 
 26           {
  27              docSumamryStart =  this  .m_reader.ReadUInt32();
  28               break  ;
  29           }
  30           else 
 31           {
  32               this .m_stream.Seek( 4  , SeekOrigin.Current);
  33           }
  34       }
  35  
 36       if  (docSumamryStart ==  0  )
  37       {
  38           return  ;
  39       }
  40  
 41       this .m_stream.Seek(entryStart +  docSumamryStart, SeekOrigin.Begin);
  42       this .m_documentSummaryInformation =  new  List<DocumentSummaryInformation> ();
  43      UInt32 docSummarySize =  this  .m_reader.ReadUInt32();
  44      UInt32 docSummaryCount =  this  .m_reader.ReadUInt32();
  45      Int64 offsetMark =  this  .m_stream.Position;
  46      Int32 codePage =  Encoding.Default.CodePage;
  47  
 48       for  (Int32 i =  0 ; i < docSummaryCount; i++ )
  49       {
  50           this  .m_stream.Seek(offsetMark, SeekOrigin.Begin);
  51          UInt32 propertyID =  this  .m_reader.ReadUInt32();
  52          UInt32 properyOffset =  this  .m_reader.ReadUInt32();
  53  
 54          offsetMark =  this  .m_stream.Position;
  55  
 56           this .m_stream.Seek(entryStart + docSumamryStart +  properyOffset, SeekOrigin.Begin);
  57          UInt32 propertyType =  this  .m_reader.ReadUInt32();
  58          DocumentSummaryInformation info =  null  ;
  59          Byte[] data =  null  ;
  60  
 61           if  (propertyType ==  0x1E  )
  62           {
  63              UInt32 strLen =  this  .m_reader.ReadUInt32();
  64              data =  this  .m_reader.ReadBytes((Int32)strLen);
  65              info =  new   DocumentSummaryInformation(propertyID, propertyType, codePage, data);
  66           }
  67           else 
 68           {
  69              data =  this .m_reader.ReadBytes( 4  );
  70              info =  new   DocumentSummaryInformation(propertyID, propertyType, data);
  71              
 72               if  (info.Type == DocumentSummaryInformationType.CodePage) //  如果找到CodePage的属性 
 73               {
  74                  codePage =  (Int32)(UInt16)info.Data;
  75               }
  76           }
  77  
 78           this  .m_documentSummaryInformation.Add(info);
  79       }
  80   }
  81   #endregion 

而SummaryInformation与DocumentSummaryInformation相比读取方式是一样的,只不过属性组的16位标识为0xE0 0x85 0x9F 0xF2 0xF9 0x4F 0x68 0x10 0xAB 0x91 0x08 0x00 0x2B 0x27 0xB3 0xD9。

常见的SummaryInformation属性的属性编号如下:

View Code

 1   public   enum  SummaryInformationType :  uint 
  2   {
   3      Unknown =  0x00  ,
   4      CodePage =  0x01  ,
   5      Title =  0x02  ,
   6      Subject =  0x03  ,
   7      Author =  0x04  ,
   8      Keyword =  0x05  ,
   9      Commenct =  0x06  ,
  10      Template =  0x07  ,
  11      LastAuthor =  0x08  ,
  12      Reversion =  0x09  ,
  13      EditTime =  0x0A  ,
  14      CreateDateTime =  0x0C  ,
  15      LastSaveDateTime =  0x0D  ,
  16      PageCount =  0x0E  ,
  17      WordCount =  0x0F  ,
  18      CharCount =  0x10  ,
  19      ApplicationName =  0x12  ,
  20      Security =  0x13 
 21  }

其他代码由于与DocumentSummaryInformation相近就不再单独给出了。

附,本文所有代码下载: https://files.cnblogs.com/mayswind/DotMaysWind.OfficeReader_1.rar

【五、相关链接】

1、Microsoft Open Specifications: http://www.microsoft.com/openspecifications/en/us/programs/osp/default.aspx
2、用PHP读取MS Word(.doc)中的文字: https://imethan.com/post-2009-10-06-17-59.html
3、Office檔案格式: http://www.programmer-club.com.tw/ShowSameTitleN/general/2681.html
4、LAOLA file system: http://stuff.mit.edu/afs/athena/astaff/project/mimeutils/share/laola/guide.html

 

【后记】

花了好几天的时间才写完读取DocumentSummaryInformation和SummaryInformation,果然自己写程序用和写成文章区别太大了,前者差不多就行,后者还得仔细查阅资料。最后希望我没白写,希望有人需要这些内容,希望有人能支持下,希望我能全部写完。

 

 

 

标签:  .NET C# Office Word Powerpoint doc 文件 文字 解析 读取

作者: Leo_wl

    

出处: http://www.cnblogs.com/Leo_wl/

    

本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

版权信息

查看更多关于Office文件的奥秘的详细内容...

  阅读:54次