人生。总是一次又一次的迷茫!!

信息采集关键算法

上一篇 / 下一篇  2007-05-15 04:43:47

查看( 27 ) / 评论( 1 )
//查找单个链结地址
BOOL FindHref(LPCTSTR lpszFind,LPCTSTR lpszString,CString& lpszResult,UINT nLen)

//从整个网页文本中查找所有链结地址
BOOL GetHref(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)

//获取整个网页中的Email地址
BOOL GetEmail(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)

//获取网页中的正文
BOOL GetHTMLText(LPCSTR szBuffer, CStringList& list)

//将网页中的正文拼成字符串返回
CString GetHTMLText(CString sStr)

//判断一行文本是否为空行
bool isBlankLine(char *line)

//过滤掉正文中的空行
CString FilterBlankLine(CString sStr)

//由于网页中链结往往有重复的,因此要用函数去除重复链结,当然也可以在找链结的时候就抛弃重复的
void FilterList(CStringList &list)

//根据前后关键字获取信息文本,例如从文本中获取“标题”,“联系人”关键字之间的文本
CString FilterByMark(CString sStr,CString mark1,CString mark2)

//按关键字过滤掉多余空格,例如按关键字“邮件”可把文本中“邮 件”中的多余空格全部剔除,便于

进行下一步采集信息
CString FilterSpaceByMark(CString sStr,CString mark)

TAG:

思过崖 花无缺 发布于2007-05-23 15:30:34
收到
我来说两句

(可选)

日历

« 2009-07-05  
   1234
567891011
12131415161718
19202122232425
262728293031 

我的存档

数据统计

  • 访问量: 1484
  • 日志数: 114
  • 建立时间: 2007-05-22
  • 更新时间: 2007-05-22

RSS订阅

Open Toolbar