Java正则表达式--截取网页中的链接中的TITLE和URL,且URL必须以HTTP或HTTPS开头_JAVA_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > JAVA > Java正则表达式--截取网页中的链接中的TITLE和URL,且URL必须以HTTP或HTTPS开头

Java正则表达式--截取网页中的链接中的TITLE和URL,且URL必须以HTTP或HTTPS开头

 2013/7/18 0:14:16  qincidong  程序员俱乐部  我要评论(0)
  • 摘要://截取网页中的链接中的TITLE和URL,且URL必须以HTTP或HTTPS开头s="<div><ahref='http://www.baidu.com'title='tip'>aaa</a><ahref='https://www.baidu.com?param=1'title='baiduSearch'>bbb</a><span><ahref='file:///d:/test/Arr.txt'>ccc<
  • 标签:Java URL 正则表达式 网页 表达式 正则 HTTP
class="java" name="code">// 截取网页中的链接中的TITLE和URL,且URL必须以HTTP或HTTPS开头
s = "<div><a href='http://www.baidu.com' title='tip'>aaa</a><a href='https://www.baidu.com?param=1' title='baiduSearch'>bbb</a><span><a href='file:///d:/test/Arr.txt'>ccc</a></span></div>";
mode = "<a\\s*href=(?='?http|https)([^>]*)title=([^>]*)>(.*?)</a>";
p = Pattern.compile(mode);
m = p.matcher(s);
while (m.find()) {
	System.out.println("find...");
	String url = m.group(1);
	String title = m.group(2);
	String text = m.group(3);
	System.out.println("title:" + title + ",src:" + url + ",text:" + text);
}



发表评论
用户名: 匿名