Thứ Hai, 10 tháng 12, 2012

Xóa các thẻ Html ra khỏi 1 chuỗi (lấy InnerText của 1 thẻ Html)

Khi có 1 object HtmlElement (System.Windows.Forms) hay HtmlNode (HtmlAgilityPack) thì việc lấy InnerText của nó khá đơn giản, chỉ cần .InnerText là ra.

Trường hợp có 1 thẻ Html nhưng ở dạng chuỗi thì sử dụng regular expression để replace những đoạn có cấu trúc là 1 tag mở hay tag đóng của 1 thẻ Html.

Có rất nhiều mẫu để tìm tag html ví dụ "<[^>]*>" hoặc "<.*?>" . Trường hợp này mình dùng mẫu  "<[^>]*>":
  1. public static string RemoveHtml(this string text)  
  2. {  
  3.     return Regex.Replace(text, "<[^>]*>"string.Empty);  
  4. }  
Test:
  1. string link = "<a href=\"http://www.hanhtranglaptrinh.com/2012/11/goi-ham-javascript-bang-webbrowser.html\">Gọi hàm Javascript bằng webbrowser control C#</a>";  
  2. string anchorText = link.RemoveHtml();//Gọi hàm Javascript bằng webbrowser control C#  

1 nhận xét :

  1. Bạn đang đau đầu vì thừa cân, bạn đang muốn tìm kiếm một giải pháp hiệu quả nhưng không làm tổn hại đến sức khỏe. Xin mời bạn đọc bài viết 6 loại thuốc giảm cân hiệu quả nhất hiện nay. Để có cái nhìn rõ hơn về các loại thuốc giảm cân nhé.
    Ngoài ra Muathuoctot của chúng tôi còn cung cấp rất nhiều thực phẩm chức năng như dong trung ha thao, kem chống nắng tốt nhất hiện nay, thuốc uống trắng da có an toàn, thuốc mọc lông mày ,kem tri tham quang mat ,thuốc sung dha prenatal vitamins cho bà bầu ,vien uong collagen
    Vào những tháng hè, mọi người thường có nhu cầu đi biển du lịch nhưng lại sợ làm đen sạm da. Nên thường có nhu cầu tìm hiểu về các loại kem chống nắng tốt, không gây kích ứng da. Mời các bạn đọc thêm bài viết Mua kem chống nắng loại nào tốt để bổ sung thêm vào hành trang du lịch của mình nhé.

    Trả lờiXóa