Парсим XML с помощью DOM4J

Здравствуйте. В этом небольшом уроке мы познакомимся с библиотекой DOM4J для создания парсинга (разбора) XML-документов.

Основные методы библиотеки

Создание документа

SAXBuilder saxBuilder = new SAXBuilder();

Создание документа из файла

File inputFile = new File("input.txt");
SAXBuilder saxBuilder = new SAXBuilder();
Document document = saxBuilder.build(inputFile);

Создание документа из URL

SAXReader reader = new SAXReader();
Document document = reader.read("http://mysite.ru/catalog.xml");

Создание документа из строки

String text = "<person> <name>James</name> </person>";
Document document = DocumentHelper.parseText(text);

Извлекаем корневой элемент

File inputFile = new File("input.txt");
SAXBuilder saxBuilder = new SAXBuilder();
Document document = saxBuilder.build(inputFile);

Достаем атрибут из элемента

//возвращает определенный атрибут
valueOf("@attributeName");

Достаем подэлементы

//возвращает первый подэлемент
selectSingleNode("subelementName");

Получаем список с одинаковыми элементами

List<Node> nodes = document.selectNodes("/class/student" );

Здесь class является корневым элементом, а student списком из одинаковых элементов.

Конвертация документа в строку

String text = "<person> <name>James</name> </person>";
Document document = DocumentHelper.parseText(text);

 

Примеры работы с библиотекой

Парсинг списка студентов

Имеется вот такой xml-файл:

<?xml version="1.0"?>
<class>
   <student rollno="393">
      <firstname>dinkar</firstname>
      <lastname>kad</lastname>
      <nickname>dinkar</nickname>
      <marks>85</marks>
   </student>
   <student rollno="493">
      <firstname>Vaneet</firstname>
      <lastname>Gupta</lastname>
      <nickname>vinni</nickname>
      <marks>95</marks>
   </student>
   <student rollno="593">
      <firstname>jasvir</firstname>
      <lastname>singn</lastname>
      <nickname>jazz</nickname>
      <marks>90</marks>
   </student>
</class>

Код разбора этого документа:

import java.io.File;
import java.util.List;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.Node;
import org.dom4j.io.SAXReader;

public class DOM4JParserDemo {
   public static void main(String[] args) {
      try {
         File inputFile = new File("input.txt");
         SAXReader reader = new SAXReader();
         Document document = reader.read( inputFile );

         System.out.println("Root element :" 
            + document.getRootElement().getName());

         Element classElement = document.getRootElement();

         List<Node> nodes = document.selectNodes("/class/student" );
         System.out.println("----------------------------");
         for (Node node : nodes) {
            System.out.println("\nCurrent Element :" 
               + node.getName());
            System.out.println("Student roll no : " 
               + node.valueOf("@rollno") );
            System.out.println("First Name : " + node.selectSingleNode("firstname").getText());
            System.out.println("Last Name : " + node.selectSingleNode("lastname").getText());
            System.out.println("First Name : " + node.selectSingleNode("nickname").getText());
            System.out.println("Marks : " + node.selectSingleNode("marks").getText());
         }
      } catch (DocumentException e) {
         e.printStackTrace();
      }
   }
}

Вот, что получится на выходе:

Root element :class
----------------------------

Current Element :student
Student roll no : 
First Name : dinkar
Last Name : kad
First Name : dinkar
Marks : 85

Current Element :student
Student roll no : 
First Name : Vaneet
Last Name : Gupta
First Name : vinni
Marks : 95

Current Element :student
Student roll no : 
First Name : jasvir
Last Name : singn
First Name : jazz
Marks : 90

Получение всех URL из HTML файла

public void findLinks(Document document) throws DocumentException {

    List list = document.selectNodes( "//a/@href" );

    for (Iterator iter = list.iterator(); iter.hasNext(); ) {
        Attribute attribute = (Attribute) iter.next();
        String url = attribute.getValue();
    }
}

Создание документа

Document document = DocumentHelper.createDocument();
Element root = document.addElement( "root" );

Element author1 = root.addElement( "author" )
       .addAttribute( "name", "James" )
       .addAttribute( "location", "UK" )
       .addText( "James Strachan" );
        
Element author2 = root.addElement( "author" )
       .addAttribute( "name", "Bob" )
       .addAttribute( "location", "US" )
       .addText( "Bob McWhirter" );

Комментарии:

9 комментариев

  1. Ратмир Ответить

    DOM4J библиотека входит в состав стандартных библиотек Java 8 или 9 ?
    Если нет, не могли бы вы выложить ссылки на используемые библиотеки.
    Спасибо за ваши труды, за ОЧЕНЬ ПОЛЕЗНЫЙ РЕСУРС !!!

      • Ратмир Ответить

        Спасибо. Я видел у вас «Рецепты» по парсу xml, вопрос такой:
        Я пишу (написал) API для сайта, вернее сервиса, на php. По запросу клиенту возвращается страница, допустим index.php, но контент xml, загружать так как у вас в примере? Т.Е.
        «Document document = reader.read(«http://mysite.ru/catalog.xml»);» ? Толькуо указать
        «http://mysite.ru/catalog.php» ?

        • Admin АвторОтветить

          В таком случае лучше воспользоваться Retrofit + XML-конвертер из XML в объекты. Другой вариант: делать GET-запрос к серверу (php-файлу), конвертировать в строку и вручную парсить как обычный XML.

  2. Ратмир Ответить

    Доброго времени суток.
    Извините что опять вам надоедаю.
    В общем мне ваш парсер подошёл, всё просто и без танцев с бубном.
    Только появилась неожиданная проблема)
    Я пишу програмку на Android, там парсится XML, проэкт изначально заточен под минимальную версию API 10, нужно на такой кирпич) по максимуму я выставил 23, добавил в манифест разрешение
    (android:name=»android.permission.INTERNET») и тут прикол, на телефоне с 10 API (2.3) всё работает) а вот когда запускаю на 17 и выше не пускает в сеть)
    Я побывал простой код (получить мета данные страницы) — тоже нуль.
    Если сталкивались подскажите в чём моя беда пожалуйста.
    Спасибо заранее !!!

    • Ратмир Ответить

      Всё разобрался))) ошибка по не опытности и в ленивости читать документацию по API различных версий)
      Дело в том что более новые версии Android (кажется начиная с 4.0) не допускают ЛЮБУЮ работу с данными по сети в главном потоке. Нужно все методы связаные с получением или отправкой данных выполнять в отдельном потоке, вопрос о синхронизации будет очевиден при конкретной задаче.
      Всё работает, извините что беспокоил.
      Спасибо за ваш ресурс !!!
      К.У. Если у вас будет желание и возможность. не могли бы вы написать статью о ньюансах настройки gradle и асинхронных задачах?
      Спасибо.

        • Ратмир Ответить

          ))) в любом случае спасибо !!!
          Вот пришлось на старости лет вникать в разработку под такие девайсы, начинал лет восемь назад с плюсов, Java тоже уже давненько освоил, А ОКАЗЫВАЕТСЯ для дроида нужно чуток подучится))))
          Спасибо

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *