Información y Documentación Plan 2019
Grado y Doble Grado. Curso 2024/2025.
EXTRACCIÓN Y PROCESAMIENTO AVANZADO DE LA INFORMACIÓN - 805412
Curso Académico 2024-25
Datos Generales
- Plan de estudios: 080J - GRADO EN INFORMACIÓN Y DOCUMENTACIÓN (2019) (2019-20)
- Carácter: Optativa
- ECTS: 6.0
SINOPSIS
COMPETENCIAS
Generales
- Conocimientos en el tratamiento automatizado de la información
Transversales
- Capacidad para aplicar técnicas de minería de textos y datos
- Conocimientos técnicos para la recolección automatizada de información
- Conocimientos técnicos para la recolección automatizada de información
Específicas
- Desarrollar estrategias de clasificación de la información
- Aplicar técnicas de big-data para el análisis automático de la información
- Aplicar técnicas de big-data para el análisis automático de la información
ACTIVIDADES DOCENTES
Clases teóricas
El profesor expondrá y desarrollará los contenidos teóricos básicos sobre la extracción y procesamiento de información.
Clases prácticas
Desarrollo de actividades formativas prácticas con herramientas informáticas en las que el estudiante aplicará y pondrá en práctica los contenidos teóricos expuestos por el profesor.
Otras actividades
Resolución de dudas que puedan surgir al estudiante y seguimiento de los trabajos prácticos individuales y grupales.
Presenciales
6
Semestre
2
Objetivos
- Aprender los métodos de extracción de la información en Internet, para su reutilización, desarrollo de servicios de información y enriquecimiento documental automático.
- Aprender a procesar archivos XML de forma automática, para su posterior procesamiento en base de datos.
- Aprender los principios que sustentan la minería de datos y el big-data.
- Adquirir la habilidad para realizar migraciones de datos complejas, creando mapas de migración, planificando procedimientos de transformación, hasta su importación definitiva en la base de datos de destino.
Contenido
- Teoría básica de la extracción y procesamiento de datos en la Web.
- Tecnologías para la extracción de datos XML-XPath, funciones cURL, Objetos DOM, funciones file_get_contents, RESTful HTTP Get.
- Técnicas de parsing XML + Práctica.
- Técnicas de scraping orientadas a recursos Web + Práctica.
- Introducción a la minería de datos y el big-data.
Evaluación
El estudiante deberá demostrar que ha alcanzado los resultados de aprendizaje previstos mediante la realización de ejercicios prácticos y un examen teórico. Los ejercicios prácticos supondrán entre el 40 y el 60% de la nota y el examen entre un 40 y un 60%.
Para aprobar la asignatura es necesario aprobar tanto la teoría como la práctica. La participación en clase y la implicación en la asignatura también se tendrán en cuenta para matizar la calificación final.
Para aprobar la asignatura es necesario aprobar tanto la teoría como la práctica. La participación en clase y la implicación en la asignatura también se tendrán en cuenta para matizar la calificación final.
Bibliografía
Cunningham, H. (2005). Information extraction, automatic. Encyclopedia of language and linguistics,, 665-677.
Fernández Villamor, J.I.; Blasco Garcia, J.; Iglesias Fernandez, C.A.; Garijo Ayestaran, M. (2011). A semantic scraping model for web resources-Applying linked data to web page screen scraping.
Han, H.; Tokuda, T. (2008). A method for integration of Web applications based on information extraction. In Web Engineering, 2008. ICWE'08. Eighth International Conference on (pp. 189-195). IEEE.
Han, J.; Pei, J.; Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Johnson, F.; Gupta, S.K. (2012). Web content mining techniques: A survey. International Journal of Computer Applications, 47(11).
Kokkoras, F.; Ntonas, K.; Bassiliades, N. (2013). DEiXTo: a web data extraction suite. In Proceedings of the 6th Balkan Conference in Informatics (pp. 9-12). ACM.
Malik, S.K.; Rizvi, S.A.M. (2011). Information extraction using web usage mining, web scrapping and semantic annotation. En Computational Intelligence and Communication Networks (CICN)
Mayfield, J.; Finin, T. (2003). Information retrieval on the Semantic Web: Integrating inference and retrieval. In Proceedings of the SIGIR Workshop on the Semantic Web.
Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O'Reilly Media.
Myllymaki, J. (2002). Effective web data extraction with standard XML technologies. Computer Networks, 39(5), 635-644.
Nicola, M.; John, J. (2003). XML parsing: a threat to database performance. En Proceedings of the twelfth international conference on Information and knowledge management (pp. 175-178). ACM.
Richardson, L.; Ruby, S. (2008). RESTful web services. O'Reilly Media.
Russom, P. (2006). Best practices in data migration. Renton/USA.
Vargiu, E.; Urru, M. (2012). Exploiting web scraping in a collaborative filtering-based approach to web advertising. Artificial Intelligence Research, 2(1), 44.
Fernández Villamor, J.I.; Blasco Garcia, J.; Iglesias Fernandez, C.A.; Garijo Ayestaran, M. (2011). A semantic scraping model for web resources-Applying linked data to web page screen scraping.
Han, H.; Tokuda, T. (2008). A method for integration of Web applications based on information extraction. In Web Engineering, 2008. ICWE'08. Eighth International Conference on (pp. 189-195). IEEE.
Han, J.; Pei, J.; Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Johnson, F.; Gupta, S.K. (2012). Web content mining techniques: A survey. International Journal of Computer Applications, 47(11).
Kokkoras, F.; Ntonas, K.; Bassiliades, N. (2013). DEiXTo: a web data extraction suite. In Proceedings of the 6th Balkan Conference in Informatics (pp. 9-12). ACM.
Malik, S.K.; Rizvi, S.A.M. (2011). Information extraction using web usage mining, web scrapping and semantic annotation. En Computational Intelligence and Communication Networks (CICN)
Mayfield, J.; Finin, T. (2003). Information retrieval on the Semantic Web: Integrating inference and retrieval. In Proceedings of the SIGIR Workshop on the Semantic Web.
Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O'Reilly Media.
Myllymaki, J. (2002). Effective web data extraction with standard XML technologies. Computer Networks, 39(5), 635-644.
Nicola, M.; John, J. (2003). XML parsing: a threat to database performance. En Proceedings of the twelfth international conference on Information and knowledge management (pp. 175-178). ACM.
Richardson, L.; Ruby, S. (2008). RESTful web services. O'Reilly Media.
Russom, P. (2006). Best practices in data migration. Renton/USA.
Vargiu, E.; Urru, M. (2012). Exploiting web scraping in a collaborative filtering-based approach to web advertising. Artificial Intelligence Research, 2(1), 44.
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Clases Teóricas y Prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo B | 27/01/2025 - 16/05/2025 | LUNES 15:00 - 17:00 | B-22 | MANUEL BLAZQUEZ OCHANDO |
MARTES 15:00 - 17:00 | B-22 | MANUEL BLAZQUEZ OCHANDO |