PageFreezer
PageFeezer.com es un servicio web sólido para gestionar, archivar, retener y reproducir contenidos web dinámicos y redes sociales.
Todos los clientesDesarrollo de productos
Pagefreezer.com es uno de esos proyectos en los que el equipo de Redwerk implementó módulos y características especiales desde cero. Como agencia de desarrollo integral, proporcionamos una realización de calidad en todas las fases de desarrollo del producto y garantizamos aplicaciones perfectas, totalmente listas para su lanzamiento.
Más informaciónMinería de datos
Procesamiento automático de sitios web y APIs de redes sociales, scraping como big data y rendering de sitios web archivados de vuelta a los usuarios es lo que podemos codificar.
Más informaciónDesafío
PageFreezer es el nombre de una start-up tecnológica y también de un servicio web que archiva sitios web de forma cómoda y fácil de usar, según calendarios flexibles definidos por el usuario. Cualquier sitio web, blog, o incluso perfiles de Facebook y Twitter, pueden conservarse para las “generaciones futuras” de forma interactiva, yendo mucho más allá de las comunes capturas de pantalla.
Se trata de un servicio útil para el cumplimiento de la normativa, la protección en litigios o con fines de marketing. PageFreezer es una solución SaaS de clase empresarial que soporta incluso los sitios web más complejos, y es conveniente para los individuos, las pequeñas empresas, así como las grandes corporaciones.
PageFreezer facilita el archivado de la web y permite revivir sitios web archivados del pasado como si estuvieran recién salidos de la imprenta.
Redwerk se encargó de dar soporte a la tecnología subyacente, la “inteligencia” informática detrás de este innovador servicio web. El objetivo era crear una aplicación SaaS que permitiera a los clientes conservar permanentemente el contenido de sus sitios web y redes sociales con calidad probatoria y, a continuación, acceder a esos archivos y reproducirlos como si aún estuvieran activos. Era fundamental que esta solución fuera compatible incluso con los sitios web, blogs y perfiles de Twitter o Facebook más complejos, y todo ello en una misma plataforma integrada. La aplicación tenía que utilizar tecnologías de rastreo web para capturar sitios web automáticamente, con la frecuencia y en el momento que los usuarios quisieran. El contenido rastreado también tenía que poder buscarse.
Las principales características eran
- Archivado automático
- Cumplimiento de la normativa sobre registros públicos
- Reproducción/navegación de archivos en directo
- Búsqueda de contenidos
- Firmas digitales
- Exportación de datos
- Acceso a los datos a través de API
Solución
Rastreo de sitios web
Para PageFreezer, hemos creado un rastreador web propietario muy avanzado, que tiene en cuenta cada pequeña peculiaridad de cada servidor web conocido y software de navegador web. Es una librería Java, que se integra bien con cualquier proyecto y proporciona interfaces para anular varios comportamientos.
Para controlar los procesos de rastreo de la forma más cómoda posible, hemos creado una interfaz de administración informativa. Hicimos posible rastrear y capturar tanto imágenes como texto, e incluso animaciones flash, aunque estuvieran en dominios diferentes. Para ello se creó una lista de URL adicionales.
Se introdujeron las opciones de inclusión, exclusión y configuración avanzada de sitios web, lo que resulta aún más cómodo para los usuarios que desean rastrear determinadas URL en función de palabras clave. También se ha añadido una selección flexible del agente de usuario para el rastreo. El mecanismo se diseñó para rastrear páginas web en momentos en que no están sometidas a una gran carga. Los clientes también pueden utilizar la opción de velocidad de rastreo para configurar el número de crawl workers para cada tarea individual con el fin de reducir la carga del sitio web.
Redwerk también ha implementado una función de rastreo XML del mapa del sitio estándar para reducir el tiempo que se tarda en rastrear sitios web de gran tamaño, ya que sólo se rastrean y archivan las páginas modificadas y su contenido.
También se han puesto a disposición de los usuarios una serie de opciones de rastreo excepcionales y tecnológicamente avanzadas:
- análisis sintáctico de enlaces de archivos XML mediante plantillas XSLT
- mecanismo de autenticación genérico que permite a los rastreadores autorizarse en casi cualquier sitio web
Todas estas características hacen de PageFreezer una solución tecnológicamente mucho más avanzada en comparación con la competencia.
Reproducción de sitios web
Uno de los principales objetivos y escenarios de uso más impresionantes era que los usuarios tenían que ser capaces de navegar por copias de sitios web como si estuvieran en vivo ahora. Este era quizás el reto clave y requería un pensamiento muy complejo y enfoques innovadores en términos de desarrollo de aplicaciones empresariales. Pero nuestra amplia experiencia en la prestación de servicios de desarrollo web nos ayudó a crear una solución basada en la resolución de hipervínculos y la sustitución sobre la marcha, JavaScript y la interceptación de redirecciones y mucho más.
Para llegar al momento deseado, se creó un cómodo calendario en el que se destacan las fechas en las que se tomaron las instantáneas. Para que el usuario pueda ver la estructura del sitio, creamos un sencillo árbol de navegación que refleja la jerarquía de URL. Todos los nodos del árbol son clicables y abren la página del sitio correspondiente.
Redes sociales
El rastreo de perfiles de redes sociales fue un reto mucho más difícil, ya que se les aplican reglas diferentes a las de los sitios web convencionales. La extracción de enlaces de PageFreezer se creó inicialmente con la ayuda de expresiones regulares y analizadores de contenido, pero la mayoría de Twitter, Facebook y otras redes sociales se construyen dinámicamente con JavaScript. Como todas eran diferentes, resultaba muy agotador crear el marco y ampliarlo a otras redes sociales. Toda la solución era poco fiable en esta fase, y todas las modificaciones futuras de estas redes sociales habrían tenido que implementarse también en el sistema. Al final, se decidió desarrollar un adaptador de redes sociales basado en bibliotecas de clientes de redes sociales de terceros en Java. Se determinó que Spring Social cumplía nuestros requisitos.
Almacenamiento de datos
Una de las tareas más difíciles de este proyecto fue seleccionar la mejor opción de almacenamiento, que debía ser muy escalable. El proyecto comenzó con aproximadamente 500 sitios, pero tenía que estar preparado para mucho más. Jugamos con la idea de utilizar S3 o Google durante algún tiempo, pero resultó ser demasiado lento acceder a ellos y demasiado caro. Así que Redwerk tuvo que idear algo más flexible y a medida, y tras algunas pruebas comparativas construimos desde cero una nube de almacenamiento personalizada, sencilla pero escalable, basada en una base de datos y un sistema de archivos NFS.
Integridad de los datos
Como siempre, era esencial garantizar que no se perdiera información en caso de fallo de cualquier parte del sistema. Implementamos una lógica moderna que hace que los rastreadores se detengan y esperen en caso de que la base de datos o el sistema de archivos no estén disponibles. Cuando estos componentes vuelven, no se pierde ninguna información recogida por los rastreadores, y el uso de sumas de comprobación ayuda a mantener la integridad de todos los datos almacenados.
Firmas digitales
Una firma digital es un conjunto de algoritmos y otros métodos para validar documentos o mensajes digitales. Se utilizan prácticamente en todos los sectores de la economía para detectar falsificaciones o manipulaciones, lo que la convierte en una herramienta de seguridad fundamental.
El servicio PageFreezer no es una excepción. En este caso, Redwerk optó por TSA, utilizado por PageFreezer para firmar digitalmente todo el contenido rastreado. Al firmar mediante TSA se utilizan los datos hash del contenido rastreado, certificados verificados, claves de usuario y marcas de tiempo. Por lo tanto, una firma TSA válida es lo que garantiza a los clientes de PageFreezer una razón para creer que la página web original fue rastreada en un momento determinado. Gracias a esta implementación, los datos de PageFreezer pueden incluso utilizarse como prueba ante un tribunal.
Una vez habilitado el sistema, todas las instantáneas disponibles para el usuario se firmarán a través de la TSA, y la firma podrá verificarse en la página de navegación en cualquier momento.
Seguridad
Para proteger los datos de fuerzas destructivas y acciones no deseadas de usuarios no autorizados, utilizamos una sólida combinación de cortafuegos, fail2ban, copias de seguridad y servidores de bases de datos esclavos. En general, el sistema se creó para ser lo más modular y escalable posible. Los componentes no afectan al rendimiento de los demás. Los rastreadores son procesos separados, y se diseñaron módulos diferentes para los usuarios registrados y los invitados.
Resultado
Este fue el tipo de externalización de software desafiante por el que Redwerk es conocido. La solución se prototipó con éxito, se construyó y se sometió a un par de rediseños a lo largo de los dos últimos años, para garantizar que se mantuviera a la vanguardia.
Redwerk ha ido añadiendo nuevas funcionalidades para satisfacer las nuevas demandas de los clientes de PageFreezer. Nuestros desarrolladores de software se encargan de todo el mantenimiento del sistema, incluidas tareas administrativas como actualizaciones y copias de seguridad de la base de datos y del contenido archivado. En la actualidad, PageFreezer es la solución líder para las necesidades de archivado flexible de contenidos en línea, y nos enorgullece decir que la tecnología y los conocimientos técnicos de Redwerk han contribuido a su éxito.
Galardonado
En prensa
¿Necesita un equipo para construir su producto?
Solicite presupuesto¿También quieres un premio? ¡Trabaja con nosotros!
Contacte ahoraOtros casos prácticos
Adfectious
Desarrollo de un sistema de publicidad móvil inspirado en AdMob de Google y utilizado en medios de comunicación rumanos populares como meteoromania.ro
US Local Media SaaS
Refactorización de SaaS heredado para canales de televisión locales vistos por la mayoría de los hogares de EE.UU
URS Workflow Automation
Transformación de una aplicación Windows heredada en un SaaS de automatización de flujos de trabajo con 5 nuevas funciones generadoras de ingresos