Como rastrexar un sitio grande e extraer datos usando SEO Spider de Screaming Frog

Sapo berroso Araña SEO

Agora mesmo estamos axudando a varios clientes Migracións Marketo. A medida que as grandes empresas utilizan solucións empresariais coma esta, é como unha tea de araña que se tece en procesos e plataformas ao longo dos anos ... ata o punto de que as empresas nin sequera son conscientes de todos os puntos de contacto.

Cunha plataforma de automatización de mercadotecnia empresarial como Marketo, os formularios son o punto de entrada de datos en sitios e páxinas de destino. As empresas adoitan ter miles de páxinas e centos de formularios nos seus sitios que deben ser identificados para actualizalos.

Unha gran ferramenta para iso é Araña SEO de Screaming Frog... quizais a plataforma máis popular do mercado para rastrexar, auditar e extraer datos dun sitio. A plataforma é rica en características e ofrece centos de opcións para practicamente todas as tarefas que precisa.

Screaming Frog SEO Spider: Rastrexar e extraer

Unha característica clave de Screaming Frog SEO Spider é que pode realizar extraccións personalizadas baseadas en Regex, XPathou CSSPath especificidades. Isto resulta moi útil xa que desexamos rastrexar os sitios do cliente e auditar e capturar os valores MunchkinID e FormId das páxinas.

Coa ferramenta, abre Configuración> Personalizado> Extracción para identificar elementos que desexa extraer.

extracción personalizada screamingfrog

A pantalla de extracción permite a obtención de datos practicamente ilimitada:

Regas de extracción de araña SEO Screaming Frog

Extracción de Regex, XPath e CSSPath

Para o MunchkinID, o identificador atópase dentro do script do formulario que está dentro da páxina:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Despois aplicamos un Regra regex para capturar a identificación desde a etiqueta de script inserida na páxina:

Regex: ["']id["']: *["'](.*?)["']

Para o ID de formulario, os datos están nunha etiqueta de entrada dentro do formulario Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Aplicamos un Regra XPath para capturar a identificación desde o formulario inserido na páxina. A consulta XPath busca un formulario cunha entrada cun nome de formid, entón a extracción garda o valor:

XPath: //form/input[@name="formid"]/@value

Sapo berroso SEO Araña Representación Javascript

Outra gran opción de Screaming Frog é que non estás limitado ao HTML da páxina, podes renderizar calquera JavaScript que insira formularios no teu sitio. Dentro Configuración> Araña, pode ir á pestana Renderizado e habilitalo.

Sapo berroso SEO Araña Representación Javascript

Por suposto, isto tarda un pouco máis en rastrexar o sitio, pero obterá formularios que se renderizan do lado do cliente con JavaScript, así como formularios inseridos no servidor.

Aínda que se trata dunha aplicación moi específica, é moi útil xa que estás a traballar con sitios grandes. Quere absolutamente auditar onde están integrados os seus formularios en todo o sitio.

Descargar Screaming Frog SEO Spider

¿Que pensas?

Este sitio usa Akismet para reducir o spam. Aprende a procesar os teus datos de comentarios.