Email Marketing & AutomatizaciónFerramentas de mercadotecnia

Como rastrexar un sitio grande e extraer datos usando SEO Spider de Screaming Frog

Agora mesmo, estamos axudando a varios clientes coas migracións de Marketo. Como as grandes empresas utilizan solucións empresariais como esta, é como unha araña que se tece en procesos e plataformas ao longo dos anos ata que as empresas nin sequera son conscientes de todos os puntos de contacto.

Cunha plataforma de automatización de mercadotecnia empresarial como Marketo, os formularios son o punto de entrada dos datos en sitios e páxinas de destino. As empresas adoitan ter miles de páxinas e centos de formularios nos seus sitios que deben ser identificados para actualizar.

Unha gran ferramenta para iso é Araña SEO de Screaming Frog… quizais a plataforma máis popular no mercado de SEO para rastrexar, auditar e extraer datos dun sitio. A plataforma rica en funcións ofrece centos de opcións para practicamente todas as tarefas que necesites. Non obstante, as funcións van moito máis alá da optimización para a busca, cunha característica incriblemente útil para extraer datos do teu sitio mentres se rastrexa.

Screaming Frog SEO Spider: Rastrexar e extraer

Unha característica clave de Screaming Frog SEO Spider é que pode realizar extraccións personalizadas baseadas en Rex, XPathou CSPath específicos. Isto é moi útil xa que desexamos rastrexar os sitios do cliente e auditar e capturar os valores MunchkinID e FormId das páxinas.

Coa ferramenta, abre Configuración> Personalizado> Extracción para identificar elementos que desexa extraer.

extracción personalizada screamingfrog

A pantalla de extracción permite a obtención de datos practicamente ilimitada:

Regas de extracción de araña SEO Screaming Frog

Extracción de Regex, XPath e CSSPath

Para o MunchkinID, o identificador está situado dentro do script de formulario que hai na páxina:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Despois aplicamos un Regra regex para capturar a identificación desde a etiqueta de script inserida na páxina:

Regex: ["']id["']: *["'](.*?)["']

Para o ID de formulario, os datos están nunha etiqueta de entrada dentro do formulario Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Aplicamos un Regra XPath para capturar o id desde dentro do formulario inserido na páxina. A consulta XPath busca un formulario cunha entrada cun nome de formidable, entón a extracción garda o valor:

XPath: //form/input[@name="formid"]/@value

Extraer etiquetas de estilo en liña

Estamos axudando a un cliente a limpar un sitio onde usaba estilos en liña no complemento Elementor para personalizar practicamente todos os elementos cunha páxina. Para identificar onde se utilizaron os estilos en liña, raspamos o sitio con varias regras RegEx para a extracción personalizada:

  • Estilo Inline Span:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Estilo en liña de etiqueta de ancoraxe:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Estilo en liña de etiqueta div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Estilo en liña de etiqueta de título:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"

Exclusións

At Martech Zone, servimos o sitio en varios idiomas en diferentes subdominios. Non é necesario rastrexar estas traducións xa que todos os recursos e a información baséanse no sitio principal. Por iso, activamos a configuración da lista de exclusións e engadimos a seguinte regra:

.*\.martech.zone

Tamén podes usalo para omitir o rastrexo de camiños innecesarios, como as etiquetas, engadindo:

martech.zone/tag/.*

Tampouco queremos rastrexar as nosas páxinas AMP, que rematan en ?amp=1, así que no

Configuración > Excluír sección, tamén engadimos:

https?://[^\s]+?\?amp=1

A plataforma incluso ten un bo método para probar algúns URL contra as regras para garantir que funcionen correctamente antes de rastrexar o teu sitio.

ScreamingFrog > Configuración > Excluír

Screaming Frog SEO Spider renderizado de JavaScript

Outra gran opción de Screaming Frog é que non te limitas a HTML na páxina, pode renderizar calquera JavaScript que vai inserir formularios no seu sitio. Dentro Configuración> Araña, pode ir á pestana Renderizado e habilitalo.

Screaming Frog SEO Spider renderizado de JavaScript

Por suposto, isto tarda un pouco máis en rastrexar o sitio, pero obterá formularios que se renderizan do lado do cliente con JavaScript, así como formularios inseridos no servidor.

Aínda que se trata dunha aplicación moi específica, é moi útil xa que estás a traballar con sitios grandes. Quere absolutamente auditar onde están integrados os seus formularios en todo o sitio.

Descargar Screaming Frog SEO Spider

Divulgación: Martech Zone está a usar as súas ligazóns de afiliados neste artigo.

Douglas Karr

Douglas Karr é CMO de OpenINSIGHTS e o fundador da Martech Zone. Douglas axudou a decenas de startups exitosas de MarTech, axudou na debida dilixencia de máis de 5 millóns de dólares en adquisicións e investimentos en Martech e segue axudando ás empresas a implementar e automatizar as súas estratexias de vendas e mercadotecnia. Douglas é un experto e relator de MarTech en transformación dixital recoñecido internacionalmente. Douglas tamén é autor publicado dunha guía de Dummie e dun libro de liderado empresarial.

artigos relacionados

Botón de volta ao principio
preto

Adblock detectado

Martech Zone pode fornecerche este contido sen ningún custo porque monetizamos o noso sitio mediante ingresos publicitarios, ligazóns de afiliados e patrocinios. Agradeceríamos que elimines o teu bloqueador de anuncios mentres visitas o noso sitio.