IBM SPSS Analytic Guia Del Usuario página 20

Tabla de contenido

Publicidad

... el DDL de tabla Hive sería el siguiente:
CREATE EXTERNAL TABLE cassandra_bankloan_10 (row int, age int,ed int,employ int,address int,
income int,debtinc double,creddebt double,othdebt double,default int)
STORED BY 'org.apache.hadoop.hive.cassandra.cql.CassandraCqlStorageHandler'
WITH SERDEPROPERTIES("cassandra.cf.name" = "bankloan_10","cassandra.host"="<host_cassandra>",
"cassandra.port" = "9160")
TBLPROPERTIES ("cassandra.ks.name" = "test");
Orígenes de datos XML
Analytic Server proporciona soporte para datos XML a través de HCatalog.
Ejemplo
1. Correlacione el esquema XML con los tipos de datos Hive a través del lenguaje de definición de datos
(DDL) de Hive, de acuerdo con las reglas siguientes.
CREATE [EXTERNAL] TABLE <nombre_tabla> (<especificaciones_columna>)
ROW FORMAT SERDE "com.ibm.spss.hive.serde2.xml.XmlSerDe"
WITH SERDEPROPERTIES (
["xml.processor.class"="<nombre_clase_procesador_xml_>",]
"column.xpath.<nombre_columna>"="<consulta_xpath>",
...
["xml.map.specification.<nombre_elemento>"="<especificación_correlación>"
...
]
)
STORED AS
INPUTFORMAT "com.ibm.spss.hive.serde2.xml.XmlInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat"
[LOCATION "<ubicación_datos>"]
TBLPROPERTIES (
"xmlinput.start"="<etiqueta_inicio ",
"xmlinput.end"="<etiqueta_final>"
);
Nota: si los archivos XML están comprimidos por compresión Bz2, INPUTFORMAT debe establecerse en
com.ibm.spss.hive.serde2.xml.SplittableXmlInputFormat. Si se comprimen con compresión CMX,
debe establecerse en com.ibm.spss.hive.serde2.xml.CmxXmlInputFormat.
Por ejemplo, el XML siguiente...
<records>
<record customer_id="0000-JTALA">
<demographics>
<gender>F</gender>
<agecat>1</agecat>
<edcat>1</edcat>
<jobcat>2</jobcat>
<empcat>2</empcat>
<retire>0</retire>
<jobsat>1</jobsat>
<marital>1</marital>
<spousedcat>1</spousedcat>
<residecat>4</residecat>
<homeown>0</homeown>
<hometype>2</hometype>
<addresscat>2</addresscat>
</demographics>
<financial>
<income>18</income>
<creddebt>1.003392</creddebt>
<othdebt>2.740608</othdebt>
<default>0</default>
</financial>
</record>
</records>
...se representaría mediante el siguiente DDL Hive.
CREATE TABLE xml_bank(customer_id STRING, demographics map<string,string>, financial map<string,string>)
ROW FORMAT SERDE 'com.ibm.spss.hive.serde2.xml.XmlSerDe'
WITH SERDEPROPERTIES (
"column.xpath.customer_id"="/record/@customer_id",
"column.xpath.demographics"="/record/demographics/*",
"column.xpath.financial"="/record/financial/*"
)
STORED AS
INPUTFORMAT 'com.ibm.spss.hive.serde2.xml.XmlInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat'
16
IBM SPSS Analytic Server Versión 3.0: Guía del usuario

Publicidad

Tabla de contenido
loading

Tabla de contenido