Big Data semántico y análisis de textos

 

smiley-shower.curtain

Un grupo de científicos de la computación de Stanford –entre ellos Andrew Ng, profesor de Ciencias de la Computación y director del Laboratorio de Inteligencia Artificial de Stanford y fundador de la plataforma MOOC, Coursera– han creado un sitio web de libre acceso mediante el cual los usuarios podrán analizar el significado de los textos y de las emociones en los mismos.

Saber, en definitiva, los sentimientos positivos, negativos o neutrales que hay en ellos, desde textos políticos o de noticias, incluso una cuenta de Twitter, hasta el análisis meramente lingüístico de cualquier tipo de texto.

La web se llama etcML, y para usarla no hay más que cortar y pegar los textos que se quieran analizar, en inglés, eso sí.

Según sus creadores, con esta herramienta online los usuarios podrán analizar con claridad, y de manera estadística y mediante la visualización de los resultados, las cualidades textuales desde una perspectiva polarizada algunas cualidades específicas en ellos.

Hay varios programas de inteligencia artificial y análisis de texto disponibles que también van en esta dirección. Aquí ya hablamos en su día del proyecto Luminoso, muy similar, si bien este es el primero de libre acceso y online.

Son herramientas que se están utilizando para el análisis predictivo a través de datos (palabras) semánticos y que pueden cartografiar también perfiles, conductas, personalidades, etc. de la comunicación en Internet.

Aunque todavía se están en los comienzos de este tipo de tecnología cada vez vemos más iniciativas con mejores resultados. ¿Será posible que algún día un ordenador sepa no sólo analizar sino interpretar un texto tal y como lo escribió su autor?

Fuente: comunicación-cultura.com

‘Big Data’ R-evoluciona el manejo de datos

Ensenada, B. C –  A lo largo de la historia la tecnología se ha topado con la necesidad de almacenar datos para su posterior procesamiento. Desde la arquitectura Von Neumann hasta el actual paradigma de la computación en la nube, la información siempre tendrá un lugar fundamental en el ámbito de las tecnologías.
La revolución de los datos se ha dado gracias a la evolución dentro de las telecomunicaciones; la forma en la cual las personas se comunican ha cambiado siendo cada día más fácil compartir cualquier aspecto de la vida y con ello incrementar de manera exponencial la carga de datos en los diferentes servicios existentes en la web.
 Con el crecimiento en el manejo de los datos dentro de la red de redes, en la actualidad se ha acuñado el término “Big Data”, dicho término se utiliza como sinónimo de este fenómeno.
Más importancia al almacenamiento
Con el auge del “Big Data” se ha redefinido el concepto de dato como tal, dándole más importancia a la parte del almacenamiento, y de cierta manera se ha llevado al olvido por el usuario promedio el tema del manejo de la información, ya que por lo general, cuando se habla de datos, se hace alusión –aunque sea de manera discreta– al manejo de base de datos siendo ésta la forma más conocida y a su vez desconocida dentro de la manipulación de la información.
Para las personas entendidas del tema, escuchar la frase “base de datos” les trae a la mente diagramas, relaciones, entidades y un sinfín de lineamientos para la creación –y acceso– a las mismas. Con esto se da por hecho que todas las bases de datos guardan cierta similitud entre ellas y en parte así es, pues desde SQLserver de Microsoft pasando por PostgreSQL hasta el ya bien conocido MySQL utilizan el mismo modelado y el mismo lenguaje estructurado de consultas (SQL); claro, cada uno con sus variantes pero la base es la misma.
Existen diversos tipos de bases de datos en el mercado más allá del aceptado modelo relacional, existen bases de datos orientadas a objetos, bases de datos multidimensionales, orientada a grafos, entre otras. No todo es SQL, pero sí una gran parte, es por ello que dicho acrónimo es casi sinónimo de base de datos.

Big Data y sector editorial: acortando las distancias

descarga

Netflix ha supuesto una revolución para la industria cinematográfica y sin duda, Spotify y sus competidores han hecho lo propio para la musical. Y no sólo gracias a un enorme catálogo de títulos, sino también gracias a motores de recomendaciones que saben interpretar las preferencias de los usuarios para ofrecerles los títulos que más les pueden interesar.

Ahora un grupo de start-ups encabezadas por la veterana Scribd, pero también por Oyster y la española 24Symbols creen que pueden hacer lo mismo con la industria editorial: ofrecer al lector un enorme catálogo de libros al que acceder por pago por suscripción, en una tarifa que suele situarse en la órbita de los diez euros al mes.

¿Sus principales desafíos? El primero de todos es convencer al lector de que merece la pena pagar por una suscripción. Mientras que las canciones se escuchan en unos minutos y una película se ve en unas dos horas, el ritmo de lectura es diferente para cada individuo y mientras que algunos son capaces de devorar un libro de un par de días, otros harán lo mismo en un par de meses.

El target de estas empresas se reduce por lo tanto a los que se consideran “grandes lectores” es decir, personas apasionadas de la lectura y que son capaces de leer un libro a la semana, de modo que el pagar diez euros al mes todos los meses, les resulta una experiencia rentable.

Otro de los escollos con los que están lidiando es cómo pagar a la industria editorial. De la misma forma que en Spotify se paga al artista por canción reproducida en las empresas que se focalizan en la lectura por suscripción de plantea un modelo similar: pago por libro leído. Ahora bien, ¿Cuándo se considera que un libro se ha leído? ¿Si se leen algunos capítulos pero otros no, se considera que ese libro ha sido leído? ¿Y si simplemente se hojea?

Tal y como cuentan en el artículo del New York Times “As New Services Track Habits, the E-Books Are Reading You”, cada una de las empresas ha conseguido negociar diferentes “porcentajes de lectura” por los que se considera que el libro efectivamente ha sido leído y se debe pagar al autor por ello. En el caso de Scribd, si el lector lee más del 10% del libro pero menos del 50%, se paga la mitad de la venta; si el porcentaje supera el 50% se considera que el libro ha sido leído por completo. Un esquema más sencillo es el de Oyster, que considera leídos todos aquellos libros en los que el lector haya superado la barrera “psicológica” del 10% de su contenido.

El tercero de los desafíos que han de superar por supuesto es el de la industria editorial y sobre todo, el de los propios autores. De momento es público que grandes grupos editoriales como Harper Collins han firmado con Oyster, pero gigantes como Penguin RandomHouse o Simon & Schuster se están mostrando muy escépticos, toda vez que se cuentan por centenares los agentes que desaconsejan a sus autores el embarcarse en este modelo.

El Big Data al servicio del autor

Más allá del beneficio económico, lo cierto es que este tipo de modelos pueden proporcionar una información muy valiosa a los autores, que a su vez pueden adaptarse al gusto de sus lectores.

Las editoriales y los autores presentes en Scribd o Oyster conocen más de cerca a sus lectores. Y no sólo cuáles son los libros que más le gustan. Pueden saber por ejemplo, que las novelas negras se leen mucho más deprisa que las biografías. Saben cuáles han sido los capítulos que menos han interesado (o incluso aquellos que se han saltado por completo) y pueden determinar cuándo la lectura es más pausada y cuándo en cambio las páginas pasan a mayor velocidad.

Bajo la promesa de que todos los datos que reciben provienen de lectores anónimos, pueden conocer que los libros de negocios se encuentran entre los que se empiezan pero no se terminan o que todos los lectores que han empezado el libro “What women want” han acabado por terminarlo.

Toda esta información puede llegar a abrumar a muchos autores, que pueden tacharla de intromisión en su libertad creativa, pero también es cierto que muchos otros pueden considerarla tremendamente útil, en la forma que crea un nuevo vínculo con el lector, en el que se acortan las distancias.

Fuente:  Muycomputer.com

 

Predicciones para 2014 sobre los Big Data

tt_Big_Data_2014

 

 

Los Big Data, o datos masivos, ha sido uno de los temas de los que más se ha hablado en el 2013. ¿Pero que repercusiones tendrán en la tecnología y la industria el año que viene? NetWorkWorldrecoge en un artículo las doce previsiones que apunta CIO.com para el próximo año.

    1. Los datos masivos dejarán de ser el tema de moda en el 2014, pero serán la gran apuesta que se pondrá sobre las mesas de las empresas. Según la empresa Gainsight todos aquellos proveedores de aplicaciones en la nube adaptarán su infraestructura a los principios de estos datos.
    2. No será solo en la nube en donde la tecnología de los Big Data se dará a conocer. Su utilización en analíticas seguirá siendo su principal uso.
    3. Las empresas tendrán más en cuenta el rastro digital de los clientes y se tomarán más en serio el sacar el máximo rendimiento a estas rutas de navegación.
    4. 2014 será el gran año de las analíticas y de los datos masivos en marketing, la influencia en publicidad, la realización de promociones y el análisis del comportamiento de los consumidores.
    5. Dar a los analistas de los departamentos gran cantidad de datos masivos será más prioritario que llenar sus necesidades de datos científicos.
    6. El Institute for Electrical and Elecctronics Engineers (IEEE) prevé que el internet de las cosas pase a ser la web de las cosas, ésta se aprovechará de la capacidad de los dispositivos móviles y los de sensores para observar y monitorizar el entrono y para aumentar la coordinación entre las cosas en el mundo real y sus homólogos en la red. La web de las cosas producirá gran cantidad de datos relacionados con el mundo real.
    7. De los datos masivos se pasará a los Datos Extremos. El volumen, la velocidad y la variedad de los datos seguirán creciendo de manera exponencial en el 2014, por lo que se necesitarán herramientas de análisis más simples para aprovechar esta avalancha.
    8. El lenguaje de programación R, es decir aquel entorno de programación para análisis estadístico y gráfico, se fortalecerá en 2014 según la empresa de análisis de datos masivos Alteryx.
    9. En el año que viene, comenta Monte Zweben, cofundador y director ejecutivo de Splice Machine, se verá una auténtica explosión de las aplicaciones interactivas desarrolladas en la plataforma Hadoop. Van a aparecer apps que tomen decisiones en tiempo real –añade Zweben.
    10. Aunque Hadoop es una plataforma fantástica –comenta Zweben– necesita que se trabaje más en ella y que se le aporte más respaldo.
    11. Para demostrar la aceptación de las plataformas de datos masivos, por lo menos uno de los grandes proveedores, ya sea Hadoop NoSQL, se hará público, predice Larry Warnock, presidente y director ejecutivo de Gazzang.
    12. Nuevos datos y analíticas surgirán en 2014 con nuevas soluciones para las bases de datos, los análisis y la visualización y todo ello para perpetuar a los tradicionales mega-proveedor.

Fuente:  Lecturalab.org

El 79% de las empresas aseguran que el Big Data mejorará en la toma de decisiones

descarga

 

EMC Corporation presentó los resultados de su encuesta global, en la que preguntó a 10,700 tomadores de decisiones de TI de 50 países acerca de su perspectiva con respecto a los retos y las oportunidades que Big Data y la transformación de TI (y las habilidades relacionadas) pueden presentarles a las empresas. Durante los últimos seis meses, se encuestaron a más de 10,700 ejecutivos y gerentes de TI y de negocios, arquitectos técnicos, científicos de datos, y administradores de infraestructura y de almacenamiento que se registraron para asistir a los eventos locales EMC® Forums.

Visite http://www.emc.com/campaign/global/forum2013/survey.htm para obtener información más detallada acerca de los resultados de la encuesta a nivel internacional y para cada país. A continuación, se proporcionan ejemplos de países y temas para los cuales se descubrió una divergencia sign ificativa en las opiniones.

Conclusiones clave:

Las empresas siguen considerando que la innovación de TI les puede permitir competir a nivel regional y en el ámbito internacional:

• El 76 % de los encuestados informó que su empresa considera que la inversión en tecnología es una manera estratégica de lograr sus objetivos (el 92 % en India, pero el 65 % en Inglaterra).
• Los tres principales impulsores de la transformación de la infraestructura y los sistemas de TI son los siguientes:
1) Mejores procesos de negocios
2) Innovación de productos y soluciones
3) Mejora de la experiencia del cliente
• El 66 % de los encuestados informaron que cuentan con el nivel adecuado de habilidades y conocimientos para lograr sus objetivos más importantes (el 82 % en Singapur, pero el 52 % en Irlanda).
• Tres cuartos de los encuestados informaron que garantizar que las habilidades estén a la par de la innovación de TI, será un reto para su organización en los próximos tres años.
• El 68 % de los encuestados estuvieron de acuerdo en que el departamento de TI está equipado para manejar la mayoría de las prioridades del negocio fundamentales, y que actualmente, el mayor obstáculo es cultural (el 90 % en Corea, pero el 39 % en Polonia).

Big Data está permitiendo una mejora considerable en la toma de decisiones y está teniendo un impacto significativo en la diferenciación competitiva de las empresas y su capacidad para evitar el riesgo.

• El 79 % de las empresas encuestadas afirmó que si se mejora el uso de Big Data, se mejorará la toma de decisiones (el 84 % en Norteamérica, pero el 56 % en Alemania).
• El 58 % de los encuestados creen que Big Data será un factor clave para determinar quién tendrá éxito en el sector y quién no (el 81 % en Corea, pero el 29 % en Suecia).
• El 36 % ya logró una ventaja competitiva como resultado de la tecnología de analítica de Big Data (el 79 % en Taiwán, pero el 16 % en Japón).
• El 56 % de los encuestados también estuvieron de acuerdo en que la tecnología de Big Data será esencial para identificar los ataques cibernéticos y ofrecer protección contra ellos (el 74 % en China, pero el 36 % en Finlandia).
• Casi un tercio (el 29 %) de las empresas encuestadas no tienen planes actuales para implementar la tecnología de Big Data (el 43 % en Italia, pero el 9 % en China).
• Aunque el presupuesto fue el factor más importante para la toma de decisiones en general, los motivos más comunes identificados como inhibidores de la adopción de Big Data fueron la falta de un análisis de rentabilidad
claro o de un ROI comprobado (35 %), la falta de relevancia para la empresa (23 %) y la falta de preparación de la cultura empresarial para Big Data (22 %).

Fuente: Costaricaon.com

 

Big Data: presente y futuro de las empresas

 

datos-2--644x362

 

Otro frente abierto por los investigadores y fabricantes de tecnología es adecuar el análisis de grandes datos (sistemas conocidos por su denominación en inglés, «Big Data») para favorecer al desarrollo de la sociedad. Ese gran yacimiento de información digital es cada vez más grande y, por ende, más difícil de procesar y separar la paja del grano.

Los expertos lo confirman: las empresas se sumergirán en el futuro en el universo del Big Data. El reto consiste en capturar, almacenar, buscar, compartir y poner en valor «datos hasta fecha infrautilizados o inaccesibles». Fernando Meco, director de Alianzas de SAS España, compañía especializada en soluciones para empresas, tiene claro que la revolución de los datos masivos no es tendencia: «siempre ha existido» pero todavía no ha explotado.

Pero para los mortales, eso del Big Data se les escapa un poco. «Es cierto que en los últimos años, derivado de la digitalización de los negocios y de su gestión así como de la explosión de dispositivos móviles, el crecimiento está siendo exponencial año a año. Asimismo, la proliferación de las redes sociales, del intercambio de sentimientos, ideas y opiniones en la red, está generando más datos que nunca. Lo cual supone una oportunidad para todos», asegura Meco a este diario.

El hecho de no ser capaz de analizar y obtener un valor de los datos que se está generando responde a la volatilidad de los datos. «Lo importante es que siempre se analice o aplicar analítica para saber qué queremos responder, qué buscamos o, incluso, encontrar cosas que no sabíamos», insiste. Actualmente, se estima que el 90% de los datos creados en los últimos dos años -de los que el 80% están sin estructurar- son acrónimos o tienen ironía, es decir, «llevan asociados sentimientos».

Continuar leyendo

Entrevista a Juan Mateos García: Los datos son el petróleo del siglo XXI

Juan Mateos García en la actualidad trabaja como investigador en el equipo creativo de la empresa británica Nesta y sus últimas investigaciones se centran en las nuevas herramientas de producción y distribución, redes sociales y en cómo el acceso a datos generalizado está transformando la innovación y el aprendizaje en las organizaciones, las comunidades, las industrias y la sociedad.

Como experto en gestión de grandes datos acudió el pasado noviembre al V Congreso Iberoamericano de Cultura. Tras su ponencia decidimos conversar con él porque sabemos que nos urge una educación digital. Esta charla va dirigida a los usuarios en general, porque debemos aprender a ser más conscientes del valor de nuestros datos y más responsables (a la hora de ofrecerlos en Internet), pero también va dirigida a todos aquellos empresarios que deseen saber cómo operar en un mundo de medición de datos y sacar el máximo beneficio de ellos.

Dosdoce: Se puede afirmar que los “datos” son el oro del siglo XXI…

Juan Mateos García: Operar en un mundo de medición de datos es el equivalente de ver. Medir es la única forma de la que podemos aprender tanto de lo que tenemos como de lo que no, pero también sirve para mejorar; por eso lo datos son tan importantes. Según ha ido digitalizándose el mundo, los datos han ido ganando importancia y se han convertido en una especie de fuente de conocimiento que nos permite medir si lo que estamos haciendo funciona o no. Imaginemos que entramos en una tienda analógica del siglo XX, una que no fuera capaz de ver si la gente entra, si la gente está interactuando con sus productos y que no sabe lo que el cliente piensa de ellos. ¿No sería extraño?

Dosdoce: La industria cultural, que hasta ahora vivía de espaldas a sus consumidores, acaba de entrar a analizar comportamientos y tendencias. ¿Cuál crees que es la problemática específica que puede encontrar este sector?

J.M.G.: Yo creo que uno de los mayores problemas con que se puede encontrar a día de hoy este sector es que los canales de distribución están ya dominados por otras empresas. Pongamos por caso Amazon. El editor se encuentra con que quien maneja sus datos no es él sino que es Amazon, y esto crea desafíos. Por eso, a día de hoy, estamos viendo muchas empresas culturales que están creando sus propias vías de contactos y plataformas de venta directas con sus audiencias. Channel 4, por ejemplo, en los últimos años está invirtiendo en generación y análisis de datos, porque hubo un momento en que se dio cuenta de que Google, a través de los vídeos colgados en Youtube, sabía más que ellos mismos sobre sus propios espectadores.

Otro de los problemas de las empresas culturales es que al no tener un ánimo de lucro como primera instancia se reducen los incentivos para invertir en innovación. Muchas de las empresas culturales trabajan con subvenciones, por lo que, a menos que estas organizaciones gubernamentales apoyen y den incentivos para la investigación e innovación, ellos no van a hacerlo porque es caro. Además, en el caso del sector cultural, al estar formada por sectores fragmentados y pequeños dificulta aún más el acceso. Pero lo que han empezado a hacer algunos es crear alianzas y confederaciones para analizar los datos y compartir los resultados que surjan. Lo bonito de estas organizaciones artísticas y culturales es que como no compiten entre ellas se pueden aunar para obtener datos, y de esta forma, colaborando entre ellas, podrán empezar a moverse de pequeños datos a grandes datos.

Y lo que es más importante, hay que abandonar prejuicios. En la creatividad existen muchos prejuicios acerca de los datos, porque el artista cree que lo que hace es intangible, inmedible, y sin embargo los datos en este sector también ayudarán a medir cosas que antes no se podían medir, como es, por ejemplo, la diversidad, el capital social que están generando, lo que piensa la gente de una determinada obra, etc. No verlo es tirar a la basura los datos que nos serían útiles. Hay que abandonar estos miedos porque el proceso creativo, esto es, lo que hacemos, lo que creamos, lo que cantamos… siempre va a surgir de la creatividad y de la intuición.

Continuar Leyendo

¿Cómo transformar Big Data en una herramienta útil?

descarga

 

Actualmente, los procesos relacionados con datos resultan ser engorrosos. Por ejemplo, al ingresar a una empresa generalmente se solicita un documento de identidad, datos personales, huella dactilar y hasta fotografías, mientras que en países como Estados Unidos y China, todo esto se encuentra depositado en Big Data, un sistema que aparte de tener una amplia capacidad para soportar información puede relacionar todo ese conjunto de requerimientos con solo conocer el número de cédula de la persona.

Y es que los grandes volúmenes de datos (Big Data) pueden tener múltiples interpretaciones según el uso que al que haya sido destinado en una empresa. Estas soluciones tecnológicas surgen del creciente desafío que enfrentan las organizaciones que tratan grandes volúmenes de información, que crecen rápidamente y presentan una compleja gama de problemas de análisis y utilización.

En estos sistemas, los datos se encuentran en infraestructuras de computación que procesan, validan, analizan y evalúan esos grandes volúmenes de información, que proceden de fuentes diversas. La estructura debe permitir que se entreguen respuestas en tiempo real.

Sin duda, todas las bases de datos de una compañía requieren de confiabilidad, veracidad y una rápida capacidad de respuesta, sin que demande mucho dinero en inversión. En ese sentido Big Data se postula como una opción para quienes manejan grandes volúmenes información y requieren relacionarla con algunos criterios puntuales.

Continuar leyendo

Big Data lo sabe todo

IMAGEN-13080120-2

Guía para comprender esta tendencia que cada vez adquiere más fuerza en el mundo de la tecnología.

Es posible que haya escuchado el concepto Big Data en los últimos años. ¿Qué es? ¿Para qué sirve? Empecemos con un ejemplo: cuando Juan Manuel Fangio, campeón cinco veces de la Fórmula 1, se detenía en los garajes para conversar con los ingenieros y tomaba la mayoría de decisiones con base en su intuición. Para predecir el clima apelaban al aroma de vientos, y para tomar los tiempos de vuelta, empleaban lápiz y papel. Ahora, 50 años después, la escudería británica Mclaren decide sobre la pista con base en la información que proporcionan más de 100 sensores ubicados en cada rincón del auto.

“Un cambio de llantas ya no se fundamenta en la mera observación, sino en datos concretos que se procesan, correlacionan y analizan en tiempo real”, indica Juan Santiago Guzmán, sales specialist de Hana y snalytics para SAP Colombia.

Los resultados que arrojan los datos les permite modificar un plan de carrera sobre la marcha, dependiendo del clima, de la temperatura de los frenos o del estado del motor. Todo ello, gracias a Big Data, una tendencia que permite que aquello que antes era simple azar sea controlable.

“En estos sistemas (los de Big Data), los datos se encuentran en infraestructuras de computación que procesan, validan, analizan y evalúan grandes volúmenes de información, los cuales proceden de fuentes diversas. La estructura debe permitir que se entreguen respuestas en tiempo real”, asegura Humberto Gómez, vicepresidente de Enterprise, de Huawei Colombia.

Big Data es una tendencia tecnológica que busca aprovechar y darle valor a la información”, explica Fabio Camacho, especialista de gestión de información para Latinoamérica de Hewlett Packard.

Continuar leyendo